-
Stable Diffusion介绍
Stable Diffusion是一种前沿的开源深度学习模型框架,专门设计用于从文本描述生成高质量的图像。这种称为文本到图像生成的技术,利用了大规模变换器(transformers)和生成对抗网络(GANs)的力量,以创建与给定文本提示相一致的图像。...
-
AI 框架Ambient Diffusion:从图像中获取灵感,而非复制
强大的人工智能模型有时会出现错误,包括虚构错误信息或将他人作品作为自己的。为了解决后者的问题,德克萨斯大学奥斯汀分校的研究团队开发了一种名为 "Ambient Diffusion" 的框架。该框架通过对无法辨认的图像数据进行训练,绕过了 AI 模型复制他人...
-
粘土特效带火AI修图 美图距离Remini还差一「手」
上传一张图片,点击黏土特效,你将收获一张“小羊肖恩”风格的全新卡通照,无论是图片里的人、物、景,每个细节都如同黏土捏得一样立体。 黏土特效在社交平台风靡,拥有该功能的AI修图应用程序Remini也随即收获了下载量。各种黏土照被产出后,有人嫌丑“不懂为何流行...
-
「大模型」之所短,「知识图谱」之所长
最近一年以来,大语言模型技术突飞猛进,被广泛地认为开启了人工智能研究的新阶段。大语言模型时代的到来,给知识图谱技术也带来了新的机遇与挑战。我们在 5 月份的时候曾经发布过知识图谱与 AIGC 大模型的知识地图,其中包括了文本生成、图像生成等技术。本次分享...
-
首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用
中文 AI 社区迎来了一个好消息:与 Sora 同架构的开源文生图大模型来了! 5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型算法等完整模型...
-
谷歌隐形AI数字水印技术可辅助识别生成的文本和视频
谷歌在今天宣布的一系列新的 AI 模型和工具中,还将其 AI 内容水印技术扩展到了两个新的媒介。谷歌旗下的 DeepMind 首执行官 Demis Hassabis 在周二的 Google I/O 开发者大会上首次登台,不仅介绍了团队的新 AI 具(如 V...
-
英伟达开源大模型对齐框架—NeMo-Aligner
随着ChatGPT、Midjourney等大模型产品的影响力、应用场景越来越多,为了确保输出的内容安全、可靠,对齐成为开发人员的关注重点和难点。 但现在的模型参数少则几百亿多则上千亿,想通过传统的监督式微调方法来完成对齐效果往往不理想。 因此,英伟达的研究...
-
优秀Agent智能体必学的几种设计模式,一学就会
大家好,我是老渡。 昨天在公司听了清华大学智能产业研究院现场分享的AI医院小镇。 图片 这是一个虚拟世界,所有的医生、护士、患者都是由LLM驱动的Agent智能体,可以自主交互。它们模拟了整个诊病看病的过程,在涵盖主要呼吸道疾病的MedQA数据集子集上,...
-
多模态大模型在前端开发领域的应用探索
一、大模型生成前端代码 1.GPT4自动生成前端网页 GPT4展示了一个功能,画一张草图,并把它拍照发给GPT-4,GPT-4可以从图片中提取文字信息并输出HTML,自动生成网站的原型图。 输入草图: 图片 输出页面代码: 图片 2.微调的必要性 一些开...
-
如何借助假设文档嵌入改进语义搜索?
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 本文介绍了如何使用简单的大语言模型(LLM 调用来显著改善语义搜索结果的质量。 找到合适的AI模型来构建工作流程很困难。由于不同平台上...
-
关于GenAI,要冷静
作者 | 白发川 疯狂的全民大模型 大约一年前,大家热聊的先是LLM,LLM的全称是Large language models,也就是大语言模型,那么它必然有2个特点,一个是自然语言,第二个是大。随后它带来了一个效果,就是能“生成”,可以像人一样发言...
-
ChatGPT会取代搜索引擎吗?
从产品交互层面,还无法取代搜索引擎,从技术角度稍微改造一下,取代传统搜索引擎是可行的。 但目前ChatGPT的交互形态,还不能取代搜索引擎。 比如ChatGPT对于不少知识类型的问题,会给出看似很有道理的答案,但有时这些答案可能是错的,但很多问题他又可以...
-
专家表示OpenAI和亚马逊正在保持人工智能的真实性
在当前充斥着大量人工智能生成内容的世界中,科技巨头正陷入一场激烈的竞争,开发尖端工具以区分真实和虚假内容。 OpenAI 推出了一项新系统,用于识别其 DALL-E 3 文本到图像生成器生成的内容,旨在防范虚假内容。OpenAI 表示,该工具准确地检测到了...
-
OpenAI的图像检测系统识别DALL-E 3生成的AI图像准确率达98%
随着人工智能模型在创建自己的图像方面变得越来越出色,我们也需要提高对这类图像的检测能力。因此,OpenAI已经开发了一个程序,用于检测图像是否由人工智能生成。 图源备注:图片由AI生成,图片授权服务商Midjourney 该系统在识别图像是否由 DALL...
-
DeepMind可持续发展主管表示,AI系统能源利用效率将提高
谷歌 DeepMind 的可持续发展主管 Drew Purves 表示,随着系统能源效率的提升,生成式 AI 模型的能源利用将逐渐降低。他承认,包括谷歌的 Gemini 在内,强大新 AI 模型的巨大需求已导致能源和计算成本飙升。 图源备注:图片由AI生...
-
看透物体的3D表示和生成模型:NUS团队提出X-Ray
项目主页:https://tau-yihouxiang.github.io/projects/X-Ray/X-Ray.html 论文地址:https://arxiv.org/abs/2404.14329 代码地址:https://github.com...
-
AI可以改写人类基因组吗?首次由AI从头设计的基因编辑器成功编辑人类细胞中DNA
生成式 AI 可以对话、写诗、画图、做视频、作曲、写代码...... 那么,AI 可以改写人类基因组吗? 现在,新的 AI 技术正在为可编辑 DNA 的微观生物机制绘制蓝图,这预示着未来科学家将以更高的精度和速度对抗疾病。 近日,美国 AI 蛋白质设计初...
-
谷歌DeepMind新方法Gecko,为测试AI图像生成器引入严格新标准
谷歌 DeepMind 最近的研究示了当前我们对文本到图像 AI 模型性能评估的隐藏局限性。在其发布在预印本服务器 ariv 上的研究中,他们引入了一种全新的方法称为 “Gecko”,承诺提供一个更全和可靠的基准,以评估这一蓬勃发展的技术。 研究团队在其...
-
奥特曼斯坦福演讲全场爆满!GPT-5强到发指,Scaling Law依然有效
AI届大红人Altman在母校斯坦福开讲当天,在场的学生挤爆了英伟达礼堂。 去礼堂路的上,人满为患,超1000人早早排在了门口。 图片 而整个礼堂,也是虚无坐席。 图片 就在这个演讲中,Altman再次贡献出许多惊人的观点。 「Scaling Law依旧...
-
奥特曼斯坦福演讲全场爆满,GPT-5强到发指,Scaling Law依然有效
奥特曼的斯坦福闭门演讲内容曝光了,可谓亮点频出:GPT-5会比GPT-4强得多,GPT-6还会更强;Scaling Law还未过时,我们远未达到这条曲线的顶端;谷歌用GPT-4复刻出Gemini很容易,但难的是新范式的创新。 AI届大红人Altman在母校...
-
硬控设计人一分钟,加持大模型的Adobe,PS起来更香了
图像编辑这一块,还得看 Adobe。 刚刚,Adobe 正式宣布推出新的图像生成模型 Firefly Image 3,即日起在 Firefly Web 应用程序、Adobe Photoshop 和 Adobe InDesign 中提供测试版,并在「今年晚...
-
AI成功改写人类DNA,全球首个基因编辑器震撼开源!近5倍蛋白质宇宙LLM全生成
AI,能够重写人类基因组了? 就在刚刚,初创公司Profluent宣布,完全由AI设计的基因编辑器,已经成功编辑了人类细胞中的DNA。 也就是说,世界上首个使用AI从头设计的分子级精确基因编辑器诞生了。 就像ChatGPT能生成诗歌一样,Proflue...
-
防止AI系统受到提示注入攻击的五个方法
译者 | 布加迪 审校 | 重楼 提示注入攻击是一种网络安全威胁,专门针对基于人工智能(AI)的系统,包括聊天机器人、虚拟助理及其他基于AI的界面。当攻击者以某种方式操纵AI模型的输入,导致模型执行意外操作或泄露敏感信息时,就会发生这类攻击。这种操纵可以...
-
微软发布iPhone可运行的ChatGPT级AI模型Phi-3系列 挑战OpenAI地位
近日,微软推出了一款名为Phi-3系列的小型AI模型,该模型在AI领域引起了广泛关注。Phi-3系列中的Phi-3-mini模型,仅拥有3.8B参数,却在多项基准测试中超越了拥有8B参数的Llama3模型。 微软特别强调,经过4bit量化处理的Phi-3-...
-
开箱黑盒LLM!谷歌大一统框架Patchscopes实战教程来了
虽然大型语言模型(LLM)在各种常见的自然语言处理任务中展现出了优异的性能,但随之而来的幻觉,也揭示了模型在真实性和透明度上仍然存在问题。 在模型生成错误回复内容时,如果能够「深入理解其背后运行机制」,或许可以解决模型的幻觉问题。 然而,随着深度神经网络...
-
药物分子设计新策略,微软条件扩散模型DiffLinker登Nature子刊
药理学领域的化学空间高达 10^60,在广阔的化学空间中进行搜索,给药物设计带来了巨大的挑战。 基于片段的药物发现一直是早期药物开发的有效范例。然而,该领域面临的一个挑战是,如何设计断开的感兴趣分子片段之间的连接子(linker),生成化学上合理的候选药...
-
微软紧急撤回最先进的AI大模型:居然忘了测试了
快科技4月21日消息,Meta发布超级彪悍的大语言模型Llama 3之后,微软也很快推出了自己的新一代WizardLM2 8x22B,号称迄今最强大,完全超越Claude 3 OpusSonnet、GPT-4等竞品,而且开源,但是马上又把它撤回去了。 没有...
-
Meta发布最新开源大模型Llama 3,将深度融入自家搜索
4月19日消息,美国时间周四,Facebook的母公司Meta发布了其开源大语言模型的最新版本——Llama 3。目前硅谷人工智能之战日益激烈。 这款新模型旨在为其升级后的Meta AI提供支持,后者现将在Meta的多个应用中扮演更加显著的角色。此外,...
-
“梗王”大模型,靠讲笑话登上CVPR | 中山大学
谁能想到,只是让大模型讲笑话,论文竟入选了顶会CVPR! 没开玩笑,这还真真儿的是一项正儿八经的研究。 例如看下面这张图,如果让你根据它来讲个笑话或梗,你会想到什么? 现在的大模型看完后会说: 脑子短路。 再看一眼 蜘蛛侠 的海报,大模型会配一句“刚擦的...
-
ROCm加持出图效率翻倍!AMD RX 7900 XT Linux系统 AI性能体验
一、ROCm加持出图效率翻倍!AMD RX 7900 XT Linux系统 AI性能体验 ROCm:一个可移植、高性能的GPU计算平台 随着AI时代的来临,显卡的作用不再仅仅只局限于游戏,特别是在Stable Diffusion火爆全网之后,越来越多的玩家...
-
微软将在五月推出新的Windows和云AI功能
在一月份,微软CEO纳德拉告诉分析师,2024年将是“AI成为每台PC上的一等公民”的一年,并且微软5月会议的议程反映了这一目标。微软已经从其Azure公有云中运行AI模型的客户那里获得了显著的收入增长,公司希望通过推出新的AI功能来吸引开发者,以保持...
-
微软将在5月推出新的Windows和云AI功能
微软AI的新负责人穆斯塔法·苏莱曼将在西雅图的主题演讲中与纳德拉和其他资深高管一同登台。苏莱曼是DeepMind(这是一家在2014年被谷歌收购的AI初创公司)的联合创始人,上个月从初创公司Inflection AI加入微软。 多年来,希望充分利用W...
-
文生图——stable diffusion生成有趣的动漫图像
Stable Diffusion是一个文本转图像的模型,由CompVis、Stability AI和LAION共同开发。它能够从一段简单的文本输入中快速生成相应的图像。此外,它还可以导入图像并配合文本对其进行处理。从技术角度来看,Stable Diffus...
-
如何写好Stable Diffusion的prompt
Stable Diffusion是一种强大的文本到图像生成模型,其效果在很大程度上取决于输入的提示词(Prompt)。以下是一些关于如何编写有效的Stable Diffusion Prompt的秘诀: 明确描述:尽量清晰地描述你想要的图像内容。使...
-
Diffusion-RWKV官网体验入口 AI生成高质量图像工具使用地址
Diffusion-RWKV是一种基于RWKV架构的扩散模型,旨在提高扩散模型的可扩展性。它针对图像生成任务进行了相应的优化和改进,可以生成高质量的图像。该模型支持无条件和类条件训练,具有较好的性能和可扩展性。 点击前往Diffusion-RWKV官网体...
-
OpenAI创始大神手搓千行C代码训练GPT,附PyTorch迁移教程
大神卡帕西(Andrej Karpathy)刚“复工”,立马带来神作: 纯C语言训练GPT,1000行代码搞定!,不用现成的深度学习框架,纯手搓。 发布仅几个小时,已经揽星2.3k。 它可以立即编译和运行,和PyTorch完全兼容。 卡帕西使用的示例是...
-
1000行C语言搓出GPT-2!AI大神Karpathy新项目刚上线就狂揽2.5k星
【新智元导读】训大模型的方法可能要被革新了!AI大神Karpathy发布的新项目仅用1000行的C语言训完GPT-2,而不再依赖庞大的GPT-2库。他本人预告,即将上线新课。 断更近一个月,Karpathy终于上线了。 这次不是AI大课,而是带来一个新项目...
-
你在小红书上关注的美女博主,可能是AI
在近年来,虚拟偶像、虚拟主播(VTuber)似乎已经不是什么新鲜事,人们就算没有成为虚拟偶像的粉丝,也一定都曾听说过初音未来的名字。只不过,一提及“初音未来们”,人们脑海里首先出现的标签或许还是“二次元”。但如今,在小红书等社交平台,一大批AI博主正凭借足...
-
VAR官网体验入口 自回归式AI视觉生成工具使用地址
VAR是一种新的视觉自回归建模方法,能够超越扩散模型,实现更高效的图像生成。它建立了视觉生成的幂律scaling laws,并具备零shots的泛化能力。VAR提供了一系列不同规模的预训练模型,供用户探索和使用。 点击前往VAR官网体验入口 谁可以从VA...
-
FouriScale官网体验入口 高分辨率图像AI生成工具使用方法教程指南
FouriScale是一款可以从预训练的扩散模型生成高分辨率图像的工具。它通过创新的、无需训练的方法,结合膨胀技术和低通操作的方法,成功实现了灵活处理各种宽高比文本到图像生成。使用FouriScale作为指导,这个工具成功平衡了生成图像的结构完整性和保真度...
-
刚刚发布!一键生成动漫风格图片的开源模型
向大家介绍一个最新的AIGC开源项目——Animagine XL 3.1。这个项目是动漫主题文本到图像模型的最新迭代,旨在为用户提供更加优化和强大的动漫图像生成体验。 在Animagine XL 3.1中,开发团队着重优化了几个关键方面,以确保模型...
-
无需训练,这个新方法实现了生成图像尺寸、分辨率自由
近期,扩散模型凭借其出色的性能已超越 GAN 和自回归模型,成为生成式模型的主流选择。基于扩散模型的文本到图像生成模型(如 SD、SDXL、Midjourney 和 Imagen)展现了生成高质量图像的惊人能力。通常,这些模型在特定分辨率下进行训练,以确...
-
MiniGPT4-Video官网体验入口 视频理解多模态AI大模型使用地址
MiniGPT4-Video是什么? MiniGPT4-Video是为视频理解设计的多模态大模型,能处理时态视觉数据和文本数据,配标题、宣传语,适用于视频问答。 点击前往MiniGPT4-Video官网体验入口 MiniGPT4-Video的主要特点...
-
这个AI绘画神器-----SD插件处理服装太给力了!
在上一篇文章中,我为大家详细介绍了Stable Diffusion中一个非常有用的插件,名为ADetailer。 这个插件主要用于修复面部问题并为面部和手增加细节。目前,ADetailer包含了14个不同的模型,每个模型都有其独特的用途。我已经对其中大部...
-
提示工程中的10个设计模式
我们可以将提示词定义为向大型语言模型(Large Language Model,LLM 提供的一个查询或一组指令,这些指令随后使模型能够维持一定程度的自定义或增强,以改进其功能并影响其输出。我们可以通过提供细节、规则和指导来引出更有针对性的输出,从而使提...
-
Ai绘画 | Stable Diffusion常用大模型介绍
哈喽,大家好。 今天给大家分享一下Stable Diffusion中我常用的大模型,主要内容包含它们的流行程度和绘画风格。 还没安装Stable Diffusion的小伙伴可以看一下我往期发布的Stable DIffusion安装教程 注意:大模型存...
-
什么是生成式AI?有哪些特征类型
生成式AI是人类一种人工智能技术,可以生成各种类型的内容,包括文本、图像、音频和合成数据。那么什么是人工智能?人工智能和机器学习之间的区别是什么?有哪些技术特征? 人工智能是一门学科,是计算机科学的一个分支,研究智能代理的创建,这些智能代理是可以推理、...
-
多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免
大模型厂商在上下文长度上卷的不可开交之际,一项最新研究泼来了一盆冷水—— Claude背后厂商Anthropic发现,随着窗口长度的不断增加,大模型的“越狱”现象开始死灰复燃。 无论是闭源的GPT-4和Claude2,还是开源的Llama2和Mistral...
-
在线建图与轨迹预测如何紧密结合?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Producing and Leveraging Online Map Uncertainty in Trajectory Prediction 论文链接:https://arxiv.org/...
-
AI写作工具的重复性问题:Perplexity与Burstiness的探讨
大家好,小发猫降重今天来聊聊AI写作工具的重复性问题:Perplexity与Burstiness的探讨,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: AI写作工具的重复性问题:Perplexi...