-
AI日报:viva发布类Sora视频生成模型;Open AI 宫斗第二季详解;索尼禁止未授权使用其音乐“炼丹”:Coze上线Web SDK
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、viva发布类Sora视频生成...
-
Stability AI与Facebook前总裁等投资人进行筹款谈判
一位直接参与交易谈判的人士透露,包括 Facebook 前总裁 Sean Parker 在内的一组投资者正与 Stability AI 进行筹款谈判。Stability AI 是一家开发基于开源图像生成器 Stable Diffusion 的产品的初创公司...
-
周鸿祎称留给谷歌的时间不多了 建议所有产品开源对抗OpenAI
在本周的谷歌I/O204开发者大会上,谷歌发布了Gemini1.5Flash、文生图工具Imagen3以及视频生成模型Veo等一系列创新产品。然而,这场技术盛宴并未得到360集团创始人周鸿祎的完全认可。近日,周鸿祎通过微博发表长文,对谷歌I/O大会进行了深...
-
私域流量优化:如何利用 AIPL 模型洞察客户生命周期价值
在当今这个数字化时代,商业战场的硝烟从未如此浓烈。随着互联网红利的逐渐消退,公域流量的成本水涨船高,企业间对于有限用户资源的争夺已进入白热化阶段。每一次点击、每一个曝光背后,都是企业不得不承担的高昂代价。在此背景下,传统的依赖公域流量获取新客的模式正遭受前...
-
GPT-4o成全球网友新玩具,秒秒钟纸质原型转录初始HTML,网友:谷歌你是一点流量摊不上啊
好啊,不愧是OpenAI最新旗舰,打开各个社交软件,GPT-4o的上手测试都唰唰唰往我首页推。 请!看! 这,就是用上GPT-4o,花不到30s时间,通过单个prompt把一个电子表格中的内容生成了完整的图表和统计分析。 在过去,在Excel里做这玩意儿...
-
微软发布 MatterSim 模型:模拟材料、预测性能,AI 探索材料设计的无限可能
5 月 15 日消息,微软研究院科学智能中心(Microsoft Research AI for Science)近日推出 MatterSim 模型,能够在广泛的元素、温度和压力范围内,准确高效地模拟材料和预测性能,助力材料设计的数字化转型。 新材料探索...
-
AI日报:谷歌终极杀器硬刚GPT-4o、Sora;字节推出豆包大模型“全家桶”;阿里再推AI虚拟试衣神器;腾讯开源混元文生图大模型
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 1、谷歌急了,终极杀器对打GPT-4o 视频模型Veo硬刚Sora 谷歌近日发布了一系列强大的AI工具,...
-
为什么腾讯认为DiT架构是未来的主流?做了哪些改进?
OpenAI迭代ChatGPT的过程,发现随着参数量的提升,基于Transformer 架构的大语言模型出现了涌现现象。因此,在文生图领域,很可能参数量更大的模型,也会更“聪明”。 而此前文生图领域大火的Unet 模型容易陷入性能瓶颈与可扩展性的问题,且...
-
两小时“吼出”121次AI,谷歌背后埋伏着Open AI的幽灵
谷歌和Open AI的又一次对阵,刚刚落幕了。 北京时间5月14日凌晨,OpenAI发布端到端多模态AI大模型GPT-4o,酷似科幻电影《Her》的AI语音对话迅速成为关注焦点。 24小时后,携新版Gemini AI大模型等产品,谷歌在北京时间5月15日凌...
-
谷歌反击:Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革搜索
通用的 AI,能够真正日常用的 AI,不做成这样现在都不好意思开发布会了。 5 月 15 日凌晨,一年一度的「科技界春晚」Google I/O 开发者大会正式开幕。长达 110 分钟的主 Keynote 提到了几次人工智能?谷歌自己统计了一下: 是的,...
-
谷歌硬刚GPT-4o!60秒视频生成模型虽迟但到,上下文窗口达200万
OpenAI出手再次惊艳世界,谷歌果然坐不住了。 GPT-4o掀起的一片“AGI已至”的惊呼声中,刚刚,Google DeepMind首席执行官哈萨比斯亲自携谷歌版《Her》登场。 同样能会还有,不仅能几乎没有延迟地和人类流畅交流,通过摄像头,这个名为P...
-
扩散模型与文生视频
一、快速发展的文生视频 在当前的人工智能领域,文生视频技术有着引人注目的进展。该技术的核心任务非常明确,就是利用文本指令来控制视频内容的生成。具体而言,用户可以输入特定文本,系统则根据这段文本生成相应的视觉画面。这一过程并不局限于单一的输出,相同的文本可...
-
OpenAI 打造媒体管理工具,让内容创作者可以选择退出 AI 训练
人工智能公司 OpenAI 近日表示,他们正在研发一款名为媒体管理(Media Manager)的工具,旨在让内容创作者更好地控制其作品在生成式人工智能训练中的使用。这一工具将允许创作者和内容所有者向 OpenAI 确认其作品,并指定希望这些作品是否包含在...
-
7262篇提交,ICLR 2024爆火,两篇国内论文获杰出论文提名
ICLR 全称为国际学习表征会议(International Conference on Learning Representations),今年举办的是第十二届,于 5 月 7 日至 11 日在奥地利维也纳展览会议中心举办。 在机器学习社区中,ICLR...
-
硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎
Sora刚发布后没多久,火眼金睛的网友们就发现了不少bug,比如模型对物理世界知之甚少,小狗在走路的时候,两条前腿就出现了交错问题,让人非常出戏。 对于生成视频的真实感来说,物体的交互非常重要,但目前来说,合成真实3D物体在交互中的动态行为仍然非常困难。...
-
LeCun哈佛演讲PPT放出:唱衰自回归LLM,指明下一代AI方向
机器如何能像人类和动物一样高效地学习?机器如何学习世界运作方式并获得常识?机器如何学习推理和规划…… 当一系列问题被提出时,有人回答自回归 LLM 足以胜任。 然而,知名 AI 学者、图灵奖得主 Yann LeCun 并不这么认为,他一直唱衰自回归 LL...
-
看透物体的3D表示和生成模型:NUS团队提出X-Ray
项目主页:https://tau-yihouxiang.github.io/projects/X-Ray/X-Ray.html 论文地址:https://arxiv.org/abs/2404.14329 代码地址:https://github.com...
-
强大到不敢给普通人用!史诗级大模型 Sora 如何让众行业一夜变天?
1视频生成模型“新王登基”,Sora 何以成为全球焦点? 2023年以来,多模态视频生成技术取得了显著的进展和突破,从 Runway 到 Pika 再到年末的 VideoPoet,视频生成模型进入到加速阶段。2024年2月,OpenAI 旗下视频生成模型...
-
谷歌DeepMind新方法Gecko,为测试AI图像生成器引入严格新标准
谷歌 DeepMind 最近的研究示了当前我们对文本到图像 AI 模型性能评估的隐藏局限性。在其发布在预印本服务器 ariv 上的研究中,他们引入了一种全新的方法称为 “Gecko”,承诺提供一个更全和可靠的基准,以评估这一蓬勃发展的技术。 研究团队在其...
-
“地表最强”文生视频模型?Sora 背后有何秘密?
自 2022 年底 ChatGPT 的横空出世,人工智能再度成为全世界的焦点,基于大语言模型(LLM)的 AI 更是人工智能领域的“当红炸子鸡”。此后的一年,我们见证了 AI 在文生文、文生图领域的飞速进展,但在文生视频领域发展相对较慢。而在 2024 年...
-
半年涨粉1000万,这个AI聊天搭子是怎么火的
最近,很多快手用户都能发现,一个名叫「AI小快」的账号格外活跃。 在视频作品的评论区,经常有人跟「AI小快」聊得火热,一个抛梗、一个接梗: 如果你问点严肃问题,AI小快一样有问必答: 没看明白的视频,还能帮忙解读: 甚至还有离谱之中带有一丝合理的扩...
-
终局之战!OpenAI Sora大佬专访:AI视频模型仍处在GPT-1时代
【新智元导读】Sora一出,谁与争锋!近日,Sora团队的三位负责人Aditya Ramesh、Tim Brooks和Bill Peebles接受了采访,解读了Sora在模拟现实、预测结果和丰富人类体验等方面带来的变革。 对于视频生成领域,大家一致的看法就...
-
华人持续炸场!8倍于SOTA模型发布,超分辨率细节还原度逆天,终于可以看清楚蜘蛛网丝了!网友:质量真不错!电影时长9秒才够用!
撰稿 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) Sora带火了“视频一致性”的研究,但单纯在时间一致性已经不能满足业内对于高逼真视频的渴望。这不,华人又出来炸场了! 近日,一个名为VideoGigaGAN的视频模型在业界走红。...
-
这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数
还记得去年 11 月底爆出来的 Q* 项目吗?这是传说中 OpenAI 正在秘密开展、或将带来颠覆性变革的 AI 项目。如果你想回忆一下,可参看机器之心当时的报道《全网大讨论:引爆 OpenAI 全员乱斗的 Q * 到底是什么?》简而言之,Q* 很可能是...
-
CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Towards Realistic Scene Generation with LiDAR Diffusion Models 论文链接:https://hancyran.github.io/a...
-
AI音乐生成工具AI Jukebox 输入提示词选择曲风即可创作音乐
AI Jukebox 是一个利用人工智能技术的音乐生成工具,它通过Hugging Face平台提供服务。这个工具的设计理念在于简化音乐创作过程,使其变得更加智能化和用户友好。 主要功能特点: 本地化模型加载:用户打开AI Jukebox的网页后,系统会自...
-
PR+AI重新定义视频剪辑,Sora、Pika全接入,AI视频创企还有的玩吗?
还记得网友们用PS的Generative Fill花式整活的盛况吗? 接下来,被网友玩坏的可能要轮到PR了。 无论你是专业的视频剪辑师,还是业余爱好者,对Premiere Pro(简称PR)这款软件都一定不陌生。 前几天,Adobe官方发布了一条视频,快...
-
90后二次元北大校友做出AI漫画创作工具,融资千万
AI绘画已经火了两年,但仍有一群人并不满意。 对于他们,仅仅是一张极尽精致的图片还不够,他们希望为画中的人物赋予更完善的性格、好恶、身世、人际关系、世界观,让Ta有血有肉,仿佛真实存在。 “这就是为什么我们的产品叫做‘AI驱动的角色幻想创作平台’,而非AI...
-
超越BEVFusion!DifFUSER:扩散模型杀入自动驾驶多任务(BEV分割+检测双SOTA)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 目前,随着自动驾驶技术的越发成熟以及自动驾驶感知任务需求的日益增多,工业界和学术界非常希望一个理想的感知算法模型,可以同时完成如3D目标检测以及基于BEV空间的语义分...
-
LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真杀器~
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:LidarDM: Generative LiDAR Simulation in a Generated World 论文链接:https://arxiv.org/pdf/2404.02903....
-
VQAScore官网体验入口 AI文本到视觉生成评估工具使用地址
VQAScore是一种新的评估指标,旨在更好地评估复杂的文本到视觉生成效果。这一指标结合了CLIP-FlanT5 模型,能够在文本到图像/视频/3D生成评估中实现最佳性能,是评估和优化文本到视觉生成模型的强大工具。同时,VQAScore引入了GenAI-B...
-
雨云GPU云服务器搭建SD(Stable Diffusion)的教程,搭建自己的AI绘画网站,AIGC
Stable Diffusion是什么 Stable Diffusion是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,由CompVis、Stability AI和LAION的研究人员和工程师共同创建。...
-
如何写好Stable Diffusion的prompt
Stable Diffusion是一种强大的文本到图像生成模型,其效果在很大程度上取决于输入的提示词(Prompt)。以下是一些关于如何编写有效的Stable Diffusion Prompt的秘诀: 明确描述:尽量清晰地描述你想要的图像内容。使...
-
五种常用于LLM的令牌遮蔽技术介绍以及Pytorch的实现
本文将介绍大语言模型中使用的不同令牌遮蔽技术,并比较它们的优点,以及使用Pytorch实现以了解它们的底层工作原理。 令牌掩码Token Masking是一种广泛应用于语言模型分类变体和生成模型训练的策略。BERT语言模型首先使用,并被用于许多变体(Ro...
-
Nightshade:使AI模型在未经许可的情况下无法训练图片
据报道,芝加哥大学的研究人员开发了一种名为Nightshade的工具,旨在防止未经许可的AI图像生成。该工具可以使AI图像生成器无法使用未经许可的图像进行训练,从而保护了艺术家和版权所有者的作品。 Nightshade的工作原理是在图像中添加隐藏信息,这...
-
AIGC实战——ProGAN(Progressive Growing Generative Adversarial Network)
AIGC实战——ProGAN 0. 前言 1. ProGAN 2. 渐进式训练 3. 其他技术 3.1 小批标准差 3.2 均等学习率 3.3 逐像素归一化 4. 图像生成 小结 系列链接 0. 前言 我们已经学习了使用生成对...
-
ImagenHub官网体验入口 AI图像生成模型评估平台使用指南方法教程
ImagenHub是一个一站式库,用于标准化所有条件图像生成模型的推理和评估。该项目首先定义了七个突出的任务并创建了高质量的评估数据集。其次,我们构建了一个统一的推理管道来确保公平比较。第三,我们设计了两个人工评估指标,即语义一致性和感知质量,并制定了全面...
-
Stable Diffusion的界面参数详解
Stable Diffusion作为一款强大的文本到图像生成模型,其界面参数是用户与模型进行交互的重要桥梁。这些参数不仅影响着模型的生成效果,还能够帮助用户更加精准地控制生成图像的风格、内容等。本文将详细介绍Stable Diffusion的界面参数,帮助...
-
太全了!多模态深度学习的综述!
1.介绍 我们对世界的体验是多模态的 —— 我们看到物体,听到声音,感觉到质地,闻到气味,尝到味道。模态是指某件事发生或经历的方式,当一个研究问题包含多个模态时,它就具有多模态的特征。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够同时解释这些...
-
值得你花时间看的扩散模型教程,来自普渡大学
想了解更多AIGC的内容: 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 扩散模型(Diffusion Model)是图像生成模型的一种。有别于此前 AI 领域大名鼎鼎的 GAN、VAE 等算法,扩散模型另辟...
-
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 全球每年有近 500 万人死于抗生素耐药性,因此迫切需要新的方法来对抗耐药菌株。 AI 方法可以发现新的抗生素,但现有方法有明显的局限...
-
CVPR 2024录用结果出炉!2719篇论文被接收,录用率23.6%
想了解更多AIGC的内容: 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ CVPR 2024最终录用结果公布了! 刚刚,CVPR官方发文称,今年共提交了11532份有效论文,2719篇论文被接收,录用率为23...
-
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
30个方向130篇!CVPR 2023最全AIGC论文 25个方向!CVPR 2022 GAN论文汇总 35个方向!ICCV 2021 最全GAN论文汇总 超110篇!CVPR 2021 最全GAN论文梳理 超100篇!CVPR 2...
-
谷歌发布超强AI视频编辑工具!施展魔法的VLOGGER,音频加图片就搞定唇形和手势,还把表情编辑玩出花了!
出品 | 51CTO技术栈(微信号:blog51cto) 编译丨伊风 视频生成模型的脚步永不停歇! 图片 4月2日,谷歌刚刚发布了强到可怕的AI视频编辑工具VLOGGER。VLOGGER就像收集了很多视频生成领域的前沿AI技能,而打造出的一款百宝箱...
-
谷歌更新Transformer架构,更节省计算资源!50%性能提升
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 谷歌终于更新了Transformer架构。 最新发布的Mixture-of-Depths(MoD),改变了以往Transformer计...
-
什么是stable diffusion?
? Stable Diffusion:一种深度学习文本到图像生成模型 ? Stable Diffusion是2022年发布的深度学习文本到图像生成模型,主要用于根据文本的描述产生详细图像。它还可以应用于其他任务,如内补绘制、外补绘制,以及在提示词指导下产...
-
Stable Diffusion 推荐硬件配置和本地化布署
Stable Diffusion简介 Stable Diffusion是由Stability AI开发的一种强大的文本到图像(Text-to-Image 生成模型,它能够根据用户提供的文本描述,生成与之相关的高质量、高分辨率图像。下面我从原理、特点、应用...
-
Stable Diffusion中的Embeddings
什么是Embeddings? Embeddings是一种数学技术,它允许我们将复杂的数据(如文本或图像)转换为数值向量。这些向量是高维空间中的点,可以捕捉数据的关键特征和属性。在文本处理中,例如,embeddings可以捕捉单词或短语...
-
什么是生成式AI?有哪些特征类型
生成式AI是人类一种人工智能技术,可以生成各种类型的内容,包括文本、图像、音频和合成数据。那么什么是人工智能?人工智能和机器学习之间的区别是什么?有哪些技术特征? 人工智能是一门学科,是计算机科学的一个分支,研究智能代理的创建,这些智能代理是可以推理、...
-
EMAGE官网体验入口 AI手势生成音频手势建模软件下载地址
EMAGE是一种统一的整体共话手势生成模型,通过表情丰富的掩蔽音频手势建模来生成自然的手势动作。它可以从音频输入中捕捉语音和韵律信息,并生成相应的身体姿势和手势动作序列。EMAGE能够生成高度动态和表现力丰富的手势,从而增强虚拟人物的互动体验。 点击前往...