当前位置:AIGC资讯 > AIGC > 正文

AI日报:Hedra图转说话视频免费开放;Deepmind发布超牛自动视频配音技术V2A;美图WHEE V2正式上线;开源版Sora可一键生成720p高清视频

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、Hedra的 Character-1开放使用

Hedra的Character-1开放使用,为创作者提供了通过文本和图片生成说话和唱歌视频的神器,开启了创作革命。它不仅是工具,更是一个全新的创作平台,让每个人都能拥有无限的视频创作机会。

2、Deepmind视频转音频技术V2A:实现自动为视频配乐、配音

谷歌Deepmind发布了V2A技术,利用视频像素和文本提示生成丰富的音轨,实现同步视听生成。用户可通过文字描述引导音频输出,系统采用自回归和扩散方法生成音频,确保与视频内容完美同步。训练过程中使用AI生成的注释帮助模型理解音频事件与视觉场景关联。尽管存在唇形同步挑战,V2A技术将接受严格评估测试后向公众开放。

3、B 站开源轻量级 AI 语言模型 Index-1.9B 模型

B 站最新开源的 Index-1.9B 模型引起了广泛关注,该模型包含基座模型、对照组和对话模型,具有19亿非词嵌入参数量,在多个评测基准上表现领先。

4、美图WHEE V2正式上线

美图公司推出全新AI改图编辑器WHEE V2版本,集合多种实用功能并融入AI技术,为用户提供便捷高效的一站式处理体验。新增AI绘画和AI改图功能,丰富用户编辑选择,支持多类型素材创意呈现。智能选择和提示词功能便利用户自然修改,支持自定义图片尺寸、图层内容,多种形式扩图。具备可视化多图层、精准语义识别、多元风格和细节控制,实现个性化高质量图像处理。

5、潞晨Open-Sora团队实现720p高清视频质量和生成时长突破

潞晨Open-Sora团队在720p高清视频质量和生成时长上取得了突破性进展,开源项目让视频生成变得简单,受到社区热烈欢迎。英伟达入股的AI公司Lambda Labs也基于Open-Sora模型权重打造数字乐高宇宙,开启创意新天地。技术报告深度剖析了模型训练核心和关键,解决视频模型训练痛点,提升生成质量和速度。

6、百度曦灵数字人平台升级 支持文生 3D 数字人、音色克隆等功能

百度智能云曦灵数字人平台即将迎来重大升级,提供高效低成本的2D/3D数字人生成,全面打通直播、短视频、对话等多个场景,大幅提升用户体验。曦灵平台展现出令人瞩目的数字人生成能力,快速精准地生成逼真的数字人,为企业、文旅、娱乐等领域带来全新IP创造可能。

7、Meta发布多款模型:多模态模型Chameleon、文本生成音乐模型JASCO、音频水印技术AudioSeal

Meta最近发布了多项研究成果,包括多模态模型Chameleon、文本生成音乐模型JASCO、音频水印技术AudioSeal等,为AI领域带来了新的技术突破和应用前景。这些成果将推动AI技术的发展和应用,具有重要意义。

8、谷歌推字母表生成器GenType 可用于创作封面艺术字体

GenType是谷歌推出的实验性产品,通过Imagen2模型驱动,用户可以创造个性化的字母形式,用于书写各种内容,特别适合制作标题或封面艺术。该工具提供了简单直观的操作界面,让用户快速上手,激发创造力和想象力。用户可以分享保存生成的字母表图片,并在在线画廊中浏览其他用户的作品,获取灵感和创意。

9、强得很!英伟达超越微软成为全球最有价值公司

英伟达股价飙升,超越微软、苹果和谷歌,成为全球市值最高的公司。公司计划推出新的Blackwell GPU架构,首席执行官表示将是世界上最强大的芯片,并每年发布新的AI芯片。英伟达在2024年股价上涨160%,市值达到3.335万亿美元。

10、苹果宣布推出新的人工智能功能后 为开发者推出“AI 培训”

苹果公司宣布推出新的人工智能培训课程,面向开发者学院的学生、导师以及校友等。这标志着苹果在AI技术领域的开放态度和重视程度逐渐增加。

11、Luma AI的Dream Machine生成作品被指涉嫌抄袭迪士尼IP

Luma发布的Dream Machine视频生成工具引发了关于模型透明度和数据来源的质疑,特别是涉嫌抄袭迪士尼作品。这引发了人们对这类模型最大的关注点之一,缺乏透明度。

12、AI画师接单被“抓包” 小红书博主“鉴Ai”视频获赞2.9万

小红书博主“天线嫂嫂(内裤大王)”在约画时发现画师使用AI技术,引发社交媒体关注。画师未提供线稿,博主怀疑作品为AI制作,揭露画稿盗图。AI绘画技术逼真度提高,难以区分人类和AI作品。AI技术发展带来版权和真实性挑战。

13、Snap 在 Augmented World Expo 上展示实时设备端图像扩散模型

Snap 在 Augmented World Expo 上展示了早期版本的实时设备端图像扩散模型,为 AR 创作者设计了生成式 AI 工具。该模型体积小且快速,能实时重新渲染帧。Snap 的团队致力加速机器学习模型,计划推广给创作者。Bobby Murphy 表示,这标志着增强现实迈入新方向,重新思考 AR 创造方式。Lens Studio5.0 提供新的生成式 AI 工具,帮助开发者更快创建 AR 效果,节省时间。

14、扎心!一团队负责人用ChatGPT取代了60名员工 最后自己也被解雇了

人工智能在工作场所的影响逐渐显现,一名负责内容创作团队的领导被ChatGPT取代后最终也被解雇,引发思考人工智能对就业市场的影响。

15、ChatGPT等模型疯狂训练,2026年或迎来AI界“数据荒”

最近Epochai发布的研究报告警示AI界可能面临数据枯竭危机。随着大模型如ChatGPT消耗公开训练数据,数据可能在2026年到2032年间耗尽。报告提出四种新方法应对数据荒,包括合成数据、多模态学习、私有数据利用和与真实世界交互学习。

16、L4GM:可在几秒钟内将视频目标对象生成4D高斯模型

研究团队提出了名为L4GM的大规模4D高斯重建模型,能从单视角视频输入生成动画对象,实现令人印象深刻效果。模型基于创新性数据集和简化设计,短时间内完成单向传递,保证高质量输出。

更新时间 2024-06-19