当前位置:AIGC资讯 > AIGC > 正文

AI日报:阿里开源文档模型DocOwl 1.5;Midjourney图像编辑器新功能下周上线;Viggle AI推对口型功能

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、表格、图表统统拿下!阿里达摩院开源DocOwl1.5无需OCR,高效“读懂”文档!

阿里巴巴达摩院与中国人民大学联合开源了mPLUG-DocOwl1.5文档处理模型,无需OCR即可理解文档内容,在多个视觉文档理解基准测试中表现领先。该模型强调结构信息的重要性,提出“统一结构学习”来提升MLLM性能。

2、Midjourney图像编辑器新功能下周上线

Midjourney的创始人David Holz宣布,一款全新的图像编辑器即将上线,该编辑器利用上传图像的深度信息生成新图片,保留原始构图和内容的同时彻底改变纹理、颜色和细节。这一创新提升了用户创作自由度,为设计师和艺术家提供强大工具。Midjourney通过AI技术不断优化图像生成质量,最新v6.1模型进一步提升图像清晰度和准确性。新图像编辑器的加入将拓宽AI在创意领域的应用,预示着Midjourney在图像编辑工具方面的重大进步。

3、Viggle AI再推新功能 可通过录制声音让角色说话

Viggle AI推出了令人兴奋的新功能,用户可以通过录制声音让角色说话并实现口型同步。这项创新技术让用户完全控制角色的表现方式,无论是唱歌还是跳舞,都能轻松实现。Viggle应用程序以其创新性在社交媒体上引起了广泛关注,利用先进的JST-1视频3D基础模型,用户可以轻松创造和混合视频内容。

4、即使是顶尖AI模型也难以应对复杂旅行规划,OpenAI o1-preview也犯难

最新研究表明,即使是先进的AI语言模型,如OpenAI最新的o1-preview,在复杂的规划任务中也面临挑战。研究发现模型在整合规则和条件方面表现不佳,且随规划时间增加会逐渐失去对问题的关注。尽管一些模型在BlocksWorld中表现尚可,但在更复杂的TravelPlanner任务中表现不佳。

5、开源工具Vulnhuntr可发现Python零日漏洞,巧妙利用Claude AI

Protect AI公司推出的Vulnhuntr工具利用Claude AI帮助开发者发现Python代码中的零日漏洞。该工具与传统静态分析不同,能够追踪用户输入到服务器输出的完整调用链,提高漏洞检测准确性。Vulnhuntr已在多个大型开源项目中发现零日漏洞,即将在GitHub上发布供开发者使用。

6、字节跳动回应“实习生破坏大模型训练”:未影响正式商业项目

字节跳动近期针对实习生破坏大模型训练的传闻进行了官方回应,确认实习生恶意干扰研究项目模型训练,但未影响正式商业项目和线上业务。公司指出传闻严重夸大,已辞退实习生并通报相关机构。事件暴露安全管理问题,公司计划大力投资AI技术。

7、Meta最新黑科技SPIRIT-LM:能说会写还能懂你的情绪,这个 AI 语言模型有点强!

SPIRIT-LM 是一款具有革命性意义的多模态基础语言模型,能够自由混合文本和语音,理解和表达情感。它结合了文本模型的语义能力和语音模型的表达能力,完成跨模态任务,只需少量样本即可学习新任务。SPIRIT-LM-EXPRESSIVE在情感表达方面优于基础版,开创了多模态语言理解和生成的新可能性。

8、颠覆 Stable Diffusion!智源重磅发布 Emu3,图像、文本、视频全拿下!

Emu3团队发布了一套全新的多模态模型Emu3,颠覆了传统的扩散模型和组合模型架构,在生成和感知任务上取得了最先进的性能。该模型基于下一个token预测进行训练,实现了多模态任务的统一,超越了特定任务模型,甚至旗舰模型。Emu3的成功为多模态模型的未来发展指明了方向,也为实现AGI带来了新的希望。

9、Perplexity AI 寻求90亿美元估值

Perplexity AI 宣布在新一轮融资中希望将估值提升至90亿美元,当前估值为30亿美元。公司面临抄袭指控,但坚决否认。在激烈市场竞争中努力提升技术和服务水平。

10、前OpenAI CTO重磅打造新AI公司,融资目标高达1亿美元

Mira Murati正筹集超过1亿美元的风险投资,准备创办新的AI创业公司。她离开OpenAI希望进行个人探索,而OpenAI在她离职后筹集了创纪录的66亿美元风险投资。期待Murati的新公司未来发展。

11、苹果AI发展滞后两年,计划未来两年全线设备引入Apple Intelligence

在今年的WWDC大会上,苹果展示了AI新特性,但分析师称苹果在AI技术发展上落后竞争对手约两年。苹果计划未来两年在所有带屏设备上推出“Apple Intelligence”功能,尽管起步较晚,但有信心迎头赶上。

12、北京市新增12款生成式AI服务备案,累计达94款

北京市最近新增了12款生成式人工智能服务备案,使得累计备案数量达到了94款,为用户带来更多选择与便利。已上线的AI应用需公示备案情况,包括模型名称和备案编号。本次新增备案名单中包括快手科技公司的可灵AI和昆仑万维科技股份有限公司的天工图像。

总结

**【AI日报】摘要:探索人工智能世界,洞悉技术趋势与创新**
欢迎来到【AI日报】,您的AI资讯前沿阵地。今日精彩内容概览如下:
1. **阿里达摩院开源DocOwl1.5**:无需OCR,直接理解文档内容,引领视觉文档处理技术革新。
2. **Midjourney图像编辑器新功能**:即将上线,利用深度信息重塑图片,提升创作自由度,图像质量再升级。
3. **Viggle AI新突破**:用户可录音控制角色说话并实现口型同步,视频创作进入新阶段。
4. **复杂旅行规划挑战AI**:OpenAI o1-preview等顶尖模型面临难题,复杂规划任务下表现不佳。
5. **Vulnhuntr检测Python零日漏洞**:借助Claude AI,提高检测准确率,护航编程安全。
6. **字节跳动回应模型训练破坏**:证实实习生干扰研究项目,未影响正式商业项目,强调安全管理。
7. **Meta发布SPIRIT-LM**:多模态语言模型新标杆,能言善辩且懂情绪,展现强大跨模态能力。
8. **Emu3多模态模型发布**:颠覆扩散模型传统,统一生成与感知任务,推动AGI研究进展。
9. **Perplexity AI寻高估值**:目标高达90亿美元,积极应对市场竞争与抄袭指控。
10. **前OpenAI CTO新征途**:Mira Murati创办AI企业,融资目标过亿,推动AI领域新发展。
11. **苹果AI加速计划**:承认滞后两年,宣布两年内全线设备引入“Apple Intelligence”,力求追赶。
12. **北京市生成式AI服务壮大**:新增12款备案服务,总数达94款,监管加强,应用丰富。
以上是本期【AI日报】的精华内容,每日更新,持续追踪人工智能领域的最新动态与创新进展,敬请关注。

更新时间 2024-10-21