AI日报：当前最强国产Sora大模型Vidu发布；Kimi Chat移动端升级；通义千问开源首个千亿参数模型；苹果计划与 OpenAI 合作

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、清华团队发布视频大模型Vidu 可生成16 秒、1080P 视频

清华大学与生数科技在中关村论坛未来人工智能先锋论坛上发布了中国首个长时长、高一致性、高动态性视频大模型Vidu，标志着中国在视频生成技术领域取得重要进展。该模型采用创新性的U-ViT架构，能一键生成高清视频内容，具备高时空一致性和丰富的想象力。

2、通义千问团队开源首个千亿参数模型Qwen1.5-110B

通义千问团队开源的首个千亿参数模型Qwen1.5-110B在基础能力和Chat评估中表现出色，展示了模型规模扩展对性能提升的重要意义。该模型采用Transformer解码器架构，支持多种语言，具有高效的分组查询注意力机制。Qwen1.5-110B是通义千问系列中规模最大的模型，拥有超过1000亿参数，在与SOTA模型的比较中表现出色。团队将继续探索模型规模提升和扩展预训练数据规模的优势。

3、Kimi Chat移动端UI大幅重构

Kimi Chat移动端应用迎来了重要的更新，版本1.2.1对用户界面进行了全面的重构，引入了“月之亮面”浅色模式，提供更加舒适和直观的用户体验。更新包括界面改进、性能优化、内存管理、电池效率、功能增强、安全性提升、兼容性改进、错误修复、本地化支持和辅助功能。用户只需更新至最新版本1.2.1即可体验新功能。

4、Domo AI新增乐高、美国漫画等4个风格新用户可免费试用15个点数

DomoAI最近新增了乐高风格、美国漫画风格、彩笔风格、像素艺术四个新风格，并且为庆祝其推特账号粉丝超过1万，新用户可免费试用15个点数。此前，DomoAI推出了视频色度抠图功能，用户可以将扣出的人物合成到新背景中。用户还可以轻松自定义后台背景颜色，制作跳舞视频等功能。

5、苹果计划与 OpenAI 合作，加强 iPhone 人工智能功能

苹果寻求与 OpenAI 合作，以提升 iPhone 的人工智能功能。前任机器学习总监离职后，苹果人工智能发展步履维艰。苹果可能在全球开发者大会前推出新的生成式人工智能产品。

6、谷歌推出 AI 英语对话练习功能

谷歌最近推出了AI语音对话练习功能，让用户可以通过手机与对话机器人进行英语会话练习。虽然功能目前仅限于部分国家使用，但谷歌可能会将其扩展到更多国家。文章介绍了谷歌的语言学习工具提供的对话练习和反馈功能，以及其在AI辅助语言学习领域的发展。

7、元象开源首个多模态大模型XVERSE-V

作为元象公司发布的首个多模态大型模型，XVERSE-V在多个权威评测中表现优异，综合能力出色。该模型融合整体和局部信息的策略，提高了图像识别和分析的准确性和全面性。除了图像识别，XVERSE-V在信息图理解、视障场景处理、文本生成、教育解题等实际应用中也表现突出。

8、Perplexica：开源AI驱动的问答搜索引擎

Perplexica是一个开源的AI驱动搜索引擎，提供多种搜索模式，旨在为用户提供更精准、更智能的搜索体验。它具有先进的机器学习算法，确保用户隐私和提供最新的搜索结果。Perplexica致力于成为全面、高效的搜索解决方案。

9、Meta 推出 LayerSkip：提升大语言模型推理速度

Meta公司最新发布的LayerSkip技术旨在提升大型语言模型的推理速度，通过优化推理过程，减少计算资源消耗，保持模型性能。这对实时需求高的应用场景具有重要意义，反映了Meta在AI模型效率方面的持续投入和创新。LayerSkip技术的未来展望将为大语言模型的部署和使用带来更多可能性，特别是在需要快速处理大量语言数据的场合。

10、调查显示：1/3的翻译者和1/4的插画师已经因AI失去了工作

AI技术的快速发展对创意产业造成深远影响，英国作家协会的调查揭示了AI对作家、翻译者、插画师等职业的影响，引发了行业内的担忧和呼吁。

11、WebLlama：基于Llama-3-8B的智能网页浏览代理

WebLlama是一款基于Llama-3-8B模型的智能代理工具，通过对话与用户互动，执行网页浏览相关任务。它能处理连续对话，理解用户指令，自动完成网上搜索、导航和信息检索等操作。WebLlama展示了强大的对话处理能力和网页交互功能，提高用户获取信息效率，减少手动操作需求。在专业基准测试中表现优异，具有先进性和实用性，有望在自动化网页浏览和信息收集方面发挥更大作用。

12、Mutable AI发布Auto Wiki v2：将代码转换为类似于维基百科风格的文章

Mutable AI推出的Auto Wiki v2是一款革命性的工具，能够自动将代码转化为维基百科风格的文章，解决了代码文档化难题。这一创新解决方案提供了清晰描述的代码文档，可视化理解代码，提升开发效率。

13、Cog-Become-Image：将任意人物图像转换成指定风格的图

Cog-Become-Image项目是一个创新的图像转换工具，可以将任意人物的面部图像转换成另一种风格的图片。该项目在艺术创作、媒体制作和娱乐行业有广泛的应用前景，为图像转换领域带来新的可能。无论是专业开发者还是技术爱好者，都可以利用这个项目来实现创意图像的转换。

14、PhysDreamer：让3D物体符合物理规律动起来

通过视频生成模型学习的物体动态先验知识，实现静态3D物体对新型交互的真实响应。PhysDreamer利用物理学方法赋予静态3D物体交互式动态，提升虚拟体验的真实感和吸引力。研究提出的PhysDreamer为静态3D物体动态响应提供了一种物理合理的方式。