AI日报：GPT-4o新版本上线；面壁智能开源手机版“GPT-4V”；华为推3D数字人新框架EmoTalk3D；阿里上线奥运时刻海报工作流

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、开发者狂喜!GPT-4o新版本上线，API 更快更便宜

OpenAI 近期推出了全新的结构化输出功能，旨在使模型生成的输出严格遵循开发者提供的 JSON 模式，提升输出的可靠性和匹配度。这一功能的推出为开发者构建可靠应用程序提供了重要基础，简化了开发过程，帮助开发者更轻松地创建出色的应用。

2、面壁智能开源 MiniCPM-V2.6可以在手机上跑的“GPT-4V”

MiniCPM-V2.6是一款端侧多模态人工智能模型，仅有8B参数却取得了20B以下单图、多图、视频理解三项SOTA成绩，与GPT-4V水平全面对标。该模型在端侧实现了单图、多图和视频理解等核心能力的全面超越，具有极高的像素密度和运行效率，支持多种语言和推理框架。

3、华为、复旦联手打造3D数字人新框架EmoTalk3D:喜怒哀乐表情逼真丰富

研究团队从南京大学、复旦大学和华为诺亚方舟实验室联手打造了EmoTalk3D框架，解决了多视角一致性和情感表现力不足的难题。他们提出了合成可控情感数字人的新方法，构建了从语音到几何再到外观的映射框架，并建立了EmoTalk3D数据集。

4、阿里云PAI Artlab新增奥运高光时刻海报工作流

阿里云PAI Artlab的ComfyUI新增了一个奥运高光时刻海报的工作流，用户只需三步即可生成个性化的奥运主题海报。用户需要先在阿里云官网注册并完成实名认证，然后访问PAI ArtLab平台，领取免费资源，并通过ComfyUI加载奥运流程来解锁更多海报设计。

5、腾讯元宝AI助手上线长文精读支持最长近50万字输入

腾讯元宝AI助手推出了长文精读功能，用户上传专业内容后可进入深度阅读模式，提供核心内容概览、模块化解析和总结性图表，帮助用户快速理解关键信息。利用腾讯混元大模型处理能力，支持最长近50万字输入，生成图文并茂的内容。用户可评估论文质量、查看专业图表和在离线状态下回看精读内容。腾讯混元大模型已全面开源，展现卓越的多模态理解能力。

6、月之暗面 Kimi 开放平台:上下文缓存 Cache 存储费用降价50%

Kimi 开放平台宣布上下文缓存存储费用降价50%，为用户提供更经济实惠的服务。上下文缓存是高效的数据管理技术，能够提高系统效率和节省时间资源。

7、Figure公司发布超强实体ChatGPT机器人Figure02

Figure公司最新推出的Figure02机器人标志着AI技术的重大突破，预示着人机交互进入全新时代。该机器人在硬件和软件上进行了全面革新，具有灵活手部操作、强大对话视觉能力和3倍计算推理能力。

8、AI设计加持义乌制造:AI设计穿戴甲火到巴黎奥运

这篇文章介绍了一款由AI设计、义乌生产的穿戴甲在巴黎街头引发热议的故事，展示了义乌制造业注入新活力的场景。通过AI技术设计的穿戴甲产品在巴黎引起轰动，证明了义乌的创新实力和市场敏锐度。

9、上海人工智能实验室推出书生·浦语系列模型新版本InternLM2.5

上海人工智能实验室在2024年7月4日的WAIC科学前沿主论坛上推出了书生·浦语系列模型的新版本InternLM2.5，该版本在复杂场景下的推理能力得到全面增强，支持超长上下文和自主进行互联网搜索整合信息。模型参数版本包括1.8B、7B和20B，适应不同应用场景和开发者需求。

10、以色列公司推出速度提升50%的开源语音识别模型Whisper Medusa

aiOla公司推出的Whisper Medusa开源语音识别模型在处理速度上取得了重大突破，比OpenAI的Whisper模型快50%，引起了业界广泛关注。这一创新将为语音识别技术的发展带来深远影响，为人工智能在语音识别领域的应用开辟新的可能性。

11、新流量密码?AI视频翻车意外走红:一段诡异画面引发2000万次观看

AI生成的内容已经渗透到我们的生活中，但最近一段AI翻车视频却成为网络热点，吸引了近2000万次观看，揭示了人们对AI技术的复杂态度。这段视频展示了AI图像生成技术的失控一面，引发了网友们的强烈反应。公众对AI技术的态度正在发生微妙的变化，需要保持幽默感和开放心态。

12、摩尔线程AI创作平台摩笔马良全新升级

摩笔马良全新升级，提供更高效、个性化的图像生成体验，强化对中文和中国文化的理解，实现精准创意人像生成。用户操作简单，上传照片、输入描述、生成图片，快速实现个性化创意人像。新增20多种预置风格满足多样化创意需求，AI算法和交互体验显著提升，图像生成高速高分辨率。界面优化简化操作流程，提升交互直观性和便捷性，为个人用户和专业人士带来前所未有的创意体验。

13、Reddit将测试AI驱动的搜索结果页面

Reddit的创始人兼首席执行官Steve Huffman透露，Reddit将推出AI驱动的搜索结果页面，提供AI生成的内容摘要。这一举措旨在帮助用户更轻松地找到感兴趣的内容，并推荐相关社区，进一步深入了解内容和探索更多Reddit社区。

14、亚马逊升级AI图像生成器Titan Image Generator v2，支持参考图像来“引导”生成作品

亚马逊推出了升级版Titan Image Generator v2，为用户带来多项新功能，包括图像调节、配色方案控制、背景去除等。该模型还支持用户通过参考图像和文本提示来生成符合用户布局和结构要求的图像。AWS提供赔偿政策保护版权，Andy Jassy对生成AI技术充满信心。

总结

### AI日报总结
【AI日报】栏目每日精选AI领域热点，助您洞悉技术趋势与产品创新。本期亮点如下：
1. **GPT-4o新版本发布**：OpenAI推新，API更快更经济，结构化输出功能增强开发者便利性，提升应用可靠性。
2. **MiniCPM-V2.6震撼上线**：面壁智能的这款模型仅8B参数，却全面对标GPT-4V，实现端侧高效单图、多图、视频理解，支持多语言及框架。
3. **EmoTalk3D数字人框架**：华为联合复旦、南京大学，研发出新框架解决情感表现力难题，呈现逼真丰富的表情变化。
4. **阿里云奥运海报工具**：PAI Artlab推出奥运主题海报工作流，三步生成个性化海报，展现AI设计的创意趣味。
5. **腾讯元宝AI长文精读**：支持近50万字输入，提供核心内容概览、模块化解析与图表总结，助力深度阅读理解。
6. **Kimi平台缓存降价**：上下文缓存存储费减半，提升用户经济效益，优化数据管理效率。
7. **Figure02机器人问世**：Figure公司推出AI实体机器人，于硬件软件均有突破，展现强大对话视觉及计算能力。
8. **AI设计穿戴甲风靡巴黎**：义乌制造结合AI设计，推出创新穿戴甲产品，备受巴黎市场青睐。
9. **InternLM2.5模型发布**：上海人工智能实验室升级书生·浦语系列，增强推理能力，支持超长上下文及互联网搜索整合信息。
10. **Whisper Medusa开源模型**：aiOla推出，识别速度较OpenAI Whisper快50%，为语音识别技术带来新突破。
11. **AI视频翻车风靡网络**：一段AI生成的诡异视频走红，揭示公众对AI技术的复杂态度，幽默与反思并存。
12. **摩笔马良平台升级**：提供高效个性化图像生成体验，新增中国文化理解及多样化风格，简化操作流程，提升创意便捷性。
13. **Reddit AI搜索测试**：Reddit计划推出AI生成的搜索结果页面，提供内容摘要与推荐，优化用户体验。
14. **Titan Image Generator v2升级**：亚马逊新版支持图像调节、配色控制、背景去除，并可通过参考图像生成特定布局图像。AWS提供版权保护政策。
本期【AI日报】汇聚了AI领域的各项创新与突破，展示了技术如何不断重塑我们的生活与工作方式。

开发者图像生成 ai设计人工智能上下文 reddit gpt ai技术 whisper 机器人个性化 gpt-4 语音识别 openai ai生成数字人参考图像工作流 generator 搜索结果

AI日报：GPT-4o新版本上线；面壁智能开源手机版“GPT-4V”；华为推3D数字人新框架​EmoTalk3D；阿里上线奥运时刻海报工作流

AI日报：GPT-4o新版本上线；面壁智能开源手机版“GPT-4V”；华为推3D数字人新框架EmoTalk3D；阿里上线奥运时刻海报工作流