【精华】AIGC启元2024

文章目录

AIGC 前沿 (1) Gemini 1.5 Pro（谷歌新一代多模态大模型） (2) Sora（文本生成视频大模型） (3) EMO（阿里生成式AI模型） (4) Playground v2.5（文生图大模型） (5) VSP-LLM（唇语识别） (6) Ideogram1.0 （文生图大模型） (7) LTX studio（生成式AI电影制作平台） (8) Claude3（LLM） (9) Open Sora（文生视频大模型） (10) Yi-9B（LLM） (11) CARES Copilot1.0（多模态手术大模型） (12) Figure 01通用机器人（Figure AI + OpenAI） (13) Devin（AI软件工程师助手） (14) BEHAVIOR-1K（李飞飞团队—具身智能基准） (15) MM1大模型（苹果公司多模态大模型） (16) AesopAgent（达摩院—智能体驱动的进化系统） (17) CogView3（文生图大模型） (18) AutoDev（微软团队全自动 AI 驱动软件开发框架） (19) VLOGGER（Google图生音频驱动视频方法） (20) TextMonkey（Monkey多模态大模型在文档领域的应用） (21) Open-Sora 1.0（文生视频大模型） (22) Grok-1（马斯克开源大语言模型） (23) Blackwell GB200（英伟达新一代AI加速卡） (24) Kimi（Moonshot AI 智能助手） (25) Suno v3（音乐ChatGPT时刻） (26) Mora（Sora的通才视频生成模型） (27) Mistral 7B v0.2

AIGC 前沿

(1) Gemini 1.5 Pro（谷歌新一代多模态大模型）

2024.02.16 谷歌新一代多模态大模型Gemini 1.5 Pro，在性能上超越OpenAI的GPT-4 Turbo，堪称业界最强大模型。

推荐文章： “打假”Sora，谷歌Gemini 1.5 Pro第一波评测出炉｜甲子光年
官网链接： https://openai.com/sora

(2) Sora（文本生成视频大模型）

2024.02.16 Sora文本生成视频的大模型。它所展现出来的能力几乎可以“碾压”目前全球能实现文本生成视频的大模型包括 Runway、Pika、Stable Video Diffusion等20多个产品。
　　用户仅需输入简短一句话，Sora就可生成一段长达60秒的视频，远远超过市面上同类型级别的AI视频生成时长。在此之前，AI视频模型生成时长几乎在10秒以内，而“明星模型” Runway和Pika等也仅有3到4秒。

推荐文章： Sora到底有多强？ | 微软最新Sora综述
官网链接： Gemma Open Models

(3) EMO（阿里生成式AI模型）

2024.02.28 生成式AI模型EMO（Emote Portrait Alive）。EMO仅需一张人物肖像照片和音频，就可以让照片中的人物按照音频内容“张嘴”唱歌、说话，且口型基本一致，面部表情和头部姿态非常自然。

推荐文章：阿里EMO模型，一张照片就能造谣
官网链接： https://humanaigc.github.io/emote-portrait-alive/

(4) Playground v2.5（文生图大模型）

2024.02.28 Playground在去年发布Playground v2.0之后再次开源新的文生图模型Playground v2.5。相比上一个版本，Playground v2.5在美学质量，颜色和对比度，多尺度生成以及以人为中心的细节处理有比较大的提升。

推荐文章：超过Midjourney v5.2的开源文生图大模型Playground v2.5来了
官网链接： https://playground.com/

(5) VSP-LLM（唇语识别）

2024.02.28 一种通过观察视频中人的嘴型来理解和翻译说话内容的技术，也就是识别唇语。该技术能够将视频中的唇动转化为文本（视觉语音识别），并将这些唇动直接翻译成目标语言的文本(视觉语音翻译)。不仅如此，VSP-LLM还能智能识别和去除视频中不必要的重复信息，使处理过程更加快速和准确。

推荐文章： VSP-LLM：可通过观察视频中人的嘴型来识别唇语
官网链接： https://github.com/sally-sh/vsp-llm

(6) Ideogram1.0 （文生图大模型）

2024.02.29 Ideogram发布了最新的Ideogram1.0图像生成模型，该模型具有强大的文字生成能力和提示词理解能力。Ideogram1.0在文本渲染准确性方面实现了飞跃。

推荐文章：Ideogram 1.0图像生成模型发布文字生成能力更强大了
官网链接：https://top.aibase.com/tool/ideogram-ai

(7) LTX studio（生成式AI电影制作平台）

2024.02.29 生成式AI电影制作平台—LTX Studio，用户只需要输入文本就能生成超25秒的微电影视频，同时可对镜头切换、角色、场景一致性、摄像机、灯光等进行可视化精准控制。

推荐文章：效果比Sora惊艳，著名AI平台大动作！文本生成超25秒视频，带背景音乐、转场等效果
官网链接： https://ltx.studio

(8) Claude3（LLM）

2024.03.04 Claude3是由Anthropic发布的最新的AI大模型系列，同时，Claude3是多模态大模型，具有强大的“视觉能力”。Claude3 Opus已经在部分行业行为准则中的表现优于OpenAI的GPT-4和谷歌的Gemini Ultra，如本科生水平知识（MMLU）、研究生级别专家推理（GPQA）和基础数学（GSM8K）。

推荐文章： OpenAI劲敌出现！Claude3正式发布，超越GTP-4?
官网链接： https://www.anthropic.com/claude

(9) Open Sora（文生视频大模型）

2024.03.01 北大团队联合兔展发起了一项Sora复现计划——Open Sora

推荐文章：北大与兔展智能发起复现Sora，框架已开源
官网链接：
https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html
https://github.com/PKU-YuanGroup/Open-Sora-Plan

(10) Yi-9B（LLM）

2024.03.06 李开复旗下AI公司零一万物的最新力作——Yi-9B大模型正式对外开源发布。这款具有90亿参数的大模型，在代码和数学能力上达到了前所未有的高度，同时保持了对消费级显卡的良好兼容性，为广大开发者和研究人员提供了前所未有的便利性和强大功能。
　　Yi-9B作为Yi系列中的新成员，被誉为“理科状元”，特别加强了在代码和数学方面的学习能力。相较于市场上其他类似规模的开源模型，如Mistral-7B、SOLAR-10.7B、Gemma-7B等，Yi-9B展现出了最佳的性能表现。特别值得一提的是，Yi-9B既提供了浮点数版本（BF 16），也提供了整数版本（Int8），使其能够轻松部署在包括RTX 4090和RTX 3090在内的消费级显卡上，大大降低了使用门槛和成本。

推荐文章：零一万物开源Yi-9B大模型，消费级显卡可用，代码数学历史最强
官网链接： https://github.com/01-ai/Yi

(11) CARES Copilot1.0（多模态手术大模型）

2024.03.11 CARES Copilot是由中国科学院香港创新院AI中心研发的一个可信赖、可解释、面向医疗垂直领域并能与智能医疗设备高度集成的大模型系统。CARES Copilot 1.0实现了图像、文本、语音、视频、MRI、CT、超声等多模态的手术数据理解。支持超过100K上下文的长窗口理解和高效分析，能理解超过3000页的复杂手术教材，对于年轻医生的培训和教学具有极高的实用价值。此外，该系统能通过深度检索功能，快速精确地提取手术教材、专家指南、医学论文等专业文档的信息，确保其提供的答案具有高度的可信度和可追溯性。经测试，系统能在一秒钟内完成百万级数据的快速检索，同时保持95%的准确率。该系统已在多家医院的不同科室进行了内部测试和迭代优化。

推荐文章： CARES Copilot 1.0多模态手术大模型发布，可实现轻量化部署
官网链接： /

(12) Figure 01通用机器人（Figure AI + OpenAI）

2024.03.13 Figure 01通用机器人由Figure AI和OpenAI合作完成。展示视频中，Figure AI人形机器人具有视觉能力并能表述所见画面，它伸手拿起桌上的苹果，并解释了这么做的原因，人类的提问后，这台人形机器人“思索”2~3秒后便能顺畅作答，手部动作速度则接近人类。据视频介绍，机器人采用了端到端神经网络。
　　该人形机器人由OpenAI提供了视觉推理和语言理解，Figure AI的神经网络则提供快速、灵巧的机器人动作。人形机器人将摄像机的图像输入和麦克风接收的语音文字输入OpenAI提供的视觉语言大模型（VLM）中，该模型可以理解图像和文字。Figure机载相机以10hz的频率拍摄画面，随后神经网络以200hz的频率输出24个自由度动作。画面中的人形机器人不依赖远程操作，行为都是学习而得的。

推荐文章：与OpenAI合作13天后，Figure人形机器人展示与人类对话能力
官网链接： /

(13) Devin（AI软件工程师助手）

2024.03.13 一家成立不到两个月但拥有十名天才工程师的初创公司Cognition推出了一款名为Devin的人工智能（AI）助手，可以协助人类软件工程师完成诸多开发任务。Devin不同于现有其他AI编码者，它可以从零构建网站、自行部署应用、修复漏洞、学习新技术等，人类只需扮演一个下指令和监督的角色。
　　这是第一个真正意义上完全自主的AI软件工程师，一亮相即掀起轩然大波，因为人们担心：人类程序员是不是真要失业了？

推荐文章：人类程序员真要失业？首位“AI软件工程师”亮相引爆科技圈
官网链接： /

(14) BEHAVIOR-1K（李飞飞团队—具身智能基准）

2024.02.27 来自斯坦福、得克萨斯大学奥斯汀分校等大学的研究团队推出了一项以人为本的机器人技术综合模拟基准——BEHAVIOR-1K。
　　BEHAVIOR-1K 包括两个部分，由 “您希望机器人为您做什么？”这一问题的广泛调查结果指导和推动。第一部分是对 1000 种日常活动的定义，以 50 个场景（房屋、花园、餐厅、办公室等）为基础，其中有 9000 多个标注了丰富物理和语义属性的物体。其次是 OMNIGIBSON，这是一个模拟环境，通过对刚体、可变形体和液体进行逼真的物理模拟和渲染来支持这些活动。
　　实验表明，BEHAVIOR-1K 中的活动是长视距的，并且依赖于复杂的操作技能，这两点对于最先进的机器人学习解决方案来说仍然是一个挑战。为了校准 BEHAVIOR-1K 的模拟与现实之间的差距，研究团队进行了一项初步研究，将在模拟公寓中使用移动机械手学习到的解决方案转移到现实世界中。
　　研究团队希望 BEHAVIOR-1K 以人为本的特性、多样性和现实性能使其在具身智能和机器人学习研究中发挥重要作用。

推荐文章： stanford Behavior-1k——包含一千种日常任务的具身智能benchmark
官网链接： /

(15) MM1大模型（苹果公司多模态大模型）

2024.03.15 苹果公司最新发布了一款名为MM1的大型多模态基础模型，拥有300亿参数，采用了MoE架构，并且超过一半的作者是华人。
　　该模型采用了MoE变体，并且在预训练指标和多项多模态基准测试上表现出了领先水平。研究者通过多项消融试验，探讨了模型架构、预训练数据选择以及训练程序等方面的重要性。他们发现，图像分辨率、视觉编码器损失和预训练数据在建模设计中都起着关键作用。
　　MM1的发布标志着苹果在多模态领域的重要进展，也为未来苹果可能推出的相关产品奠定了技术基础。该研究的成果对于推动生成式人工智能领域的发展具有重要意义，值得业界密切关注。

推荐文章：苹果大模型MM1入场：参数达到300亿超半数作者是华人
论文地址： https://arxiv.org/pdf/2403.09611.pdf

(16) AesopAgent（达摩院—智能体驱动的进化系统）

2024.03.15 阿里达摩院提出了一个关于故事到视频制作的智能体驱动进化系统——AesopAgent，它是智能体技术在多模态内容生成方面的实际应用。
　　该系统在一个统一的框架内集成了多种生成功能，因此个人用户可以轻松利用这些模块。这一创新系统可将用户故事提案转化为脚本、图像和音频，然后将这些多模态内容整合到视频中。此外，动画单元（如 Gen-2 和 Sora）可以使视频更具感染力。

推荐文章：阿里达摩院提出AesopAgent：从故事到视频制作，智能体驱动的进化系统
论文地址： https://arxiv.org/pdf/2403.07952.pdf

(17) CogView3（文生图大模型）

2024.03.10 文生图系统的最新进展主要是由扩散模型推动的。然而，单级文本到图像扩散模型在计算效率和图像细节细化方面仍面临挑战。为了解决这个问题，来自清华大学和智谱AI 的研究团队提出了 CogView3——一个能提高文本到图像扩散性能的创新级联框架。
　　据介绍，CogView3 是第一个在文本到图像生成领域实现 relay diffusion 的模型，它通过首先创建低分辨率图像，然后应用基于中继（relay-based）的超分辨率来执行任务。这种方法不仅能产生有竞争力的文本到图像输出，还能大大降低训练和推理成本。
　　实验结果表明，在人类评估中，CogView3 比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%，而所需的推理时间仅为后者的 1/2。经过提炼（distilled）的 CogView3 变体性能与 SDXL 相当，而推理时间仅为后者的 1/10。

推荐文章： CogView3：更精细、更快速的文生图
论文地址： https://arxiv.org/pdf/2403.05121.pdf

(18) AutoDev（微软团队全自动 AI 驱动软件开发框架）

2024.03.10 微软团队推出了全自动 AI 驱动软件开发框架 AutoDev，该框架专为自主规划和执行复杂的软件工程任务而设计。AutoDev 使用户能够定义复杂的软件工程目标，并将其分配给 AutoDev 的自主 AI 智能体来实现。这些 AI 智能体可以对代码库执行各种操作，包括文件编辑、检索、构建过程、执行、测试和 git 操作。它们还能访问文件、编译器输出、构建和测试日志、静态分析工具等。这使得 AI 智能体能够以完全自动化的方式执行任务并全面了解所需的上下文信息。
　　此外，AutoDev 还将所有操作限制在 Docker 容器内，建立了一个安全的开发环境。该框架结合了防护栏以确保用户隐私和文件安全，允许用户在 AutoDev 中定义特定的允许或限制命令和操作。
　　研究团队在 HumanEval 数据集上对 AutoDev 进行了测试，在代码生成和测试生成方面分别取得了 91.5% 和 87.8% 的 Pass@1 好成绩，证明了它在自动执行软件工程任务的同时维护安全和用户控制的开发环境方面的有效性。

推荐文章： AutoDev 1.5.3：精准的自动化测试生成、本地模型强化与流程自动化优化
论文地址： /

(19) VLOGGER（Google图生音频驱动视频方法）

2024.03.14 Google Research提出了一种从单张人物输入图像生成音频驱动人类视频的方法——VLOGGER，它建立在最近成功的生成扩散模型基础之上。
　　VLOGGER由两部分组成，一是随机人体到三维运动扩散模型，二是一种基于扩散的新型架构，它通过空间和时间控制来增强文本到图像模型。这有助于生成长度可变的高质量视频，并可通过人脸和身体的高级表示轻松控制。
　　与之前的工作相比，这一方法不需要对每个人进行训练，不依赖于人脸检测和裁剪，能生成完整的图像（不仅仅是人脸或嘴唇），并能考虑广泛的情况（如可见躯干或不同的主体身份），这对于正确合成交流的人类至关重要。研究团队还提出了一个包含三维姿势和表情注释的全新多样化数据集 MENTOR，它比以前的数据集大一个数量级（800000 identities），并且包含动态手势。研究团队在其上训练并简化了他们的主要技术贡献。
　　VLOGGER 在三个公共基准测试中的表现达到了 SOTA，考虑到图像质量、身份保留和时间一致性，同时还能生成上半身手势。VLOGGER 在多个多样性指标方面的表现都表明其架构选择和 MENTOR 的使用有利于大规模训练一个公平、无偏见的模型。最后，研究团队还展示了在视频编辑和个性化方面的应用。

推荐文章： VLOGGER：基于多模态扩散的具身虚拟形象合成
论文地址： https://arxiv.org/pdf/2403.08764.pdf

(20) TextMonkey（Monkey多模态大模型在文档领域的应用）

2024.03.15 TextMonkey是Monkey在文档领域的重要升级，突破了通用文档理解能力的边界，在场景文字识别、办公文档摘要生成、数学问题问答、文档版式分析，表格理解，图表问答，电子文档关键信息抽取等12项等文档权威数据集以及在国际上规模最全的文档图像智能数据集OCRBench上取得了显著突破，通用文档理解性能大幅超越现有方法。
　　TextMonkey能帮助我们结构化图表、表格以及文档数据，通过将图像内容转化为轻量级的数据交换格式，方便记录和提取。TextMonkey也能作为智能手机代理，无需接触后端，仅需语音输入及屏幕截图，即能够模仿人类的点击手势，能够在手机上执行各种任务，自主操控手机应用程序。

推荐文章：
华科大研发多模态大模型“猴子”升级
[全网首发中文版]TextMonkey: An OCRFree Large Multimodal Model for Understanding Document
GitHub仓库地址： https://github.com/Yuliang-Liu/Monkey
论文地址： https://arxiv.org/pdf/2311.06607.pdf

(21) Open-Sora 1.0（文生视频大模型）

2024.03.17 Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型「Open-Sora 1.0」，涵盖了整个训练流程，包括数据处理、所有训练细节和模型权重，携手全球 AI 热爱者共同推进视频创作的新纪元。
　　Colossal-AI 团队深入解读 Sora 复现方案的多个关键维度，包括模型架构设计、训练复现方案、数据预处理、模型生成效果展示以及高效训练优化策略。

推荐文章：没等来OpenAI，等来了Open-Sora全面开源
GitHub仓库地址： https://github.com/hpcaitech/Open-Sora

(22) Grok-1（马斯克开源大语言模型）

2024.03.17 马斯克宣布开源Grok-1，这使得Grok-1成为当前参数量最大的开源大语言模型，拥有3140亿参数，远超OpenAI GPT-3.5的1750亿。有意思的是，Grok-1宣布开源的封面图为Midjourney生成，可谓“AI helps AI”。
　　Grok-1是一个规模较大（314B参数）的模型，需要有足够GPU内存的机器才能使用示例代码测试模型。网友表示这可能需要一台拥有628 GB GPU内存的机器。此外，该存储库中MoE层的实现效率并不高，之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。
　　目前已开源的热门大模型包括Meta的Llama2、法国的Mistral等。通常来说，发布开源模型有助于社区展开大规模的测试和反馈，意味着模型本身的迭代速度也能加快。

推荐文章：马斯克用行动反击开源自家顶级大模型压力给到OpenAI
GitHub仓库地址： https://github.com/xai-org/grok-1
官方博客： https://x.ai/blog/grok-os
模型磁力链接： https://academictorrents.com/details/5f96d43576e3d386c9ba65b883210a393b68210e

(23) Blackwell GB200（英伟达新一代AI加速卡）

2024.03.18 英伟达公司于2024年的GTC大会上宣布了下一代人工智能超级计算机的问世，同时推出了备受业界瞩目的AI加速卡——Blackwell GB200。这款加速卡的发布，标志着人工智能领域又迈出了坚实的一步，其强大的性能、成本及能耗的突破，预计将引领AI技术的全新发展。
　　Blackwell GB200采用了英伟达新一代AI图形处理器架构Blackwell，相较于前一代Hopper架构，其性能实现了巨大的飞跃。GB200由两个B200 Blackwell GPU和一个基于Arm的Grace CPU组成，这种独特的组合使得其在处理大语言模型推理任务时，性能比H100提升高达30倍。

推荐文章：性能飙升30倍，能耗骤降25倍！英伟达发布Blackwell GB200！

(24) Kimi（Moonshot AI 智能助手）

2024.03.18 国内 AI 创业公司月之暗面（Moonshot AI）宣布在大模型长上下文窗口技术上取得新的突破，Kimi智能助手已支持200万字超长无损上下文，短短五个月内“长文本”输入量提升10倍，并于即日起开启产品“内测”。
　　月之暗面创始人杨植麟博士表示，通往通用人工智能（AGI）的话，无损的长上下文将会是一个很关键的基础技术。历史上所有的模型架构演进，本质上都是在提升有效的、无损的上下文长度。上下文长度可能存在摩尔定律，但需要同时优化长度和无损压缩水平两个指标，才是有意义的规模化。
　　月之暗面联合创始人周昕宇则向钛媒体App透露，月之暗面即将在今年内推出自研的多模态大模型。同时，商业化也在快速推进。

推荐文章：对话月之暗面：Kimi智能助手支持200万字无损输入，年内将发布多模态模型｜钛媒体AGI

(25) Suno v3（音乐ChatGPT时刻）

2024.03.24 AI初创公司Suno AI重磅推出了第一款可制作「广播级」的音乐生成模型——V3，一时间在网上掀起轩然大波。仅用几秒的时间，V3便可以创作出2分钟的完整歌曲。为了激发人们的创作灵感，Suno v3还新增了更丰富的音乐风格和流派选项，比如古典音乐、爵士乐、Hiphop、电子等新潮曲风。

推荐文章：音乐ChatGPT时刻来临！Suno V3秒生爆款歌曲，12人团队创现象级AI

(26) Mora（Sora的通才视频生成模型）

2024.03.24 理海大学联手微软团队一种新型的多AI智能体框架———Mora。Mora更像是Sora的通才视频生成。通过整合多个SOTA的视觉AI智能体，来复现Sora展示的通用视频生成能力。具体来说，Mora能够利用多个视觉智能体，在多种任务中成功模拟Sora的视频生成能力，包括：

文本到视频生成基于文本条件的图像到视频生成扩展已生成视频视频到视频编辑拼接视频模拟数字世界

推荐文章： Sora不开源，微软给你开源！全球最接近Sora视频模型诞生，12秒生成效果逼真炸裂
论文地址： https://arxiv.org/abs/2403.13248

(27) Mistral 7B v0.2

2024.03.24 这次开源的 Mistral 7B v0.2 Base Model ，是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型，后者属于该公司的「Mistral Tiny」系列。
此次更新主要包括三个方面：

将 8K 上下文提到了 32K； Rope Theta = 1e6；取消滑动窗口。

推荐文章： 32K上下文，Mistral 7B v0.2 基模型突然开源了

大模型 sora 2024 多模态机器人 openai git github 智能体 pdf 文生图 llm 视频生成上下文 ide 软件工程 claude 生成式生成式ai gpt