【AIGC半月报】AIGC大模型启元：2024.08（下）

【AIGC半月报】AIGC大模型启元：2024.08（下））

(1) Nemotron-4-Minitron（Nvidia LLM） (2) VITA（腾讯优图多模态大模型） (3) mPLUG-Owl3（阿里巴巴多模态大模型） (4) ADAS（自动化设计智能体系统） (5) Phi-3.5（微软小型LLM） (6) Transfusion（Meta多模态架构-Diffusion+Transformer） (7) Jamba-1.5（Transformer-Mamba） (8) Qwen2-VL（阿里对标GPT-4o） (9) GLM-4-Plus（智谱AI）

(1) Nemotron-4-Minitron（Nvidia LLM）

2024.08.16 全球AI领导者英伟达（Nvidia）开源了最新大模型Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B。
　　据悉这两个模型是基于Meta开源的Llama-3.1 8B，但英伟达使用了两种高效的训练方法结构化剪枝和知识蒸馏。
　　相比从头训练，每个额外模型所需的训练token数据更少，仅需大约1000亿token，最多减少40倍，算力成本可节省1.8倍。性能却依然媲美Llama-3.1 8B、Mistral 7B、Gemma 7B等知名模型，而这些模型是在高达15万亿token数据训练而成。

推荐文章：英伟达开源新大模型：训练数据减少40倍，算力节省1.8倍
模型地址：
4B开源地址：https://huggingface.co/nvidia/Nemotron-4-Minitron-4B-Base
8B开源地址：https://huggingface.co/nvidia/Nemotron-4-Minitron-8B-Base

(2) VITA（腾讯优图多模态大模型）

2024.08.16 GPT-4o 的卓越多模态能力和用户交互体验在实际应用中非常重要，但没有开源模型在这两个领域同时表现出色。本文介绍了 VITA，这是首个能够同时处理和分析视频、图像、文本和音频模态的开源多模态大语言模型（MLLM），并且具备先进的多模态交互体验。腾讯优图实验室在以下三个关键特性，与现有的开源 MLLM 有所区分：

全方位多模态理解能力：VITA 展示了强大的多语言、视觉和音频理解基础能力，并在多种单模态和多模态基准测试中表现优异。非唤醒交互：VITA 可以在不需要唤醒词或按钮的情况下被激活，并对环境中的用户音频问题做出响应。音频打断交互：VITA 能够实时跟踪和筛选外部查询，允许用户随时以新问题打断模型的生成，VITA 将根据新的查询做出相应的响应。

推荐文章：腾讯优图开源多模态大模型VITA : GPT-4o的简易平替！
论文地址： https://arxiv.org/pdf/2408.05211
Demo地址： https://vita-home.github.io/
开源地址： https://github.com/VITA-MLLM/VITA

(3) mPLUG-Owl3（阿里巴巴多模态大模型）

2024.08.19 阿里的mPLUG系列在多模态大模型领域产出了多项研究工作。从mPLUG-Owl初代模型引入了视觉对齐-语言模型微调的训练模式，到mPLUG-Owl2通过模块化的模态自适应解决模态拉扯，再到mPLUG-DocOwl通过切图建模高分辨率。这一系列模型一直在探索更为高效有效的多模态大语言模型。
　　尽管近年包括mPLUG-Owl在内的主流多模态大模型在多种单图任务上取得了一系列进展，当前对于多模态大模型来说，多图长序列输入仍然是一个极具挑战性的场景。如图所示的多模态多轮对话、多模态RAG、长视频理解等实际应用，就对模型的多图长序列理解能力提出了很高的要求。
　　现有的支持多图输入的工作，主要存在两个方面的缺陷：LLaVA-Next-Interleave等工作直接将视觉特征与文本序列拼接，在多图长序列输入时会带来很高的推理成本；Flamingo等使用的cross-attention结构，虽然降低了计算成本，但造成了细粒度视觉信息的损失，限制了其在单图和多图场景的性能。
　　针对上述问题，阿里通义实验室的研究人员提出通用多模态大模型mPLUG-Owl3，该模型能够在支持多图长序列输入的同时，兼顾性能和效率。为实现这一点，作者提出轻量级的hyper attention模块，实现视觉和语言信息的高效自适应融合。与相似参数规模的模型相比，mPLUG-Owl3在单图、多图、视频等多达14个benchmark上表现出SOTA性能

推荐文章：阿里开源通用多模态大模型mPLUG-Owl3：迈向多图长序列理解
论文名称： mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
论文地址： https://arxiv.org/pdf/2408.04840
开源地址：
GitHub: https://github.com/X-PLUG/mPLUG-Owl/
HF：https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
魔搭：https://modelscope.cn/studios/iic/mPLUG-Owl3

(4) ADAS（自动化设计智能体系统）

2024.08.20 Agent智能体系统正在作为通用工具被广泛研究和应用，解决复杂问题通常需要由多个组件组成的复合智能体系统，而手工设计的解决方案最终会被学习到的更高效的解决方案所取代。
　　为此，提出了自动化设计智能体系统（ADAS：Automated Design of Agentic Systems，已开源）的新研究领域，目标是自动创建强大的智能体系统设计。
通过代码定义整个智能体系统，并由一个“元Agent”自动发现新的智能体，理论上允许ADAS算法发现任何可能的构建块和智能体系统。
　　自动化设计智能体系统（Automated Design of Agentic Systems）：
ADAS的定义和目标
ADAS旨在自动发明新的构建块，并设计功能强大的智能体系统。智能体系统涉及使用基础模型（Foundation Models，简称FMs）作为模块，通过规划、使用工具和执行多步骤的迭代处理来完成任务。
ADAS的三个关键组成部分
自动化智能体系统设计（ADAS）的三个关键组成部分。搜索空间决定了ADAS中可以表示哪些Agent系统。搜索算法指定了ADAS方法如何探索搜索空间。评估函数定义了如何根据目标目标（如性能）评估候选Agent。

搜索空间（Search Space）：定义了ADAS中可以表示哪些智能体系统。例如，一些研究只变异智能体的文本提示，而其他组件（如控制流）保持不变。搜索算法（Search Algorithm）：指定了ADAS方法如何探索搜索空间。由于搜索空间通常非常大甚至无界，需要考虑探索与利用的权衡。评估函数（Evaluation Function）：根据ADAS算法的应用，可能考虑不同的目标来优化，如性能、成本、延迟或智能体的安全性。评估函数定义了如何在这些目标上评估候选智能体。

推荐文章：极限套娃，Agent自动设计Agentic系统！
论文地址： https://arxiv.org/pdf/2408.08435
开源地址： https://github.com/ShengranHu/ADAS

(5) Phi-3.5（微软小型LLM）

2024.08.21 微软继今年4月推出Phi-3系列小型语言模型后，又一鼓作气三连发布并开源其「小而美」系列 Phi-3.5模型！
本次发布的三个模型各有特色：
Mini型：Phi-3.5-mini-instruct(3.8B)

Phi-3.5 mini 具有 38 亿个参数，基于Phi-3 的数据集（合成数据和经过筛选的公开网站）构建，重点关注高质量、推理密集的数据。该模型属于 Phi-3 模型系列，支持 128K 令牌上下文长度。该模型经过了严格的增强过程，结合了监督微调、近端策略优化和直接偏好优化，以确保精确遵守指令和强大的安全措施。Phi-3.5 mini 在中文场景有所增强，但是受限于模型的大小，依然会有较多的事实错误，通过RAG的方式可以有效降低错误。

MoE型：Phi-3.5-MoE-instruct (16x3.8B)
Phi-3.5-MoE-instruct是一个MoE模型，有 16x3.8B 个参数，使用 2 位专家时有 6.6B 个活动参数。该模型使用词汇量为 32,064 的标记器。Phi-3.5-MoE-instruct在推理能力上大大增强（尤其是数学和逻辑），也非常适用于function call的场景。

多模态：Phi-3.5-vision-instruct (4.2B)
Phi-3.5-vision-instruct 多模态版本可支持 128K 上下文长度（以 token 为单位）有 4.2B 参数，主要包含图像编码器和 Phi-3 Mini 语言模型。本次Phi-3.5-vision-instruct 支持多图理解，在如下场景上有较好的效果：

一般图像理解；光学字符识别 (OCR) 图表和表格理解；多幅图像比较；多图像或视频片段摘要

推荐文章：多图理解，更懂中文，支持function call的Phi-3.5来了！
模型地址：

Phi-3.5-mini-instruct：https://modelscope.cn/models/LLM-Research/Phi-3.5-mini-instruct Phi-3.5-MoE-instruct：https://modelscope.cn/models/LLM-Research/Phi-3.5-MoE-instruct Phi-3.5-vision-instruct ：https://modelscope.cn/models/LLM-Research/Phi-3.5-vision-instruct Phi-3.5-mini-instruct-GGUF：https://modelscope.cn/models/LLM-Research/Phi-3.5-mini-instruct-GGUF

开源地址： https://github.com/microsoft/Phi-3CookBook

(6) Transfusion（Meta多模态架构-Diffusion+Transformer）

2024.08.24 Meta最新发布的Transfusion，能够训练生成文本和图像的统一模型了！完美融合Transformer和扩散领域之后，语言模型和图像大一统，又近了一步。也就是说，真正的多模态AI模型，可能很快就要来了！
Transformer和Diffusion，终于有了一次出色的融合。
自此，语言模型和图像生成大一统的时代，也就不远了！
这背后，正是Meta最近发布的Transfusion——一种训练能够生成文本和图像模型的统一方法。

推荐文章：图像语言模型大一统！Meta新作Transfusion：将扩散和Transformer融合，多模态AI王者登场！
论文地址： https://arxiv.org/abs/2408.11039

(7) Jamba-1.5（Transformer-Mamba）

2024.08.27 Jamba-1.5，基于Jamba架构的新型指令调优大型语言模型。Jamba是一种混合Transformer-Mamba专家混合架构，能够在不同上下文长度下提供高吞吐量和低内存使用，同时保持与Transformer模型相同或更好的质量。
　　论文发布了两种模型尺寸：Jamba-1.5-Large，具有940亿活跃参数，以及Jamba-1.5-Mini，具有120亿活跃参数。这两种模型都针对多种对话和指令遵循能力进行了微调，并且具有256Ktoken的有效上下文长度，是开放权重模型中最大的。
　　为了支持成本效益高的推理，论文引入了ExpertsInt8，一种新颖的量化技术，允许在处理256K token上下文时，将Jamba-1.5-Large适配到具有8张80GB GPU的机器上，而不损失质量。在学术和聊天机器人基准测试中评估时，Jamba模型取得了优异的成绩，同时提供了高吞吐量，并在长上下文基准测试中超越了其他开放权重模型。

推荐文章： Jamba-1.5：大规模混合Transformer-Mamba模型
论文链接： https://arxiv.org/pdf/2408.12570
模型地址： https://huggingface.co/ai21labs

(8) Qwen2-VL（阿里对标GPT-4o）

2024.08.30 阿里巴巴开源了最新视觉多模态模型Qwen2-VL，根据测试数据显示，其72B模型在大部分指标超过了OpenAI的GPT-4o，Anthropic的Claude3.5-Sonnet等著名闭源模型，成为目前最强多模态模型之一。
　　Qwen2-VL支持中文、英文、日文、韩文等众多语言，可以在 Apache 2.0 协议下进行商业化使用。同时阿里发布了 Qwen2-VL-72B的API，帮助开发者增强或开发多模态功能的生成式AI应用。
　　Qwen2-VL是基于Qwen2开发而成，相比第一代Qwen-VL有以下特色功能。
可理解20分钟以上的长视频：Qwen2-VL 可理解长视频，并将其用于基于视频的问答、对话和内容创作等应用中。
例如，对于一部长达两个小时的纪录片，用户询问其中某个特定历史事件的具体时间和背景，Qwen2-VL 可以快速检索视频内容，从复杂的影像和解说中提取出关键信息，为用户提供详细准确的回答。

Qwen2-VL还可以根据长视频的内容进行故事续写、影评撰写或者创意改编。例如，一个 30 分钟的科普长视频，Qwen2-VL 可以提取其中的核心知识，创作出一篇通俗易懂的科普文章，或者以视频中的某个情节为灵感构思出一部全新的小说。可操作手机和机器人的视觉智能体：借助复杂推理和决策的能力，Qwen2-VL 可集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作。能读懂不同分辨率和不同长宽比的图片：Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA等视觉理解基准测试中取得了全球领先的表现。性能评估方面，阿里从大学题目、数学、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent进行了综合测试。

推荐文章：阿里重磅开源Qwen2-VL：能理解超20分钟视频，媲美GPT-4o！
开源地址：
https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
https://github.com/QwenLM/Qwen2-VL
在线demo： https://huggingface.co/spaces/Qwen/Qwen2-VL
API： https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

(9) GLM-4-Plus（智谱AI）

2024.08.29 智谱AI 在 KDD 2024 现场，重磅推出了新一代全自研基座大模型 GLM-4-Plus、图像/视频理解模型 GLM-4V-Plus 和文生图模型 CogView-3-Plus，继续瞄准通用人工智能（AGI）。
模型主要亮点如下：

语言基座模型 GLM-4-Plus：在语言理解、指令遵循、长文本处理等方面性能得到全面提升，保持了国际领先水平。文生图模型 CogView-3-Plus：具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。图像/视频理解模型 GLM-4V-Plus：具备卓越的图像理解能力，并具备基于时间感知的视频理解能力。该模型将上线智谱大模型开放平台（bigmodel.cn），成为国内首个通用视频理解模型 API。

据介绍，GLM-4-Plus 使用了大量模型辅助构造高质量合成数据以提升模型性能；利用 PPO 有效有效提升模型推理（数学、代码算法题等）表现，更好地反映人类偏好。

在语言文本能力方面，GLM-4-Plus 和 GPT-4o 及 Llama 3.1 405B 相当。

推荐文章：刚刚，智谱AI推出新一代基座大模型GLM-4-Plus，性能全面提升，还有one more thing

总结

### AIGC半月报总结：2024.08（下）关键进展
#### 1. **Nemotron-4-Minitron（Nvidia LLM）**
- **开源模型**：Nvidia开源了Nemotron-4-Minitron-4B和8B两个模型，基于Llama-3.1优化，使用结构化剪枝和知识蒸馏技术。
- **训练效率**：训练token数据减少40倍，算力成本节省1.8倍，性能仍媲美Llama-3.1、Mistral 7B等。
- **模型地址**：[4B](https://huggingface.co/nvidia/Nemotron-4-Minitron-4B-Base)、[8B](https://huggingface.co/nvidia/Nemotron-4-Minitron-8B-Base)
#### 2. **VITA（腾讯优图多模态大模型）**
- **多模态与交互**：VITA首个开源的能同时处理视频、图像、文本、音频的多模态大语言模型，具备全方位多模态理解和非唤醒交互能力。
- **核心特性**：全方位多模态理解、非唤醒交互、音频打断交互。
- **资料来源**：[论文](https://arxiv.org/pdf/2408.05211)、[Demo](https://vita-home.github.io/)、[开源](https://github.com/VITA-MLLM/VITA)
#### 3. **mPLUG-Owl3（阿里巴巴多模态大模型）**
- **多图长序列**：mPLUG-Owl3支持多图长序列输入，通过轻量级的hyper attention模块实现高效自适应融合。
- **性能卓越**：在单图、多图、视频等多任务上表现SOTA。
- **资料来源**：[论文](https://arxiv.org/pdf/2408.04840)、[GitHub](https://github.com/X-PLUG/mPLUG-Owl/)、[HF](https://huggingface.co/spaces/mPLUG/mPLUG-Owl3)
#### 4. **ADAS（自动化设计智能体系统）**
- **自动化设计**：ADAS通过代码定义智能体系统，由一个元Agent自动发现新智能体，旨在自动创建强大系统。
- **三个关键组成部分**：搜索空间、搜索算法、评估函数。
- **资料来源**：[论文](https://arxiv.org/pdf/2408.08435)、[开源](https://github.com/ShengranHu/ADAS)
#### 5. **Phi-3.5（微软小型LLM）**
- **系列发布**：Phi-3.5包含Mini型、MoE型、多模态版本，分别适用于不同场景，特别是中文增强和多图理解。
- **模型地址**：Mini型、MoE型、多模态版本均在[modelscope.cn](https://modelscope.cn/models/LLM-Research)
- **开源地址**：[GitHub](https://github.com/microsoft/Phi-3CookBook)
#### 6. **Transfusion（Meta多模态架构）**
- **统一模型**：融合Transformer和扩散模型，训练生成文本和图像的统一模型，推动多模态AI发展。
- **资料来源**：[论文](https://arxiv.org/abs/2408.11039)
#### 7. **Jamba-1.5（Transformer-Mamba）**
- **指令调优**：基于Jamba架构的指令调优大模型，支持高吞吐量和长上下文，成本效益高。
- **模型地址**：[Hugging Face](https://huggingface.co/ai21labs)
- **资料来源**：[论文](https://arxiv.org/pdf/2408.12570)
#### 8. **Qwen2-VL（阿里对标GPT-4o）**
- **多模态性能**：支持中文等多语言，在多种测试中超过GPT-4o和Claude，具备处理长视频等功能。
- **API与Demo**：提供API和在线Demo，促进多模态生成式AI应用开发。
- **资料来源**：API、[Hugging Face](https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d71269408

多模态智能体大模型 mba llm git github transformer 2024 huggingface arxiv 语言模型 gpt-4 gpt pdf 上下文 token 自动化 api 自动化设计