【AIGC半月报】AIGC大模型启元:2024.08(下))
(1) Nemotron-4-Minitron(Nvidia LLM) (2) VITA(腾讯优图多模态大模型) (3) mPLUG-Owl3(阿里巴巴多模态大模型) (4) ADAS(自动化设计智能体系统) (5) Phi-3.5(微软小型LLM) (6) Transfusion(Meta多模态架构-Diffusion+Transformer) (7) Jamba-1.5(Transformer-Mamba) (8) Qwen2-VL(阿里对标GPT-4o) (9) GLM-4-Plus(智谱AI)(1) Nemotron-4-Minitron(Nvidia LLM)
2024.08.16 全球AI领导者英伟达(Nvidia)开源了最新大模型Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B。
据悉这两个模型是基于Meta开源的Llama-3.1 8B,但英伟达使用了两种高效的训练方法结构化剪枝和知识蒸馏。
相比从头训练,每个额外模型所需的训练token数据更少,仅需大约1000亿token,最多减少40倍,算力成本可节省1.8倍。性能却依然媲美Llama-3.1 8B、Mistral 7B、Gemma 7B等知名模型,而这些模型是在高达15万亿token数据训练而成。
推荐文章: 英伟达开源新大模型:训练数据减少40倍,算力节省1.8倍
模型地址:
4B开源地址:https://huggingface.co/nvidia/Nemotron-4-Minitron-4B-Base
8B开源地址:https://huggingface.co/nvidia/Nemotron-4-Minitron-8B-Base
(2) VITA(腾讯优图多模态大模型)
2024.08.16 GPT-4o 的卓越多模态能力和用户交互体验在实际应用中非常重要,但没有开源模型在这两个领域同时表现出色。本文介绍了 VITA,这是首个能够同时处理和分析视频、图像、文本和音频模态的开源多模态大语言模型(MLLM),并且具备先进的多模态交互体验。腾讯优图实验室在以下三个关键特性,与现有的开源 MLLM 有所区分:
全方位多模态理解能力:VITA 展示了强大的多语言、视觉和音频理解基础能力,并在多种单模态和多模态基准测试中表现优异。 非唤醒交互:VITA 可以在不需要唤醒词或按钮的情况下被激活,并对环境中的用户音频问题做出响应。 音频打断交互:VITA 能够实时跟踪和筛选外部查询,允许用户随时以新问题打断模型的生成,VITA 将根据新的查询做出相应的响应。推荐文章: 腾讯优图开源多模态大模型VITA : GPT-4o的简易平替!
论文地址: https://arxiv.org/pdf/2408.05211
Demo地址: https://vita-home.github.io/
开源地址: https://github.com/VITA-MLLM/VITA
(3) mPLUG-Owl3(阿里巴巴多模态大模型)
2024.08.19 阿里的mPLUG系列在多模态大模型领域产出了多项研究工作。从mPLUG-Owl初代模型引入了视觉对齐-语言模型微调的训练模式,到mPLUG-Owl2通过模块化的模态自适应解决模态拉扯,再到mPLUG-DocOwl通过切图建模高分辨率。这一系列模型一直在探索更为高效有效的多模态大语言模型。
尽管近年包括mPLUG-Owl在内的主流多模态大模型在多种单图任务上取得了一系列进展,当前对于多模态大模型来说,多图长序列输入仍然是一个极具挑战性的场景。如图所示的多模态多轮对话、多模态RAG、长视频理解等实际应用,就对模型的多图长序列理解能力提出了很高的要求。
现有的支持多图输入的工作,主要存在两个方面的缺陷:LLaVA-Next-Interleave等工作直接将视觉特征与文本序列拼接,在多图长序列输入时会带来很高的推理成本;Flamingo等使用的cross-attention结构,虽然降低了计算成本,但造成了细粒度视觉信息的损失,限制了其在单图和多图场景的性能。
针对上述问题,阿里通义实验室的研究人员提出通用多模态大模型mPLUG-Owl3,该模型能够在支持多图长序列输入的同时,兼顾性能和效率。为实现这一点,作者提出轻量级的hyper attention模块,实现视觉和语言信息的高效自适应融合。与相似参数规模的模型相比,mPLUG-Owl3在单图、多图、视频等多达14个benchmark上表现出SOTA性能
推荐文章: 阿里开源通用多模态大模型mPLUG-Owl3:迈向多图长序列理解
论文名称: mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
论文地址: https://arxiv.org/pdf/2408.04840
开源地址:
GitHub: https://github.com/X-PLUG/mPLUG-Owl/
HF:https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
魔搭:https://modelscope.cn/studios/iic/mPLUG-Owl3
(4) ADAS(自动化设计智能体系统)
2024.08.20 Agent智能体系统正在作为通用工具被广泛研究和应用,解决复杂问题通常需要由多个组件组成的复合智能体系统,而手工设计的解决方案最终会被学习到的更高效的解决方案所取代。
为此,提出了自动化设计智能体系统(ADAS:Automated Design of Agentic Systems,已开源)的新研究领域,目标是自动创建强大的智能体系统设计。
通过代码定义整个智能体系统,并由一个“元Agent”自动发现新的智能体,理论上允许ADAS算法发现任何可能的构建块和智能体系统。
自动化设计智能体系统(Automated Design of Agentic Systems):
ADAS的定义和目标
ADAS旨在自动发明新的构建块,并设计功能强大的智能体系统。智能体系统涉及使用基础模型(Foundation Models,简称FMs)作为模块,通过规划、使用工具和执行多步骤的迭代处理来完成任务。
ADAS的三个关键组成部分
自动化智能体系统设计(ADAS)的三个关键组成部分。搜索空间决定了ADAS中可以表示哪些Agent系统。搜索算法指定了ADAS方法如何探索搜索空间。评估函数定义了如何根据目标目标(如性能)评估候选Agent。
推荐文章: 极限套娃,Agent自动设计Agentic系统!
论文地址: https://arxiv.org/pdf/2408.08435
开源地址: https://github.com/ShengranHu/ADAS
(5) Phi-3.5(微软小型LLM)
2024.08.21 微软继今年4月推出Phi-3系列小型语言模型后,又一鼓作气三连发布并开源其「小而美」系列 Phi-3.5模型!
本次发布的三个模型各有特色:
Mini型:Phi-3.5-mini-instruct(3.8B)
Phi-3.5 mini 具有 38 亿个参数,基于Phi-3 的数据集(合成数据和经过筛选的公开网站)构建,重点关注高质量、推理密集的数据。该模型属于 Phi-3 模型系列,支持 128K 令牌上下文长度。该模型经过了严格的增强过程,结合了监督微调、近端策略优化和直接偏好优化,以确保精确遵守指令和强大的安全措施。Phi-3.5 mini 在中文场景有所增强,但是受限于模型的大小,依然会有较多的事实错误,通过RAG的方式可以有效降低错误。
MoE型:Phi-3.5-MoE-instruct (16x3.8B)
Phi-3.5-MoE-instruct是一个MoE模型,有 16x3.8B 个参数,使用 2 位专家时有 6.6B 个活动参数。该模型使用词汇量为 32,064 的标记器。Phi-3.5-MoE-instruct在推理能力上大大增强(尤其是数学和逻辑),也非常适用于function call的场景。
多模态:Phi-3.5-vision-instruct (4.2B)
Phi-3.5-vision-instruct 多模态版本可支持 128K 上下文长度(以 token 为单位)有 4.2B 参数,主要包含图像编码器和 Phi-3 Mini 语言模型。本次Phi-3.5-vision-instruct 支持多图理解,在如下场景上有较好的效果:
推荐文章: 多图理解,更懂中文,支持function call的Phi-3.5来了!
模型地址:
开源地址: https://github.com/microsoft/Phi-3CookBook
(6) Transfusion(Meta多模态架构-Diffusion+Transformer)
2024.08.24 Meta最新发布的Transfusion,能够训练生成文本和图像的统一模型了!完美融合Transformer和扩散领域之后,语言模型和图像大一统,又近了一步。也就是说,真正的多模态AI模型,可能很快就要来了!
Transformer和Diffusion,终于有了一次出色的融合。
自此,语言模型和图像生成大一统的时代,也就不远了!
这背后,正是Meta最近发布的Transfusion——一种训练能够生成文本和图像模型的统一方法。
推荐文章: 图像语言模型大一统!Meta新作Transfusion:将扩散和Transformer融合,多模态AI王者登场!
论文地址: https://arxiv.org/abs/2408.11039
(7) Jamba-1.5(Transformer-Mamba)
2024.08.27 Jamba-1.5,基于Jamba架构的新型指令调优大型语言模型。Jamba是一种混合Transformer-Mamba专家混合架构,能够在不同上下文长度下提供高吞吐量和低内存使用,同时保持与Transformer模型相同或更好的质量。
论文发布了两种模型尺寸:Jamba-1.5-Large,具有940亿活跃参数,以及Jamba-1.5-Mini,具有120亿活跃参数。这两种模型都针对多种对话和指令遵循能力进行了微调,并且具有256Ktoken的有效上下文长度,是开放权重模型中最大的。
为了支持成本效益高的推理,论文引入了ExpertsInt8,一种新颖的量化技术,允许在处理256K token上下文时,将Jamba-1.5-Large适配到具有8张80GB GPU的机器上,而不损失质量。在学术和聊天机器人基准测试中评估时,Jamba模型取得了优异的成绩,同时提供了高吞吐量,并在长上下文基准测试中超越了其他开放权重模型。
推荐文章: Jamba-1.5:大规模混合Transformer-Mamba模型
论文链接: https://arxiv.org/pdf/2408.12570
模型地址: https://huggingface.co/ai21labs
(8) Qwen2-VL(阿里对标GPT-4o)
2024.08.30 阿里巴巴开源了最新视觉多模态模型Qwen2-VL,根据测试数据显示,其72B模型在大部分指标超过了OpenAI的GPT-4o,Anthropic的Claude3.5-Sonnet等著名闭源模型,成为目前最强多模态模型之一。
Qwen2-VL支持中文、英文、日文、韩文等众多语言,可以在 Apache 2.0 协议下进行商业化使用。同时阿里发布了 Qwen2-VL-72B的API,帮助开发者增强或开发多模态功能的生成式AI应用。
Qwen2-VL是基于Qwen2开发而成,相比第一代Qwen-VL有以下特色功能。
可理解20分钟以上的长视频:Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。
例如,对于一部长达两个小时的纪录片,用户询问其中某个特定历史事件的具体时间和背景,Qwen2-VL 可以快速检索视频内容,从复杂的影像和解说中提取出关键信息,为用户提供详细准确的回答。
推荐文章: 阿里重磅开源Qwen2-VL:能理解超20分钟视频,媲美GPT-4o!
开源地址:
https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
https://github.com/QwenLM/Qwen2-VL
在线demo: https://huggingface.co/spaces/Qwen/Qwen2-VL
API: https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api
(9) GLM-4-Plus(智谱AI)
2024.08.29 智谱AI 在 KDD 2024 现场,重磅推出了新一代全自研基座大模型 GLM-4-Plus、图像/视频理解模型 GLM-4V-Plus 和文生图模型 CogView-3-Plus,继续瞄准通用人工智能(AGI)。
模型主要亮点如下:
据介绍,GLM-4-Plus 使用了大量模型辅助构造高质量合成数据以提升模型性能;利用 PPO 有效有效提升模型推理(数学、代码算法题等)表现,更好地反映人类偏好。
在语言文本能力方面,GLM-4-Plus 和 GPT-4o 及 Llama 3.1 405B 相当。
推荐文章: 刚刚,智谱AI推出新一代基座大模型GLM-4-Plus,性能全面提升,还有one more thing
总结
### AIGC半月报总结:2024.08(下)关键进展#### 1. **Nemotron-4-Minitron(Nvidia LLM)**
- **开源模型**:Nvidia开源了Nemotron-4-Minitron-4B和8B两个模型,基于Llama-3.1优化,使用结构化剪枝和知识蒸馏技术。
- **训练效率**:训练token数据减少40倍,算力成本节省1.8倍,性能仍媲美Llama-3.1、Mistral 7B等。
- **模型地址**:[4B](https://huggingface.co/nvidia/Nemotron-4-Minitron-4B-Base)、[8B](https://huggingface.co/nvidia/Nemotron-4-Minitron-8B-Base)
#### 2. **VITA(腾讯优图多模态大模型)**
- **多模态与交互**:VITA首个开源的能同时处理视频、图像、文本、音频的多模态大语言模型,具备全方位多模态理解和非唤醒交互能力。
- **核心特性**:全方位多模态理解、非唤醒交互、音频打断交互。
- **资料来源**:[论文](https://arxiv.org/pdf/2408.05211)、[Demo](https://vita-home.github.io/)、[开源](https://github.com/VITA-MLLM/VITA)
#### 3. **mPLUG-Owl3(阿里巴巴多模态大模型)**
- **多图长序列**:mPLUG-Owl3支持多图长序列输入,通过轻量级的hyper attention模块实现高效自适应融合。
- **性能卓越**:在单图、多图、视频等多任务上表现SOTA。
- **资料来源**:[论文](https://arxiv.org/pdf/2408.04840)、[GitHub](https://github.com/X-PLUG/mPLUG-Owl/)、[HF](https://huggingface.co/spaces/mPLUG/mPLUG-Owl3)
#### 4. **ADAS(自动化设计智能体系统)**
- **自动化设计**:ADAS通过代码定义智能体系统,由一个元Agent自动发现新智能体,旨在自动创建强大系统。
- **三个关键组成部分**:搜索空间、搜索算法、评估函数。
- **资料来源**:[论文](https://arxiv.org/pdf/2408.08435)、[开源](https://github.com/ShengranHu/ADAS)
#### 5. **Phi-3.5(微软小型LLM)**
- **系列发布**:Phi-3.5包含Mini型、MoE型、多模态版本,分别适用于不同场景,特别是中文增强和多图理解。
- **模型地址**:Mini型、MoE型、多模态版本均在[modelscope.cn](https://modelscope.cn/models/LLM-Research)
- **开源地址**:[GitHub](https://github.com/microsoft/Phi-3CookBook)
#### 6. **Transfusion(Meta多模态架构)**
- **统一模型**:融合Transformer和扩散模型,训练生成文本和图像的统一模型,推动多模态AI发展。
- **资料来源**:[论文](https://arxiv.org/abs/2408.11039)
#### 7. **Jamba-1.5(Transformer-Mamba)**
- **指令调优**:基于Jamba架构的指令调优大模型,支持高吞吐量和长上下文,成本效益高。
- **模型地址**:[Hugging Face](https://huggingface.co/ai21labs)
- **资料来源**:[论文](https://arxiv.org/pdf/2408.12570)
#### 8. **Qwen2-VL(阿里对标GPT-4o)**
- **多模态性能**:支持中文等多语言,在多种测试中超过GPT-4o和Claude,具备处理长视频等功能。
- **API与Demo**:提供API和在线Demo,促进多模态生成式AI应用开发。
- **资料来源**:API、[Hugging Face](https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d71269408