【AIGC半月报】AIGC大模型启元：2024.05（下）

AIGC大模型启元：2024.05（下）

(1) 豆包大模型（抖音大模型） (2) Project Astra（谷歌对标GPT-4o） (3) Chameleon（meta对标GPT-4o） (4) MiniCPM-Llama3-V 2.5（面壁智能“小钢炮”） (5) Copilot+ PC（微软集成GPT-4o） (6) CogVLM2（智谱AI多模态模型） (7) Baichuan4（百川智能升级LLM） (8) 前沿人工智能安全承诺（Frontier AI Safety Commitments） (9) TransformerFAM（Transformer架构升级） (10) YOLOv10（清华大学升级YOLO） (11) Aya 23（Cohere大模型） (12) Llama3-V（Llama3多模态模型） (13) SuperCLUE-Long（中文原生长文本测评基准） (14) Viva（类Sora免费模型）

(1) 豆包大模型（抖音大模型）

2024.05.15 2024春季火山引擎 FORCE 原动力大会在北京正式举办。会上正式发布了字节跳动豆包大模型家族、火山方舟2.0、AI 应用及 AI 云基础设施等最新产品
　　为助力企业做好大模型场景落地，字节跳动自主研发的豆包大模型将通过火山引擎正式对外提供服务，企业可根据自身业务场景需求灵活选择、快速落地：
　　（1）豆包通用模型pro：字节跳动自研LLM模型专业版，支持 128k 长文本，全系列可精调，具备更强的理解、生成、逻辑等综合能力，适配问答、总结、创作、分类等丰富场景；
　　（2）豆包通用模型lite：字节跳动自研LLM模型轻量版，对比专业版提供更低 token 成本、更低延迟，为企业提供灵活经济的模型选择；
　　（3）豆包·角色扮演模型：个性化的角色创作能力，更强的上下文感知和剧情推动能力，满足灵活的角色扮演需求；
　　（4）豆包·语音合成模型：提供自然生动的语音合成能力，善于表达多种情绪，演绎多种场景；
　　（5）豆包·声音复刻模型：5秒即可实现声音1:1克隆，对音色相似度和自然度进行高度还原，支持声音的跨语种迁移；
　　（6）豆包·语音识别模型：更高的准确率及灵敏度，更低的语音识别延迟，支持多语种的正确识别；
　　（7）豆包·文生图模型：更精准的文字理解能力，图文匹配更准确，画面效果更优美，擅长对中国文化元素的创作；
　　（8）豆包·Function call模型：提供更加准确的功能识别和参数抽取能力，适合复杂工具调用的场景；
　　（9）豆包·向量化模型：聚焦向量检索的使用场景，为 LLM 知识库提供核心理解能力，支持多语言。

推荐文章：
字节跳动大模型首次全员亮相：一口气9个，价格低99%，没有参数规模和榜单分数
节跳动豆包大模型发布，火山引擎全栈 AI 服务助力企业智能化转型
论文链接： /
代码链接： /

(2) Project Astra（谷歌对标GPT-4o）

2024.05.15 昨天被OpenAI提前截胡的谷歌，今天不甘示弱地开启反击！大杀器Project Astra效果不输GPT-4o，文生视频模型Veo硬刚Sora，用AI彻底颠覆谷歌搜索，Gemini 1.5 Pro达到200万token上下文……谷歌轰出一连串武器，对OpenAI贴脸开大。
　　首先，Gemini 1.5 Pro，上下文长度将达到惊人的200万token。然后，面对昨天OpenAI GPT-4o的挑衅，谷歌直接甩出大杀器Project Astra，视觉识别和语音交互效果，跟GPT-4o不相上下。接着，谷歌祭出文生视频模型Veo硬刚Sora，效果酷炫，时长超过1分钟，打破Sora纪录。最后来了一个重磅消息：谷歌搜索将被Gemini重塑，形态从此彻底改变！我们不再需要自己点进搜索结果，而是由多步骤推理的AI Overview来代办一切。

推荐文章：谷歌2小时疯狂复仇，终极杀器硬刚GPT-4o！Gemini颠覆搜索，视频AI震破Sora
申请入口： https://aitestkitchen.withgoogle.com/tools/video-fx
代码链接： /

(3) Chameleon（meta对标GPT-4o）

2024.05.19 GPT-4o发布不到一周，首个敢于挑战王者的新模型诞生！最近，Meta团队发布了「混合模态」Chameleon，可以在单一神经网络无缝处理文本和图像。10万亿token训练的34B参数模型性能接近GPT-4V，刷新SOTA。
　　与GPT-4o一样，Chameleon采用了统一的Transformer架构，使用文本、图像和代码混合模态完成训练。以类似文本生成的方式，对图像进行离散「分词化」（tokenization），最终生成和推理交错的文本和图像序列。
　　Meta研究团队引入了一系列架构创新和训练技术。结果表明，在纯文本任务中，340亿参数Chameleon（用10万亿多模态token训练）的性能和Gemini-Pro相当。在视觉问答和图像标注基准上，刷新SOTA，性能接近GPT-4V。不过，不论是GPT-4o，还是Chameleon，都是新一代「原生」端到端的多模态基础模型早期探索。
　　为了进一步评估模型生成多模态内容的质量，论文也在基准测试之外引入了人类评估实验，发现Chameleon-34B的表现远远超过了Gemini Pro和GPT-4V。相对于GPT-4V和Gemini Pro，人类评委分别打出了51.6%和60.4的偏好率。

推荐文章： Meta首发「变色龙」挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA
申请入口： /
代码链接： /

(4) MiniCPM-Llama3-V 2.5（面壁智能“小钢炮”）

2024.05.20 杀疯了！一夜之间，全球最强端侧多模态模型再次刷新，仅用8B参数，击败了多模态巨无霸Gemini Pro、GPT-4V。而且，其OCR长难图识别刷新SOTA，图像编码速度暴涨150倍。这是国产头部大模型公司献给开发者们最浪漫的520礼物。
　　来自国内大模型研发实力最头部的公司面壁智能——最新打造了面壁小钢炮MiniCPM-Llama3-V 2.5。拳打GPT-4V，脚踢Gemini Pro，仅仅8B参数就能击败多模态大模型王者。这个全球最强端侧多模态模型彻底「杀疯了」！

推荐文章：国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro！稳坐端侧多模态铁王座
开源地址：
https://github.com/OpenBMB/MiniCPM-V
https://github.com/OpenBMB/MiniCPM
Hugging Face下载地址： https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

(5) Copilot+ PC（微软集成GPT-4o）

2024.05.21 微软发布了Copilot+ PC，这是全球首个专为AI设计的Windows PC，也是Windows史上最强版本。据悉，Copilot+ PC内置了OpenAI的GPT-4o模型并搭载了超强芯片，每秒能执行40多万亿次操作。可提供实时的语音、语言翻译，实时绘画、文本、图片生成等一系列超强创新功能。
　　Recall是该产品的一大特色功能，可以帮助用户搜索、查看过去做过的任何事情，例如，用户在PC上打开了哪些应用，使用了哪些文档等。
　　可以像人的大脑一样记住所有见过、碰过的东西。为了安全性，用户可以手动删除这些操作镜像。
　　目前，联想、宏碁、华硕、戴尔、惠普和三星著名PC厂商已经与微软签订了合作协议，6月18日将正式发布不同型号的Copilot+ PC。
　　微软表示，Copilot+ PC只是刚开始，他们会通过生成式AI重塑整个PC生态，从底层硬件、芯片再到开发、软件应用层等，这将是Windows平台诞生至今几十年最重要的技术变革。

推荐文章：微软发布Copilot+ PC：集成GPT-4o，史上最强、最快Windows！
开源地址： /

(6) CogVLM2（智谱AI多模态模型）

2024.05.22 开源多模态SOTA模型再易主！Hugging Face开发者大使刚刚把王冠交给了CogVLM2，来自大模型创业公司智谱AI。CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro，还不是超过一点，是大幅领先。
　　CogVLM2整体模型参数量仅19B，却能在多项指标取得接近或超过GPT-4V的水平，此外还有几大亮点：

支持8K文本长度支持高达1344*1344的图像分辨率提供支持中英文双语的开源模型版本开源可商用

推荐文章：开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑
代码仓库： https://github.com/THUDM/CogVLM2
模型下载：
Huggingface：https://huggingface.co/THUDM
魔搭社区：https://modelscope.cn/models/ZhipuAI
始智社区：https://wisemodel.cn/models/ZhipuAI
Demo体验： http://36.103.203.44:7861

(7) Baichuan4（百川智能升级LLM）

2024.05.22 百川智能正式发布Baichuan4。

结论1：国内最佳成绩
在SuperCLUE综合基准上的评测中，Baichuan4以总得分80.64分刷新了国内记录。不仅如此，它在中文综合能力测试中以1.51分的领先优势超过了GPT-4-Turbo-0125，展现了其在大模型方面的强大实力。结论2：分类任务表现分析
理科表现：在理科领域，Baichuan4虽然以国内最佳成绩领先，但与GPT-4-Turbo-0125相比还有4.23分的差距，显示出进一步优化的空间。
文科表现：在文科任务中，Baichuan4以83.13分的高分不仅领先国内，也是国际上的最高分，比GPT-4-Turbo-0125高出5.33分，验证了其在文科领域的卓越能力。结论3：全面而均衡的能力展示
Baichuan4在多个领域展示了其均衡的能力，特别是在知识百科、长文本理解、工具使用、语义理解和创意生成等方面处于领先地位。这使得Baichuan4非常适合应用于知识运用、智能体、内容创作和长程对话等多种场景。然而，它在代码能力方面仍有提升的潜力。

推荐文章：国内大模型竞争加剧！百川智能「Baichuan4」全网首测，以总分80.64刷新SuperCLUE中文基准
代码仓库： /
Demo体验： https://www.baichuan-ai.com/

(8) 前沿人工智能安全承诺（Frontier AI Safety Commitments）

2024.05.22 人工智能史上的一个重大时刻：OpenAI、谷歌、微软和智谱AI 等来自不同国家和地区的公司共同签署了前沿人工智能安全承诺（Frontier AI Safety Commitments）；欧盟理事会正式批准了《人工智能法案》（AI Act），全球首部 AI 全面监管法规即将生效。
　　前沿人工智能安全承诺，包括以下要点：

确保前沿 AI 安全的负责任治理结构和透明度；基于人工智能安全框架，负责任地说明将如何衡量前沿 AI 模型的风险；建立前沿 AI 安全模型风险缓解机制的明确流程。

图灵奖得主 Yoshua Bengio 认为，前沿人工智能安全承诺的签署“标志着在建立国际治理制度以促进人工智能安全方面迈出了重要一步”。
作为来自中国的大模型公司，智谱 AI 也签署了这一新的前沿人工智能安全承诺

推荐文章： OpenAI、微软、智谱AI等全球16家公司共同签署前沿人工智能安全承诺

(9) TransformerFAM（Transformer架构升级）

2024.05.24 Transformer对大模型界的影响力不言而喻，ChatGPT、Sora、Stable Difusion等知名模型皆使用了该架构。
　　但有一个很明显的缺点，其注意力复杂度的二次方增长在处理书籍、PDF等超长文档时会显著增加算力负担。
　　虽然会通过滑动窗口注意力和稀疏注意力等技术来解决这一问题,在处理极长序列时仍存在局限性。
　　因此，谷歌的研究人员提出了全新架构TransformerFAM，可以无缝与预训练模型集成,并通过LoRA进行少量精调从而大幅度提升模型性能。
　　研究人员在1B、8B和24B三种参数的Flan-PaLM大语言模型上评估了Transformer FAM的性能。实验结果显示,与Transformer架构相比,TransformerFAM在长序列任务上取得了好的能力并且资源消耗更低。

推荐文章：谷歌推出TransformerFAM架构，以更低的消耗处理长序列文本
论文地址： https://arxiv.org/abs/2404.09173

(10) YOLOv10（清华大学升级YOLO）

2024.05.25 YOLOv9刚出才3个月时间，清华大学更新YOLO系列模型，YOLOv10正式发布。
　　YOLOv10在YOLO系列的基础上进行了优化和改进，旨在提高性能和效率之间的平衡。首先，作者提出了连续双分配方法，以实现NMS-free训练，从而降低了推理延迟并提高了模型的性能。其次，作者采用了全面的效率-准确性驱动的设计策略，对YOLO的各种组件进行了综合优化，大大减少了计算开销，并增强了模型的能力。实验结果表明，YOLOv10在各种模型规模下都取得了最先进的性能和效率表现。例如，YOLOv10-S比RT-DETR-R18快1.8倍，同时拥有更小的参数数量和FLOPs；与YOLOv9-C相比，YOLOv10-B的延迟减少了46%，参数减少了25%，但保持了相同的性能水平。
　　

推荐文章：
YOLOv10论文解读：实时端到端的目标检测模型，检测效率大幅提升！
目标检测YOLOv10开源，实时端到端算法，检测效率大幅提升！（附论文及源码）
论文及源码地址： https://pan.baidu.com/s/16L8Sw-jMLSSUSe8aa9cJSg?pwd=dfJ3

(11) Aya 23（Cohere大模型）

2024.05.24 知名开源大模型厂商Cohere开源了新一代大模型——Aya 23。据悉，Aya 23共有80亿和350亿两种参数，支持阿拉伯语、中文（简体和繁体）、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语等23种语言，可生成文本、代码、总结内容等。
　　目前，Cohere已经全面开放了Aya 23的权重，在遵守CC-BY-NC、C4AI的策略下可以商业化。
　　在预训练方面，Aya 23基于Cohere Command系列模型，使用包括23种语言文本的数据混合进行预训练。Aya-23-35B是Cohere Command R的进一步微调版本。预训练模型采用了标准的仅解码器Transformer架构，并行注意力和FFN层、SwiGLU激活、无偏置、RoPE（旋转位置嵌入）、BPE分词器以及分组查询注意力（GQA）。
　　实验数据显示，在鉴别性任务上，Aya 23模型在所有未见过的任务上都表现出色，这些任务包括XWinograd、XCOPA和XStoryCloze，使用零样本评估。

推荐文章：支持中文、开放权重，Cohere最新开源大模型Aya 23
模型地址：
https://huggingface.co/CohereForAI/aya-23-35B
https://huggingface.co/CohereForAI/aya-23-8B

(12) Llama3-V（Llama3多模态模型）

2024.05.30 Llama3席卷全球，在几乎所有基准测试中都优于GPT3.5，在部分基准测试中优于GPT4。然后GPT4o出来了，用它的多模式技巧重新夺回了宝座。然后，一个建立在Llama3之上的多模式模型Llama3-V就出现了。
　　Llama3-V相比当前最先进的多模态理解模型Llava，在多项指标上实现了10%-20%的提升。此外，它在不牺牲任何参数表现的前提下，展现了与闭源模型相抗衡的实力，性价比高达百倍。

LLama3-V 的出现挑战了 GPT4-V 的主导地位，它在多模态理解方面实现了与 GPT4-V 相当或更好的性能，且成本远低。 SigLIP 模型在处理图像方面表现出色，它能够有效地将图像信息嵌入到模型中，并且与文本信息很好地对齐。系统优化对于大型模型的训练和推理至关重要，LLama3-V 通过缓存和 MPS/MLX 优化，显著提高了计算效率。预训练和监督微调的策略对于模型性能的提升至关重要，LLama3-V 在这两个阶段都采用了有效的方法来更新模型权重。开源模型的发展对于推动 AI 领域的进步和降低研发门槛至关重要，LLama3-V 作为一个开源模型，为社区提供了一个强大的工具。

推荐文章：又一多模态模型开源 — Llama3-V
模型地址：
https://github.com/mustafaaljadery/llama3v
https://huggingface.co/mustafaaljadery/llama3v/tree/main

(13) SuperCLUE-Long（中文原生长文本测评基准）

2024.05.30 随着大语言模型应用的推广，越来越多的用户开始参与到模型的使用中，进而对模型的性能也提出了更多的要求。“长文本”作为用户普遍关注的热点话题，是目前国内外企业重点推进的项目，例如OpenAI推出的GPT-4 Turbo-128k；Anthropic推出的Claude3-200k。国内的企业，如月之暗面也推出了支持200万字输入的Kimi，阿里旗下的通义千问免费开放了支持1000万字的长文本处理功能。
　　为了衡量国内外长文本大模型的发展水平，为用户提供更为直观的、专业的长文本大模型体验报告，考量国内长文本大模型的落地实况，协助国内长文本大模型突破发展瓶颈，我们推出了中文原生长文本测评基准SuperCLUE-Long（SC-Long），旨在为长文本大模型发展现状进行量化评估。

推荐文章： SuperCLUE-Long：中文原生长文本测评基准
模型地址： /
项目地址： https://github.com/CLUEbenchmark/SuperCLUE-Long

(14) Viva（类Sora免费模型）

2024.05.31 在数字化时代，视频已成为信息传播的重要媒介，而今，Viva的诞生，为视频创作带来了革命性的变革，这不仅仅是一个工具，更是一个创意无限的平台。
　　Viva，作为全球首个类Sora的开源应用，为视频创作者带来了全新的体验，以其免费、易用、功能强大的特点，迅速成为视频创作者的新宠。
　　它不仅支持文生视频和图生视频，还特别支持4K分辨率，最吸引人的是，这一切都是完全免费的。
功能特点：

文生视频：将文本内容转化为视频。图生视频：将图片转化为视频。 4K分辨率：提供高清的视频输出。 AI完善Prompt：智能提示，帮助用户自动完善输入指令。画框大小调节：支持1:1、16:9和9:16的传统画框比例。

推荐文章：
全球首个类Sora的免费文生视频模型还支持4K分辨率——Viva
不只是Sora——Viva（全球首个免费文生视频模型）
模型地址： /
体验地址： https://vivago.ai/video?type=1