混合专家 - AIGC资讯

AI智能体到底该怎么搞，腾讯元器先打了个样

如果说2023年科技圈的关键词是“大模型”，那么到了2024年，大家更关心的就已经不再是大模型本身，而是能用大模型来干什么。在此前经历了喧嚣的“百模大战”之后，大模型的商业化成为了摆在国内AI厂商面前最重要的一个挑战，在目前的一众AI产品里，AI智能体（A...

生成式AI 2024-10-03 人工智能

1139阅读

混合专家模型（MoE）入门

模型规模是提升LLM大语言模型性能的关键因素，但也会增加计算成本。Mixture of Experts (MoE 架构通过分布式专家层和动态门控机制，有效降低了计算资源，使模型能够在扩展参数规模的同时保持高效的运行。 Mixtral of Exper...

生成式AI 2024-09-06 人工智能

884阅读

7 大国产大模型：KimiChat、豆包、文心一言、智谱清言、通义千问、讯飞星火、天工AI，到底哪家强？

有的朋友还不了解 AI 工具，或者跟老王一样，不知道该选哪个 AI 工具。怎么办？先看看别人都用哪个。新榜（著名三方自媒体数据平台），根据各自媒体平台的数据，统计了 AI 产品的用户使用等多个维度，分析得出了综合评分，展示如下。第 3 和...

生成式AI 2024-08-30 人工智能

4116阅读

LLAMA 3.1 论文的见解

这有什么大不了的？ LLAMA 3.1 的发布标志着 AI 开发的一个重要里程碑。开源模型首次接近领先的闭源模型的性能水平。这一转变预示着未来开源模型同样有效，任何人都可以灵活地修改和调整它们。马克·扎克伯格将此与 Linux 的开源性质进行了比较，...

AIGC 2024-08-26 人工智能

955阅读

LLaMA-MoE：基于参数复用的混合专家模型构建方法探索

自Mixtral以来，大家对混合专家模型（Mixture-of-Experts，MoE）的关注越来越高。然而从零训练MoE模型的成本极大，需要耗费海量的计算资源。为此，我们探索了一种基于参数复用的MoE快速构建方法。该方法首先将LLaMA...

人工智能 2024-07-30 人工智能

708阅读

突破AI性能瓶颈揭秘LLaMA-MoE模型的高效分配策略

获取本文论文原文PDF，请在公众号【AI论文解读】留言：论文解读本文介绍了一种名为“LLaMA-MoE”的方法，通过将现有的大型语言模型（LLMs）转化为混合专家网络（MoE），从而解决了训练MoE时遇到的数据饥饿和不稳定性问题。该方法基于著名的LLa...

AIGC 2024-07-13 人工智能

797阅读

混合专家模型和LLAMA的详细配置

文章目录混合专家模型 LLAMA的详细配置混合专家模型大语言模型能够通过扩展参数规模实现性能的提升。然而，随着模型参数规模的扩大，计算成本也随之增加。为了解决这一问题，研究人员在大语言模...

生成式AI 2024-06-26 人工智能

778阅读

一周SOTA：Meta 发布 Llama 3；Mistral AI 开源 Mixtral 8x22B；阿里开源代码模型CodeQwen1.5；面壁 MiniCPM 2.0 发布

文章目录一周SOTA：Meta 发布 Llama 3；Mistral AI 开源 Mixtral 8x22B；阿里开源代码模型CodeQwen1.5；面壁 MiniCPM 2.0 发布 1.Meta 震撼发布 Llama 3，8B、70B模...

大数据 2024-06-18 人工智能

971阅读

马斯克烧60亿美元难题，国内大厂有解？开源MoE模算效率黑马登场，3.7B参数单挑Llama 3-70B

如今，想训个SOTA的大模型，不仅缺数据和算力，甚至连电都不够用了。最近马斯克就公开表示，因为苦于买不到足够的芯片，xAI只能推迟Gork 2的训练和发布。 Grok 3及更高版本，甚至需要10万个H100，按每台H100售价3万美元来算，仅芯片就要花...

人工智能 2024-05-29 人工智能

771阅读

马斯克xAI官宣435亿元B轮融资：估值已突破1300亿！

快科技5月27日消息，埃隆马斯克旗下的人工智能初创企业xAI近日宣布，已经成功完成60亿美元（约合435亿元人民币）的B轮融资，公司估值达到180亿美元（约合1304亿元人民币）。本轮融资的主要投资者包括Valor Equity Partners、Vy...

人工智能 2024-05-27 人工智能

638阅读

腾讯混元大模型全面降价！混元-lite即日起免费

5月22日，腾讯云公布全新大模型升级方案。主力模型之一混元-lite模型，API输入输出总长度计划从目前的4k升级到256k，价格从0.008元/千tokens调整为全面免费。混元-standard API输入价格从0.01元/千tokens降至0....

人工智能 2024-05-22 人工智能

656阅读

大模型免费时代来了！腾讯自研混元大模型全面降价：混元-lite模型免费

快科技5月22日消息，如今的大模型厂商竞争有多激烈？最近几天，字节跳动、阿里云、百度、科大讯飞等相继宣布自家大模型降价或免费，腾讯今天也加入其中。今日，腾讯云宣布全面下调大模型价格，其主力模型之一混元-lite模型价格从0.008元/千tokens调整为...

大数据 2024-05-22 人工智能

630阅读

官宣！腾讯全面下调大模型价格混元-lite免费

5月22日消息，国内大模型全面进入价格战模式。在字节跳动、阿里、百度相继宣布旗下大模型降价之后，刚刚，腾讯也宣布加入战局。腾讯云官方公众号公布了全新大模型价格方案。其中，腾讯主力模型之一混元-lite模型，API输入输出总长度计划从目前的4k升级到256...

大数据 2024-05-22 人工智能

693阅读

腾讯问卷推出AI功能已接入腾讯混元大模型

腾讯问卷宣布推出全流程 AI 解决方案，基于腾讯混元大模型，帮助企业提升调研的质量与效率。腾讯问卷是腾讯旗下在线问卷调查平台，服务覆盖问卷调查、信息上报、在线测评等工作场景，帮助用户回收34亿份问卷。通过腾讯混元大模型的接入，腾讯问卷在问卷设计、投放、回...

生成式AI 2024-05-21 人工智能

665阅读

腾讯混元大模型支持生成16s视频并推出AI智能体平台腾讯元器

在腾讯云生成式AI产业应用峰会上，腾讯公司展示了其最新的AI创新成果——腾讯元器。这是一个一站式的AI智能体创作与分发平台，它基于腾讯的混元大模型构建，为企业提供了一个全新的解决方案。通过腾讯元器，企业和开发者现在可以直接创建智能体，并利用腾讯官方提供的...

大数据 2024-05-17 人工智能

660阅读

单次支持38万字输入！腾讯混元推出256k长文模型，通过腾讯云向企业和个人开发者开放

AI大模型技术正成为推动高质生产力发展的关键力量，在与千行百业的融合中发挥着重要作用。腾讯混元大模型通过采用混合专家模型 (MoE 结构，已将模型扩展至万亿级参数规模，增加“脑”容量提升预测性能的同时，推动了推理成本下降。作为通用模型，腾讯混元在中文表...

人工智能 2024-05-17 人工智能

675阅读

腾讯混元将发布大模型C端App腾讯元宝：超万亿参数规模

在腾讯云生成式AI产业应用峰会上，腾讯表示，将于5月30日正式发布面向C端的全新App——“腾讯元宝”。这款应用的背后，是腾讯全链路自研的通用大语言模型——混元大模型，它以其超过万亿的参数规模，展现了卓越的中文理解与创作能力、逻辑推理能力以及可靠的任务执行...

生成式AI 2024-05-17 人工智能

806阅读

微软让MoE长出多个头，大幅提升专家激活率

混合专家（MoE）是个好方法，支持着现在一些非常优秀的大模型，比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。稀疏混合专家（SMoE）可在不显著增加训练和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是...

人工智能 2024-05-14 人工智能

794阅读

Deepseek-V2技术报告解读！全网最细！

深度求索Deepseek近日发布了v2版本的模型，沿袭了1月发布的 Deepseek-MoE（混合专家模型）的技术路线，采用大量的小参数专家进行建模，同时在训练和推理上加入了更多的优化。沿袭了一贯的作风，Deepseek对模型（基座和对话对齐版本）进行了...

生成式AI 2024-05-09 人工智能

3556阅读

一块钱100万token，超强MoE模型开源，性能直逼GPT-4-Turbo

开源大模型领域，又迎来一位强有力的竞争者。近日，探索通用人工智能（AGI）本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE 语言模型 DeepSeek-V2，主打训练成本更低、推理更加高效。项目地址：https://gi...

人工智能 2024-05-07 人工智能

810阅读

制造星野：穿越平行时空和次元壁，揭秘 MiniMax 的另类 AI 世界

“AGI”。幻海（花名）第一次听到这个词，是在 2022 年 7 月。跟他“科普”这个词的，是一个戴着眼镜、头顶毛发稀疏，但语速极快的 34 岁男子。后者的公司刚刚成立一年，在这家位于漕河泾科技园的公司那面粉紫色的磨砂屏风上，七个字母“MiniMax”...

生成式AI 2024-05-07 人工智能

717阅读

大模型时代，九章云极DataCanvas点亮五座“灯塔”

“计算”是贯穿人类文明史的一大主题。早在茹毛饮血的原始社会，先民们就开始结绳记事；进入20世纪，世界上首台数字式电子计算机ENIAC诞生，标志着人类算力正式跨越阈限；随后半导体技术出现，芯片成为了算力的主要载体；科技巨轮驶入21世纪，云计算的发展再度为...

大数据 2024-04-30 人工智能

749阅读

OpenAI陷巨大算力荒，国内大厂抢先破局！打破单芯片限制，算力效率提升33%

国内AI不行，是因为芯片不行？我们跟国外的差距，是因为和英伟达芯片的差距过大？最近，圈内有许多这样的论调。其实深挖下去，就会发现事实完全不是这样。即使是英伟达最先进的芯片，依然无法满足当下人工智能在算力上的需求。随着模型参数量和数据量的增加，智慧...

大数据 2024-04-24 人工智能

741阅读

商汤港股涨超34% 昨日推出AI大模型“日日新5.0”

商汤港股今日表现强势，涨幅显著扩大至34%，股价报0.820港元，总市值跃升至274.45亿港元。这一涨幅不仅彰显了市场对商汤科技的强烈信心，也反映出其业务的持续发展和强大潜力。就在昨日，商汤科技在北京盛大举行新品发布会，正式推出了人工智能大模型“日日...

AIGC 2024-04-24 人工智能

668阅读

全面对标GPT-4 Turbo！商汤发布日日新5.0大模型

快科技4月23日消息，商汤科技在中国北京举行新品发布会，正式发布人工智能大模型日日新5.0”。日日新5.0大模型采用了先进的MOE（Mixture of Experts）混合专家架构，这一架构的引入，使得模型在处理复杂任务时能够表现出更高的效率和准确性。...

生成式AI 2024-04-23 人工智能

753阅读

商汤发布日日新5.0大模型综合能力全面对标GPT-4

4月23日下午，商汤科技发布了一项重磅更新——全新升级的日日新SenseNova5.0大模型。这款大模型采用了先进的MOE混合专家架构，经过超过10TB tokens的训练，其推理上下文窗口达到了惊人的200K，展现出了与GPT-4Turbo全面对标的能力...

人工智能 2024-04-23 人工智能

673阅读

Llama架构比不上GPT2？神奇token提升10倍记忆？

一个 7B 规模的语言模型 LLM 能存储多少人类知识？如何量化这一数值？训练时间、模型架构的不同将如何影响这一数值？浮点数压缩 quantization、混合专家模型 MoE、以及数据质量的差异 (百科知识 vs 网络垃圾又将对 LLM 的知识容量...

大数据 2024-04-10 人工智能

622阅读

120亿Stable LM 2上线即开源！2万亿token训练，碾压Llama 2 70B

继16亿轻量级Stable LM 2推出之后，12B参数的版本在今天亮相了。见状，不少网友纷纷喊话：干的漂亮！但，Stable Diffusion 3啥时候出啊？总得来说，Stable LM 2 12B参数更多，性能更强。 120亿参数版本包含了...

AIGC 2024-04-09 人工智能

659阅读

元象发布 XVERSE-MoE-A4.2B 大模型可免费商用

元象发布了 XVERSE-MoE-A4.2B 大模型，采用混合专家模型架构，激活参数为4.2B，效果媲美13B 模型。该模型全开源，免费商用，可用于海量中小企业、研究者和开发者，推动低成本部署。该模型具有极致压缩和超凡性能两大优势，采用稀疏激活技术，效果...

生成式AI 2024-04-03 人工智能

739阅读

马斯克开源 Grok：参数量近 Llama 四倍，成全球最大开源模型

本周一，马斯克在他的社交媒体平台 X 上宣布 xAI 开源 Grok，这也兑现了他上周的开源承诺。截至目前，Grok 已经在 GitHub 上获得了 4.3k 颗 Star。开源地址：https://github.com/xai-org/grok-1...

生成式AI 2024-04-01 人工智能

771阅读

天工大模型3.0即将发布：同步开源4000亿参数MoE超级模型

快科技4月1日消息，据昆仑万维官微发文，天工大模型3.0将于4月17日正式发布，并同步开源4000亿参数MoE超级模型。这一模型采用了4千亿级参数MoE混合专家模型，是全球模型参数最大、性能最强的MoE模型之一。相较于上一代天工2.0”MoE大模型，天...

AIGC 2024-04-01 人工智能

736阅读

天工大模型3.0将于4月17日发布同步开源4000亿参数MoE超级模型

在即将到来的2024年4月17日，也就是「天工」大模型一周年之际，昆仑万维宣布「天工3.0」正式开启公测!这一版本采用了4千亿级参数的 MoE 混合专家模型，并将选择开源，是全球模型参数最大、性能最强的 MoE 模型之一。「天工3.0」相较于上一代的「天...

生成式AI 2024-04-01 人工智能

748阅读

DBRX抢占开源大模型王座编程、数学等领域超越GPT-3.5

最新开源大语言模型DBRX以其惊人的1320亿参数量成为业界新宠。该模型不仅在语言理解、编程和数学等方面超越了业内领先的开源模型，还在效率上有所突破。DBRX的基础和微调版本均已发布，为研究和商业应用提供了丰富的资源。 GitHub 链接：https:/...

生成式AI 2024-03-28 人工智能

747阅读

新开源之王来了！1320亿参数，逻辑数理全面打赢Grok，还比Llama2-70B快1倍

“最强”开源大模型之争，又有新王入局：大数据巨头Databricks，刚刚发布MoE大模型DBRX，并宣称：它在基准测试中击败了此前所有开源模型。包括同为混合专家模型的Grok-1和Mixtral。新王搅局，迅速引发了开源社区的热议。毕竟，仅...

AIGC 2024-03-28 人工智能

786阅读

号称全球最强开源 AI 模型，DBRX 登场：1320 亿参数，语言理解、编程能力等均超 GPT-3.5

3 月 28 日消息，初创公司 Databricks 近日发布公告，推出了开源 AI 模型 DBRX，声称是迄今为止全球最强大的开源大型语言模型，比 Meta 的 Llama 2 更为强大。 DBRX 采用 transformer 架构，包含 1320...

人工智能 2024-03-28 人工智能

709阅读

3140参数Grok-1推理加速3.8倍，PyTorch+HuggingFace版来了

马斯克说到做到开源Grok-1，开源社区一片狂喜。但基于Grok-1做改动or商用，都还有点难题： Grok-1使用Rust+JAX构建，对于习惯Python+PyTorch+HuggingFace等主流软件生态的用户上手门槛高。 △图注：Grok登...

AIGC 2024-03-25 人工智能

719阅读

马斯克兑现承诺，Grok模型携3140亿参数强势开源，商业用途全免费！

马斯克确实以其高效率和大胆的行动著称，最近他旗下的AI初创企业xAI宣布了一项引人注目的举措：开源了一个名为Grok-1[1]的混合专家模型。这个模型拥有3140亿个参数，是目前参数量最大的开源大型语言模型之一，而允许商用、可修改和分发，对各种自研...

生成式AI 2024-03-19 人工智能

771阅读

马斯克突然开源Grok：3140亿参数巨无霸，免费可商用

马斯克说到做到：旗下大模型Grok现已开源！代码和模型权重已上线GitHub。官方信息显示，此次开源的Grok-1是一个3140亿参数的混合专家模型—— 就是说，这是当前开源模型中参数量最大的一个。消息一出，Grok-1的GitHub仓库已揽获4...

AIGC 2024-03-18 人工智能

675阅读

全球最大开源大模型！马斯克正式开源Grok AI

马斯克此前曾宣布，开源Grok的举措将于本周实施。现在，任何其他企业家、程序员、公司或个人都可以体验和测试Grok——模型的人工神经元或软件模块之间的连接强度，这些模块使模型能够做出决策、接受输入并以文本形式提供输出——以及其他相关文档，并将模型的副本...

AIGC 2024-03-18 人工智能

776阅读

迄今最大！马斯克AI大模型Grok开源：参数量达3140亿

快科技3月18日消息，据媒体报道，马斯克的AI创企xAI正式宣布其大语言模型Grok-1已实现开源，并向公众开放下载。据了解，Grok-1是一款基于混合专家系统（Mixture-of-Experts，MoE）技术构建的大语言模型，拥有3140亿参数，远超...

大数据 2024-03-18 人工智能

661阅读

马斯克打脸OpenAI，全球最大巨无霸模型Grok-1开源！3140亿参数8个MoE，GitHub狂揽6k星

说到做到，马斯克xAI的Grok，果然如期开源了！就在刚刚，xAI正式发布3140亿参数混合专家模型Grok-1的权重和架构。 3140亿的参数，让Grok-1成为迄今参数量最大的开源LLM，是Llama 2的4倍。目前，xAI关于Grok-1...

大数据 2024-03-18 人工智能

665阅读

我们一起聊聊大模型的模型融合方法

模型融合大家以前用的很多，特别是在判别模型里，属于永远都能稳定提升的那一类方法。但是生成语言模型，因为解码的过程存在，并不像判别模型那样直观。另外，由于大模型的参数量增大，在参数规模更大的场景，简单的集成学习可以考量的方法相比低参数的机器学习更受限制，...

人工智能 2024-03-11 人工智能

875阅读

无需RLHF显著提升GPT-4/Llama2性能，北大团队提出Aligner对齐新范式

背景大语言模型（LLMs）虽展现出了强大的能力，但也可能产生不可预测和有害的输出，例如冒犯性回应、虚假信息和泄露隐私数据，给用户和社会造成伤害。确保这些模型的行为与人类意图和价值观相对齐，是一个紧迫的挑战。尽管基于人类反馈的强化学习（RLHF）提供了...

AIGC 2024-02-07 人工智能

776阅读

国内首个！最火的MoE大模型APP来了，免费下载，人人可玩

MoE（混合专家）模型最近有多火，不用过多介绍了吧？作为当下最顶尖、最前沿的大模型技术方向，MoE能在不增加推理成本的前提下，为大模型带来性能激增。比如，在MoE的加持之下，GPT-4带来的用户体验较之GPT-3.5有着革命性的飞升。但普通用户想要体...

大数据 2024-02-06 人工智能

915阅读

从零手搓MoE大模型，大神级教程来了

传说中GPT-4的“致胜法宝”——MoE（混合专家）架构，自己也能手搓了！ Hugging Face上有一位机器学习大神，分享了如何从头开始建立一套完整的MoE系统。这个项目被作者叫做MakeMoE，详细讲述了从注意力构建到形成完整MoE模型的过程。...

人工智能 2024-01-29 人工智能

693阅读

比亚迪发布璇玑AI大模型；微软推出Copilot Pro；国内首个MoE模型上线

比亚迪发布璇玑 AI 大模型 1 月 16 日，在 2024 比亚迪梦想日活动上，比亚迪正式发布了整车智能化架构「璇玑」及「璇玑 AI 大模型」。比亚迪产品规划及汽车新技术研究院院长杨冬生称，「璇玑」是行业首个智电融合的智能化架构，让汽车拥有...

大数据 2024-01-29 人工智能

778阅读

业内：过去数月老款AI芯片降价，大模型培训成本降60%

1月24日消息，众所周知，开发大语言模型（LLM）成本高昂。这不仅包括模型本身的研发，还有在云端运行这些模型的费用。以人工智能初创公司Anthropic为例，云端运行模型的成本几乎占了该公司上个月收入的一半以上，这还未算上训练模型的成本。然而，最近的...

AIGC 2024-01-24 人工智能

701阅读

傅盛发布猎户星空大模型Orion-14B 拥有140亿参数规模

1月21日，猎户星空在傅盛2024开年 AI 大课暨猎户星空大模型发布会上发布了猎户星空大模型（Orion-14B）。这是一款由猎户星空研发的预训练多语言大语言模型，拥有140亿参数规模，覆盖了常见语言和专业术语，并在多个第三方测试集上取得了同级别模型的最...

AIGC 2024-01-23 人工智能

773阅读

被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通专家混合架构部署

选自 HuggingFace 博客编译:赵阳专家混合（MoE）是 LLM 中常用的一种技术，旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务，每个子任务都由专门的迷你模型或「专家」处理。早些时候，有人爆料...

生成式AI 2024-01-21 人工智能

1622阅读

字节跳动基础架构SRE-Copilot获得2023 CCF国际AIOps挑战赛冠军

近日，2023 CCF国际AIOps挑战赛决赛暨“大模型时代的AIOps”研讨会在北京成功举办，活动吸引了来自互联网、运营商、科研院所、高校、软硬件厂商等领域多名专家学者参与，为智能运维的前沿学术研究、落地生产实践打开了新思路。决赛中，从初赛两百多支...

生成式AI 2024-01-18 人工智能

1190阅读