混合专家模型 - AIGC资讯

AI智能体到底该怎么搞，腾讯元器先打了个样

如果说2023年科技圈的关键词是“大模型”，那么到了2024年，大家更关心的就已经不再是大模型本身，而是能用大模型来干什么。在此前经历了喧嚣的“百模大战”之后，大模型的商业化成为了摆在国内AI厂商面前最重要的一个挑战，在目前的一众AI产品里，AI智能体（A...

生成式AI 2024-10-03 人工智能

1139阅读

混合专家模型（MoE）入门

模型规模是提升LLM大语言模型性能的关键因素，但也会增加计算成本。Mixture of Experts (MoE 架构通过分布式专家层和动态门控机制，有效降低了计算资源，使模型能够在扩展参数规模的同时保持高效的运行。 Mixtral of Exper...

生成式AI 2024-09-06 人工智能

883阅读

7 大国产大模型：KimiChat、豆包、文心一言、智谱清言、通义千问、讯飞星火、天工AI，到底哪家强？

有的朋友还不了解 AI 工具，或者跟老王一样，不知道该选哪个 AI 工具。怎么办？先看看别人都用哪个。新榜（著名三方自媒体数据平台），根据各自媒体平台的数据，统计了 AI 产品的用户使用等多个维度，分析得出了综合评分，展示如下。第 3 和...

生成式AI 2024-08-30 人工智能

4113阅读

LLAMA 3.1 论文的见解

这有什么大不了的？ LLAMA 3.1 的发布标志着 AI 开发的一个重要里程碑。开源模型首次接近领先的闭源模型的性能水平。这一转变预示着未来开源模型同样有效，任何人都可以灵活地修改和调整它们。马克·扎克伯格将此与 Linux 的开源性质进行了比较，...

AIGC 2024-08-26 人工智能

953阅读

LLaMA-MoE：基于参数复用的混合专家模型构建方法探索

自Mixtral以来，大家对混合专家模型（Mixture-of-Experts，MoE）的关注越来越高。然而从零训练MoE模型的成本极大，需要耗费海量的计算资源。为此，我们探索了一种基于参数复用的MoE快速构建方法。该方法首先将LLaMA...

人工智能 2024-07-30 人工智能

707阅读

OpenAI“断供”，谁才是最大赢家

“宫斗”之后，OpenAI又出“幺蛾子”了。 2024年7月9日起，OpenAI将采取额外措施严控API调用，如在中国大陆、中国香港、中国澳门等不支持地区检测到使用情况，轻则切断流量、重则封禁账号。这意味着，国内相关开发将面临“断供”。 AI应用、行业模...

人工智能 2024-07-01 人工智能

765阅读

混合专家模型和LLAMA的详细配置

文章目录混合专家模型 LLAMA的详细配置混合专家模型大语言模型能够通过扩展参数规模实现性能的提升。然而，随着模型参数规模的扩大，计算成本也随之增加。为了解决这一问题，研究人员在大语言模...

生成式AI 2024-06-26 人工智能

777阅读

马斯克烧60亿美元难题，国内大厂有解？开源MoE模算效率黑马登场，3.7B参数单挑Llama 3-70B

如今，想训个SOTA的大模型，不仅缺数据和算力，甚至连电都不够用了。最近马斯克就公开表示，因为苦于买不到足够的芯片，xAI只能推迟Gork 2的训练和发布。 Grok 3及更高版本，甚至需要10万个H100，按每台H100售价3万美元来算，仅芯片就要花...

人工智能 2024-05-29 人工智能

770阅读

马斯克xAI官宣435亿元B轮融资：估值已突破1300亿！

快科技5月27日消息，埃隆马斯克旗下的人工智能初创企业xAI近日宣布，已经成功完成60亿美元（约合435亿元人民币）的B轮融资，公司估值达到180亿美元（约合1304亿元人民币）。本轮融资的主要投资者包括Valor Equity Partners、Vy...

人工智能 2024-05-27 人工智能

638阅读

腾讯混元大模型全面降价！混元-lite即日起免费

5月22日，腾讯云公布全新大模型升级方案。主力模型之一混元-lite模型，API输入输出总长度计划从目前的4k升级到256k，价格从0.008元/千tokens调整为全面免费。混元-standard API输入价格从0.01元/千tokens降至0....

人工智能 2024-05-22 人工智能

655阅读

大模型免费时代来了！腾讯自研混元大模型全面降价：混元-lite模型免费

快科技5月22日消息，如今的大模型厂商竞争有多激烈？最近几天，字节跳动、阿里云、百度、科大讯飞等相继宣布自家大模型降价或免费，腾讯今天也加入其中。今日，腾讯云宣布全面下调大模型价格，其主力模型之一混元-lite模型价格从0.008元/千tokens调整为...

大数据 2024-05-22 人工智能

629阅读

官宣！腾讯全面下调大模型价格混元-lite免费

5月22日消息，国内大模型全面进入价格战模式。在字节跳动、阿里、百度相继宣布旗下大模型降价之后，刚刚，腾讯也宣布加入战局。腾讯云官方公众号公布了全新大模型价格方案。其中，腾讯主力模型之一混元-lite模型，API输入输出总长度计划从目前的4k升级到256...

大数据 2024-05-22 人工智能

693阅读

腾讯问卷推出AI功能已接入腾讯混元大模型

腾讯问卷宣布推出全流程 AI 解决方案，基于腾讯混元大模型，帮助企业提升调研的质量与效率。腾讯问卷是腾讯旗下在线问卷调查平台，服务覆盖问卷调查、信息上报、在线测评等工作场景，帮助用户回收34亿份问卷。通过腾讯混元大模型的接入，腾讯问卷在问卷设计、投放、回...

生成式AI 2024-05-21 人工智能

663阅读

腾讯混元大模型支持生成16s视频并推出AI智能体平台腾讯元器

在腾讯云生成式AI产业应用峰会上，腾讯公司展示了其最新的AI创新成果——腾讯元器。这是一个一站式的AI智能体创作与分发平台，它基于腾讯的混元大模型构建，为企业提供了一个全新的解决方案。通过腾讯元器，企业和开发者现在可以直接创建智能体，并利用腾讯官方提供的...

大数据 2024-05-17 人工智能

659阅读

单次支持38万字输入！腾讯混元推出256k长文模型，通过腾讯云向企业和个人开发者开放

AI大模型技术正成为推动高质生产力发展的关键力量，在与千行百业的融合中发挥着重要作用。腾讯混元大模型通过采用混合专家模型 (MoE 结构，已将模型扩展至万亿级参数规模，增加“脑”容量提升预测性能的同时，推动了推理成本下降。作为通用模型，腾讯混元在中文表...

人工智能 2024-05-17 人工智能

674阅读

腾讯混元将发布大模型C端App腾讯元宝：超万亿参数规模

在腾讯云生成式AI产业应用峰会上，腾讯表示，将于5月30日正式发布面向C端的全新App——“腾讯元宝”。这款应用的背后，是腾讯全链路自研的通用大语言模型——混元大模型，它以其超过万亿的参数规模，展现了卓越的中文理解与创作能力、逻辑推理能力以及可靠的任务执行...

生成式AI 2024-05-17 人工智能

804阅读

制造星野：穿越平行时空和次元壁，揭秘 MiniMax 的另类 AI 世界

“AGI”。幻海（花名）第一次听到这个词，是在 2022 年 7 月。跟他“科普”这个词的，是一个戴着眼镜、头顶毛发稀疏，但语速极快的 34 岁男子。后者的公司刚刚成立一年，在这家位于漕河泾科技园的公司那面粉紫色的磨砂屏风上，七个字母“MiniMax”...

生成式AI 2024-05-07 人工智能

714阅读

开源大模型王座再易主，通义千问1100亿参数拿下SOTA，3个月已推出8款模型

开源大模型，已经开启大卷特卷模式。全球范围，太平洋两岸，双雄格局正在呼之欲出。 Llama 3中杯大杯刚惊艳亮相，国内通义千问就直接开源千亿级参数模型Qwen1.5-110B，一把火上Hacker News榜首。不仅相较于自家720亿参数模型性能明...

AIGC 2024-04-30 人工智能

681阅读

大模型时代，九章云极DataCanvas点亮五座“灯塔”

“计算”是贯穿人类文明史的一大主题。早在茹毛饮血的原始社会，先民们就开始结绳记事；进入20世纪，世界上首台数字式电子计算机ENIAC诞生，标志着人类算力正式跨越阈限；随后半导体技术出现，芯片成为了算力的主要载体；科技巨轮驶入21世纪，云计算的发展再度为...

大数据 2024-04-30 人工智能

748阅读

元象发布 XVERSE-MoE-A4.2B 大模型可免费商用

元象发布了 XVERSE-MoE-A4.2B 大模型，采用混合专家模型架构，激活参数为4.2B，效果媲美13B 模型。该模型全开源，免费商用，可用于海量中小企业、研究者和开发者，推动低成本部署。该模型具有极致压缩和超凡性能两大优势，采用稀疏激活技术，效果...

生成式AI 2024-04-03 人工智能

738阅读

天工大模型3.0即将发布：同步开源4000亿参数MoE超级模型

快科技4月1日消息，据昆仑万维官微发文，天工大模型3.0将于4月17日正式发布，并同步开源4000亿参数MoE超级模型。这一模型采用了4千亿级参数MoE混合专家模型，是全球模型参数最大、性能最强的MoE模型之一。相较于上一代天工2.0”MoE大模型，天...

AIGC 2024-04-01 人工智能

736阅读

天工大模型3.0将于4月17日发布同步开源4000亿参数MoE超级模型

在即将到来的2024年4月17日，也就是「天工」大模型一周年之际，昆仑万维宣布「天工3.0」正式开启公测!这一版本采用了4千亿级参数的 MoE 混合专家模型，并将选择开源，是全球模型参数最大、性能最强的 MoE 模型之一。「天工3.0」相较于上一代的「天...

生成式AI 2024-04-01 人工智能

745阅读

DBRX抢占开源大模型王座编程、数学等领域超越GPT-3.5

最新开源大语言模型DBRX以其惊人的1320亿参数量成为业界新宠。该模型不仅在语言理解、编程和数学等方面超越了业内领先的开源模型，还在效率上有所突破。DBRX的基础和微调版本均已发布，为研究和商业应用提供了丰富的资源。 GitHub 链接：https:/...

生成式AI 2024-03-28 人工智能

744阅读

新开源之王来了！1320亿参数，逻辑数理全面打赢Grok，还比Llama2-70B快1倍

“最强”开源大模型之争，又有新王入局：大数据巨头Databricks，刚刚发布MoE大模型DBRX，并宣称：它在基准测试中击败了此前所有开源模型。包括同为混合专家模型的Grok-1和Mixtral。新王搅局，迅速引发了开源社区的热议。毕竟，仅...

AIGC 2024-03-28 人工智能

785阅读

号称全球最强开源 AI 模型，DBRX 登场：1320 亿参数，语言理解、编程能力等均超 GPT-3.5

3 月 28 日消息，初创公司 Databricks 近日发布公告，推出了开源 AI 模型 DBRX，声称是迄今为止全球最强大的开源大型语言模型，比 Meta 的 Llama 2 更为强大。 DBRX 采用 transformer 架构，包含 1320...

人工智能 2024-03-28 人工智能

707阅读

马斯克兑现承诺，Grok模型携3140亿参数强势开源，商业用途全免费！

马斯克确实以其高效率和大胆的行动著称，最近他旗下的AI初创企业xAI宣布了一项引人注目的举措：开源了一个名为Grok-1[1]的混合专家模型。这个模型拥有3140亿个参数，是目前参数量最大的开源大型语言模型之一，而允许商用、可修改和分发，对各种自研...

生成式AI 2024-03-19 人工智能

770阅读

马斯克突然开源Grok：3140亿参数巨无霸，免费可商用

马斯克说到做到：旗下大模型Grok现已开源！代码和模型权重已上线GitHub。官方信息显示，此次开源的Grok-1是一个3140亿参数的混合专家模型—— 就是说，这是当前开源模型中参数量最大的一个。消息一出，Grok-1的GitHub仓库已揽获4...

AIGC 2024-03-18 人工智能

674阅读

全球最大开源大模型！马斯克正式开源Grok AI

马斯克此前曾宣布，开源Grok的举措将于本周实施。现在，任何其他企业家、程序员、公司或个人都可以体验和测试Grok——模型的人工神经元或软件模块之间的连接强度，这些模块使模型能够做出决策、接受输入并以文本形式提供输出——以及其他相关文档，并将模型的副本...

AIGC 2024-03-18 人工智能

775阅读

马斯克打脸OpenAI，全球最大巨无霸模型Grok-1开源！3140亿参数8个MoE，GitHub狂揽6k星

说到做到，马斯克xAI的Grok，果然如期开源了！就在刚刚，xAI正式发布3140亿参数混合专家模型Grok-1的权重和架构。 3140亿的参数，让Grok-1成为迄今参数量最大的开源LLM，是Llama 2的4倍。目前，xAI关于Grok-1...

大数据 2024-03-18 人工智能

664阅读

我们一起聊聊大模型的模型融合方法

模型融合大家以前用的很多，特别是在判别模型里，属于永远都能稳定提升的那一类方法。但是生成语言模型，因为解码的过程存在，并不像判别模型那样直观。另外，由于大模型的参数量增大，在参数规模更大的场景，简单的集成学习可以考量的方法相比低参数的机器学习更受限制，...

人工智能 2024-03-11 人工智能

873阅读

从零手搓MoE大模型，大神级教程来了

传说中GPT-4的“致胜法宝”——MoE（混合专家）架构，自己也能手搓了！ Hugging Face上有一位机器学习大神，分享了如何从头开始建立一套完整的MoE系统。这个项目被作者叫做MakeMoE，详细讲述了从注意力构建到形成完整MoE模型的过程。...

人工智能 2024-01-29 人工智能

693阅读

傅盛发布猎户星空大模型Orion-14B 拥有140亿参数规模

1月21日，猎户星空在傅盛2024开年 AI 大课暨猎户星空大模型发布会上发布了猎户星空大模型（Orion-14B）。这是一款由猎户星空研发的预训练多语言大语言模型，拥有140亿参数规模，覆盖了常见语言和专业术语，并在多个第三方测试集上取得了同级别模型的最...

AIGC 2024-01-23 人工智能

773阅读

被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通专家混合架构部署

选自 HuggingFace 博客编译:赵阳专家混合（MoE）是 LLM 中常用的一种技术，旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务，每个子任务都由专门的迷你模型或「专家」处理。早些时候，有人爆料...

生成式AI 2024-01-21 人工智能

1622阅读

再薅！Pika全球开放使用；字节版GPTs免费不限量；大模型应用知识地图；MoE深度好文；2024年AIGC发展轨迹；李飞飞最新自传 | ShowMeAI日报

?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦！ ? 终于！AI视频生成平台 Pika 面向所有用户开放网页端 https://twitter.com/pika_labs Pika...

大数据 2024-01-13 人工智能

837阅读

从模型、数据和框架三个视角出发，这里有份54页的高效大语言模型综述

大规模语言模型（LLMs）在很多关键任务中展现出显著的能力，比如自然语言理解、语言生成和复杂推理，并对社会产生深远的影响。然而，这些卓越的能力伴随着对庞大训练资源的需求（如下图左）和较长推理时延（如下图右）。因此，研究者们需要开发出有效的技术手段去解决其...

人工智能 2024-01-02 人工智能

724阅读

Mistral 欧洲最强模型团队的野望；国内大模型都是套壳LLaMA？Claude官方提示词教程-中英双语；AI原生应用难产了；AI Agents实践经验 | ShowMeAI日报

?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦！ ? 看热闹不嫌事大！马斯克：OpenAI首席科学家 Ilya 应该跳槽到xAI https://www.businessinsider.com/...

人工智能 2024-01-01 人工智能

961阅读

谁能撼动Transformer统治地位？Mamba作者谈LLM未来架构

在大模型领域，一直稳站 C 位的 Transformer 最近似乎有被超越的趋势。这个挑战者就是一项名为「Mamba」的研究，其在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面，无论是预训练还是下游评估，Mamba-3B 模...

人工智能 2023-12-29 人工智能

897阅读

谷歌Bard更新中文支持；GPT-4：1.8万亿参数、混合专家模型揭秘； Meta推出商用版本AI模型

? AI新闻 ? 谷歌的AI聊天工具Bard更新，增加中文支持摘要：谷歌的AI聊天工具Bard新增中文环境，用户可以使用简体和繁体中文进行交流。然而，与竞品相比，Bard的回复略显生硬，语义理解还有待提升。此外，谷歌还更新了Bard的日志页面，新...

大数据 2023-12-26 人工智能

750阅读

Mistral AI宣布与Google Cloud合作，并发布新的开源LLM

巴黎的人工智能初创公司Mistral AI宣布与Google Cloud签署战略合作，实现了一次重大突破。根据双方的非独占性协议，Mistral AI将利用Google Cloud的AI优化基础设施分发其开源LLM及优化的专有语言模型。谷歌云法国区总经理I...

生成式AI 2023-12-14 人工智能

682阅读

AI视野：谷歌Gemini Pro开放；文心一言插件商城上线；谷歌图像生成模型Imagen2发布；阿里推虚拟试穿技术Outfit Anyone

???AI新鲜事谷歌Gemini Pro开放谷歌Gemini Pro大模型在研究基准测试中表现优异，支持32K上下文窗口的文本输入和生成功能，向Vertex AI云计算客户和AI Studio开发人员开放，提供多种功能和SDK，为构建AI应用程序提供更...

大数据 2023-12-14 人工智能

712阅读

微软亚洲研究院韦福如：人工智能基础创新的第二增长曲线

从人工智能的发展历程来看，GPT 系列模型（例如 ChatGPT 和 GPT-4）的问世无疑是一个重要的里程碑。由它所驱动的人工智能应用已经展现出高度的通用性和可用性，并且能够覆盖多个场景和行业 —— 这在人工智能的历史上前所未有。然而，人工智能的科研...

AIGC 2023-12-01 人工智能

800阅读

MoE：LLM终身学习的可能性

性质说明知识记忆（knowledge retention） √ LLM预训练后，具备世界知识，小规模finetune不易对LLM造成遗忘灾难。但大规模数据续训会造成。前向迁移（forward...

大数据 2023-11-08 人工智能

798阅读