讯飞星火大模型重磅升级，对标GPT-4 Turbo！星火语音大模型发布，37个主流语种识别超OpenAI！

出品 | 51CTO技术栈（微信号：blog51cto）

1月30日，讯飞星火认知大模型V3.5成功发布！用核心能力的突破，回应时代的疑问。迈向更通用、实用的全民开放大模型，讯飞星火全面对标国际先进水平，同时首次发布星火语音大模型和星火开源大模型。

作为首个基于全国产算力平台“飞星一号”训练的全民开放大模型，讯飞星火V3.5实现了文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力等七大核心能力的全面提升。

对标国际领先，在语言理解、数学能力已超过GPT-4 Turbo，代码达到GPT-4 Turbo 96%，多模态理解达到GPT-4V 91%，再次将国产大模型推向新高度。

图片

对于大模型将如何解决世界刚需？科大讯飞董事长刘庆峰给出全新的答案——赋能万物互联时代人机交互、赋能知识学习与内容创作、提升数智化生产力。

大模型从科技概念，逐渐落地刚需场景，变革个人工作模式。企业与个人不再追问何为生成式AI，转而希望了解如何应用该技术解放生产力。

不得不提的一个惊艳发布：讯飞智文！

“请为我生成一份合肥文旅产业发展报告”，一句简单的指令词，就能快速生成符合要求的PPT文档。依托星火大模型的文本与多模态生成能力，讯飞智文轻松实现“一键AI配图、模板秒切换、AI撰写文本”等高效操作。

图片

对于已生成好的PPT文档，借助讯飞星火强大语言理解的加持，讯飞智文能够秒级生成演讲脚本。融合AI虚拟人技术，让每个PPT都搭配一个专业讲解员，进一步解放生产力。

作为科大讯飞的强项领域，对于这场发布会，大家非常期待语音大模型的推出。据悉，刚刚过去的2023年，在“国际声学场景和事件检测及分类挑战赛、国际机器口语翻译评测比赛”等语音行业权威赛事，讯飞再夺冠军。

而大模型的横空出世，给语音研究带来了新的技术逻辑，创造了语音技术发展的全新机会。凭借模型大尺寸，海量数据训练后，能够实现更精细的模型描述、更精准的语义理解以及更统一的多任务建模，带来的直接表现就是语音合成的韵律表现力和拟人度更高。

图片

基于大语言模型框架，结合讯飞多维度语音属性解耦表征预训练，星火语音大模型正式发布！不仅是把国际通用的常规语音大模型框架用好、用足、用到位，同时把讯飞多年的、独一无二的、拿了中国专利金奖的核心能力整合进去。

在星火语音大模型，中文、英语、法语、俄语等首批37个主流语种的语音识别效果已经超过OpenAI Whisper V3。同时，在多语种语音合成方面，首批40个语种平均MOS分绝对提升0.25，超拟人语音合成拟人度达到83%+。

图片

现在，讯飞星火App已深度集成星火语音大模型，让用户可以给大模型“打电话”，随时召唤需要的“贾维斯”。不论东北话还是外语发言，讯飞星火App都能轻松胜任。

据悉，下载讯飞星火App，即可体验星火语音大模型。同时，开发者还可以访问讯飞开放平台官网，申请星火语音大模型API。