阿里开源语音大模型CosyVoice：3秒还原声音，从部署到克隆的完整指南

前言

很久之前就想给大家介绍声音克隆开源项目GPT-SoVITS ，但是看到视频教程过于复杂了，最近又出现了一个剪辑《人民的名义》的短视频非常搞笑。

我就找到了一款最新更加强大的声音克隆项目CosyVoice。CosyVoice 是阿里通义实验室在七月初开源的一款专注于自然语音合成的语音大模型，它具备多语言、多音色和细腻的情感控制能力。这个系统支持中文、英文、日文、粤语和韩语五种语言的语音生成，并且在语音合成的效果上远超传统模型。

只需3到10秒的原始音频样本，CosyVoice便能够复刻出相似的音色，包括语调和情感等细节，实现跨语种的语音合成。

CosyVoice的另一个亮点在于它对生成语音情感和韵律的精细控制，这是通过富文本或自然语言输入实现的。这种控制机制显著提高了合成语音的情感表达能力。这使得生成的语音更加栩栩如生，充满情感色彩。

部署

首先需要找到官方项目的开源地址

github.com/FunAudioLLM…

首先克隆官方项目，创建一套独立的Python虚拟环境

git clone https://github.com/FunAudioLLM/CosyVoice.git


conda create -n cosyvoice python=3.8
conda activate cosyvoice

此时已经激活了虚拟环境，现在下载项目依赖的第三方包

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

需要等待很长时间安装PyTorch

接着安装pyini
Pynini是一个基于字符串的传播和转换的库,可以用于各种自然语言处理任务,如词性标注、名词短语提取和依赖句法分析。

conda install -y -c conda-forge pynini==2.1.5

根据文档要提前下载模型，这里不使用阿里的魔搭包下载，而是使用Git下载，前提是安装git lfs 插件：

# git模型下载，请确保已安装git lfs
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

模型文件非常大，又需要等待较长时间才能下载完成，但完成后即可成功使用，使用以下命令启动服务：

python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M

这里有个坑，我这里是局域网访问，需要把webui.py文件中

...
demo.launch(server_port=args.port)
...

改成

...
demo.launch(server_port=args.port, server_name="0.0.0.0")
...

如果是本机访问可以忽略，这时访问局域网IP加端口号50000就能访问到这个由gradio库搭建的WebUI 网页应用了

测试

这里只简单测试一下，来找一段《还珠格格》中紫薇的语音素材，让它说一段毫无逻辑的台词。台词内容：

我不敢苟同，因为我个人认为，这个意大利面就应该拌42号混凝土，因为这个螺丝钉的长度，它很容易会直接影响到挖掘机的扭矩你知道吧，你往里砸的时候，一瞬间它就会产生大量的高能蛋白，俗称ufo，会严重影响经济的发展，甚至对整个太平洋以及充电器都会造成一定的核污染，你知道啊？再者说，根据这个勾股定理，你可以很容易地推断出人工饲养的东条英机它是可以捕获野生的三角函数的，所以说这个秦始皇的切面是否具有放射性啊，特朗普的N次方是否含有沉淀物，都不影响这个沃尔玛跟维尔康在南极会合

第一步上传原素材的音频文件（可能需要处理以使效果更好），第二步输入原素材的音频文件对应的字幕，第三步输入想要的生成的语音的文案，最后一步点击生成，耐心等待

等待了30秒生成了21秒的视频，效果非常不错，生成的语音的效果跟素材非常相似，只是长段的语音文案生成时可能会丢失一部分内容（可以通过自己手动拼接处理这个问题）。

最后

又写了一篇从零开始部署开源大模型项目的文章，之前写了很多有兴趣的同学可以找到我的主页看看，后面也会继续关注相关的内容，如果感兴趣可以继续关注我，或者可以留言告诉我想看什么大模型实测效果。如果觉得内容不错，欢迎点个关注

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

?学会后的收获：?
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

?获取方式：
?有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】?

总结

**文章总结**：
这篇文章主要介绍了声音克隆开源项目CosyVoice，这是阿里通义实验室开发的一款专注于自然语音合成的语音大模型。CosyVoice具有多语言、多音色以及细腻的情感控制能力，支持中文、英文、日文、粤语和韩语五种语言，合成效果显著优于传统模型。只需短短几秒的原始音频样本，CosyVoice便能复刻出相似的音色及其情感细节，甚至实现跨语种语音合成。
**部署步骤**：
- 找到并克隆CosyVoice的GitHub项目。
- 创建Python虚拟环境并安装必需的第三方包，包括PyTorch和Pynini。
- 下载和安装CosyVoice模型文件。
- 启动服务，并调整服务配置（如局域网访问需修改IP设置）。
**测试体验**：
- 使用《还珠格格》中紫薇的语音素材，输入无逻辑的台词进行测试。
- 通过上传原素材、字幕和生成文案等步骤，等待生成语音。测试结果显示生成的语音与素材相似度高，但长文案可能存在内容丢失现象。
**学习资源分享**：
作者还分享了学习AI大模型的资源和经验，包括从零开始的部署教程、AI大模型学习路线图、商业落地方案、视频教程、书籍PDF等资料，以及面试题和产品经理资源合集。这些资源旨在帮助学习者全面掌握AI大模型的技能，提升项目实战能力和编码水平。
**获取方式**：
通过扫描文章中提供的二维码，可以免费获取上述学习资源。
**结论**：
CosyVoice声音克隆项目为语音合成领域带来了显著的进步，而作者分享的学习资源则为AI爱好者提供了一个全面、系统的学习路径。无论是技术爱好者还是从业者，都能从中获得宝贵的知识和经验。