谁能想到，2023年香港乐坛最火的一首歌，是80岁歌手尹光和AI唱的。

这首《Dear Myself》荣获“叱咤2023年香港乐坛我最喜欢的歌曲”投票榜第1位，由歌手尹光和他的AI分身共创。很多网友都感动于那句“我声线亦折旧，我把这个使命过继给AI”。

值得一提的是，80岁的尹光还成为了首个注册AI声音专利的乐坛歌手。

2023年，“AI孙燕姿”在B站出道，曾一度让声音克隆变得十分热门。

彼时，我们制作声音克隆视频，还需要单独建立一个AI声库，采集大量的人类声音标本制作数据库，后期还得通过人工调试来模拟人声。

另外，还有一种办法是基于Bert VITS等开源项目，借助大量算力支持，直接文本转语音来还原音色。这对于设备、技术要求都比较高，网上可以找到许多教程，像“手把手教大家用GPT- SoVITS（声音克隆开源项目）”，或是部署“OpenVoice和SVC”。

图片来源:B站UP主“痕继痕迹”的GPT- SoVITS教程

但现在，部分AI工具只需要10秒乃至更少的声音样本，就能完美复刻音色。

2月26日，QQ音乐上线了声音克隆功能，1分钟录制原声，即可生成个人专属音色演唱歌曲，为AI声音赛道添了一把火。

我们见识过AI合成视频、动态图片的技术，而现在合成语音也变得轻而易举。对于创作者来说，AI声音克隆究竟进化到了何种程度?还有哪些热门的AI语音合成工具?如何快速复刻出真实声音?

10秒声音样本，AI就能克隆人声

那么AI克隆人声要怎么做?

“头号AI玩家”体验下来，对于很多创作者来说，如果是进行剧情重制、制作游戏二创视频，或是代替个人原声进行解说，目前AI工具中的音色克隆功能其实完全够用。

借AI声音合成的热度，“头号AI玩家”也生成了一版视频:

头号AI玩家，赞2

能够听出来配音来自于哪些明星和角色吗?

视频画面采用了OpenAI最新发布的Sora生成视频，配音工具则用的是近期流行的ElevenLabs和剪映的AI音色克隆功能，依次复刻了海绵宝宝、OpenAI CEO 奥特曼（Sam Altman）、梅西以及懒羊羊的声音。

以AI音频工具ElevenLabs为例，官方表示只要上传1分钟的声音素材，就能够把任意一段音频，快速生成为中文、葡萄牙语、日语等在内的29种语言，还保留声源的音色特征和情感色彩。

具体包括以下几个步骤:

首先，登陆ElevenLabs官网（https://elevenlabs.io/），先选择“Text to Speech”创建一个新项目，然后选择“目标音色”和“声音设置”来确定输出的音色。ElevenLabs预置了十几种不同口音、语气的角色供用户选择。

如果要使用自定义的声音，我们可以点击“Add Voice”按钮，上传已经录制好的音频。

以视频中奥特曼（Sam Altman）和梅西的声音样本为例，实际操作中我们只上传了10秒的清晰音频。上传完声音素材后，就可以等待ElevenLabs进行“克隆”了。

下面可选进一步编辑，点击“说话者Speaker”重新选择声音，或者在“Voice Setting”中对声音细节进行调整。

如果觉得这个声音和原声源并不像，可以点击“Similarity”进行调整，数值越高就越像源声音。而“Style”可以调整语音风格，包括生成的语速、停顿和语气。

实测下来，“Clarity+Similarity”数值在60%到75%之间，“Style”风格调整成75%至80%之间，“Stablility”调成55%-60%，音频的稳定性效果最好，声音也不会莫名其妙被改变，或者出现生成音频语速过快的情况。

另外，除了调整具体参数之外，还可以给文本添加标点符合来调整语速。比如视频中的梅西片段，我们就在“prefer”后面加了省略号，生成语速会自动减慢，一定程度上会改变表达的语气。

但实话实说，Elevenlabs的中文效果其实并没有非常出彩。如果中文音频素材只有5至10秒，生成的中文效果就更拉垮。我们上传第一版懒羊羊素材时，ElevenLabs的效果就带有明显的译制腔。

国内目前也推出了效果比较好的语音转换工具，免费可用。MiniMax上线应用“海螺问问”，其中的语音通话功能就可以克隆个人声音。

只需下载应用端，真人朗读一段儿歌就可以实现音色转换。

但相比ElevenLabs可以直接上传干音素材，国内的声音克隆工具大多采用朗读收录的方式进行复刻，暂时都不支持音频文件，一定程度上也避免了声音的滥用。

抖音旗下的视频剪辑工具剪映内置了“声音克隆”的AI功能，方便视频创作者一键实现文本到语音的转换。（相关阅读:《剪映的AI革命，字节的AI狂想》）

“头号AI玩家”此前发布的Sora相关视频，里面的视频配音就用到了AI朗读功能。

头号AI玩家，赞8

不过，这些AI音色都不是凭空而成的，大多需要采集真人声音作为声源，再进行深度学习，合成输出相似的语音音色。

还有一些专业向的声音工具，比如大饼AI、出门问问旗下的魔音工坊等，都支持一键改变创作者的音色，让音视频的创作有了延展发挥的空间。

未来AI声音的商业价值

除了丰富内容创作的形式之外，企业也在让声音变得有利可图。

2月13日，ElvenLabs上线了创作者激励机制，配音爱好者可以在ElevenLabs的语音库中分享自己的声音，并在他人使用时获得声音版权的收益。

该计划需要创作者在Voice Lab上传30分钟以上的个人音频，具体定价和使用途径都由创作者自行决定。

就像OpenAI推出GPTs创作者收益计划一样，ElevenLabs鼓励更多专业的配音演员出售他们的声音，用于更大范围的内容创作中。

评论区不少网友和配音演员都抱有乐观的心态，已经开始留言想听到“Martin Shaw”、“Dan Stevens”的AI声音了。

就现阶段的TTS（Text To Speech）技术而言，已经可以保证部分视频内容产出，比如电商带货、解说短视频、朗读录制播客。

对于内容创作者来说，AI语音克隆的应用方式多种多样，游戏、鬼畜、影视解说都有案例可供参考。从AI复活“塌房”UP主，到克隆音色鬼畜搞笑，什么都能玩。

比如，在苦等UP主更新的日子里，粉丝自己动手用AI制作想看的游戏解说。

不仅让游戏主播AI化，网友们还创造了普京分身、YouTube网红等AI平替，想让谁整活儿就让谁变声。

AI普京和普京视频通话;图片来源YouTube

AI工具大大减轻了创作者手动调音的工作量，鬼畜区UP主变得更高产了。就像UP主“女孩为何穿短裙”鸽了好久，幸亏有了AI，他才能产出这等好活。

图片来源:B站“女孩为何穿短裙”

尽管AI技术还没有完全改变人们的工作方式，但是却先改变了网友整活儿的表现形式。

还有一些中小电商商家会用AI来制作口播素材，像抖音平台流行的AI数字人带货，背后都有音色克隆的身影。

更有甚者，利用AI克隆声音后转成多语言版本，让自己的内容出海。随着AI语音合成技术的门槛逐渐降低，多语言分发成为不少创作者的选择。不少人选择以这种方式开拓更多渠道，笼络更多受众，获得更多流量。

从2023年AI生成披头士的最后一曲，到80岁歌手尹光AI共创，乃至助力创作者的高效产出，我们可以看到AI带来的时间、声音以及内容的延续性。

或许AI无法替代任何人事物，至少在未来，有了AI，你的一切都可以打破边界，开拓出新的内容创意和商业价值。

创作者声音克隆 ai声音 openai gpt 内容创作 ai工具 ai语音语音合成多语言 sora 声音素材商业价值 ai语音合成 youtube 开源项目 ai音频内容创意语音合成技术 tts

10秒，让OpenAI奥特曼为你的视频配音？80岁歌手靠此技术翻红互联网

10秒声音样本，AI就能克隆人声

未来AI声音的商业价值