AI 语音技术领域的公司正努力寻求何规范 Deepfakes,同时又不抑制创新。ElevenLabs 的联合创始人兼 CEO Mati Staniszewski 告诉《大西洋月刊》说:“这将是一场猫鼠游戏”。去年在测试版推出后,ElevenLabs 一跃成为价值亿美元的公司,其使用 AI 生成逼真的音频剪辑。这包括文本转语音配音、在29种语中配音以及克隆声音。该公司声称,其用户在过去一年内生成了超过100年的音频内容。
图源备注:图片由AI生成,图片授权服务商Midjourney
立法者担心这项技术存在危险的滥用潜力。人工智能的进步与电话诈骗的增加关,诈骗者会冒充爱人、家庭成员或政府官员进行超级电话诈骗。拜登的人工智能主管布鲁斯・里德甚至表示,“声音克隆” 是一让他夜不能寐的事情。去年,4chan 用户利用 ElevenLabs 的工具生成了名人深度伪造,视频中的内容充斥着种族主义和跨性别歧视,据《副刊》报道。
但 Staniszewski 是一个理想义者。他认为 ElevenLabs 的技术可以促进一个世界,在那里患有像肌萎缩侧索硬化症 ALS)这样的神经退行性疾病的患者失去说话能力后仍然可以用他们自己的声音交流。这项技术还有助于帮助人们跨越文化和语言进行沟通。纽约市市长埃里克・亚当斯用 ElevenLabs 的技术用普通话、意第绪语和海地克里奥尔语拨打电话,称他已经能够到更多的非英语母语的市民。
为了充分发挥这一潜力并防止欺诈,Staniszweski 表示,用户应该能够识别人工智能生成的声音和人类的声音。Staniszewski 告诉《大西洋刊》,“真正的解决方案” 是对合成声音进行数字水印处理,以便人类能够区分真假。该公司正在开发这项技术,但只有在其他公司的合作下才能发挥作用。ElevenLabs 已与包括 AI、Anthropic、Google 和 Meta 在内的几家人工智能公司签署了一项协议,共同打击2024年选举中的 Deepfakes。