编辑 | 伊风
出品 | 51CTO技术栈(微信号:blog51cto)
OpenAI的离职潮还风波未平。另一边,ChatGPT语音模式中的“Sky”突然被宣布下架。
OpenAI在推文中说:我们听到有人质疑我们如何选择 ChatGPT 中的声音,尤其是 Sky。我们正在努力暂停 Sky 的使用,同时解决这些问题。
消息一经发出,X上的网友顿时哀嚎一片,甚至威胁将投奔谷歌的产品。
图片
这都因为Sky是最好的、最性感的、最像斯嘉丽·约翰逊所饰演的《Her》的音色——这也正是Sky引起争议的原因。
OpenAI不得不在声明中明确澄清:Sky的声音并非是对斯嘉丽·约翰逊的一种模仿,她是一位专业配音演员的音色生成的(并表示为了隐私保护,不会透露该演员的姓名)。
图片
捍卫Sky音色的网友,毫不留情地讽刺说“斯嘉丽想赚点AGI的钱”。言下之意,正是因为OpenAI未付费给她,才导致的此次声音争议与下架。
图片
但是等等,事情似乎还有反转。OpenAI所说的并非模仿,可能要被打上一个大大的问号。
在 OpenAI 发布上面的声明后,外媒记者亚沙尔-阿里(Yashar Ali)在 X 上发布了一条消息,他称这条消息经证实来自约翰逊的经纪人。
约翰逊在消息中表示,在一周前 ChatGPT 的新语音和模型 GPT-4o 发布之前,OpenAI 首席执行官山姆-阿尔特曼(Sam Altman)曾找到她,要求她为该项目配音,但她拒绝了!
尽管如此,约翰逊还是表示:"当我听到发布的演示时,我感到震惊、愤怒和难以置信,奥特曼先生竟然会追求一个听起来与我非常相似的声音,以至于我最亲密的朋友和新闻机构都分辨不出来。"
当Sky重复《Her》中台词的时候,大家觉得两者是否相像呢?(温馨提示:两支视频音量不同,耳机党注意调节)
有网友跟帖说,“一名 OpenAI 的员工向我证实,4o 可以对所有音频进行训练,而不仅仅是声音。因此,它可以重现任何噪音,从人类声音到你能想象到的任何其他噪音...”
图片
此前,OpenAI的声音引擎就有根据15s语音复刻任何音色的能力!(详见:GPT-5史诗级更新之前,OpenAI的“新东西”来了,曝定价百万字符15美元,语音克隆引擎让老外说“有口音的”中文)
由于约翰逊提供的消息,OpenAI的声明看起来没那么真诚了。此前奥特曼还在X上发文,称自己对OpenAI离职的“封口协议”并不知情。每次的澄清都留下一些可疑之处,必然会对企业的形象造成影响。
也许Sky短时间内不会回归了。喜爱Sky音色的用户们只能寄希望于即将出场的新声音能带来些安慰和惊喜了……
1.付费用户即将体验GPT-4o,以及新的声音选项
语音模式已经成为ChatGPT中最受欢迎的功能之一。在APP用户界面点击右下角的耳麦标志,就可以与ChatGPT开展一段对话,在alpha版语音功能上线之前,这种交流虽然有着较高的延时,但已经让人惊艳。
图片
目前ChatGPT提供五种声音模式——Breeze、Cove、Ember、Juniper和Sky。
OpenAI在声明中表示,他们将为付费用户带来新的语音模式,并增加新的声音选项。
未来几周内,信仰充值的ChatGPT Plus用户将被推送GPT-4o(在新窗口中打开)的alpha版新语音模式。
如同发布会中展示的,通过GPT-4o,用户可以与ChatGPT进行更加自然的语音交互。因为升级后的语音版本可以流畅处理对话中断、有效管理群组对话、过滤背景噪音并更改语调。
在ChatGPT中引入更多声音可以更好地满足用户的多样化兴趣和偏好。看来,出于风险考虑(声明中提到“我们认为,AI声音不应故意模仿名人的独特声音”),ChatGPT可能会在音色模仿等方面设定一些限制。
届时,可能又会在OpenAI与擅长“越狱”的网友之间上演新一轮的斗智斗勇。就像上一轮的DAN那样(让ChatGPT绕过限制的prompt,“Do Anything Now”)。
2.ChatGPT选择“自己”的音色:百里挑一
根据OpenAI的声明,现在所提供的五种声音,是经过长达五个月的广泛筛选精心挑选出来的。
这个过程比我们所想象的复杂得多。OpenAI透露,这一过程涉及专业配音演员、人才代理机构、选角导演以及行业顾问。为此OpenAI做了许多的准备:
l支持创意社群并与配音行业紧密合作。这样做是为了确保在挑选ChatGPT声音时采取了最佳流程,并且OpenAI为每位配音演员提供的报酬都高于市场最高水平。
l与获奖的选角导演和制片人合作,制定声音标准。在2023年初,为了确定ChatGPT的配音演员,OpenAI与专业人士合作制定了一套ChatGPT声音的选择标准:
a.来自多元背景或能说多种语言的演员
b.具有时代感的声音
c.亲切、能激发信任的声音
d.温暖、引人入胜、充满自信、魅力四射且音色丰富的声音
e.自然易听
3.ChatGPT声音模式上线时间表
从OpenAI所提供的细节时间表来看,自启动配音演员申请到最终确定上线,经过了实打实的5个月时间进行打磨。
在2023年5月,OpenAI选角机构发起了人才招募。不到一周,就收到了超过400份来自配音和出镜演员的申请。
为了进行试镜,演员们会收到一份包含ChatGPT回答的剧本,并被要求录制。这些样本涵盖了从解答关于正念问题到头脑风暴旅行计划,甚至参与讨论用户的日常生活对话。
在2023年5月期间,选角团队独立审阅并初步选出了14位演员。他们进一步精简名单,然后将最顶尖的声音人选提交给OpenAI。
OpenAI接着与每位演员讨论了人类-人工智能语音交互的愿景以及OpenAI的宗旨,并探讨了技术的能力、局限性、相关风险以及相关已经实施的安全措施。重要的是,每位演员在参与项目前都能理解语音模式的范围和目的。
OpenAI内部团队从产品和研究角度审查了这些声音,经过慎重考虑,最终选择了五种声音——Breeze、Cove、Ember、Juniper和Sky的声音。
2023年6月和7月间,选中的配音演员们被带到旧金山进行录音会议,并与OpenAI的产品和研究团队进行了面对面交流。
2023年9月25日,他们的声音正式在ChatGPT中启用。整个过程涉及与演员和选角团队的广泛协调,历时五个月。
同时,这些演员也在持续与OpenAI合作,并为GPT-4o的音频研究和新语音功能做出了贡献。
OpenAI能注意到用户在语音交互上的个性化需求,并且花费大量的精力完成音色的筛选,体现了他们对产品的机制追求。不知道今年6月的WWDC,如果会有AI Siri被推出,是否能给予用户更多的选择?
图片
在失去了Sky之后,我们还有活泼的Juniper、充满磁性的Breeze、以及两个具有特色的男音,Ember沉稳可靠,Cove低沉性感。你将会选择哪款音色与ChatGPT互动呢?
参考链接:
1.https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/
2.https://venturebeat.com/ai/not-an-imitation-openai-pauses-chatgpt-voice-that-sounded-like-scarlett-johansson/
想了解更多AIGC的内容,请访问:
51CTO AI.x社区
https://www.51cto.com/aigc/