OpenAI 首席执行官 Sam Altman 在接受采访时透露了 GPT-4o 和 GPT5的一些信息。GPT-4o 是一款多模态大模型,可以跨文本、视频和音频进行推理。Sam Altman表示,他早就有用语音控制计算机的想法,而 GPT-4o 的综合推理能力将带来所未有的用户体验。相比现有的语音助手,如苹果的 Siri,GPT-4o 更自,并在语义理解方面表现出色。
图源备注:图片由AI生成,图片授权服务商Midjourney
Altman 提到,他在体验 GPT-4o 时,发现其中一个令惊喜的用例是能够在一个平台上完成许多需要频繁切换应用和浏览器才能完成的任务,如实时翻译、语音交互和视频分析等。对于依赖保持专注和效率的开发人员和专业人来说,这是一个巨大的改变。
GPT-4o 具有低延迟的特点,平均延迟只有200300毫秒左右。这种低延迟使得 GPT-4o 能够应用于实时翻译、医学图像解析医疗记录分析等领域。
Altman 表示,医学领域将是 GPT-4o 的最大受益群体之一关于 GPT-5,Altman 透露,GPT-5将是一种非常特别的产品,可能会采用新的名称。他表示,GPT-5可能类似于一个 “虚拟大脑”,能够帮助用户处理各种任务。与之前的 GPT 列产品相比,GPT-5将是一次巨大的尝试。
GPT-4o 和即将发布的 GPT-5展示了 OpenAI 在人工智能领域的创新和突破。这些多模态大模型将为带来更智能、更高效的体验,为不同领域的人群提供更好的服务和帮助。