OpenAI宣布在ChatGPT中引入一项新功能,可以根据用户对话创建独特的图像。该功能可供ChatGPT的Plus和Enterprise用户使用,便于基于用户描述进行视觉渲染,并支持直接在聊天中进行迭代细化。底层技术由OpenAI的高级图像模型DALL·E 3驱动。
DALL·E 3是OpenAI内外多项研究进展的结晶。值得注意的是,它的视觉效果不仅更吸引人,而且更清晰,优于前代。它在渲染文本、手和面部特征等复杂组件方面表现出娴熟的技巧。增强了对详细提示做出反应和支持各种纵横比的能力,这源于先进的训练方案。
通过使用尖端的图像字幕,可以为训练图像生成更好的文本描述。DALL·E 3通过在这些增强型字幕上的持续训练产生了一个与用户提供的描述更加一致的模型。OpenAI的一篇研究论文对这一过程进行了全面的探索。
ChatGPT现在可以通过简单的对话创建独特的图像
安全措施
在部署DALL·E 3时,OpenAI建立了一个强大的安全机制,以减少有害图像的产生,其中包括暴力、露骨或宣扬仇恨的内容。对用户输入及其相应输出会先进行安全评估。另外初始用户的反馈和专家评估为改进提供了依据,特别是在识别和解决安全检查中的盲点方面。
该模型以在世艺术家风格或公众人物去生成图像的倾向已经减少,图像中的人口代表性也得到了增强。
用户协作
OpenAI强调用户反馈在完善其产品方面的价值。ChatGPT用户可以直接与研究团队沟通,报告输出中的问题或差异。这种反馈回路由广泛的用户社区补充,有助于确保人工智能系统的负责任进化,与OpenAI的使命保持一致。
来源分类器
OpenAI还在试验一种来源分类器,该分类器旨在确定图像是否由DALL·E 3生成。在早期的内部评估中,当图像未被修改时,它在识别图像是否由DALL·E生成方面的准确率超过99%。当图像经过常见的修改类型时,如裁剪、调整大小、JPEG压缩,或者当真实图像的文本或剪切被叠加到生成图像的小部分上时,它的准确率保持在95%以上。
虽然分类器表明了DALL·E3参与的可能性,但它并没有提供确凿的证据。作为识别人工智能生成内容的更广泛努力的一部分,该工具与其他策略一起,可能在未来发挥关键作用。
艺术完整性
最后,DALL·E 3原则上会拒绝模仿在世艺术家风格的图像生成请求。但艺术家也可以选择将他们的创作用于OpenAI训练后续图像生成模型。