2023 年最重要的 3 项人工智能创新：多模态 AI、宪法 AI 和文本转视频技术

2023 年，人工智能（AI）领域见证了重大进展，不仅公众对 AI 有了更深的理解，政府也开始认真对待 AI 风险。本年度的发展不仅是新技术和理念的出现，更是长期孕育后的集中爆发。

以下是过去一年中人工智能领域最重要的三项创新：

多模态 AI（Multimodality）多模态 AI 指的是 AI 系统处理各种不同类型数据的能力，不仅包括文本，还包括图像、视频、音频等。今年，公众首次获得了强大的多模态 AI 模型的访问权限。OpenAI 的 GPT-4 是其中的先锋，允许用户上传图像以及文本输入。例如，用户可以基于冰箱内容的照片询问 GPT-4 晚餐应该做什么。9 月，OpenAI 推出了用户通过语音以及文本与 ChatGPT 互动的功能。

宪法 AI（Constitutional AI）宪法 AI 尝试解决如何使 AI 符合人类价值观的难题。2022 年 12 月，顶尖 AI 实验室 Anthropic 的研究人员首次描述了宪法 AI，并在其 2023 年推出的聊天机器人 Claude 中使用了这一技术。该技术的核心是先撰写一份表达期望 AI 遵循的价值观的「宪法」，然后训练 AI 根据宪法评分响应，并激励模型输出得分更高的响应。这是一种 AI 反馈的强化学习方法，与人类反馈的强化学习相比，更精确控制 AI 行为，且需更少的人类标签。

文本转视频技术文本转视频工具的迅速崛起是今年投入 AI 领域的数十亿美元资金的显著成果。布鲁克林的 AI 视频初创公司 Runway 的最新模型 Gen-2 允许用户不仅根据文本生成视频，还能根据文本提示改变现有视频的风格。此外，另一家初创公司 Pika AI 正在使用其技术每周创建数百万新视频。这些免费工具试图改变用户生成内容的格局，可能在 2024 年发生，但由于文本转视频工具计算成本高，一旦风险资本用尽，它们可能开始收费。