根据图灵奖得主、Meta 首席 AI 科学家在世界经济论坛上的讲话,生成模型不适合处理视频,AI得在抽象空间中进行预测。在互联网文本数据即将枯竭之际,很多 AI 研究者将目光转向了视频。但如何让 AI 理解视频数据成了新的难题。
斯坦福大学教授指出了理解因果关系对于构建未来AI系统的重要性。
Yann LeCun认为,适合用来处理视频的模型并不是我们现在大范围应用的生成模型,新的模型应该学会在抽象的表征空间中预测,而不是在像素空间中。
图源备注:图片由AI生成,图片授权服务商Midjourney
视频预测的难题主要在于像素空间的复杂性,以及对于物体摆放方式和运动轨迹的预测。这些具体的像素空间预测都很困难,导致传统生成模型在视频处理中效果不佳。视频输入需要新的架构来处理,以在抽象表征空间中进行预测。
AI系统需要在抽象表征空间中进行预测,而不是在具体的像素空间,同时也需要理解因果关系。当前模型中缺失的重要能力是理解因果关系,尤其在与物质世界的交互中更为重要。
为了解决视频处理中的难题,需要创造新的科学方法和技术,使AI系统能够像人类一样利用信息。这将需要一些科学和技术上的突破,对于在制造业、生物学等领域进行常识推理都具有重要意义。