谷歌副总裁 Sissie Hsiao：Gemini AI 演示视频「完全真实」，尽管谷歌「为了简洁而缩短了部分内容」

在日益激烈的生成型 AI 市场竞争中，谷歌近期推出了其大型语言模型 Gemini 的预告视频。然而，有关该视频真实性的争议随后引发了广泛关注。

谷歌发布的演示视频展示了 Gemini 模型的多模态能力，能够巧妙地解读并处理来自实时视频和音频的信息。这对谷歌来说是一项重大成就，尤其是在与 OpenAI 等竞争对手的激烈竞争中。然而，据彭博社报道，演示视频实际上是通过「使用视频的静态图像帧，并通过文本提示」制作的，而不是看似实现的实时语音和视频处理。

在旧金山举行的《财富》杂志 Brainstorm AI 会议上，谷歌助手和 Bard 的副总裁兼总经理 Sissie Hsiao 讨论了这段颇具争议的演示视频。她强调了 Gemini 作为一个模型所达到的标准，以及它将如何推动谷歌的聊天机器人 Bard 的发展。「这个视频完全真实。所有的提示和模型响应都是真实的，」Hsiao 说。「我们确实为了简洁而缩短了部分内容，这些信息也已经在视频中说明。」

演示视频展示了新 AI 模型识别一条波浪线，然后识别新线的曲线，最终绘制出一只鸭子的图画的多模态能力。在整个过程中，模型持续识别每个元素，实时提供与鸭子相关的事实和答案。

Hsiao 突出了 Gemini 在各种基准测试中的成就，这些测试包括高中物理、专业法律难题和道德场景。据 The Verge 报道，Gemini Ultra 在 32 项基准测试中击败了 OpenAI 的 GPT-4，共赢得了 30 项测试，这是一个值得夸耀的成就，尽管 Gemini Ultra 直到明年才会发布。目前，Bard 使用的是不那么先进的 Gemini Pro，大致相当于 GPT 3.5。

Hsiao 表示，这些 Gemini 模型将继续改进谷歌搜索以及谷歌 Bard 聊天机器人，后者据她所说是「目前市场上最受欢迎的免费聊天机器人。」

gemini bard 演示视频机器人聊天机器人多模态 gpt openai gpt-4 旧金山真实性 url 市场竞争 ai 模型谷歌搜索文本提示竞争对手视频处理大型语言模型语言模型