ChatGPT 还是谷歌 Gemini 更好？新 AI 模型尽管性能卓越但面临现实应用的挑战

谷歌最近推出了一款名为 Gemini 的新型人工智能模型，并试图通过一份报告证明其优于 OpenAI 的 GPT-4。根据谷歌首席执行官 Sundar Pichai 联合撰写的一篇博客文章，Gemini 在 32 项学术基准测试中的 30 项中表现优于 GPT-4，包括数学、阅读、编程和推理测试。

尽管 Gemini 相较于今年年初谷歌的 AI 发展有了巨大提升，但在许多测试中仅以微弱优势领先 OpenAI 的模型，这让其自夸显得有些迫切。

真的有人会因为 Google 在代数技能评估中得分高出 0.3% 而从 ChatGPT 转向 Bard 吗？

这些测试成绩是否真的能促使用户从 ChatGPT 转向 Bard 还是个疑问。随着众多 AI 产品试图区分自己，比较点变得越来越抽象，以至于几乎毫无意义。例如，百度和 Meta 平台等科技巨头强调他们的大型语言模型拥有数十亿甚至数万亿的参数，而初创公司则夸耀其系统摄取了数以百万计的内容。

即便是领域专家对这类评估也持谨慎态度。OpenAI 研究员 Rowan Zellers 在社交网络 X 上发文称，对于目前十多个文本基准的信任程度并没有很好的判断。

Gemini 在实际应用中的表现比这些测试成绩更重要，用户迅速指出该系统仍容易出错，看起来并不比 OpenAI 的产品更好。谷歌自己在解释 Gemini 成绩对公众意味着什么时也遇到困难，最大」的模型">称该模型是其迄今为止「最灵活」、「最有能力」和「最大」的模型。

Gemini 有三个不同的版本——Ultra、Pro 和 Nano——甚至谷歌的 Bard 也难以识别。当用户询问聊天机器人有关新的 Gemini 模型时，它将其引向了各种名为 Gemini Pro 的产品，包括高光地板涂料、便携式 PA 系统和压花机。

过度的基准测试有点像 PC 时代的规格战争。数十年前，计算机制造商通过处理器速度和内存大小等技术指标来推广其硬件。苹果公司被认为是将焦点转移到展示产品如何改善日常生活的新颖特性上。当史蒂夫·乔布斯首次推出 iPod 时，其千兆字节存储空间不如「1，000 首歌在你口袋里」的承诺重要。

AI 公司的问题在于，由于他们的软件声称几乎可以做任何事情，因此很难确切地区分特定产品的特点。例如，埃隆·马斯克将 xAI 的 Grok 定位为 anti-woke 的替代品，而 X 公司 CEO Linda Yaccarino 称其为「终极挚友」（不管这意味着什么）。

谷歌最明确的差异化特征在于其 Bard 的「多模态」功能演示中展示，即用户可以通过文本输入之外的方式与机器交互。在一个示例中，Bard 看到了一张分叉道路的图片，路线通向一只鸭子或熊的涂鸦。当被问及路口另一只鸭子应该走哪个方向时，Bard 正确猜测最安全的路径是朝向同类。

但谷歌后来承认，该演示有些作假，基于尚未发布的 Gemini 版本。当用户在 Bard 上进行相同测试时，它奇怪地建议鸭子应该骑自行车向南行驶 100 英里到罗德岛州。另一方面，ChatGPT 则完美地回答了这个提示。

对于这个问题，谷歌需要更加努力才能获得及格分数。