OpenAI和Google接连两天的大动作，都想让AI助手成“精”

看过昨天OpenAI的春季发布后，不难猜到，在今天的谷歌I/O大会上，必然会有关于AI助手的介绍。

毕竟，抢在谷歌I/O大会前发布GPT-4o的Altman，已经显示出了十足的针对性，凭借Altman的手段，自然也有着十足的把握做到精准打击，将这场“红蓝对抗”进行到底。

果不其然，大会上，谷歌CEO Pichai请来了DeepMind创始人Demis，谷歌全新的AI助手Project Astra正是由首次登台谷歌I/O大会的Demis揭开的神秘面纱。

Project Astra是一个由谷歌Gemini作为基础引擎的实时、多模态通用人工智能助手，相当于是Google Assistant的继任者。

与Siri、Alexa等以往我们使用的AI助手相同的是，你依然可以用语音与它进行交互；不同的是，借助生成式AI独有的特性，它现在拥有了更好的理解能力、可以干更多事情，更重要的是，这次它还有了视觉识别能力，让AI助手得以睁眼看世界。

在大会上谷歌的视频演示中，着重演示的正是这一AI助手的视觉智能。

在演示视频中，一位谷歌工程师拿着打开摄像头的手机，让Gemini识别空间中能发出声音的物体、识别显示器屏幕上显示的代码的功能，甚至通过户外街景识别演示者现在所在地址。

除了将AI助手应用到手机上，谷歌还将AI助手应用到了AR眼镜上，当这位工程师将搭载这一AI助手的智能眼镜对准黑板上设计的系统并提出如何改善这一系统时，AI助手甚至能给出系统设计的改善建议。

这是谷歌在AI助手上展示出的视觉智能，在Gemini加持下，这样的AI助手在交互能力上已经得到了极大的增强。

不过，在实际交互的自然度上，这样的AI助手依然与昨天OpenAI GPT-4o展示出的效果形成了不小的差距。

OpenAI“截胡”成功

就在谷歌I/O大会前一天，OpenAI召开了一场声势浩大的春季发布会，GPT-4o是这次春发的主角，部署在手机上的AI助手则是这次发布会重点演示的功能。

从OpenAI发布会上演示的AI助手能力来看，无论是在演示内容的亲民程度、交互过程的自然度，还是这一AI助手多模态能力上，演示效果都要更好。

这是因为OpenAI将GPT-4o装载到手机上时，不仅加入了视觉智能，还让这个AI助手能够实时响应（官方给出的平均响应延时是320毫秒），可以被随时打断，甚至还能理解人类的情绪。

在视觉智能方面能力演示过程中，OpenAI在纸上写了一道数学方程让AI助手一步一步解题，像极了一位小学老师。

而当你和GPT-4o打“视频电话”时，它又可以识别你的面部表情，理解你的情绪，知道你现在看起来是开心还是难过，活脱就是一个human being。

不难发现，在如今大模型技术加持下，谷歌和OpenAI都在试图将原来粗糙不堪的AI助手进行回炉再造，想让AI助手能够像真人一样与我们自然交互。

而从前后两个发布会视频演示结果来看，以大模型作为基础引擎的AI助手，也确实让我们明显感受到了，现在的AI助手与此前的Siri、Alexa有了明显的代际差。

实际上，在生成式AI、大模型技术发展如火如荼的当下，苹果也在试图让Siri脱胎换骨，此前彭博社就曾援引知情人士消息报道称，苹果正与OpenAI和谷歌分别在谈合作，想要将他们的大模型用到iOS 18操作系统中。

至于这样的AI助手是否能让Siri再次翻红，成为AI手机的杀手级应用，接下来，就看苹果能否再次为AI助手顺利“附魔”了。