波士顿动力公司近日推出了其新一代机器人狗 Spot,这是一种配备了聊天机器人技术的智能导游机器人。Spot 不仅能走动和交谈,还能以其独特的英国口音为游客提供场所导游服务。通过与 ChatGPT 及其他开源大型语言模型(LLMs)的集成,Spot 能够精准地训练其响应,为人们呈现出一个全新的互动体验。
据波士顿动力的工程师介绍,Spot 能够通过编写好的对话和视觉问答模型,来回答有关周围环境的问题。在 YouTube 上发布的演示视频中,Spot 可以看到在波士顿动力的设施中走动,为观众展示周围的环境,并通过其机械口回答问题,营造出一种真实的交流体验。
波士顿动力的首席软件工程师 Matt Klingensmith 表示,他们为 Spot 的每个房间提供了简短的脚本。Spot 随后利用其抓手和身体上的摄像头收集房间的图像,以获取更多有关所见内容的信息,然后生成响应。视觉问答模型让 Spot 能够为图像添加标题并回答关于它们的问题。
波士顿动力的机器人常常展示其舞蹈和跑酷技能,但通过生成式 AI,它们现在能够直接听取并回应人类的输入。这些机器人拥有多种人格,包括一个激动地谈论可能在石头下找到的矿物的「贵金属女牛仔」,一个以押韵对偶回应的「莎士比亚时空旅行者」,以及一个嘲讽 Klingensmith 的「Josh」人格。
Klingensmith 在波士顿动力官方博客中写道:「我们很高兴继续探索人工智能与机器人技术的交汇点。这些模型(LLMs)可以提供文化背景、常识知识和灵活性,这对于许多机器人任务来说都可能很有用。例如,仅通过与机器人交谈就能指派任务,这将有助于降低使用这些系统的学习曲线。」
同时,OpenAI 最近也为其聊天机器人 ChatGPT 添加了声音和图像识别功能,让它能够生成由真人声音演员的声音合成的 AI 生成的声音线,从而能够向用户回应。此外,ChatGPT 现在也能识别图像,并提供图像中内容的信息。这一更新也为 AI 的可能性打开了新的大门,包括波士顿的机器人狗,现在也能够听和说了。