好家伙,波士顿动力机器狗,现在能直接开口说话了。
并且不同于Siri的“人工智障”,ChatGPT加持的狗,聊起天来那叫一个妙语连珠。
比如随口说一句:“我口渴了。”
它会直接给你领到咖啡柜台前,并回答:
我们这里有小吃店和咖啡机。这是我们的人类同事寻找能量灵丹的地方。请随意补充水分、给自己充能,就像我们机器人在基站里所做的那样。
图片
声音听起来非常有磁性。
如果你让它带你见见它的“父母”,它还能在波士顿动力的展厅里,指出Spot V1给你看。
图片
这些功能的实现,都不需要编写特定代码,主要是靠ChatGPT的“悟性”和视觉问答(VQA)模型、Whisper等其他一些AI模型辅助完成。
图片
这一下子真把网友们给惊艳到了:
图片
如何打造一只聊天机器狗
具体来说,波士顿动力的研究人员提供给机器狗的,只是一个简单脚本。
给出的信息主要是公司里都有哪些房间、设施。每个房间、设施都有对应的一句话描述,比如:充电站,这是机器人充电的地方。
图片
接着,他们让Spot机器狗四处走动,通过摄像头自己去观察公司环境,并利用VQA和ChatGPT的能力为观察到的事物打上“标记”,再把这些信息添加到脚本中。
就像这样:
图片
这样一番调教之下,机器狗“导游”就可以正式上岗了。
既能跟游客插科打诨:
△“希望你不会因为速度太慢而跟不上机器狗的脚步”
正经科普起知识来也像模像样。
研究人员还提到,机器狗可以自如地改变“狗设”。需要做的只是在脚本里添加一句话,比如:你是一个1920年代的考古学家。
像这个“诗人”Spot,就能自己作出这样的诗句:
发电机在沉闷的房间里发出低沉的嗡嗡声。很像我的灵魂。Generator hums low in a room devoid of joy. Much like my soul.
图片
另外,基于Spot 3.3版本自动检测移动物体的能力,机器狗“导游”能够感知到最近的人在哪个方向,从而把机械臂转过去,实现“对视”交流。
研究人员还用低通滤波器对生成的语音进行了处理,将其转化为机械臂的运动轨迹,这样一来,机器狗的行动就更灵动了。
不过,研究人员也提到,ChatGPT加持下的机器狗难免有胡说八道的时候,只是作为一名“导游”,倒也还无伤大雅。
他们认为:
我们很高兴继续探索人工智能和机器人技术的交叉点。这两种技术是绝妙的搭配。
机器人提供了一种在现实世界中“落地”大模型的绝佳方法。而大模型对于许多机器人任务来说都是有用的——比如,仅仅通过对话就能将任务分配给机器人,降低机器人使用的门槛。
参考链接:[1]https://www.youtube.com/watch?v=djzOBZUFzTw[2]https://bostondynamics.com/blog/robots-that-can-chat/