叮咚!“赛博保姆”请查收(组图)
本月13日,人形机器人公司 Figure AI 发布了一段视频,展示了机器人 Figure 01 在 OpenAI 强大模型的支持下,进行的一系列对话与行动交互。这标志着以 GPT-4 为代表的大模型已经可以成为智能机器人的“大脑”,仅需要一个机器人躯体,“赛博保姆”的愿景就近在眼前了。
窥见未来的一瞥
很多人初看这个视频感觉好像也没什么大不了,但是如果仔细分析,就会发现这里面藏着很多细思极恐的细节。
首先,按照我们已有的认知和经验,机器人与人类互动的情景往往是预先设置好的程序,做什么动作,说什么话都是事先安排好的,机器人只是按照“剧本”表演。所以,如果给机器人植入一个“拿苹果,放杯子”的程序,也可以实现视频中同样的效果。但视频中的机器人运行的不是预制好的表演程序,而是完全基于机器学习之上掌握的技能,也就是说这次“表演”是即兴的,事先没人告诉它台词和动作。在OpenAI 的加持下,Figure 01 通过“身体”各处的传感器实现对其周围环境的描述,或使用常识推理做出决定。例如,将“我可以吃点东西吗?”这类模糊的高级请求转化为一些合适的行为,例如“递给对方一个苹果”。或者,用简单的语言描述它执行特定行为的原因。例如,“这是我可以从桌子上为您提供的唯一可食用的东西”。
其次,我们发现机器人现在可以利用短期记忆理解并执行对话中的指令。回想一下你上一次和人聊天,在我们的日常对话中,我们会下意识地借助短期记忆形成一定的共有认知,交流中利用代词以避免重复描述同一件事情,这是人类交流中一种司空见惯的技能。而对于机器人来讲,想让它们做到同样的事情,则需要让机器人理解语言的同时,还需要记忆对话历史的信息。大型预训练模型为Figure 01提供了强大的短期记忆。我们不妨回顾一下视频里一个简单的问题:“你能把它们放在那里吗?”想想看,“它们”指的是什么?“那里”又是哪里?机器人要想正确回答这个问题就需要有反思记忆的能力。通过预训练模型分析对话的图像和文本历史记录,Figure 01快速形成方案并执行:
1)将杯子放在沥水架上。
2)将盘子放在沥水架上。
这足以说明,在未来的人机交互中,人类只需对机器人“说人话”机器人就可以领会并执行。这将大大降低交流成本。
关于机器人的双手操作,据Figure AI 介绍,所有行为均由神经网络视觉运动 Transformer 策略驱动,将像素直接映射到动作。这些网络以10hz 的频率接收机载图像,并以200hz的频率生成 24-DOF 动作(手腕姿势和手指关节角度)。这些动作充当高速“设定点”,以供更高速率的全身控制器跟踪。其中,互联网预训练模型对图像和文本进行常识推理,以得出高级规划;学习到的视觉运动策略执行计划,执行难以手动指定的快速反应行为,例如在任何位置操纵可变形的袋子;全身控制器确保安全、稳定的动力,例如保持平衡。
最后,还有一点不得不提。还记得这个视频是哪天发布的吗?没错,3月13日,但如果你留意视频开头的字幕,你会发现视频的录制时间是3月9号。令人震惊的是,Figure AI 是在3月1日刚刚得到 OpenAI 的投资。也就是说,从获得投资到“听懂人话”Figure 01只用了不到10天。不得不惊叹于AI的学习潜力。即使在几年前,人们普遍认为机器人规划和执行自身完全学得行为的同时与人类进行完整的对话是几十年后才能看到的事情。显然,现在已经发生了太多变化。
智能机器人或迎来元年
其实在不久以前,就已经有传言说2024年将是智能机器人的“元年”。无论国内外,很多企业都在积极布局智能机器人。资本也嗅到了气息,Figure AI 的投资者几乎囊括了半个硅谷的资本家。而国内的智能机器人企业也纷纷上市,完成融资。
2023年12月29日,国内人形机器人独角兽优必选成功登陆港交所,成为2023年最后一支上市新股,也为2024年的人形机器人“元年”开了一个好头。进入2024年以后,一把人形机器人的“火”,就烧进了股市:元旦假期之后,A股机器人板块十分活跃,晋拓股份、泰尔股份、新时达、公元股份、爱仕达、思进股份等概念股涨停。而在其中,宁波机器人产业链企业思进智能又是最大受益者。数据显示,在2023年12月29日至1月10日这8天时间里,思进智能共计拉出了6个涨停板,股价由去年末的12.26元/股一路涨到了21.29元/股,几乎翻倍。
资本的加持加快了人形智能机器人的发展速度,也让我们能窥见未来生活的草稿。事实上,在大模型之前,机器人并不新奇,只是属于专用设备,只能在特定领域例如制造业发挥其作用。如今有了大模型的通用能力,通用机器人开始曙光乍现,当 AI 大模型生根发芽之后,智能机器人走进现实世界的脚步明显加快了。
成熟的 AI 大模型充当人工大脑,模拟了人脑复杂的神经网络,实现了语言理解、视觉识别、情景推理等认知功能,解决了机器人更高层次的认知和决策问题。与此同时,各种传感器、执行器、计算单元被集成到机器人躯体中,实现了对环境的感知和交互。比如视觉系统可以捕捉图像和视频,触觉传感器可以感受物体的形状和质地等。
Figure AI 创始人 Brett Adcock 此前在接受采访时表示,未来 1-2 年,Figure AI 将专注于开发具有里程碑意义的产品,期望在未来一两年内向公众展示人形机器人的研发成果,涵盖 AI 系统、低级控制等,最终呈现能在日常生活中大展身手的机器人。
长期来看,人形机器人有望发展成为消费级产品,切实成为每个家庭的"赛博保姆"。而且这种转变可能就在不远的将来发生,正如机器人专家 Eric Jang 曾提出他的洞见:“尽管许多 AI 研究者认为通用机器人的普及还需数十年,但别忘了,ChatGPT 的诞生仿佛几乎就在一夜之间。” 科技经过累积叠加最终形成技术爆炸,这样的情节不仅存在于科幻小说中,也即将出现在现实世界里。从小我们就学过量变最终引起质变,时至今日,也许我们此刻就站在这个质变的结点。面对未来世界的风云变幻,你是否做好准备迎接挑战了呢?KVB 昆仑国际纵横金融市场20余年,始终用专业的服务为我们的客户提供优质的一体化金融解决方案。为个人和公司在成长的道路上助推加力,即刻点击下方阅读原文,我们期待您的咨询。