机械点评报告:FIGURAI发布人形视觉-语言-动作模型HELIX 人形机器人智能化再进一步
事件描述
2 月20 日晚,Figure AI 发布了Helix 模型,这是一种通用的“视觉-语言-动作”模型,将感知、语言理解和学习控制统一起来,人形机器人的智能化发展更进一步。
事件评论
Helix 模型实现了多项首次创新。它是第一款实现对整个人形上半身(包括手腕、躯干、头部和单个手指)进行高速率连续控制的VLA,能够以200Hz 的频率协调35 个自由度的动作空间,并实现了同时在两个机器人上运行,使它们能够解决共享的、远程操作任务。
配备Helix 的Figure 机器人现在只需遵循自然语言提示,便可拿起几乎任何小型家用物品,包括它们以前从未遇到过的物品。在视频中,当被要求捡起“沙漠物品”时,Helix 能够准确识别出仙人掌玩具,并精准完成指令任务。Helix 使用一组神经网络权重来学习所有行为,包括挑选和放置物品、使用抽屉和冰箱、跨机器人交互,无需针对任何特定任务微调。而且Helix 是首个完全在嵌入式低功耗GPU 上运行的VLA,可立即用于商业部署。
Helix 模型能够大幅提升机器人学习速度。家庭是机器人面临的重要挑战,与工业环境不同,家庭中通常物品较多,且每个物品的形状、大小、颜色难以预测,家庭机器人需要能够像人一样推理并处理家庭物品。目前教学机器人需要投入大量人力,传统方法需要数小时博士级专家手动编程,或者进行数千次演示,两种方法成本都过于昂贵。Helix 模型能够将视觉语言模型(VLM)中捕获的丰富语义知识直接转化为机器人动作,这项新功能将从根本上改变机器人技术的扩展轨迹,曾经需要数百次演示的新技能,现在只需用自然语言与机器人交谈就可以立即获得。在系统测试中,Figure 机器人成功地处理了数千件杂乱无章的新物品,从玻璃器皿和玩具到工具和衣服,而无需任何事先演示或定制编程。
Helix 是首个由“系统1,系统2”组成的VLA,可以实现人形机器人上半身的高速精确控制。以前的VLM 主干网络具有通用性但速度不快,机器人视觉运动策略速度快但缺乏通用性。而Helix 通过两个系统解决了这个难题,两个系统经过端到端训练并可以相互通信。系统2(S2)是VLM 主干网络,经过互联网数据预训练,以7-9Hz 的频率运行,用于场景理解和语言理解,系统1(S1)是快速反应的视觉运动策略,将S2 产生的潜在语义转化为连续精确机器人动作。这种解耦架构允许每个系统在其最佳时间尺度上运行,S2可以“慢慢思考”高层次目标,而S1 可以“快速思考”来实时执行和调整行动。与现有方法相比,Helix 具备多个优势:1)匹配专门的单任务行为克隆策略的速度,同时对数千个新测试对象实现零样本学习。2)可以直接输出高维动作空间的连续控制。3)使用标准架构,架构简单。4)分别迭代S1、S2 系统,无需寻找统一的观察空间或动作。
投资建议:Helix 的发布反映出Figure 在拓展家庭人形机器人行为能力方面取得了较快进展。当下海内外机器人主机厂持续进行研发工作,推进海内外共振,同时零部件企业也在持续推出性能更好的零部件,提升生产效率并推动降本,我们认为未来人形机器人的智能化发展有望提速,持续看好人形机器人产业发展大趋势。
风险提示
1、人形机器人技术发展不及预期;
2、人形机器人产品需求不及预期。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: