机械设备行业点评:从英伟达的布局看机器人的大模型和训练

张一鸣/何鲁丽 2024-08-06 13:00:26
机构研报 2024-08-06 13:00:26 阅读

  具身智能的三要素包含算法、数据和执行器,三者相辅相成。人形机器人这种具身智能的三要素工作方式通常是:机器人接收到任务后,大模型驱动执行器及其各种传感器动作规划出运动路径和计算出相应数据,数据再反馈至大模型验证到最精确的数据。英伟达在2024 年GTC 大会上发布了人形机器人项目GR00T,旨在开发人形机器人的通用基础模型,英伟达GR00T 项目中包含训练学习的AI 平台、模拟学习的实验室平台、高算力的系统芯片等。该模型将多模式指令和过去的交互作为输入并输出机器人动作。由该平台提供支持的机器人,可以通过观察人类行为来理解自然语言和模仿动作,使机器人能够快速的学习协调性、灵活性和其他技能,适应和现实世界互动。

      机器人模型从大语言模型到分层端到端模型,大大加快了人形机器人的训练速度。人形机器人大模型从最初的大语言模型到现在的分层端到端模型,产生了巨大的变化。目前的分层端到端模型相比传统的大语言模型存在诸多的优点:精确度高、高效性、灵活性和可以通过仿真模拟收集收据等。但也存在较大的问题:数据缺乏、成本高、错误率高、响应速度慢等。

      近日,GR00T 项目有最新进展,突破了原有人形机器人收集训练数据高昂成本的痛点,即可以通过在仿真中扩展学习实现大幅度降低人形机器人训练数据的成本。具体实现方式主要分为几步:

      给定人形机器人使用Apple Vision Pro 得到的人类轨迹,即得到初识小量的物理世界的数据;

      英伟达研究人员通过RoboCasa 在仿真中改变人形机器人实验场景的视觉变化和场景布局,从而得到比原来更为庞大的数据;? 研究人员再通过MimicGen 改变人形机器人执行同一个人物时不同的动作,同时过滤掉失败的路径,把数据扩展到初始数据1000 倍或以上倍数的数据。

      拓展法则运用至机器人中面临着数据多样性、实时性和安全性考虑,对于这些限制,英伟达GR00T 给出了自己的答案。英伟达研究人员通过GPU加速仿真模拟讲昂贵的数据扩展至海量数据样本的方式,突破了我们始终受限于每个机器人每天24 小时的时间,英伟达新GR00T 合成数据管道打破了这一限制。OpenAI 在2020 年首次系统的阐述了拓展法则:在一定条件内,模型性能会随着模型规模和训练数据量的增加而呈指数级别增长。

      风险提示:制造业扩产不及预期风险,行业竞争格局恶化风险,机器人应用模型开发不及预期风险。

声明:
  1. 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
  2. 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。