汽车行业研究：OPENAIO3加速智驾VLA

证券之星 2024-12-31 16:11:05

2024-12-31 16:11:05 阅读

　　事件：近期，OpenAI 推出新的推理系列模型o3 和o3-mini ，接近AGI 的AI 模型拥有真正的通用推理能力，有望加速智驾VLA。

    　　接近AGI 的AI 模型加速智驾VLA。传统自动驾驶系统分为感知、规划、定位和决策等多个模块，端到端架构则强调“感知决策一体化”，提高智驾能力上限。o3 具备更先进、近似人类的推理能力，在代码编写、数学竞赛和掌握人类博士级别的科学知识等方面，均超越了o1，自动驾驶开始真正依靠人工智能而不是详尽的地图绘制和编码来取得进步。端到端可全面实现拟人高效决策升级。全AI 网络架构高效传递信息，端到端是一体化的模型，信息都在模型内部传递，具有更高上限，用户所能感受到的整套系统的动作、决策都“更加拟人”；一体化模型可在GPU 里一次完成推理，且端到端延迟更低，车辆动作响应及时。

    　　以端到端+VLM 为例，将智驾系统分为系统一（快系统）和系统二（慢系统）。系统1（快系统）经历了三个进化阶段：第一代为NPN 架构，包含感知、定位、规划、导航、NPN 等模块，支撑了理想汽车100 城城市NOA推送。NPN 使用部分道路和地图的先验信息，帮助车辆识别道路特征，减少对高精地图的依赖。但即使可以减少依赖，依然没有一个图商能提供城市的高精地图，轻图则无法具有时效性的迭代。第二代为分段式端到端(Two Models)，模块更少，只剩下感知和规划，无需等先验信息更新，有导航就能开，支撑着现阶段理想无图NOA 全国都能开的实现。第三代为一体化端到端( One Model)，真正意义上的端到端，输入是传感器、输出是行驶轨迹，全部由一个模型实现。理想VLM 擅长逻辑推理，实现慢系统人脑思考。在端到端基础上，理想汽车引入了VLM 视觉语言模型以达到人脑思考效果，用更擅长逻辑推理的VLM，去执行复杂的分析，在驾驶中给系统一提供更加符合逻辑、准确的驾驶决策。OpenAI 推出新的推理系列模型o3 和o3-mini ，接近AGI 的AI 模型拥有真正的通用推理能力，有望加速智驾VLA。

    　　风险提示

    　　智驾进展不及预期，技术升级不及预期，控制成本不及预期。

汽车行业

声明：

风险提示：以上内容仅来自互联网，文中内容或观点仅作为原作者或者原网站的观点，不代表本站的任何立场，不构成与本站相关的任何投资建议。在作出任何投资决定前，投资者应根据自身情况考虑投资产品相关的风险因素，并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性，对此本站不做任何保证和承诺。

本站认真尊重知识产权及您的合法权益，如发现本站内容或相关标识侵犯了您的权益，请您与我们联系删除。

汽车行业研究：OPENAIO3加速智驾VLA

推荐文章：

2024年12月PMI数据点评：如何理解季节性的下滑？