计算机行业GROK-3:RL成为共识 持续看好预训练算力需求

证券之星 2025-02-20 04:41:26
股市要闻 2025-02-20 04:41:26 阅读

  2025 年2 月18 日,xAI 发布了基于全球最大算力集群(约20 万块GPU)训练的新一代大模型:1)预训练模型:Grok-3 与Grok-3 mini,在Math、Science 、Coding 测评集上超过了Gemini-2 Pro 、GPT-4o 以及DeepSeek-V3;2)推理模型:Grok-3 的Reasoning 版本在性能上超越了OpenAI o3 mini (high)。Grok-3 系列将首先面向X 平台的Premium Plus 订阅用户开放,包括聊天功能、DeepSearch 与高级推理模式。我们认为,一方面Grok-3 训练集群已达到20 万卡级别,证明预训练在算力提升下仍能突破;另一方面,xAI 将采用“延迟开源”策略,即在Grok-3 打磨完善后,开源Grok-2,实现了商业化和开源的平衡,开源社区有望被持续赋能。

      继续看好大模型预训练算力需求

      xAI 指出,Big intelligence requires big compute,Grok-3 相比Grok-2 提升了10x 的训练算力。2024 年9 月3 日,马斯克宣布xAI 的10 万卡H100 集群上线,本次发布会再次表示xAI 的训练集群GPU 数已扩大到了20 万。我们认为,虽然目前在预训练数据上存在瓶颈,但是合成数据、RL 数据、工程能力优化,甚至Transformer 架构迭代,或能逐步打破瓶颈,Grok-3 已经证明预训练依然有突破空间,持续看好全球头部大模型预训练算力需求。

      在预训练基座模型上进行大规模RL 将是25 年主线OpenAI 于2024 年9 月推出o1 系列模型,并且首次公开提出将RL 运用在大模型的后训练中,实现大模型以思维链(CoT)方式推理。DeepSeek-R1独立摸索出了在预训练模型V3 基础上,直接使用GRPO 算法来进行大规模的强化学习并获得成功。Google Gemini 2.0 也发布了Flash Thinking 的推理模型,Anthropic 也宣布即将发布能手动控制成本的推理模型。RL 已经成为全球模型厂商共识的技术迭代路径。本次Grok-3 发布,同样更新了Reasoning 模型,运用RL+CoT 的方式实现Test-Time Compute,并且基于更好的Grok-3 基座模型,超过了o3-mini 的推理性能。我们认为,RL 将成为2025 年模型迭代的主线,迭代方法或是继续加大RL 的步数(steps)或改进RL 框架,以更好的训练模型CoT 作答能力。

      DeepSearch 成为Agent 集中落地的方向,更多Agents 有望问世整合信息进行输出的Agent 正成为集中落地方向。OpenAI 于2 月3 日发布Deep Research 功能,这是一个使用推理来综合大量在线信息并为用户完成多步骤研究任务的智能体。同样,xAI 本次发布会发布基于Grok-3 的第一代Agent 产品DeepSearch,能深入思考用户意图,浏览多个网站内容,在输出最终答案前会验证不同来源,确保答案正确。它不仅能帮助工程师、研究人员和科学家进行编码,还能帮助所有人回答日常问题,帮助用户理解世界。同时马斯克表示,当下一个版本模型完全发布时将开源上一个版本。我们认为,全球大模型厂商的开源化趋势将进一步带动应用层的蓬勃发展,基于更强大模型的Agents 有望快速问世。

      语音交互即将上线,RL+多模态能力值得期待

      多模态方面,Grok 语音助手也将尽快推出,这将是一个能理解用户话语并直接生成音频的单一模型,也将融入RL 的能力。目前,xAI 团队正在开发对话记忆功能,未来用户可以选择拥有一个或多个Grok,实现个性化交互。

      我们认为,结合RL 能力后模型的多模态能力也有望得到加强,建议持续关注多模态产品进展情况。

      风险提示:AI 技术迭代不及预期;AI 商业化不及预期;本报告基于客观信息整理,不构成投资建议。

声明:
  1. 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
  2. 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
最新发布
今日焦点