计算机行业动态报告:DEEPSEEKR1深度解析及算力影响几何

证券之星 2025-02-04 09:23:25
股市要闻 2025-02-04 09:23:25 阅读

  核心观点: Deepseek发布深度推理能力模型。R1-Zero采用纯粹的强化学习训练,证明了大语言模型仅通过强化学习也可以有强大的推理能力,DeepSeek-R1经历微调和强化学习取得了与OpenAI-o1-1217相媲美甚至超越的成绩。DeepSeek R1训练和推理算力需求较低,主要原因是DeepSeek R1实现算法、框架和硬件的优化协同。过去的预训练侧的scaling law正逐步迈向更广阔的空间,在深度推理的阶段,模型的未来算力需求依然会呈现爆发式上涨,充足的算力需求对于人工智能模型的性能进步依然至关重要。

      Deepseek发布深度推理能力模型,性能和成本方面表现出色。Deepseek发布两款具备深度推理能力的大模型R1-Zero和DeepSeek-R1。R1-Zero采用纯粹的强化学习训练,模型效果逼近OpenAI o1模型,证明了大语言模型仅通过RL,无SFT,大模型也可以有强大的推理能力。

      但是R1-Zero也存在可读性差和语言混合的问题,在进一步的优化过程中,DeepSeek-V3-Base经历两次微调和两次强化学习得到R1模型,主要包括冷启动阶段、面向推理的强化学习、拒绝采样与监督微调、面向全场景的强化学习四个阶段,R1在推理任务上表现出色,特别是在AIME 2024、MATH-500和Codeforces等任务上,取得了与OpenAI-o1-1217相媲美甚至超越的成绩。

      国产模型迈向深度推理,策略创新百花齐放。在Deepseek R1-Zero模型中,采用的强化学习策略是GRPO策略,取消价值网络,采用分组相对奖励,专门优化数学推理任务,减少计算资源消耗; KIMI 1.5采用Partial rollout的强化学习策略,同时采用模型合并、最短拒绝采样、DPO 和long2short RL策略实现短链推理;Qwen2.5扩大监督微调数据范围以及两阶段强化学习,增强模型处理能力。

      DeepSeek R1通过较少算力实现高性能模型表现,主要原因是DeepSeek R1实现算法、框架和硬件的优化协同。DeepSeek R1在诸多维度上进行了大量优化,算法层面引入专家混合模型、多头隐式注意力、多token预测,框架层面实现FP8混合精度训练,硬件层面采用优化的流水线并行策略,同时高效配置专家分发与跨节点通信,实现最优效率配置。当前阶段大模型行业正处于从传统的生成式模型向深度推理模型过渡阶段,算力的整体需求也从预训练阶段逐步过渡向后训练和推理侧,通过大量协同优化,DeepSeek R1在特定发展阶段通过较少算力实现高性能模型表现,算力行业的长期增长逻辑并未受到挑战。过去的预训练侧的scaling law正逐步迈向更广阔的空间,在深度推理的阶段,模型的未来算力需求依然会呈现爆发式上涨,充足的算力需求对于人工智能模型的性能进步依然至关重要。

      风险提示:大模型技术发展不及预期、商业化落地不及预期、政策监管力度不及预期、数据数量与数据质量不及预期。

声明:
  1. 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
  2. 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
最新发布
今日焦点