AI产业速递:DEEPSEEK开源DEEPEP代码库 优化模型并行处理能力

证券之星 2025-02-27 07:00:06
股市要闻 2025-02-27 07:00:06 阅读

事件描述

      2025 年2 月25 日,DeepSeek 开源了DeepEP 代码库。DeepEP 是首个用于混合专家(MoE)模型训练和推理的开源专家并行 (EP)通信库。专家并行是分布式训练的一种方式,将MoE 中的不同专家分配到不同的计算设备上。专家并行利用 MoE 的稀疏激活特性,使模型规模能够随设备数量线性扩展,而不会相应地增加计算成本。

      事件评论

      专家并行的难点在于专家之间的通信效率,DeepEP 代码库重点解决了这一问题。通过优化的通信方案,DeepEP 显著降低了专家之间数据交换的开销,提升了模型并行处理能力和训练推理效率。在MoE 架构中,两个关键操作是分发(dispatch)和合并(combine)。

      1)分发:根据门控网络的决策,将输入token 路由到相应的专家;2)合并:收集各专家处理后的结果,并根据权重进行合并这两个操作需要设备间的全对全(all-to-all)通信模式,即每个设备需要向其他所有设备发送和接收数据。DeepEP 大幅优化了这一过程,减少了通信瓶颈。

      DeepEP 代码库通过多种途径提升了GPU 之间的信息传递效率,优化了不同GPU 之间的分工协作:

      1)不同的GPU 节点内和节点间均支持NVLink 和RDMA。DeepEP 可以充分利用InfiniBand 和NVLink 带宽,优化显存利用率,无需使用昂贵的张量并行即可训练DeepSeek-V3。

      2)发布用于训练和推理预填充的高吞吐量内核以及用于推理解码的低延迟内核。高吞吐量内核适用于训练中的数据批量处理阶段,能够显著提升训练速度;低延迟内核针对推理解码阶段,低延迟的计算能够让生成结果更快。

      3)高效的MOE 全员沟通。通过高效且优化的All-to-All 通信机制,支持节点内部和节点之间的通信,加快信息传递效率。

      4)灵活的GPU 资源控制,实现计算-通信重叠。在训练过程中,GPU 可以在等待通信完成的同时,继续处理其他计算任务,不占用流处理器资源,从而避免浪费时间。

      新一轮技术供给革命,国内AI 产业迎来价值重估。DeepSeek 带来AI 平权,有望大幅度提升应用端落地速度,并扩容AI 算力需求。建议关注:1)中国推理算力产业链,重点推荐国内AI 芯片领军寒武纪;2)云服务厂商,重点关注与DeepSeek 合作的相关云厂商;3)IDC,重点关注与腾讯、阿里、字节等大厂合作的IDC;4)AI 应用相关标的,重点关注AI+政务、AI+金融、AI+医疗、AI+教育等方向。

      风险提示

      1、AI 技术发展不及预期;

      2、下游应用需求不及预期。

声明:
  1. 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
  2. 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
最新发布
今日焦点