AI产业速递:DEEPSEEK开源FLASHMLA解码内核 持续提升LLM推理效率
事件描述
2025 年2 月24 日,DeepSeek 开源了FlashMLA 解码内核。FlashMLA 解码内核是专为英伟达Hopper 架构GPU 打造的高效推理引擎,已实际应用在DeepSeek 中。FlashMLA 通过压缩KV 缓存和优化GPU 计算能力,显著提升了LLM 的推理效率。
事件评论
FlashMLA 内核使用分页的KV 缓存,Batch 大小为64。在LLM 中,随着序列长度的增加,KV 缓存的内存占用和计算成本会显著上升,成为性能瓶颈。Multi-head LatentAttention (MLA)将键和值投影到低维潜空间中,使用潜向量表示缓存,并通过上投影矩阵增强表达能力。这种方法显著减少了KV 缓存的大小,同时保持模型性能,从而加速推理过程。
使用分页的KV 缓存进一步提升了DeepSeek 推理效率。分页方法允许FlashMLA 将数据分成可管理的batch,提高了内存效率并减少了解码期间的延迟,便于在边缘设备上部署。在H800 SXM5 算力芯片上运行CUDA 12.6,FlashMLA 在受内存带宽限制的配置下可达3000 GB/s,在受计算能力限制的配置下可达580 TFLOPS。
FlashMLA 支持BF16(Brain Float 16)精度。与 FP32(32 位浮点)等更高精度的格式相比,BF16 精度可减少内存使用量并加快计算速度,同时保持大多数AI 任务所需的足够精度,有助于在硬件资源受限情况下上部署大模型。
支持BF16 精度拓宽了DeepSeek 落地场景。支持BF16 精度提升了DeepSeek 长序列的语言推理性能,使得DeepSeek 更加适用于文档分析或长对话。
新一轮技术供给革命,国内AI 产业迎来价值重估。DeepSeek 带来AI 平权,有望大幅度提升应用端落地速度,并扩容AI 算力需求。建议关注:1)中国推理算力产业链,重点推荐国内AI 芯片领军寒武纪;2)云服务厂商,重点关注与DeepSeek 合作的相关云厂商;3)IDC,重点关注与腾讯、阿里、字节等大厂合作的IDC;4)AI 应用相关标的,重点关注AI+政务、AI+金融、AI+医疗、AI+教育等方向。
风险提示
1、 AI 技术发展不及预期;
2、 下游应用需求不及预期。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: