互联网行业动态点评:浅谈DEEPSEEK的创新性 对比科技巨头和OPENAI
低成本敲响美国科技界“警钟”,DS 引发科技股抛售,掀起AI 主导权之争DeepSeek(DS)的低开发成本引发全球投资者对美国科技巨头高成本投资的质疑,以及对算力与相关产业的担忧,1 月27 日纳指出现拥挤性抛售。
英伟达、ARM 和博通股价下跌17.0/10.2/17.4%。知名科技投资人MarcAndreessen 认为DS 是一项重大突破,并引发各界对美国在AI 领域主导地位的质疑。而特朗普更将DS 描述为对美国科技产业敲响了“警钟”。从科技界看,Meta 首席科学家Yann LeCun 认为DS 受益于开源生态,并认为开源模型正在赶超闭源模型,Meta 的Llama 同属开源。Scale AI CEOAlexandr Wang 表示DS 的模型“惊天动地”,性能高且大致与美国最好的模型相当,并认为中美之间的AI 竞赛加剧。OpenAI CEO Sam Altman 称赞R1 的高性价比,但表示其将推出的改进模型或再次引领行业发展。不过,据彭博报道,微软和OpenAI 正在调查DS 是否以未经授权方式“蒸馏”了OpenAI 的数据输出作为其训练依据。英伟达也于1 月31 日宣布DS-R1 模型现已在NVIDIA NIM 微服务预览版上提供。该微服务在单个HGX H200系统上每秒最多可提供3872 个Tokens。
对比科技巨头和OpenAI 的模型,DS 是否真正创新?
我们认为DS 的R1 模型主要是在现有技术路线的基础上创新,并进行深度优化和改进。这是学术研究惯用的研究方法,也反映了AI 发展中开源的趋势。Meta CEO 扎克伯格在24Q4 财报里表示,DS 的崛起“只会加强我们对Meta AI 战略和投资的信心”。他强调须建立美国AI 技术标准,尤其在面对开源模型带来的全球竞争。他也承认DS 采用的几种创新算法可更有效、更经济地训练模型,Meta 目前正评估并考虑将一些算法整合到自己的模型中。DS 于2024 年推出V1-V3 模型迭代,主要基于MOE(专家混合模型,Mixture of Experts)和MLA(多头潜在注意力,Multi-head Latent Attention)算法,以解决AI 计算的两大瓶颈:内存与算力。
DeepSeek 的MoE 算法能如何降低算力需求?
MOE 是神经网络之父Geoff Hinton 于90 年代提出,目前相关算法已被Mistral、谷歌、腾讯、OpenAI 等广泛应用。MOE 将大型模型划分为多个专门处理特定任务或数据的小型子模型。而每个子模型仅在其特定知识相关时才被激活。尽管DS 的V3 总共有6710 亿个参数,但实际上一次只使用370亿个参数。而R1 是以V3 基础,通过强化学习实现高效推理。传统MOE算法(如谷歌GShard)通过激活不同专家来处理任务,但较难确保专家获得的知识不重叠。而DS 的MOE 特点在于使用了:1)细粒度专家分割(Fine-grained Expert Segmentation)将专家划分为更小单元以更灵活激活专家组合;2)Shared Experts Isolation 将部分专家设定为共享专家,以捕捉整合上下文的共同知识,降低其他专家中的参数冗余。相比之下,其他公司虽也有使用类似算法,但主要集中于提升单一专家能力。
DeepSeek 的MLA 算法如何降低所需内存?
MLA 是对于谷歌GQA(分组查询注意力,Grouped Query Attention)方法的深度改进,通过数学变换优化计算和内存使用,关键在于合并和简化矩阵运算。谷歌算法的基本原理为共享KV 矩阵,从而减少计算量和内存使用。
而Meta 算法在于探索稀疏KV 缓存路线,以减少KV 缓存的体积和计算复杂度。然而,MLA 的特点在于不直接存储KV 矩阵,而是仅存储经过合并吸收后的低秩压缩向量,从而减少内存占用。R1 也采用的MTP(多标记预测,Multi-Token Prediction)可同时预测多个Token,减少KV 缓存的访问次数,提高复杂任务的整体性能。
风险提示:大模型技术研发进展不及市场预期,贸易科技摩擦风险。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: