电子:AI产业川流汇聚 云端两旺机遇开启
Blackwell 众多技术突破,整体以机柜形式交货。GB200机柜有NVL36和NVL72 两种规格。 GB200 NVL36 配置中,一个机架有 36 个GPU 和 9 个双 GB200 计算节点(以托盘为单位)。GB200 NVL72在一个机架中配置了 72 个 GPU / 18 个双 GB200 计算节点,或在两个机架中配置了 72 个 GPU,每个机架上配置了 18 个单 GB200计算节点。每个GPU 具有 2080 亿个晶体管,采用专门定制的台积电 4NP 工艺制造。所有 Blackwell 产品均采用双倍光刻极限尺寸的裸片,通过 10 TB/s 的片间互联技术连接成一块统一的 GPU。此外,B 系列还有众多突破,支持 4 位浮点 (FP4) AI。内存可以支持的新一代模型的性能和大小翻倍,同时保持高精度。互联方面,第五代NVLink技术实现高速互联。NVIDIA NVLink 交换机芯片能以惊人的 1.8TB/s互连速度为多服务器集群提供支持。采用 NVLink 的多服务器集群可以在计算量增加的情况下同步扩展 GPU 通信,因此 NVL72 可支持的 GPU 吞吐量是单个 8 卡 GPU 系统的 9 倍。此外,Blackwell 架构在安全AI、解压缩引擎、可靠性等方面也实现了不同程度的创新和突破。
Blackwell 或成推理市场的钥匙,FP4 精度潜力较大。目前模型参数变大的速度放缓,但模型推理和训练的运算量仍高速增长,尤其在o1引入强化学习之后,post scaling law 开始发力。英伟达在发布H100架构时,便就FP8 数据精度做出一定讨论。业界曾长期依赖 FP16 与FP32 训练,但这种高精度的运算,在大模型LLM 中受到了一定阻碍:
由于模型参数等因素导致运算骤升,可能导致数据溢出。英伟达提出的FP8 数据精度因为占用更少的比特,能提供更多运算量。以NVIDIAH100 Tensor Core GPU 为例,相较 FP16 和 BF16,FP8 的峰值性能能够实现接近翻倍。FP4 精度是FP8 的继承和发展,对推理市场的打开有重要推动。GB200 推出了FP4,FP4 支持由于降低了数据精度,性价比相比H100 几乎倍增。根据Semianalysis 的数据,GB200NVL72 在FP4 精度下,FLOPS 相比H100 可以最高提高405%(注:
H100 最低以FP8 计算),由此带来性价比提升。目前,FP4 的运算已经可以在大模型运算中广泛应用,且已有研究表明网络可以使用FP4 精度进行训练而不会有显著的精度损失。此外,由于模型推理中不需要对模型参数进行更新,相对训练对于精度的敏感性有所下降,因此B 系列相对于训练,在推理领域会更有优势。B 系列引入FP4 精度后,大模型在云侧和端侧的协同都有望实现跃升,这也是我们看好接下来的端侧市场的原因之一。
AI 产业川流汇聚,2025 年有望云端两旺。我们认为, B 系列的推出有望打开推理市场,各类AI 终端有望掀起持续的机遇。此外,AI 产业的闭环有望刺激云厂商资本开支,云端共振共同发展。建议关注英伟达产业链传统的核心厂商,如ODM、PCB 厂商等。此外,B 系列带来的新兴赛道如铜连接、AEC 赛道也值得关注。
风险因素:宏观经济下行风险;下游需求不及预期风险;中美贸易摩擦加剧风险。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: