AI算力扩容的新瓶颈竟是铜缆,英伟达押注光互连

2026-04-06 22:08:28

如果打开 Nvidia NVL72 机柜的后盖,你最先注意到的,可能不是那 72 颗 GPU,而是那超过 5,000 根同轴铜缆编织成的密网。这些铜缆总长超过 3.2 公里,是整台机柜 1.36 吨自重的主要来源。

而在机柜正中央是 9 块 NVSwitch 托盘,被上下各 9 块计算托盘夹在中间。之所以这样排列,是因为铜缆信号在 1.8 TB/s 的带宽下跑不了几英尺就开始衰减,NVSwitch 必须离每颗 GPU 尽可能近,居中是距离最短的布局。

(来源:ServeTheHome)

这台机柜浓缩了英伟达过去两年面对的核心问题:铜缆确实好用,但它给系统规模画了一条硬上限。2026 年 3 月的 GTC 上,黄仁勋宣布要用光互连把 GPU 系统从 72 颗扩展到 576 颗乃至 1,152 颗,并在一个月内向三家光学公司投了 60 亿美元。

而在两年前,他还说光互连太耗电。

铜缆的黄金时代,和它的极限

2024 年 GTC,Nvidia 第一次展示 NVL72 机柜(代号 Oberon)时,铜缆是理所当然的选择。Nvidia 网络高级副总裁 Gilad Shainer 向媒体表示:“铜是最好的连接方式,如果你能用的话。它非常便宜,功耗为零,没有任何有源组件。”

图丨NVL72(来源:Nvidia)

铜缆省下的功耗确实可观。黄仁勋在同年 GTC 主题演讲中算过一笔账:如果 NVL72 用 pluggable optics(可插拔光模块)替代铜缆,每颗 Blackwell GPU 需要配 18 个 800 Gbps 光模块,加速器端 9 个,交换机端 9 个,整套系统要多消耗约 20,000 瓦。对一台已经吃掉 120 千瓦的机柜来说,再加 20 千瓦不太切实。

铜缆还有一个不常被提及的优势:可靠性。在接近百万条链路的大规模 AI 集群里,可插拔的光模块每天可能出现数十次链路中断。铜缆是无源器件,没有激光器会老化,也没有信号处理芯片会发热,故障率低得多。

所以英伟达选铜是经过权衡的。72 颗 GPU 通过铜背板全互连,整台机柜就是一个巨大的加速器,万亿参数模型的推理速度比上一代 H100 快 30 倍。2024 年,这已经是行业能造出的最大一台机器。

但 AI 模型对 GPU 数量的需求没有停在 72 颗。

训练 ChatGPT 级别的模型需要数千颗 GPU 协同工作。NVL72 内部有 NVLink 高速互连,但多台 NVL72 之间仍然只能靠 InfiniBand 或以太网连接,带宽和延迟都差了一个量级。如果能把 500 颗甚至 1,000 颗 GPU 放进同一个 NVLink 域,让它们像一颗芯片一样通信,训练效率会大幅提升。

而铜缆挡住了这条路。信号在铜中的衰减随频率和距离急剧上升,1.8 TB/s 带宽下有效传输距离不到一米。单个机柜塞不下更多 GPU,跨机柜用铜缆又够不着。NVL72 已经把铜缆的工程做到了物理极限,再往前一步,需要换介质。最明显的替代方案就是光,但两年前黄仁勋亲手否掉了这个选项。

光从“太贵”变成“可以用”

光互连本身不是新技术,数据中心的机柜之间早就在用光纤通信。但把光互连用在 GPU 之间的 scale-up 网络上,也就是让一组 GPU 构成单一计算单元的内部互连,工程难度完全不同。

Scale-up 网络对带宽、延迟和功耗的要求远比 scale-out(机柜之间的外部网络)苛刻。2024 年英伟达评估过在 NVL72 上使用可插拔光模块的方案:单个模块功耗 10-15 瓦,看起来不多,但 72 颗 GPU 需要几百个模块,总功耗多出 20 千瓦。体积也是问题,每个模块约一包口香糖大小,几百个要占掉可观的机柜空间和散热余量。

改变这个局面的是 co-packaged optics(共封装光学,CPO)。CPO 把光引擎直接集成到交换芯片的封装里,省掉了可插拔模块的外壳、连接器和大部分信号处理电路,功耗和体积都大幅缩减。

2025 年,Nvidia 在自家的 Spectrum 以太网交换机和 Quantum InfiniBand 交换机上率先量产了 CPO,这是英伟达第一次在自己的产品线上规模验证光学互连。这次在 scale-out 网络上的部署,也为下一步把 CPO 引入 NVLink scale-up 网络积累了经验。

不过 CPO 目前仍处于早期阶段。TrendForce 的数据显示,2026 年 CPO 在 AI 数据中心光模块中的占比仅约 0.5%,但到 2030 年可能达到 35%。而英伟达选在渗透曲线刚起步的时候大举押注,所锚定的就是能定义规则的先发位置。

从 72 到 1152:铜光混合的路线图

2026 年 GTC 上,黄仁勋发布了两款新系统:Vera Rubin NVL576 和 Rosa Feynman NVL1152。前者把 8 个 NVL72 机柜用光互连组成一个 576 GPU 的计算域,后者进一步扩展到 1,152 颗。

图丨Vera Rubin NVL576(来源:DataCenterDynamics)

“有很多讨论说英伟达到底要走铜缆 scale-up 还是光学 scale-up,答案是两个都做。”黄仁勋在主题演讲中说。

具体方案分两层。据英伟达超大规模与高性能计算副总裁 Ian Buck 介绍,NVL576 的第一层网络(机柜内部 GPU 到交换机的连接)将继续使用铜缆,GPU 本身不需要改动;第二层 spine 网络(机柜与机柜之间)会换成光模块。铜缆在短距离上的低成本和高可靠继续发挥作用,光只负责铜缆物理上够不着的那段距离。

到 Feynman 一代(预计 2028 年中后期出货),Nvidia 打算走得更远。这代系统将提供 CPO 版本的 NVLink 互连,目前有两条可能的路径:一种是只在 NVSwitch 交换芯片上集成 CPO,机柜内仍用铜,代价是需要两层交换网络;另一种是在 GPU 封装上也集成 CPO,整个 NVLink 域只需一层交换网络,延迟更低。

Shainer 在 GTC 期间接受采访时拒绝透露英伟达会走哪条路,但暗示了自己的偏好:“Scale-up 网络如果不是必须,你不会想建多层的,因为你要尽量降低计算引擎之间的延迟。”单层网络意味着需要一颗端口数极高的交换芯片来直连上千颗 GPU,这在当前工艺下还做不到,但距离 Feynman 出货还有两年多时间。

另一个有意思的取舍是:Nvidia 在 Vera Rubin 这一代只对 NVL72 Oberon 机柜做光学扩展,但没有动 NVL144 Kyber 机柜。一个合理的推测是,既然光互连可以跨机柜扩展,就不需要在单机柜里硬塞 144 颗 GPU 了。把 8 个 72-GPU 机柜用光连起来,散热和供电压力都分散了。换句话说,光互连打开的不只是带宽上限,还有机柜设计上的空间。

60 亿美元锁供应链

技术路线定了,接下来的问题是谁来供货。CPO 省掉了传统光模块的大部分组件,但有一样东西省不掉:激光器。出于可靠性和可维护性的考虑,激光器通常和交换芯片分开放置,作为外部光源单独供应。谁能控制激光器的产能,谁就卡住了 CPO 大规模部署的咽喉。

2026 年 3 月,Nvidia 向 Coherent 和 Lumentum 各投资 20 亿美元,同时签下多年采购协议,锁定了优先供应权。Coherent 随后宣布将在 2026 年把磷化铟(InP)晶圆产能翻倍,扩产资金的主要来源正是英伟达的这笔投资。Lumentum 在高功率连续波激光芯片领域处于领先地位,是 CPO 外部光源的关键供应商。两笔投资瞄准的都是光学供应链上最稀缺的环节。

到了月底,Nvidia 又向 Marvell 投了 20 亿美元。这笔交易挂在 NVLink Fusion(允许第三方芯片接入 NVLink 生态的平台)名下,但联合声明里明确提到双方将合作开发硅光子技术。

Marvell 在 2026 年初刚以 32.5 亿美元收购了 Celestial AI,后者拥有一种叫做 Photonic Fabric 的光子互连技术,可以用来构建跨机柜的一致性内存网络。Nvidia 把 Marvell 拉进 NVLink Fusion 生态,Celestial AI 的光子技术大概率将在英伟达体系内落地,而不会流向竞争对手。

图丨传统 CPO 与 Photonic Fabric 的对比(来源:Celestial AI)

三笔投资合计 60 亿美元,一个月内密集完成。节奏一如英伟达过去在 HBM(高带宽内存)和 CoWoS(台积电先进封装)上的做法,趁技术拐点到来之前提前锁定稀缺产能,让竞争对手在供应端慢一拍。Futurum 的分析师把光学称为 AI 基础设施扩展的下一个瓶颈环节,而英伟达正赶在瓶颈形成之前卡住上游。

对 UALink 阵营来说,这个时间差相当不利。UALink 是 AMD、Intel、Broadcom 等公司联手推动的开放互连标准,目标是打破 NVLink 的封闭生态。但 UALink 硬件最早也要到 2026 年底才能出货,规模部署可能得等到 2027 年甚至更晚。而英伟达这边,光学供应链已经在签约、扩产、集成。等到开放标准的硬件终于量产,关键光学元件的产能可能已经被英伟达的长期协议占去了相当一部分。

不过 Shainer 至今仍然说铜是最好的连接方式。当然,前提是“如果你能用的话”。在机柜内部 GPU 到交换机的短距离连接上,铜缆依然是最经济、最可靠的方案,Vera Rubin 和 Feynman 都会继续使用铜背板。铜没有被淘汰,只是它能覆盖的范围不再够用了。

两年前黄仁勋拒绝光互连的时候,72 颗 GPU 还装得下英伟达最大的野心,但现在已经装不下了。

参考资料:

https://developer.nvidia.com/blog/nvidia-contributes-nvidia-gb200-nvl72-designs-to-open-compute-project/

https://www.theregister.com/2026/04/05/nvidia_optical_scale_up/

https://www.trendforce.com/presscenter/news/20260311-12962.html

https://newsletter.semianalysis.com/p/co-packaged-optics-cpo-book-scaling