Cerebras vs NVIDIA · 完整架构解析(2026 终极版)

从晶体管到光纤,从单 token 延迟到 750 MW 部署 · 全栈验证后的深度对比

2,100 tok/s
Cerebras Llama 70B 速度(2026-04)
$20B
OpenAI · Cerebras 累计订单(含 4 月加码)
$48.8B
Cerebras IPO 估值(CBRS, 2026-05-14)
21 PB/s
WSE-3 片上带宽(HBM3e 8 TB/s 的 2,625×)

📖 八个章节 · 逻辑链全景

  1. 大背景 · 为什么 2026 是 Cerebras 决战年(IPO + OpenAI 大单)
  2. 物理规格 · WSE-3 vs B200/Rubin 全维度对比(验证后数据)
  3. 内存层级 · 从计算核到数据中心,七层介质完整地图
  4. 切模型策略 · TP(NVIDIA)vs PP(Cerebras)的本质差异
  5. 速度根源 · BW/GB 比率 · 477,000 vs 42 的 11,000× 差距
  6. Cerebras 的瓶颈 · MemoryX 喂权重 · 为什么必须上 CPO
  7. CPO 物理原理 · WDM × 低损耗 × 共封装 · 三招叠加
  8. NVIDIA 的应对 · Quantum-X / Spectrum-X · 2026 量产时间表

1大背景 · 为什么 2026 是关键年

2026 年是 Cerebras vs NVIDIA 这场架构之争从"理论可能"变成"商业现实"的拐点。1 月 OpenAI 签 $10B 推理订单,4 月加码到 $20B,5 月 14 日(今天)Cerebras 以 $48.8B 估值在纳斯达克上市,代号 CBRS。同时 NVIDIA Rubin Q1 进入全面量产,Quantum-X CPO 也同期出货。两家路线终于要在同一个市场上正面碰撞。

2024-2027 关键事件时间线 2024 2025 2026 ★ 2027 2028 TODAY · 2026-05-14 🟦 Cerebras 路线 2024-03 WSE-3 发布 4 万亿晶体管 125 PFLOPS 2025-04 DARPA $45M Ranovus 晶圆级 CPO 目标 100× 当前 CPO 2026-01 OpenAI 大单 $10B → $20B (4月加码) 750 MW 低延迟推理 2026-04 2,100 tok/s Llama 3.1 70B 第三方 Artificial Analysis 验证 ★ 2026-05-14 IPO NASDAQ: CBRS $48.8B 估值 · 20× 超额认购 2027+ CPO 量产? wafer-scale CPO 落地 权重带宽 100+ TB/s 🟧 NVIDIA 路线 2024-03 B200 发布 192 GB HBM3e 8 TB/s · NVLink5 2025-03 GTC 公告 Quantum-X / Spectrum-X CPO 走交换机层 2025-12 收购 Groq $20B(防守动作) 80% 工程师并入 2026-Q1 Rubin 量产 288 GB HBM4 · 22 TB/s NVLink6 3.6 TB/s 2026-H2 Spectrum-X CPO 400 Tb/s 以太网交换 3.5× 功耗效率 2028? Feynman NVLink 也走光? rack 级 CPO
关键观察:Cerebras 走的是"从架构突破倒推商业落地"——先把 wafer-scale 做出来,再用 CPO 把瓶颈解开,最后靠 OpenAI 这种"必须有低延迟推理"的客户验证商业价值。NVIDIA 走的是"先稳住基本盘,再用 CPO 在网络层降本"。同样的光,两家放在不同层级,反映了不同的战略起点
FAQ · 基础概念
"WSE-3" 是什么意思?
WSE-3 = Wafer-Scale Engine 第三代。Cerebras 自己造的 AI 芯片,命名直白:Wafer-Scale(整片晶圆当一颗芯片,不切)+ Engine(计算引擎)+ 3(第三代,2024 年发布)。正常工艺 1 片 300mm 晶圆切成 70-90 颗小 die;Cerebras 反着来,整片当 1 颗用。CS-3 是装 1 颗 WSE-3 的整机(15U 机柜,液冷,~23 kW)。
Cerebras 的 memory 到底放在哪?
两个地方,分工明确。① 片上 44 GB SRAM,分布在 900K 核之间,21 PB/s 带宽 —— 存 activation 和 KV cache;② 外置 MemoryX(24 TB - 1.2 PB DDR DRAM 池)—— 存模型权重,按需流式喂给 WSE。
GPU 是把权重和 activation 都塞 HBM(共享 192 GB),Cerebras 拆成"权重池超大 + activation 池超快"两条独立路径,各自压榨到极致。

2物理规格对比 · WSE-3 vs B200/Rubin

所有数字都从最新公开材料验证(2026-05 整理)。注意视觉对比:WSE-3 整片 46,225 mm² 相当于 57 颗 H100 die,是"工艺极限"撞"晶圆边界"的产物。B200 双 die 各 800 mm² 通过 NV-HBI 桥拼起来。Rubin 升级到 3nm + HBM4。

芯片视觉比例(同尺寸)· WSE-3 = 57 颗 H100 die 的硅面积 Cerebras WSE-3 TSMC 5nm · 300mm 晶圆裁角 · 46,225 mm² WSE-3 4,000,000,000,000 晶体管 900,000 AI 核 44 GB SRAM 片上 21 PB/s 带宽 125 PFLOPS FP16 ~23 kW · 液冷 ~215mm × 215mm 方形(裁圆角) NVIDIA B200 / Rubin TSMC 4NP/3nm · 双 die 800mm² 各 · NV-HBI 桥 CoWoS 2.5D 封装 HBM3e 24GB·1TB/s HBM3e 24GB·1TB/s HBM3e HBM3e Die A 800mm² 104B 晶体管 HBI Die B 800mm² 104B 晶体管 208B 晶体管 20 PFLOPS FP4 1,000W TDP HBM3e HBM3e HBM3e HBM3e ~93mm × 93mm package · B200 Rubin (2026 Q1):3nm + HBM4 + 288GB · 22 TB/s 336B 晶体管 · NVLink6 3.6 TB/s · 50 PFLOPS FP4 ⚡ 关键比例(B200 为基准) 硅面积 1,600 mm² (B200) 46,225 mm² (WSE-3) 28.9× 硅面积差 晶体管 208B 4,000B 19× 晶体管差 内置内存 192 GB (off-die HBM) 44 GB (on-die SRAM) B200 4.4× 容量上 B200 反而大 内存带宽 8 TB/s (HBM3e) 21 PB/s (SRAM) 💥 2,625× ✨ 这才是真正的差距 功耗 1,000 W ~23,000 W 23× 但等价于 19 颗 B200 die 总和 FP16/FP4 算力 20 PFLOPS (FP4) 125 PFLOPS (FP16) 精度不同,难直接比 · 但单位面积算力相近
规格 Cerebras WSE-3 NVIDIA B200 NVIDIA Rubin (2026)
工艺 TSMC 5nm TSMC 4NP TSMC 3nm
晶体管 4 万亿 208 亿 336 亿
硅面积 46,225 mm² (整片晶圆) ~1,600 mm² (2 × 800) ~1,600 mm² (双 die)
片上内存 44 GB SRAM ~100 MB (L2 + shared) 类似
片上带宽 21 PB/s ✨ ~10 TB/s ~13 TB/s
片外内存 MemoryX 24-1,200 TB DRAM 192 GB HBM3e 288 GB HBM4
片外带宽 ~5-10 TB/s (今天) → 100+ TB/s (CPO 后) 8 TB/s 22 TB/s
节点互连 SwarmX (CPO 升级中) NVLink5 · 1.8 TB/s NVLink6 · 3.6 TB/s
峰值算力 125 PFLOPS FP16 20 PFLOPS FP4 50 PFLOPS FP4
功耗 ~23,000 W 1,000 W ~1,800 W
结论:规格比较中最不可比的就是"内置内存"——B200 算上 HBM 有 192 GB,但 HBM 是 off-die 通过 CoWoS 连接的;WSE-3 的 44 GB 是真正"在硅片里"的 SRAM。带宽差 2,625× 才是真正起决定作用的指标。
FAQ · 带宽与吞吐量
MemoryX 进来的速度,跟 NVIDIA 的 HBM 比谁快?
看维度:
• 单点带宽:今天 HBM 更快(B200 HBM3e 8 TB/s · Rubin HBM4 22 TB/s vs MemoryX→WSE 约 5-10 TB/s)
• 内存容量:MemoryX 大 800-1,000 倍(1.2 PB vs 192 GB)
• 整体推理吞吐量:Cerebras 仍然赢 ~40×(2,100 vs 50 tok/s on Llama 70B)
原因是分工不同 —— HBM 既装权重又装 activation,带宽要双任务分摊;MemoryX 只喂权重,activation 由片上 21 PB/s SRAM 专享。CPO 之后 MemoryX 也能到 100+ TB/s,那时单点带宽也反超。

3内存层级 · 从计算核到数据中心

把两家从最深处(计算核)到最远处(跨数据中心)的所有数据通道画在一张图上,看每一段用什么物理介质。关键观察:Cerebras 比 NVIDIA 少 3 个层级——L3 节点内、L4 chip-to-chip、L5 off-die 显存被架构消除了。

↑ 远(网络) ─────────────────────────── ↓ 近(计算核) 从数据中心入口到硅片内部 · 哪一层是铜,哪一层是光? NVIDIA Rubin / B200 层级 Cerebras CS-3 光纤 长距光纤(数十 km) 两家都用,行业成熟 L1 跨 DC 光纤 长距光纤(数十 km) 两家相同 ✨ CPO 2026 Q1 Quantum-X / Spectrum-X Photonics 115 / 400 Tb/s · 3.5× 能效 · 2026 量产 交换机层 CPO · 30W → 9W per 1.6T 10x 网络弹性 · 4x 减激光器 L2 机柜间 Inter-rack ✨ CPO 2027+ SwarmX / Ranovus 晶圆级 CPO DARPA $45M 项目 · 目标 100+ TB/s/节点 紧贴 wafer 边缘 · 直连 MemoryX 这是 Cerebras 最关键的光层 ⚡ NVIDIA 光屏障 — 光到 L2 止 ⚡ 铜 NVSwitch · NVLink Switch Chip B200: 1.2 kW · 节点内 8 GPU 全互联 L3 机柜内 — 这一层不存在 — 单 wafer = 单节点,无"节点内多 GPU" ⚡ 铜 NVLink 5/6(铜) B200: 1.8 TB/s · Rubin: 3.6 TB/s L4 片间 — 这一层不存在 — 晶圆不切,无 chip-to-chip ⚡ 铜 HBM3e/HBM4 · CoWoS 2.5D(铜) B200: 8 TB/s · Rubin: 22 TB/s · ~1mm 走线 L5 计算↔显存 — 这一层不存在 — 没有 off-die 显存 · 44GB SRAM 在硅片内 ⚡ Cerebras 光屏障 — 光一路渗透到这里,紧贴硅片 ▒ 硅 L2 Cache · Shared Memory B200: ~100 MB 总 L2 · 片上走线 L6 片上 SRAM ▒ 硅 44 GB SRAM 分布在 900K 核之间 21 PB/s · 紧贴 core · 纳秒级延迟 ▒ 硅 core B200 Compute Die · 208B 晶体管 2 chiplet · 192 SM · Tensor Core Gen5 20 PFLOPS FP4 L7 计算核 ▒ 硅 core WSE-3 · 4 万亿晶体管 900,000 AI 核 · 整片 5nm 晶圆 125 PFLOPS FP16 ⚡ 光的"渗透深度"对比 NVIDIA: ✨ 光:到 L2(交换机层)止 ⚡ 铜:L3 → L4 → L5(仍是大头) Cerebras: ✨ 光:L2 → 跳过 L3/L4/L5(架构消除)→ 直接对接 L6 硅
视觉冲击:NVIDIA 的"光"只占顶部一段,下面 L3-L5 是铜 SerDes/NVLink/CoWoS 的串联。Cerebras 把 L3-L5 这三层从架构上彻底消除了——光从 L2 一路渗透到 L6 硅。这就是"光放在哪一层"的真正含义。
FAQ · 光放在哪一层
NVIDIA 最新方案是不是也用光了?
是,但放在不同的层。NVIDIA 的 Quantum-X (2026 Q1) 和 Spectrum-X (2026 H2) 在交换机层用 CPO,主要解决百万 GPU 工厂的网络功耗(3.5× 效率提升)。GPU 内部(HBM、NVLink)还是铜。Cerebras 把 CPO 焊在 wafer 边上,直连 MemoryX —— 位置更"贴肉"。
类比:NVIDIA 的光是"把数据中心高速公路换成光纤",Cerebras 的光是"把工厂大门换成光纤直出"。
SRAM 和 CPO 是一回事吗?
完全不是 —— 是两个不同维度的概念。SRAM 是"存储介质"(片内硅基存储),CPO 是"通信介质"(片外光通信)。SRAM 内部读写用的也是铜(硅片金属层走线),只是距离微米级所以超快。
口诀:SRAM = 存什么 / CPO = 怎么搬。光(CPO)替代的是"片外铜 SerDes",不是 SRAM。SRAM 永远在片内,CPO 永远在片外,两者协同不替代

4切模型策略 · TP(NVIDIA)vs PP(Cerebras)

把 80 层的 Llama 70B 装到多卡/多 wafer 上,有两种切法。NVIDIA 主用 Tensor Parallel(每层切到多卡),Cerebras 主用 Pipeline Parallel(按层段分给多 wafer)。切法决定了跨设备流量是 TB/s 级还是 GB/s 级

NVIDIA · Tensor Parallel(纵切) 每层参数横向 4 等分,4 颗 GPU 各拿 1/4 ← 每层参数(hidden_dim)→ GPU 1 W[:,0:N/4] GPU 2 W[:,N/4:N/2] GPU 3 GPU 4 ★ 每颗 GPU 参与每一层的计算 → 每层算完都要 AllReduce 同步 → 跨卡流量大 Cerebras · Pipeline Parallel(横切) 每 wafer 拿完整 20 层 · 4 wafer 各负责一段 ← 每层参数(完整保留)→ WSE-1 Layer 0-19(完整 20 层) W + KV cache + activation 全在 SRAM 片上 21 PB/s 内部跑 WSE-2 Layer 20-39(完整 20 层) 本地完整 KV cache 独立工作 WSE-3 Layer 40-59(完整 20 层) 本地完整 KV cache 独立工作 WSE-4 Layer 60-79(完整 20 层) 本地完整 KV cache 输出最终 token ↓ 16 KB ↓ 16 KB ↓ 16 KB ★ 每个 wafer 只参与自己那段层 → 跨 wafer 只传 1 个 activation 向量 → 流量极小 📊 同样工作量下的跨设备流量(70B 模型, 2,100 tok/s, 1,000 并发) TP (NVIDIA): ~200-400 GB/s 持续 · NVLink AllReduce PP (Cerebras): ~1-10 GB/s 差距 ~20-100×
对比项 Tensor Parallel(NVIDIA 主用) Pipeline Parallel(Cerebras 主用)
切法 每层切碎,所有设备共同算每层 按层段分,每设备独立算几层
同步要求 每层 AllReduce(高频高量) 仅层边界传 activation
KV cache 碎片化,attention 需 AllGather 本地完整,attention 在片内
单 token latency 能加速(并行算同一层) 不加速(顺序流过)
吞吐量 受 AllReduce 限制 流水线满载 95%+ 利用率
前提条件 单卡装不下模型时必需 单设备能装多层(Cerebras 20 层/wafer)
本质:切法决定了"跨设备需要同步多少数据"。TP 切碎参数维度,每层都需要 AllReduce 收齐;PP 切层段,跨设备只传一个 activation 向量。同样是铜互连,TP 负载 100×、PP 负载 1×
FAQ · 关于 PP 的常见疑问
B200 单卡 192 GB HBM,容量上完全能做 PP 吧?
完全可以,容量上没问题。但 单做 PP 不会让单 token 解码变快 —— PP 本质是流水线,单 token 还是要串行经过所有阶段,总时间是各阶段之和。
NVIDIA 用 TP 是因为:TP 能并行算同一个 token 的所有层,给单流加速。Cerebras 单 wafer 已经有 900K 核(相当于自带"超大 TP"),所以可以用 PP 来横向扩容量。
一句话:TP 加速单流,PP 扩容量。两家选哪种取决于单设备的算力密度。
多 wafer 之间不也是铜互连?这不是又回到 NVLink 那种瓶颈了?
表面上是,但承载量差 100 倍,所以不构成瓶颈。
NVIDIA TP:每层 AllReduce → 跨卡流量 200-400 GB/s 持续
Cerebras PP:仅层边界传 16 KB activation → 1,000 并发用户也只有 ~96 GB/s
同样的电互连,工作量决定够不够用。SwarmX 100GbE 就撑得住,CPO 上线后只会更宽裕。所以"多 wafer 有铜互连"是事实,但和 NVIDIA TP 的处境完全不同。

5速度根源 · BW/GB 比率的 11,000 倍差距

为什么 Cerebras 跑 Llama 70B 是 2,100 tok/s 而 NVIDIA 只有 ~50 tok/s?根本原因不在"算力",在于每 GB 内存可以提供多少带宽——HBM 的 42 GB/s/GB vs SRAM 的 477 TB/s/GB,差 11,000 倍。

关键指标 · BW/GB 比率(每 GB 内存能提供的带宽) NVIDIA B200 HBM3e 192 GB HBM3e(8 stacks × 24 GB) ↓ 整条 HBM 带宽 ↓ 8 TB/s 总带宽 8 TB/s ÷ 192 GB = 42 GB/s 每 GB 存储 Cerebras WSE-3 SRAM 44 GB SRAM(分布在 900K 核之间) ↓ 整片 SRAM 带宽 ↓ 21 PB/s = 21,000 TB/s 总带宽 21,000 TB/s ÷ 44 GB = 477,000 GB/s 每 GB 存储 ⚡ BW/GB 比率差距 477,000 ÷ 42 = 11,357 倍 同样要读 1 GB 数据,HBM 需要 24 ms,SRAM 需要 2 μs 这才是 Cerebras 推理速度的真正根源 · 不是"算力",是"读速度" 🔬 实战:跑 Llama 70B decode(140 GB 权重 FP16) B200 单卡: 140 GB ÷ 8 TB/s = 17.5 ms/token → ~57 tok/s 理论上限 CS-3 单 wafer: 35 GB(每片)÷ 21 PB/s = 1.7 μs → 实际跑到 2,100 tok/s(被 attention 限) 理论差距 ~10,000× · 实际差距 ~40× · 中间被算力 / KV access / PP 气泡填平了一些
核心公式:
推理速度 ≈ BW ÷ 模型大小
但只有 BW/GB 比率 决定了"每个内存单元能多快被读"。
HBM 给你大容量(192 GB)但慢(42 GB/s/GB),SRAM 给你小容量(44 GB)但快(477,000 GB/s/GB)。
对于 memory-bound 的 LLM decode,BW/GB 比 总容量更重要
FAQ · 关于"铜慢光快"的误解
SRAM 比铜还慢?
反了。SRAM 内部"用"的就是铜(片内金属层走线),距离微米级所以快到 21 PB/s
我们说"铜慢"指的是片外铜(NVLink、PCIe SerDes 等)—— 距离 cm-m 级,需要 SerDes 编码均衡,信号衰减大。
同样是铜,距离差 1,000 倍,速度差 1,000 倍。光(CPO)替代的是片外铜,不是 SRAM 内部那条路。SRAM 的速度王座光也撼动不了(光做不了微米级走线)。

6Cerebras 的瓶颈 · MemoryX 喂权重 · CPO 是唯一解

Cerebras 的 SRAM 这么快,为什么还需要 CPO?因为 44 GB SRAM 装不下大模型,权重必须放外面的 MemoryX 池里流式喂入。这条"喂权重的管子"今天只有 ~5-10 TB/s,是 Cerebras 唯一真正的瓶颈——CPO 就是为解决它而来。

客户需求 → 带宽推导 客户要 2,100 tok/s 推理模型 / Agent 用例 Llama 70B = 140 GB 权重 140 × 2,100 = 294 TB/s 权重 BW 需求 44 GB SRAM 装不下 → 权重必须在 MemoryX 池 ⚠ MemoryX → WSE 必须 PB/s 级 这条路必须解决 ❌ 今天(电 SwarmX) MemoryX 24 TB - 1.2 PB DDR DRAM 池 装得下 24T 参数模型 内部聚合 BW 高 ~10 PB/s 内部 但出口受限 SwarmX 电互连(100/400 GbE 类)· 上限 ~5-10 TB/s 差需求 294 TB/s 约 30-60 倍 WSE-3 21 PB/s 片上 900K 核饥饿等数据 算力 99% 浪费 瓶颈在喂料速度 ✅ CPO 之后(2027+) MemoryX 同等容量 但接 CPO 直出 → 光纤直连 wafer DARPA 项目目标 2025-04 启动 CPO CPO Ranovus 晶圆级 CPO · 100+ TB/s 起步 WDM 多波长 · 光纤直出 · ~1 pJ/bit WSE-3 21 PB/s 片上 权重持续灌满 2,100+ tok/s ✅ 算力终于不浪费 💡 因果链闭环 客户用例 → 294 TB/s 权重带宽 → MemoryX 必须外置 → 喂料路必须 PB/s 级 铜物理上做不到 → 光是唯一通路 → CPO 是这条路的工程实现
核心:Cerebras 不是"觉得光更酷",是商业模式逼着必须上光。客户买 Cerebras 是为速度,速度依赖权重流速,权重流速依赖 off-wafer 带宽,off-wafer 带宽只能靠光。链上任何一环抽掉,wafer-scale 故事都讲不下去。
FAQ · KV cache 与 decode 流程
KV cache 存哪里?decode 时不是要读整个权重 + 之前所有 KV cache?
KV cache 跟该层的权重一起存在 WSE 片上 SRAM(不是 MemoryX)。这是 Cerebras 的关键设计 —— 每层映射到 wafer 的一块物理区域,本地 21 PB/s 直接访问。
数据量参考(Llama 70B GQA-8,FP16):每 token KV cache ≈ 320 KB · 8K 上下文 ≈ 2.6 GB / 用户。
代价:44 GB SRAM 紧张,大模型 + 长上下文必须串多 wafer。这也是为啥 long-context 场景 Cerebras 比 GPU 贵 —— 这才是 Cerebras 真正的护城河缺口
用例上为啥必须上 CPO?倒着推一遍
因果链一环扣一环:
客户要 2,100 tok/s 推理 → Llama 70B × 2,100 = 294 TB/s 权重带宽需求
→ 44 GB SRAM 装不下 70B 模型 → 权重必须放外置 MemoryX
→ MemoryX 到 WSE 必须穿过 wafer 边缘(物理唯一通道)
→ 铜在边缘塞不下 PB/s 级带宽(物理硬约束)
光是唯一通路,CPO 是工程实现
链上任何一环抽掉,wafer-scale 商业模式就崩。

7CPO 物理原理 · 三个超能力叠加

为什么 CPO 能突破铜的极限?三个独立物理特性叠加:① WDM 让一根纤跑 N 条数据 · ② 光在纤里几乎不衰减 · ③ Co-Packaging 省掉传统光模块的电浪费。每一个都不是新东西,但组合起来形成数量级突破。

CPO 突破物理极限 三超能力叠加 超能力 ① · WDM 波分复用 1 根纤 = 8-32 个波长 × 100-200 Gb/s 单纤 1.6-6.4 Tb/s 带宽密度 20-100× 铜 铜导体里只有 1 个信号通道 超能力 ② · 距离不衰减 0 pJ/bit 片内 机柜间 铜 ↑ 10 pJ/bit 光 ~ 1 pJ/bit 100 米光纤几乎无损(<0.02 dB) 推 100 TB/s:光 800W,铜 5,600W 超能力 ③ · Co-Packaging 芯片 5mm CPO 光纤直出 省 30cm 电走线 + 2-3 次 SerDes 额外再省 50% 能耗
对比项 铜 SerDes (NVLink/PCIe) 可插拔光模块 (QSFP-DD) CPO 共封装光
pJ/bit 5-10 15-20 ~1-1.5
单通道带宽 200 Gb/s (上限) 200 Gb/s × λ 200 Gb/s × λ (WDM)
距离 ~m 级 km 级 km 级
距离损耗 指数级上升 平坦 平坦
芯片到光的电路径 ~30-50 cm + 2-3 次 SerDes ~5 mm(共封装)
单 1.6T 链路功耗 ~30 W (理论) 30 W 9 W(NVIDIA 实测)
关键:这三个超能力不能拆开看。WDM 给了你密度,光的低损耗给了你能耗下降,但只有共封装(CPO)把芯片到光的最后一段电走线消除掉,才能把综合 pJ/bit 推到 ~1 级别。这就是 NVIDIA Quantum-X 能把 30W 压到 9W 的原因。
FAQ · 物理细节
为啥 CPO 能做到 100 TB/s 而铜不能?
三个独立物理超能力乘法叠加
WDM:一根纤跑 8-32 个波长 → 带宽密度 20-100×
光低损耗:100m 几乎不衰减 → pJ/bit 降到铜的 1/5-1/10
Co-Packaging:光引擎贴芯片旁 5mm → 省 SerDes/DSP,再 50%
综合下来同样 1 kW 预算:铜传 10 TB/s,光传 100+ TB/s。每个单独看都不算革命,三者相乘才出数量级
CPO 物理上有什么硬骨头?
晶圆级 CPO 工程难点:
激光器温控:DFB 激光器需要 ±0.1°C 稳定,但旁边是 23 kW 的 WSE 热源
良率无冗余:WSE 缺陷可以靠冗余核兜底,CPO 光通道没有这种机制
测试与封装:光接口测试比电接口复杂得多
这就是为啥 Ranovus 拿了 $45M DARPA 合同,量产时间表还没公布 —— 不是没钱,是工程不简单。

8NVIDIA 的应对 · 光在网络层,2026 年量产

NVIDIA 也在上 CPO,但放在不同的层级。Quantum-X Photonics (2026 Q1) 和 Spectrum-X Photonics (2026 H2) 是放在交换机里的 CPO,目标是省网络层的电费。GPU 本身、HBM、NVLink 还是铜。Cerebras 把 CPO 放在芯片边,NVIDIA 把 CPO 放在交换机里——位置不同,战略不同。

NVIDIA 2026 CPO 产品 · 验证数据 Quantum-X Photonics(InfiniBand) 2026 Q1 商用出货 · 液冷设计 总容量: 115 Tb/s 端口配置: 144 ports × 800 Gb/s 基础 SerDes: 200 Gb/s 每 link 功耗: 30W → 9W (3.3× 提升) 激光器: 4× 减少 网络弹性: 10× 提升 用途:超大 AI 工厂的 InfiniBand 主干 Spectrum-X Photonics(Ethernet) 2026 H2 商用出货 · CPO 以太网 总容量(旗舰): 400 Tb/s 端口配置: 512 × 800 / 2,048 × 200 入门版: 100 Tb/s 功耗效率: 3.5× 提升 激光器集成: 硅光子工艺 目标场景: 百万 GPU AI 工厂 用途:以太网骨干,跨机柜 AI 集群 ⚡ 同样 CPO,两家放的位置完全不同 🟧 NVIDIA: CPO 在交换机芯片里(L2)· 解决网络层电费 主战场:百万 GPU AI 工厂的网络功耗 · GPU 内部 HBM/NVLink 仍是铜 · 是优化升级 🟦 Cerebras: CPO 焊在 wafer 边上(L2 但紧贴硅)· 解决 MemoryX 喂权重 主战场:让 wafer-scale 路线在大模型时代能闭环 · 这是架构存亡的承重墙 NVIDIA 不上 CPO,公司还在;Cerebras 不上 CPO,wafer-scale 卖不动
战略对比:同样是 CPO,NVIDIA 是"锦上添花"(网络层节能),Cerebras 是"生死线"(架构闭环)。这就是为什么 NVIDIA 可以慢慢部署 CPO(先 Q1 后 H2),而 Cerebras 需要 Ranovus 加速攻关——速度决定了能否赶上 OpenAI 那 $20B 订单的交付窗口。

核心总结 · 9 张卡片打包所有认知

① 商业拐点

  • 2026-05-14 今天:Cerebras 上市(CBRS)
  • • 估值 $48.8B · 募资 $4.8B · 20× 超额
  • • 收入 $510M · 净利 $238M · 47% 净利率
  • • 客户:OpenAI $20B 订单 · 750 MW 推理
  • • 同期 NVIDIA Rubin Q1 量产
  • • 两条路线正面对决正式开始

② 物理规格关键

  • • WSE-3: 4T 晶体管 · 46,225 mm² 整片晶圆
  • • 44 GB 片上 SRAM · 21 PB/s 片上带宽
  • • Rubin: 288 GB HBM4 · 22 TB/s(双 die)
  • 片上带宽差 2,625× 才是根本
  • • 容量上 Rubin 反而大(HBM 在外面)
  • • 比较容量没意义,要比 BW/GB

③ 内存层级

  • • 完整内存路径有 7 层(L1-L7)
  • • NVIDIA 光只到 L2(交换机层)
  • • L3/L4/L5 是铜 SerDes 大头
  • • Cerebras 把 L3/L4/L5 架构上消除
  • • 光从 L2 直接对接 L6 硅
  • • 这是"光放在哪一层"的真意

④ 切模型策略

  • • NVIDIA 主用 TP(纵切)
  • • 每层 AllReduce → 跨卡流量大
  • • Cerebras 主用 PP(横切)
  • • 跨片只传 activation → 流量小
  • 关键纠错:B200 容量能 PP 但加速差
  • • 每片 wafer 装 20 层是 PP 能用的前提

⑤ 速度根源

  • • HBM: 42 GB/s 每 GB 存储
  • • SRAM: 477,000 GB/s 每 GB 存储
  • BW/GB 差 11,000×
  • • 这是 Cerebras 推理快的真正根源
  • • Llama 70B: 2,100 tok/s vs ~50 tok/s
  • • KV cache 完全在 21 PB/s SRAM 里

⑥ MemoryX 瓶颈

  • • 44 GB SRAM 装不下 70B 模型
  • • 权重必须放外置 MemoryX(24-1200 TB)
  • • 喂权重需要 294 TB/s(70B × 2,100 tok/s)
  • • 今天 SwarmX 电互连:5-10 TB/s(远远不够)
  • 这是唯一真正的瓶颈
  • • 现在靠 batching + caching 撑着

⑦ CPO 三超能力

  • WDM: 1 纤 = 8-32 波长 · 密度 20-100×
  • 光纤低损: ~1 pJ/bit · 距离不衰减
  • Co-Packaging: 省 SerDes/DSP · 再 50%
  • • 综合:100 TB/s 跨片 800W (vs 铜 5,600W)
  • • Ranovus DARPA $45M · 目标 100× 当前 CPO
  • • 是 wafer-scale 最后拼图

⑧ NVIDIA 应对

  • • Quantum-X CPO: 2026 Q1 出货 · 115 Tb/s
  • • Spectrum-X CPO: 2026 H2 出货 · 400 Tb/s
  • • 3.5× 功耗效率 · 30W → 9W per link
  • • 但只在交换机层,GPU 内部仍铜
  • • Rubin Q1 量产: 288GB HBM4, NVLink6
  • • 收购 Groq $20B(防守动作)

⑨ 一句话总结

  • • Cerebras = "把所有快的东西塞进一片晶圆"
  • • NVIDIA = "用最强单卡 + 高速互连堆集群"
  • • 一个赌"集成",一个守"模块化"
  • SRAM 21 PB/s 是 Cerebras 的护城河
  • • CPO 是这道城河的桥
  • • 2026 是这场架构之争的决战年