P1-C5 · 为什么 GPU / HBM / 液冷 / 核电¶
核心一句话
每个硬件都是 LLM 的 1 个瓶颈 — 哪个瓶颈解开, 那环公司股价就动。
AI 产业知识 — 历史 → 技术 → 产业链 → 商业 → 应用 → 地缘
P1-C5 (Part 1 第 5 章). 学完这一章, 你能从 LLM 工作原理倒推整个 hardware stack 为什么这样设计, 不再死记产业链 ticker。
1. 问题: 为什么不能用 CPU 训 LLM?¶
你看到 hyperscaler 砸 $725B 买 GPU, 没问过为什么不能用更便宜的 CPU. 你看到 SK Hynix 股价飞涨, 不知道 HBM 跟普通 DRAM 差在哪. 你看到 Vertiv 涨 200%, 以为它是空调公司.
LLM 工作方式 (C4 学的) 决定每个硬件需求 — 你能从原理推出整个 hardware stack, 然后产业链 60 ticker 都不用死记.
2. 解决方案: LLM 4 个核心需求 → 4 类硬件¶
| LLM 需要 | 物理瓶颈 | 解决硬件 | 谁占位 |
|---|---|---|---|
| 大量并行矩阵乘法 (训练) | CPU 串行慢 | GPU / ASIC | NVDA · AMD · Google TPU |
| 数据喂得快 (不让 GPU 等) | DRAM 带宽不够 | HBM 高带宽内存 | SK Hynix · Micron · Samsung |
| GPU 之间通信 (集群 1000+ 卡) | 普通以太网慢 | NVLink / InfiniBand / 光模块 | NVDA Mellanox · ANET · COHR |
| 散热 + 稳定大功率 | 风冷扛不住 800W+ 芯片 | 液冷 + 核电 / 燃气 | VRT · CEG · VST · ETN |
每环都有"物理瓶颈 → 解决硬件 → 占位公司". 看 hardware stack 跟看公司一一对应.
3. 工作原理: 4 个瓶颈详解¶
3.1 GPU vs CPU — 并行矩阵乘法¶
LLM 训练 99% 时间在算矩阵乘法 (神经网络本质就是矩阵).
- CPU: 8-128 核, 每核独立做复杂任务 (好比 100 个博士)
- GPU: 10000+ 核, 每核做简单算术 (好比 10000 个小学生算加减乘除)
- 矩阵乘法: 1 万个小学生算加减比 100 个博士快 100x
**NVDA H100**: 1 张卡 80GB HBM, 700W 功耗, $30K-40K. 1 个训练集群 1024-8192 张.
**AMD MI300X / Google TPU / AWS Trainium: 同样思路, 不同实现. CUDA 生态 (NVDA 20 年护城河) 让 NVDA 仍占 80%+ 训练市场**.
3.2 HBM vs 普通内存 — 数据吞吐¶
GPU 算得快, 但算之前要把数据从内存读到 GPU 里. 普通 DRAM 带宽不够 → GPU 80% 时间在等数据 → 浪费.
HBM (High Bandwidth Memory): 3D 堆叠内存, 带宽是 DDR5 的 10x.
- SK Hynix: HBM3e 主供, NVDA 70%+ 用 SK Hynix
- Micron: 2024 ramped, gain share
- Samsung: qualify NVDA 慢 (技术 / 良率 / 罢工三重原因), 失市场份额
→ HBM 紧缺是 NVDA 出货上限. 你 thesis 监控 HBM 产能就是监控 NVDA 收入上限.
3.3 NVLink / InfiniBand / 光模块 — GPU 之间通信¶
1 个 LLM 太大, 单 GPU 装不下 → 分散到 1000+ GPU. 它们之间要高速通信 (梯度同步).
- NVLink: NVDA 自家 GPU 之间, 1.8TB/s (Blackwell)
- InfiniBand: 集群之间 (NVDA 2019 收 Mellanox 拿下)
- 光模块: 数据中心内 cabling, 速率从 400G → 800G → 1.6T → CPO (Co-Packaged Optics)
**COHR / LITE / AAOI**: 光模块. NVDA $2B 战略投 COHR / LITE 锁供应. ANET: 网络交换 (META 主供, 用于 east-west fabric).
→ 光模块涨价 = AI capex 加速的 leading indicator (集群规模上去, 光模块需求平方级涨).
3.4 液冷 + 核电 — 散热 + 持续大功率¶
H100 700W. Blackwell B200 1200W. 风冷扛不住 → 液冷必上.
1 个 Stargate 数据中心 = 1 GW. 这是1 个核电站的发电量.
- VRT (Vertiv): 液冷 + 数据中心电气王者
- CEG (Constellation): MSFT 20 年核电 PPA (三里岛重启)
- VST (Vistra): 天然气 + 核电
- ETN (Eaton) / HUBB: 电力分配
- GEV (GE Vernova): 燃气轮机 (备用 + 峰值)
→ 能源是 2026+ 真正瓶颈. GPU 你可以买, 电力你买不来 (1 个核电站建 10 年). 这就是为什么 CEG / VST / GEV 股价 2024+ 飞.
4. vs C4 你已经会的¶
| 维度 | C4 给你 | C5 多给你 |
|---|---|---|
| LLM 工作原理 | ✓ | 不解释硬件 |
| 硬件 stack | ✗ | LLM → 4 瓶颈 → 4 类硬件 → 占位公司 |
| 投资意义 | 知道训练 vs 推理 compute | 知道每个瓶颈解开 = 哪环公司股价动; 监控 HBM / 光模块 / 电力是 leading indicator |
C4 = 软件. C5 = 硬件 + 物理. 没 C5 你不知道 60 ticker 产业链每环的真物理逻辑.
5. 试一下: 估算 GPT-4 1 次训练的用电量¶
任务 (10 分钟):
GPT-4 训练估算:
- 10,000 张 H100, 每张 700W = 7 MW (peak)
- 训 6 个月 = 4380 小时
- 算力利用率 ~50% 平均
- 总用电 = 7 MW × 4380 × 0.5 = 15.3 GWh
参照:
- 1 个美国家庭年用电 ~10 MWh = 0.01 GWh
- 15.3 GWh = 1530 个家庭年用电
但这是单次. GPT-4 训了多次 (实验 + 失败 + 最终), 总用电估 ~50 GWh = 5000 个家庭年.
Self-check (3 项符合则进 P1-C6):
- 你能解释为什么 SK Hynix 股价跟 NVDA 同步飞
- 你能解释为什么 CEG (核电) 在 2024+ 涨 200%+
- 你能从硬件瓶颈预测下个 leg up 哪环涨: HBM4 (2026)? 液冷渗透率 (2026-27)? 1.6T 光模块?
6. 接下来¶
硬件 stack 你会从 LLM 倒推. 现在把硬件 stack 跟具体公司 map 起来 — 60 个 ticker 在哪个角色, 互相依赖什么.
→ P1-C6 · 产业链 5 角色 + 60 ticker map 升级现 supply_chain 图, 你已经有 C1-C5 铺垫不再孤立。
7. 深入 (optional): CPO / NVLink vs Infiniband / TPU economics / 推理硬件分化¶
点开看 5 个硬件 trend
CPO (Co-Packaged Optics) — 2025+: 光模块从可插拔 (Pluggable) 变成跟交换芯片封装一起. 功耗降 50%, 带宽涨 2x. 但 CPO 良率难, 量产慢. 主玩家: TSM (packaging), AVGO (switch), Coherent (optical). → 如果 CPO 2026 真量产, 光模块整个 paradigm 变, 现有玩家洗牌.
NVLink vs InfiniBand vs Ethernet: NVDA 力推 NVLink (自家 GPU 之间) + InfiniBand (集群间). 但 Ultra Ethernet Consortium (Cisco/Arista/Intel/AMD/MSFT) 联手推标准 Ethernet 进 AI fabric. 长期 NVDA 网络优势可能被稀释.
TPU economics (Google 内部): TPU v5p 性能不输 H100, 但 Google 自用为主 (不卖给外部). 这分流 Google 内部对 NVDA 需求 (估 30-50%), 但总市场不变 (Google 不买 NVDA 也用了同样多算力).
推理硬件分化 — 训练 vs 推理硬件未来分离: 训练: 巨大集群 (NVDA Blackwell 主导) 推理: 单卡 / 边缘 / 小芯片 (Groq / Cerebras / SambaNova / 苹果 NPU). NVDA Blackwell 同时优化推理但对手有可能.
HBM4 (2026) — 下一代: SK Hynix 量产时间, 带宽再 2x. NVDA Rubin (2026 H2) 用 HBM4. 这是下个 HBM 紧缺 cycle 起点.