跳转至

P1-C5 · 为什么 GPU / HBM / 液冷 / 核电

核心一句话

每个硬件都是 LLM 的 1 个瓶颈 — 哪个瓶颈解开, 那环公司股价就动。

AI 产业知识 — 历史 → 技术 → 产业链 → 商业 → 应用 → 地缘

P1-C5 (Part 1 第 5 章). 学完这一章, 你能从 LLM 工作原理倒推整个 hardware stack 为什么这样设计, 不再死记产业链 ticker。


1. 问题: 为什么不能用 CPU 训 LLM?

你看到 hyperscaler 砸 $725B 买 GPU, 没问过为什么不能用更便宜的 CPU. 你看到 SK Hynix 股价飞涨, 不知道 HBM 跟普通 DRAM 差在哪. 你看到 Vertiv 涨 200%, 以为它是空调公司.

LLM 工作方式 (C4 学的) 决定每个硬件需求 — 你能从原理推出整个 hardware stack, 然后产业链 60 ticker 都不用死记.


2. 解决方案: LLM 4 个核心需求 → 4 类硬件

LLM 需要 物理瓶颈 解决硬件 谁占位
大量并行矩阵乘法 (训练) CPU 串行慢 GPU / ASIC NVDA · AMD · Google TPU
数据喂得快 (不让 GPU 等) DRAM 带宽不够 HBM 高带宽内存 SK Hynix · Micron · Samsung
GPU 之间通信 (集群 1000+ 卡) 普通以太网慢 NVLink / InfiniBand / 光模块 NVDA Mellanox · ANET · COHR
散热 + 稳定大功率 风冷扛不住 800W+ 芯片 液冷 + 核电 / 燃气 VRT · CEG · VST · ETN

每环都有"物理瓶颈 → 解决硬件 → 占位公司". 看 hardware stack 跟看公司一一对应.


3. 工作原理: 4 个瓶颈详解

3.1 GPU vs CPU — 并行矩阵乘法

LLM 训练 99% 时间在算矩阵乘法 (神经网络本质就是矩阵).

  • CPU: 8-128 核, 每核独立做复杂任务 (好比 100 个博士)
  • GPU: 10000+ 核, 每核做简单算术 (好比 10000 个小学生算加减乘除)
  • 矩阵乘法: 1 万个小学生算加减比 100 个博士快 100x

**NVDA H100**: 1 张卡 80GB HBM, 700W 功耗, $30K-40K. 1 个训练集群 1024-8192 张.

**AMD MI300X / Google TPU / AWS Trainium: 同样思路, 不同实现. CUDA 生态 (NVDA 20 年护城河) 让 NVDA 仍占 80%+ 训练市场**.

3.2 HBM vs 普通内存 — 数据吞吐

GPU 算得快, 但算之前要把数据从内存读到 GPU 里. 普通 DRAM 带宽不够 → GPU 80% 时间在等数据 → 浪费.

HBM (High Bandwidth Memory): 3D 堆叠内存, 带宽是 DDR5 的 10x.

  • SK Hynix: HBM3e 主供, NVDA 70%+ 用 SK Hynix
  • Micron: 2024 ramped, gain share
  • Samsung: qualify NVDA 慢 (技术 / 良率 / 罢工三重原因), 失市场份额

HBM 紧缺是 NVDA 出货上限. 你 thesis 监控 HBM 产能就是监控 NVDA 收入上限.

1 个 LLM 太大, 单 GPU 装不下 → 分散到 1000+ GPU. 它们之间要高速通信 (梯度同步).

  • NVLink: NVDA 自家 GPU 之间, 1.8TB/s (Blackwell)
  • InfiniBand: 集群之间 (NVDA 2019 收 Mellanox 拿下)
  • 光模块: 数据中心内 cabling, 速率从 400G → 800G → 1.6T → CPO (Co-Packaged Optics)

**COHR / LITE / AAOI**: 光模块. NVDA $2B 战略投 COHR / LITE 锁供应. ANET: 网络交换 (META 主供, 用于 east-west fabric).

光模块涨价 = AI capex 加速的 leading indicator (集群规模上去, 光模块需求平方级涨).

3.4 液冷 + 核电 — 散热 + 持续大功率

H100 700W. Blackwell B200 1200W. 风冷扛不住 → 液冷必上.

1 个 Stargate 数据中心 = 1 GW. 这是1 个核电站的发电量.

  • VRT (Vertiv): 液冷 + 数据中心电气王者
  • CEG (Constellation): MSFT 20 年核电 PPA (三里岛重启)
  • VST (Vistra): 天然气 + 核电
  • ETN (Eaton) / HUBB: 电力分配
  • GEV (GE Vernova): 燃气轮机 (备用 + 峰值)

能源是 2026+ 真正瓶颈. GPU 你可以买, 电力你买不来 (1 个核电站建 10 年). 这就是为什么 CEG / VST / GEV 股价 2024+ 飞.


4. vs C4 你已经会的

维度 C4 给你 C5 多给你
LLM 工作原理 不解释硬件
硬件 stack LLM → 4 瓶颈 → 4 类硬件 → 占位公司
投资意义 知道训练 vs 推理 compute 知道每个瓶颈解开 = 哪环公司股价动; 监控 HBM / 光模块 / 电力是 leading indicator

C4 = 软件. C5 = 硬件 + 物理. 没 C5 你不知道 60 ticker 产业链每环的真物理逻辑.


5. 试一下: 估算 GPT-4 1 次训练的用电量

任务 (10 分钟):

GPT-4 训练估算:
- 10,000 张 H100, 每张 700W = 7 MW (peak)
- 训 6 个月 = 4380 小时
- 算力利用率 ~50% 平均
- 总用电 = 7 MW × 4380 × 0.5 = 15.3 GWh

参照:
- 1 个美国家庭年用电 ~10 MWh = 0.01 GWh
- 15.3 GWh = 1530 个家庭年用电

但这是单次. GPT-4 训了多次 (实验 + 失败 + 最终), 总用电估 ~50 GWh = 5000 个家庭年.

Self-check (3 项符合则进 P1-C6):

  • 你能解释为什么 SK Hynix 股价跟 NVDA 同步飞
  • 你能解释为什么 CEG (核电) 在 2024+ 涨 200%+
  • 你能从硬件瓶颈预测下个 leg up 哪环涨: HBM4 (2026)? 液冷渗透率 (2026-27)? 1.6T 光模块?

6. 接下来

硬件 stack 你会从 LLM 倒推. 现在把硬件 stack 跟具体公司 map 起来 — 60 个 ticker 在哪个角色, 互相依赖什么.

→ P1-C6 · 产业链 5 角色 + 60 ticker map 升级现 supply_chain 图, 你已经有 C1-C5 铺垫不再孤立。


点开看 5 个硬件 trend

CPO (Co-Packaged Optics) — 2025+: 光模块从可插拔 (Pluggable) 变成跟交换芯片封装一起. 功耗降 50%, 带宽涨 2x. 但 CPO 良率难, 量产慢. 主玩家: TSM (packaging), AVGO (switch), Coherent (optical). → 如果 CPO 2026 真量产, 光模块整个 paradigm 变, 现有玩家洗牌.

NVLink vs InfiniBand vs Ethernet: NVDA 力推 NVLink (自家 GPU 之间) + InfiniBand (集群间). 但 Ultra Ethernet Consortium (Cisco/Arista/Intel/AMD/MSFT) 联手推标准 Ethernet 进 AI fabric. 长期 NVDA 网络优势可能被稀释.

TPU economics (Google 内部): TPU v5p 性能不输 H100, 但 Google 自用为主 (不卖给外部). 这分流 Google 内部对 NVDA 需求 (估 30-50%), 但总市场不变 (Google 不买 NVDA 也用了同样多算力).

推理硬件分化 — 训练 vs 推理硬件未来分离: 训练: 巨大集群 (NVDA Blackwell 主导) 推理: 单卡 / 边缘 / 小芯片 (Groq / Cerebras / SambaNova / 苹果 NPU). NVDA Blackwell 同时优化推理但对手有可能.

HBM4 (2026) — 下一代: SK Hynix 量产时间, 带宽再 2x. NVDA Rubin (2026 H2) 用 HBM4. 这是下个 HBM 紧缺 cycle 起点.