P1-C5 · 为什么 GPU / HBM / 液冷 / 核电¶

核心一句话

每个硬件都是 LLM 的 1 个瓶颈 — 哪个瓶颈解开, 那环公司股价就动。

AI 产业知识 — 历史 → 技术 → 产业链 → 商业 → 应用 → 地缘

P1-C5 (Part 1 第 5 章). 学完这一章, 你能从 LLM 工作原理倒推整个 hardware stack 为什么这样设计, 不再死记产业链 ticker。

1. 问题: 为什么不能用 CPU 训 LLM?¶

你看到 hyperscaler 砸 2026 combined capex $600-725B (Big 4 = MSFT + GOOGL + AMZN + META, ~75% AI-related, per Yahoo/CreditSights 2025-12) 买 GPU, 没问过为什么不能用更便宜的 CPU. 你看到 SK Hynix 股价飞涨, 不知道 HBM 跟普通 DRAM 差在哪. 你看到 Vertiv 涨 200%, 以为它是空调公司.

LLM 工作方式 (C4 学的) 决定每个硬件需求 — 你能从原理推出整个 hardware stack, 然后产业链 60 ticker 都不用死记.

2. 解决方案: LLM 4 个核心需求 → 4 类硬件¶

LLM 需要	物理瓶颈	解决硬件	谁占位
大量并行矩阵乘法 (训练)	CPU 串行慢	GPU / ASIC	NVDA · AMD · Google TPU
数据喂得快 (不让 GPU 等)	DRAM 带宽不够	HBM 高带宽内存	SK Hynix · Micron · Samsung
GPU 之间通信 (集群 1000+ 卡)	普通以太网慢	NVLink / InfiniBand / 光模块	NVDA Mellanox · ANET · COHR
散热 + 稳定大功率	风冷扛不住 800W+ 芯片	液冷 + 核电 / 燃气	VRT · CEG · VST · ETN

每环都有"物理瓶颈 → 解决硬件 → 占位公司". 看 hardware stack 跟看公司一一对应.

3. 工作原理: 4 个瓶颈详解¶

3.1 GPU vs CPU — 并行矩阵乘法¶

LLM 训练 99% 时间在算矩阵乘法 (神经网络本质就是矩阵).

CPU: 8-128 核, 每核独立做复杂任务 (好比 100 个博士)
GPU: 10000+ 核, 每核做简单算术 (好比 10000 个小学生算加减乘除)
矩阵乘法: 1 万个小学生算加减比 100 个博士快 100x

**NVDA H100**: 1 张卡 80GB HBM, 700W 功耗, $30K-40K. 1 个训练集群 1024-8192 张.

**AMD MI300X / Google TPU / AWS Trainium: 同样思路, 不同实现. CUDA 生态 (NVDA 20 年护城河) 让 NVDA 仍占 80%+ 训练市场**.

3.2 HBM vs 普通内存 — 数据吞吐¶

GPU 算得快, 但算之前要把数据从内存读到 GPU 里. 普通 DRAM 带宽不够 → GPU 80% 时间在等数据 → 浪费.

HBM (High Bandwidth Memory): 3D 堆叠内存, 带宽是 DDR5 的 10x.

SK Hynix: HBM3e 主供, NVDA 70%+ 用 SK Hynix
Micron: 2024 ramped, gain share
Samsung: qualify NVDA 慢 (技术 / 良率 / 罢工三重原因), 失市场份额

→ HBM 紧缺是 NVDA 出货上限. 你 thesis 监控 HBM 产能就是监控 NVDA 收入上限.

3.3 NVLink / InfiniBand / 光模块 — GPU 之间通信¶

1 个 LLM 太大, 单 GPU 装不下 → 分散到 1000+ GPU. 它们之间要高速通信 (梯度同步).

NVLink: NVDA 自家 GPU 之间, 1.8TB/s (Blackwell)
InfiniBand: 集群之间 (NVDA 2019 宣布, 2020/4 完成收购 Mellanox 拿下)
光模块: 数据中心内 cabling, 速率从 400G → 800G → 1.6T → CPO (Co-Packaged Optics)

**COHR / LITE / AAOI**: 光模块. NVDA $2B 战略投 COHR / LITE 锁供应. ANET: 网络交换 (META 主供, 用于 east-west fabric).

→ 光模块涨价 = AI capex 加速的 leading indicator (集群规模上去, 光模块需求平方级涨).

3.4 液冷 + 核电 — 散热 + 持续大功率¶

H100 700W. Blackwell B200 1200W. 风冷扛不住 → 液冷必上.

部分 Stargate-scale clusters 可达 1GW 量级 (eg. Stargate UAE 1GW Abu Dhabi cluster, Phase 1 200MW 2026 H2 上线 per OpenAI 2025/05/22 + G42 2025/12). 1GW ≈ 1 个核电反应堆的发电量. Stargate Abilene Texas / 其他 US site 容量待官方公告 — 不要默认每个 Stargate 站点都是 1GW.

VRT (Vertiv): 液冷 + 数据中心电气王者
CEG (Constellation): MSFT 20 年核电 PPA (三里岛重启)
VST (Vistra): 天然气 + 核电
ETN (Eaton) / HUBB: 电力分配
GEV (GE Vernova): 燃气轮机 (备用 + 峰值)

→ 能源是 2026+ 真正瓶颈. GPU 你可以买, 电力你买不来 (1 个核电站建 10 年). 这就是为什么 CEG / VST / GEV 股价 2024+ 飞.

4. vs C4 你已经会的¶

维度	C4 给你	C5 多给你
LLM 工作原理	✓	不解释硬件
硬件 stack	✗	LLM → 4 瓶颈 → 4 类硬件 → 占位公司
投资意义	知道训练 vs 推理 compute	知道每个瓶颈解开 = 哪环公司股价动; 监控 HBM / 光模块 / 电力是 leading indicator

C4 = 软件. C5 = 硬件 + 物理. 没 C5 你不知道 60 ticker 产业链每环的真物理逻辑.

5. 试一下: 估算 GPT-4 1 次训练的用电量¶

任务 (10 分钟):

⚠️ 重要 caveat: GPT-4 模型规模 / 硬件 / 训练 compute / 数据 / 成本 OpenAI 未公开 (per GPT-4 Tech Report). 下面 25,000 A100 / 3 个月等数字均为外部估算 (industry estimates, 不是 OpenAI 官方). 任务目的是练习量级估算, 不是引用事实.

GPT-4 训练估算 (外部估算, OpenAI 未确认):
- ~25,000 张 A100, 每张 ~400W = ~10 MW (峰值功耗; 注: GPT-4 训练于 2022 完成时 H100 还未量产)
- 训 ~3 个月 = ~2160 小时
- 算力利用率 ~50% 平均
- 总用电 = 25,000 × 400W × 90 days × 24h × 0.5 = ~10.8 GWh
  (或按峰值: 25,000 × 400W × 90 × 24 = ~21.6 GWh)

参照:
- 1 个美国家庭年用电 ~10 MWh = 0.01 GWh
- ~10.8 GWh = ~1080 个家庭年用电

但这是单次. GPT-4 训了多次 (实验 + 失败 + 最终), 总用电估 ~50 GWh = 5000 个家庭年.

Self-check (3 项符合则进 P1-C6):

你能解释为什么 SK Hynix 股价跟 NVDA 同步飞
你能解释为什么 CEG (核电) 在 2024+ 涨 200%+
你能从硬件瓶颈预测下个 leg up 哪环涨: HBM4 (2026)? 液冷渗透率 (2026-27)? 1.6T 光模块?

6. 接下来¶

硬件 stack 你会从 LLM 倒推. 现在把硬件 stack 跟具体公司 map 起来 — 60 个 ticker 在哪个角色, 互相依赖什么.

→ P1-C6 · 产业链 5 角色 + 60 ticker map 升级现 supply_chain 图, 你已经有 C1-C5 铺垫不再孤立。

7. 深入 (optional): CPO / NVLink vs Infiniband / TPU economics / 推理硬件分化¶

点开看 5 个硬件 trend

CPO (Co-Packaged Optics) — 2025+: 光模块从可插拔 (Pluggable) 变成跟交换芯片封装一起. 功耗降 50%, 带宽涨 2x. 但 CPO 良率难, 量产慢. 主玩家: TSM (packaging), AVGO (switch), Coherent (optical). → 如果 CPO 2026 真量产, 光模块整个 paradigm 变, 现有玩家洗牌.

NVLink vs InfiniBand vs Ethernet: NVDA 力推 NVLink (自家 GPU 之间) + InfiniBand (集群间). 但 Ultra Ethernet Consortium (Cisco/Arista/Intel/AMD/MSFT) 联手推标准 Ethernet 进 AI fabric. 长期 NVDA 网络优势可能被稀释.

TPU economics (Google 内部): TPU v5p 性能不输 H100, 但 Google 自用为主 (不卖给外部). 这分流 Google 内部对 NVDA 需求 (估 30-50%), 但总市场不变 (Google 不买 NVDA 也用了同样多算力).

推理硬件分化 — 训练 vs 推理硬件未来分离: 训练: 巨大集群 (NVDA Blackwell 主导) 推理: 单卡 / 边缘 / 小芯片 (Groq / Cerebras / SambaNova / 苹果 NPU). NVDA Blackwell 同时优化推理但对手有可能.

HBM4 (2026) — 下一代: SK Hynix 量产时间, 带宽再 2x. NVDA Rubin (2026 H2) 用 HBM4. 这是下个 HBM 紧缺 cycle 起点.

8. 延伸阅读 (本章 — GPU / HBM / 液冷 / 核电)¶

全部免费 source, 跟 P5 0 paid 政策一致

经典论文 / 官方一手白皮书:

NVIDIA Blackwell Architecture Technical Brief — Blackwell GPU + NVLink 一手设计
NVIDIA Hopper Architecture White Paper — H100 / H200 一手设计 + 性能数据
TSMC Annual Report / 20-F — 制程 roadmap + capex 数据
SK Hynix HBM3E announcement (IR) — HBM3E / HBM4 一手 spec

Wikipedia (3-10 min):

"High Bandwidth Memory" — HBM ½/¾ 演化 + 3 家供应商
"NVLink" — NVDA 互联方案
"InfiniBand" — 数据中心网络协议
"Data center" — 数据中心电力 / 冷却 / 设计
"Three Mile Island Nuclear Generating Station" — 2024 Constellation-MSFT 重启 unit 1 (历史 + 协议背景)

视频 / 公开课:

NVIDIA GTC keynotes (官方 YouTube) — 半年一次, 看产品路线图
TSMC Technology Symposium 公开演讲 — 每年制程 + advanced packaging 更新
Asianometry "How TSMC Makes Chips" — 半导体制造科普频道, 大量免费视频

公司 IR (季报 + 投资者日 deck):

Vertiv Investor Relations — 液冷 + 数据中心电源
Constellation Energy IR — 核电 + 数据中心 PPA
NVIDIA IR — 季报里 Data Center segment 拆解最干货
SK Hynix IR — HBM 供应一手数据

Podcast:

Acquired — TSMC — fab 制造为什么这么贵 + 7nm/3nm 制程
Acquired — NVIDIA Part III — H100 / Blackwell 经济学

书籍 (图书馆借):

Chris Miller "Chip War" (2022) — 半导体行业宏观 + 地缘
Mark Lapedus 等多人合著 — 行业杂志 EE Times / SemiWiki 免费深度文章 (semiwiki.com)

配合本章自评:

读完 Blackwell white paper + Wikipedia "HBM" + Vertiv / Constellation IR 1 份, 应能答 self-check "4 个瓶颈 (compute / memory / 互联 / 电力)" 和 "估 GPT-4 训练用电量"。