P1-C4 · 神经网络 / LLM 直觉 (无数学)¶
核心一句话
不懂 LLM 怎么 work, 你投不了 AI 产业 — 因为 "为什么需要 GPU / HBM / 核电" 你答不上。
AI 产业知识 — 历史 → 技术 → 产业链 → 商业 → 应用 → 地缘
P1-C4 (Part 1 第 4 章). 学完这一章, 你不用数学也能解释 LLM 训练 / 推理 / token / context window — 为下一章 (hardware 倒推) 打底。
1. 问题: 听过 "H100 训 LLM" / "context window 200K" — 都什么意思?¶
你 thesis 写 "NVDA bull 因为 hyperscaler 需要更多算力训 LLM" — 但你解释不了:
- LLM 训练为什么需要这么多算力? 不能 CPU 训吗?
- context window 是什么? 为什么 Claude 200K vs ChatGPT 32K 差距大?
- token 是什么? 为什么 OpenAI 按 token 收钱?
- 训练 vs 推理 — 谁吃算力更多?
答不上 = 你 thesis 数字浮在表面, 不知道 NVDA 卖的产品在客户那边怎么用 → 客户需求变化你看不出.
2. 解决方案: 3 个比喻把 LLM 讲清¶
| 比喻 | 对应 LLM 概念 |
|---|---|
| 小孩看亿万本书学说话 | 训练 (training) — 找词与词的统计关系 |
| 接龙游戏 | 推理 (inference) — 给开头一个字一个字接 |
| 写作文时回看上文 | Attention — 选哪几个先前词重要 |
3 个比喻搞清, LLM 就祛魅 — 你知道它本质是统计模型, 不是魔法.
3. 工作原理: 训练 / 推理 / 关键术语¶
3.1 训练 = 小孩看书学说话¶
想象一个小孩, 你让他读完全互联网所有文本 (~10 万亿 token): - 他看 1 亿次 "猫" 跟 "动物" 一起出现 → 学到 "猫是动物" - 他看 1 千万次 "Apple Q4 revenue $124B" → 学到财报句式 - 他看 100 万次 Python 代码 → 学到函数怎么写
LLM 训练就是这个过程 — 但小孩用脑子, LLM 用参数 (神经网络数十亿到万亿个数字). 参数越多 → 能记的 pattern 越细 → 越聪明.
算力: 训练 GPT-4 估约 $100M (10000+ 个 H100 GPU 跑 6 个月). 这就是 hyperscaler $725B capex 一半烧在这里.
3.2 推理 = 接龙游戏¶
训练完, 你给 LLM 一句开头 ("今天天气真"), 它一个 token 一个 token 接龙: - "今天天气真" → "好" (概率最高) - "今天天气真好" → "," (概率最高) - "今天天气真好," → "我" (概率最高) - ...
每接 1 个 token, 都要把整个 context 重新算一遍 (这就是为什么 context window 越大 → 推理越慢 + 越贵).
算力: 推理便宜得多 (单次问答 < $0.01), 但用户多了规模也大 — ChatGPT 300M MAU × 每天 10 次 = 30 亿次推理/天. 这是另一半 capex 烧的地方.
3.3 关键术语 5 个¶
| 术语 | 直觉解释 | 投资意义 |
|---|---|---|
| Token | 单词或单词片段 (中文 ~1 字 = 1 token, 英文 ~0.75 词 = 1 token) | OpenAI / Anthropic API 按 token 收钱; 1B token ≈ $0.5-30 (随模型) |
| 参数 (parameter) | 模型大小. 175B (GPT-3), ~1.7T (GPT-4 估) | 参数越多 → 训练越贵 (scaling laws), 但推理也越贵 |
| Context window | 模型一次能看多少 token (Claude 200K-1M, ChatGPT 32K-128K) | 大 context = 能处理整本书, 但推理 compute 平方级涨 (KV cache) |
| 训练 compute | 训 1 次模型用的总算力 | GPT-4 ~$100M, hyperscaler 烧大头 |
| 推理 compute | 跑 1 次用户请求的算力 | 跟用户量正比. ChatGPT 总推理 compute > 训练 (规模大) |
3.4 推理模型 (o1 / o3) — 新一代¶
2024+ OpenAI o1, Anthropic Claude (扩展思考), DeepSeek R1 — 推理模型.
跟普通 LLM 区别: 不直接给答案, 先内部思考几千 token, 然后给答案. 这把推理 compute 从单次 $0.01 拉到 $1+ (100x).
→ 投资意义: 推理 compute 突然成为新增长曲线. Hyperscaler capex 不再只为训练, 也为大量推理. NVDA Blackwell 推理优化, 抢推理市场.
4. vs C3 你已经会的¶
| 维度 | C3 给你 | C4 多给你 |
|---|---|---|
| NVDA 占位历史 | ✓ | 不解释产品内部 |
| LLM 内部机制 | ✗ | 训练 / 推理 / token / context / 参数 |
| 投资意义 | 知道 NVDA 护城河 | 知道hyperscaler capex 烧在哪 2 块 (训练 + 推理) — 看 capex 拆 train vs infer 是新维度 |
C3 = 公司. C4 = 产品内部. 没 C4 你看不出 hyperscaler capex 是短期 (训练) 还是长期 (推理基础设施) — 这俩 thesis 不同.
5. 试一下: 跟 ChatGPT 验证你 LLM 直觉¶
任务 (15 分钟): 打开 ChatGPT 或 Claude, 问 3 个问题:
- "你的 context window 多大? 用 token 数告诉我"
- "你的训练数据截止时间是什么? 这意味着你对哪些事件不知道?"
- "解释一下 Transformer attention 一句话, 给一个 5 岁小孩听"
然后观察: - 它能答 1 / 2 (训练时被告知) - 答 3 会用比喻 — 看它跟你 §3 的比喻有没有共鸣
Self-check (3 项符合则进 P1-C5):
- 你能 1 句话解释为什么 context window 大 → 推理贵 (KV cache 平方级)
- 你能区分训练 compute vs 推理 compute 的成本驱动
- 你能解释 "推理模型 (o1) 为什么比普通 LLM 贵 100x"
6. 接下来¶
LLM 内部你知道了. 现在反过来: LLM 这种工作方式 → 倒推为什么需要 GPU / HBM / NVLink / 液冷 / 核电?
每个硬件都是 LLM 的 1 个瓶颈.
→ P1-C5 · 为什么 GPU / HBM / 液冷 / 核电 从 LLM 算力需求倒推整个 hardware stack。
7. 深入 (optional): RLHF / temperature / sampling / agentic loop¶
点开看 LLM 4 个进阶概念
RLHF (Reinforcement Learning from Human Feedback): GPT-3 → ChatGPT 的关键步骤. 普通 LLM 训完只会 "续写文本", 经过 RLHF 才会 "听人话"。 → InstructGPT (2022) 论文是开端. Anthropic Constitutional AI 是另一变体.
Temperature: 控制 LLM 输出"创造性" 的参数. 0 = 确定 (每次同样输入同样输出). 0.7 = 平衡. 1.5 = 创意. → API 调用必填. 你 thesis 涉及 LLM 应用要知道 (eg. 代码生成低 temperature, 写诗高 temperature).
Sampling: 给定 next-token 概率分布, 怎么选 1 个? Greedy (选最高) / Top-k / Top-p / Beam search. 不同 sampling 出来质量差异巨大.
Agentic loop: LLM + 工具调用循环 (你输入 → LLM 思考 → 调用工具 → 拿结果 → 继续 → 答你). → Claude Code / Cursor / Devin 都是这模式. 推理 compute 比单轮多 10-100x — 这是新增长曲线 (推理 compute 复利).