P1-C4 · 神经网络 / LLM 直觉 (无数学)¶

核心一句话

不懂 LLM 怎么 work, 你投不了 AI 产业 — 因为 "为什么需要 GPU / HBM / 核电" 你答不上。

AI 产业知识 — 历史 → 技术 → 产业链 → 商业 → 应用 → 地缘

P1-C4 (Part 1 第 4 章). 学完这一章, 你不用数学也能解释 LLM 训练 / 推理 / token / context window — 为下一章 (hardware 倒推) 打底。

1. 问题: 听过 "H100 训 LLM" / "context window 200K" — 都什么意思?¶

你 thesis 写 "NVDA bull 因为 hyperscaler 需要更多算力训 LLM" — 但你解释不了:

LLM 训练为什么需要这么多算力? 不能 CPU 训吗?
context window 是什么? 为什么 Claude 200K vs ChatGPT 32K 差距大?
token 是什么? 为什么 OpenAI 按 token 收钱?
训练 vs 推理 — 谁吃算力更多?

答不上 = 你 thesis 数字浮在表面, 不知道 NVDA 卖的产品在客户那边怎么用 → 客户需求变化你看不出.

2. 解决方案: 3 个比喻把 LLM 讲清¶

比喻	对应 LLM 概念
小孩看亿万本书学说话	训练 (training) — 找词与词的统计关系
接龙游戏	推理 (inference) — 给开头一个字一个字接
写作文时回看上文	Attention — 选哪几个先前词重要

3 个比喻搞清, LLM 就祛魅 — 你知道它本质是统计模型, 不是魔法.

3. 工作原理: 训练 / 推理 / 关键术语¶

3.1 训练 = 小孩看书学说话¶

想象一个小孩, 你让他读完全互联网所有文本 (~10 万亿 token): - 他看 1 亿次 "猫" 跟 "动物" 一起出现 → 学到 "猫是动物" - 他看 1 千万次 "Apple Q4 revenue $124B" → 学到财报句式 - 他看 100 万次 Python 代码 → 学到函数怎么写

LLM 训练就是这个过程 — 但小孩用脑子, LLM 用参数 (神经网络数十亿到万亿个数字). 参数越多 → 能记的 pattern 越细 → 越聪明.

算力: 训练 GPT-4 估约 $100M (~25,000 个 A100 GPU 跑 ~3 个月, 训练完成时 H100 尚未量产) — ⚠️ GPT-4 模型规模 / 硬件 / 训练 compute / 数据集 / 成本 OpenAI 未公开 (per GPT-4 Technical Report: "this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method"); $100M / 25K A100 均为外部估算 (industry estimates, 不是 OpenAI 官方). 这就是 hyperscaler $725B capex 一半烧在这里.

3.2 推理 = 接龙游戏¶

训练完, 你给 LLM 一句开头 ("今天天气真"), 它一个 token 一个 token 接龙: - "今天天气真" → "好" (概率最高) - "今天天气真好" → "," (概率最高) - "今天天气真好，" → "我" (概率最高) - ...

prefill (首次输入) attention 成本高 (与序列长度的平方相关); decode 阶段不重算整个 context — 而是用 KV cache, 显存占用和读取带宽随 cache 大小近似线性增长. 长 context 主要拖慢吞吐和增加显存压力, 而非算力平方增长.

算力: 推理便宜得多 (单次问答 < $0.01), 但用户多了规模也大 — 假设 DAU ~135-225M (基于 OpenAI 2026/03/31 官公告 >900M WAU × 常见 0.15-0.25 DAU/WAU 比例; OpenAI 未披露 DAU), 每 DAU 日均 10 次 query ≈ 13.5-22.5 亿次/天 (粗略估算). 这是另一半 capex 烧的地方.

3.3 关键术语 5 个¶

术语	直觉解释	投资意义
Token	单词或单词片段 (中文 ~1 字 = 1 token, 英文 ~0.75 词 = 1 token)	OpenAI / Anthropic API 按 token 收钱; 1B token ≈ $0.5-30 (随模型)
参数 (parameter)	模型大小. 175B (GPT-3 公开), ~1.7T (GPT-4 外部估算, OpenAI 未披露) ⚠️	参数越多 → 训练越贵 (scaling laws), 但推理也越贵
Context window	模型一次能看多少 token (Claude 200K-1M, ChatGPT 32K-128K)	大 context = 能处理整本书, 但 prefill 阶段成本平方级涨, decode 阶段 KV cache 显存/带宽线性涨
训练 compute	训 1 次模型用的总算力	GPT-4 ~$100M (外部估算, OpenAI 未公开 GPT-4 训练 compute / 成本), hyperscaler 烧大头
推理 compute	跑 1 次用户请求的算力	跟用户量正比. ChatGPT 总推理 compute > 训练 (规模大)

3.4 推理模型 (o1 / o3) — 新一代¶

2024+ OpenAI o1, Anthropic Claude (扩展思考), DeepSeek R1 — 推理模型.

跟普通 LLM 区别: 不直接给答案, 先内部思考几千 token, 然后给答案. 这把推理 compute 从单次 $0.01 拉到 $1+ (100x).

→ 投资意义: 推理 compute 突然成为新增长曲线. Hyperscaler capex 不再只为训练, 也为大量推理. NVDA Blackwell 推理优化, 抢推理市场.

4. vs C3 你已经会的¶

维度	C3 给你	C4 多给你
NVDA 占位历史	✓	不解释产品内部
LLM 内部机制	✗	训练 / 推理 / token / context / 参数
投资意义	知道 NVDA 护城河	知道hyperscaler capex 烧在哪 2 块 (训练 + 推理) — 看 capex 拆 train vs infer 是新维度

C3 = 公司. C4 = 产品内部. 没 C4 你看不出 hyperscaler capex 是短期 (训练) 还是长期 (推理基础设施) — 这俩 thesis 不同.

5. 试一下: 跟 ChatGPT 验证你 LLM 直觉¶

任务 (15 分钟): 打开 ChatGPT 或 Claude, 问 3 个问题:

"你的 context window 多大? 用 token 数告诉我"
"你的训练数据截止时间是什么? 这意味着你对哪些事件不知道?"
"解释一下 Transformer attention 一句话, 给一个 5 岁小孩听"

然后观察: - 它能答 1 / 2 (训练时被告知) - 答 3 会用比喻 — 看它跟你 §3 的比喻有没有共鸣

Self-check (3 项符合则进 P1-C5):

你能 1 句话解释为什么 context window 大 → 推理贵 (prefill 平方级 attention + decode KV cache 显存/带宽线性涨)
你能区分训练 compute vs 推理 compute 的成本驱动
你能解释 "推理模型 (o1) 为什么比普通 LLM 贵 100x"

6. 接下来¶

LLM 内部你知道了. 现在反过来: LLM 这种工作方式 → 倒推为什么需要 GPU / HBM / NVLink / 液冷 / 核电?

每个硬件都是 LLM 的 1 个瓶颈.

→ P1-C5 · 为什么 GPU / HBM / 液冷 / 核电 从 LLM 算力需求倒推整个 hardware stack。

7. 深入 (optional): RLHF / temperature / sampling / agentic loop¶

点开看 LLM 4 个进阶概念

RLHF (Reinforcement Learning from Human Feedback): GPT-3 → ChatGPT 的关键步骤. 普通 LLM 训完只会 "续写文本", 经过 RLHF 才会 "听人话"。 → InstructGPT (2022) 论文是开端. Anthropic Constitutional AI 是另一变体.

Temperature: 控制 LLM 输出"创造性" 的参数. 0 = 确定 (每次同样输入同样输出). 0.7 = 平衡. 1.5 = 创意. → API 调用必填. 你 thesis 涉及 LLM 应用要知道 (eg. 代码生成低 temperature, 写诗高 temperature).

Sampling: 给定 next-token 概率分布, 怎么选 1 个? Greedy (选最高) / Top-k / Top-p / Beam search. 不同 sampling 出来质量差异巨大.

Agentic loop: LLM + 工具调用循环 (你输入 → LLM 思考 → 调用工具 → 拿结果 → 继续 → 答你). → Claude Code / Cursor / Devin 都是这模式. 推理 compute 比单轮多 10-100x — 这是新增长曲线 (推理 compute 复利).

8. 延伸阅读 (本章 — 神经网络 / LLM 直觉)¶

全部免费 source, 跟 P5 0 paid 政策一致

经典论文 / 一手文献:

Vaswani et al. "Attention Is All You Need" (2017) — Transformer 8 页论文
Ouyang et al. "InstructGPT / RLHF" (OpenAI 2022) — ChatGPT 背后的对齐方法
Anthropic "Toy Models of Superposition" (2022) — interpretability 入门, 看模型里到底装了什么
Anthropic "Mapping the Mind of a Large Language Model" (2024) — Claude 3 Sonnet 内部 feature 抽取

Wikipedia (3-10 min):

"Artificial neural network" — 神经网络基本概念
"Large language model" — LLM 完整 + scaling 曲线
"Reinforcement learning from human feedback" — RLHF 方法 + 历史

视频 / 公开课 (~1-3 hr/篇):

3Blue1Brown "Neural networks" 4 视频系列 — 视觉化神经网络 (~1 hr)
3Blue1Brown "But what is a GPT?" (~30 min) — Transformer 直觉可视化
Andrej Karpathy "Let's build GPT from scratch" (2 hr) — 手撕 nano-GPT
Andrej Karpathy "Neural Networks: Zero to Hero" 系列 — 从 micrograd 到 GPT 全套
Andrej Karpathy "Deep Dive into LLMs like ChatGPT" (3.5 hr, 2025) — 训练/推理/RLHF 全流程

博客 (经典作者):

Lilian Weng "Prompt Engineering" — 概念 + 实操
Lilian Weng "LLM Powered Autonomous Agents" — agentic loop 综述
Sebastian Raschka "Magazine: Ahead of AI" — LLM 月度技术综述, 免费订

Podcast (1-3 hr/集):

Lex Fridman #333 — Andrej Karpathy — 2.5 hr, LLM 训练直觉

书籍 (图书馆借):

Sebastian Raschka "Build a Large Language Model (From Scratch)" (2024) — 一行行代码搭 LLM
Michael Nielsen "Neural Networks and Deep Learning" (免费在线 neuralnetworksanddeeplearning.com) — 教科书级入门

配合本章自评:

读完 3Blue1Brown 4 集 + Karpathy "Intro to LLM" + Lilian Weng "LLM Powered Agents", 应能答 self-check "LLM 3 比喻" 和 "agentic loop 为什么改算力曲线"。