02: 预训练语言模型

核心主题：BERT、GPT、T5、LLaMA 的设计哲学与技术细节
来源：Happy-LLM 第三章 + Base-LLM 第五章

1. 预训练范式概述

预训练语言模型的核心思路：在大规模无标注语料上学习通用语言表示，再在下游任务上微调。

架构	代表模型	预训练任务	适用场景
Encoder-Only	BERT, RoBERTa	MLM (双向)	NLU: 分类、NER、QA
Decoder-Only	GPT, LLaMA	CLM (单向)	NLG: 生成、对话、推理
Encoder-Decoder	T5, BART	Span Corruption	翻译、摘要、结构化生成

\mathcal{L}_{MLM} = -\sum_{i \in \text{masked}} \log P(x_i | x_{\backslash i})

GELU: $\text{GELU}(x) = 0.5x(1 + \tanh(\sqrt{2/\pi}(x + 0.044715x^3)))$

输入表示 = Token Embedding + Segment Embedding + Position Embedding

模型	Layers	Hidden	Heads	Params	Data	关键创新
GPT-1	12	768	12	0.12B	5GB	Pretrain+Finetune 范式
GPT-2	48	1600	25	1.5B	40GB	Zero-shot; Pre-Norm
GPT-3	96	12288	96	175B	570GB	Few-shot / ICL; 稀疏注意力

$$\mathcal{L}_{CLM} = -\sum_{t=1}^{T} \log P(x_t | x_1, \ldots, x_{t-1})$$

自回归分解：只关注左侧上下文，天然适合生成任务。

$$C \approx 6ND$$ 其中 $C$ = 计算量(FLOPs), $N$ = 模型参数量, $D$ = 训练数据量(tokens)

Chinchilla 最优配比：$D = 20N$（数据量应为参数量的20倍）

核心思想：将所有 NLP 任务统一为 "text-to-text" 格式：

输入: "translate English to German: That is good."
输出: "Das ist gut."

输入: "summarize: [长文本]"
输出: "[摘要]"

维度	Encoder-Only (BERT)	Decoder-Only (GPT/LLaMA)	Encoder-Decoder (T5)
注意力	双向	单向 (causal)	Enc双向 + Dec单向+交叉
预训练	MLM	CLM	Span Corruption
下游使用	+分类头微调	Zero/Few-shot 或 SFT	Text-to-Text
生成能力	弱	强	中等
涌现能力	无	强（规模效应）	弱
代表规模	~1B	7B-1000B+	~11B

BERT 的 MLM 有什么问题？ 训练有 [MASK]，推理没有 → pretrain-finetune mismatch。10% random + 10% unchanged 是缓解手段。
RoBERTa 改了什么？ 去 NSP + 动态 masking + 更大 batch(8K) + 更多数据(160GB)
GPT-3 的 In-Context Learning 是什么？ 无需梯度更新，通过 prompt 中的示例学会任务
Chinchilla Scaling Law？ 最优计算分配：tokens = 20 × params
LLaMA 为什么用 RMSNorm？ 省去均值计算，训练更快，效果相当
为什么 CLM 比 MLM 扩展性好？ 每个 token 都是训练信号，且自回归与生成推理一致