NLP & LLM 课程学习笔记

CS40008.01 / DATA130030.01 — Natural Language Processing and Large Language Models

授课教师：Baojian Zhou | 复旦大学数据科学学院

章节目录

L01 Tokenization

正则表达式、Heap定律、最小编辑距离、BPE/WordPiece/Unigram 分词算法

阅读笔记 →

L02 N-gram 语言模型

KL散度、MLE、平滑技术（Laplace/KN）、Perplexity、KenLM 工具

阅读笔记 →

L03 词嵌入

NB/LR分类、TF-IDF、PPMI、Word2Vec SGNS、Qwen3 Embedding

阅读笔记 →

L04 神经语言模型

NPLM（Bengio 2003）、RNN、BPTT、梯度消失/爆炸、LSTM 门控机制

阅读笔记 →

L05 Transformer

Self-Attention、Multi-Head Attention、位置编码、Encoder-Decoder 架构

阅读笔记 →

L06 GPT 系列

GPT-2架构、Flash Attention、DDP训练、Cosine LR、HellaSwag 评测

阅读笔记 →

L07 BERT 与评测

GLUE基准、Zero-shot评测、HLE、ARC-AGI-3 推理基准

阅读笔记 →

L08 RLHF 对齐

InstructGPT三阶段、SFT、Reward Model（Bradley-Terry）、PPO 策略优化

阅读笔记 →

技术演进路线图

文本预处理 (L01)
    │
    ▼
统计语言模型: N-gram + 平滑 (L02)
    │
    ▼
词表示: TF-IDF → PPMI → Word2Vec (L03)
    │
    ▼
神经语言模型: NPLM → RNN → LSTM (L04)
    │
    ▼
Transformer 架构 (L05)
    │
    ├──► Decoder-only: GPT 系列预训练 (L06)
    │
    ├──► Encoder-only: BERT + 下游评测 (L07)
    │
    └──► 对齐: SFT → RM → PPO (RLHF) (L08)

核心公式速查

名称	公式	出处
自回归分解	$$p_\theta(w_{1:T}) = \prod_{t=1}^T p_\theta(w_t \| w_{1:t-1})$$	L02 / L04
困惑度	$$PPL = 2^{-\frac{1}{M}\sum_i \log_2 p(s_i)}$$	L02
注意力机制	$$\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$	L05
RM 损失	$$\mathcal{L}_{RM} = -\log \sigma\!\left(r_\theta(x,y_w) - r_\theta(x,y_l)\right)$$	L08
RLHF 目标	$$\text{obj}(\phi) = \mathbb{E}\!\left[r_\theta(x,y) - \beta \log \frac{\pi_\phi(y\|x)}{\pi_{SFT}(y\|x)}\right]$$	L08