LLM & Multimodal 面试复习笔记
综合整理自 Happy-LLM + Base-LLM (Datawhale)
覆盖:Transformer | 预训练模型 | LLM架构 | 训练微调 | 多模态 | 工程实践
章节目录
01 Transformer 与注意力机制
Self-Attention、Multi-Head Attention、位置编码(Sinusoidal/RoPE)、Encoder-Decoder 架构
阅读笔记 →技术演进路线图
Transformer 架构 (01)
|
+---> Encoder-only: BERT + 下游任务 (02)
|
+---> Decoder-only: GPT 系列 (02)
|
+---> Encoder-Decoder: T5 (02)
|
v
LLM 架构: LLaMA2 / MoE / GQA / RoPE (03)
|
+---> 预训练 (Scaling Law: C = 6ND)
|
+---> SFT (指令微调)
| |
| +---> LoRA / QLoRA (参数高效)
|
+---> RLHF / DPO / GRPO (对齐) (04)
|
v
多模态扩展 (05)
|
+---> 连接式: BLIP-2 (Q-Former) / LLaVA (Linear Proj)
|
+---> 过渡式: Flamingo (Perceiver + Gated XATTN)
|
+---> 原生统一: Chameleon (Image Tokenizer) / GPT-4o
|
+---> 端到端: Qwen3-Omni / MiniCPM-o
|
v
工程落地: 量化 + 部署 + 加速 (06)
核心公式速查
| 名称 | 公式 | 出处 |
|---|---|---|
| Scaled Dot-Product Attention | $$\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$ | 01 |
| RoPE (旋转位置编码) | $$q_m' = q_m e^{im\theta}, \quad k_n' = k_n e^{in\theta}$$ | 01/03 |
| RMSNorm | $$\text{RMSNorm}(x) = \frac{x}{\sqrt{\frac{1}{n}\sum x_i^2 + \epsilon}} \cdot \gamma$$ | 03 |
| LoRA | $$h = W_0 x + \frac{\alpha}{r}(BA)x, \quad B \in \mathbb{R}^{d \times r}, A \in \mathbb{R}^{r \times k}$$ | 04 |
| DPO Loss | $$\mathcal{L} = -\log\sigma\!\left(\beta\log\frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta\log\frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)}\right)$$ | 04 |
| CLIP Contrastive | $$\mathcal{L} = -\frac{1}{N}\sum_i\left[\log\frac{e^{s_{ii}/\tau}}{\sum_j e^{s_{ij}/\tau}}\right]$$ | 05 |
| Scaling Law | $$C \approx 6ND \quad (\text{compute} = 6 \times \text{params} \times \text{tokens})$$ | 04 |
面试高频考点速览
| 问题 | 核心答案 | 页面 |
|---|---|---|
| 为什么除以 $\sqrt{d_k}$? | 防止点积过大导致 softmax 饱和、梯度消失 | 01 |
| BERT vs GPT? | Encoder双向 vs Decoder单向;MLM vs CLM | 02 |
| 为什么 Decoder-Only 胜出? | CLM 随规模涌现 few-shot 能力,扩展性更好 | 02 |
| RoPE 优势? | 相对位置编码、长度外推、无需额外参数 | 03 |
| GQA 作用? | 共享 KV heads 减少 KV-cache 显存占用 | 03 |
| LoRA 为什么有效? | 微调更新矩阵具有低内在秩 | 04 |
| RLHF 为何需要4个模型? | Actor+Ref+Reward+Critic,防止遗忘 | 04 |
| CLIP 如何做 zero-shot? | 文本模板 "A photo of {label}" 做相似度匹配 | 05 |
| LLaVA vs BLIP-2? | 简单线性投影 vs Q-Former信息瓶颈 | 05 |
| 原生统一 vs 连接式? | 统一词表单网络 vs 冻结编码器+适配器 | 05 |