LLM & Multimodal 面试复习笔记

综合整理自 Happy-LLM + Base-LLM (Datawhale)

章节目录

01 Transformer 与注意力机制

Self-Attention、Multi-Head Attention、位置编码(Sinusoidal/RoPE)、Encoder-Decoder 架构

阅读笔记 →

02 预训练语言模型

BERT (MLM/NSP)、GPT 系列演进、T5 Text-to-Text、LLaMA 家族对比

阅读笔记 →

03 大模型架构详解

LLaMA2 实现细节、GQA、SwiGLU、MoE 稀疏专家、解码策略

阅读笔记 →

04 训练与微调

预训练流程、SFT、LoRA/QLoRA、RLHF/DPO/GRPO、DeepSpeed ZeRO

阅读笔记 →

05 多模态大模型重点

ViT、CLIP、BLIP-2、LLaVA、Flamingo、Chameleon、GPT-4o、Qwen-Omni

阅读笔记 →

06 工程实践

模型量化、推理加速、FastAPI部署、Docker容器化、分布式训练

阅读笔记 →

07 强化学习面试速查新增

Policy Gradient→PPO演进、GRPO、RLHF全流程、DPO推导、算法对比

阅读笔记 →

08 VLM 算法知识与面经新增

Visual Encoder、架构设计、对齐训练、分辨率策略、MoE、2025-2026最新进展

阅读笔记 →

09 高频面试八股题集新增

Transformer/LLM架构/训练微调/RLHF对齐/多模态/推理优化 30道高频题含详解

阅读笔记 →

10 推理优化与系统设计新增

KV Cache、PagedAttention、Flash Attention、量化、Speculative Decoding、系统设计题

阅读笔记 →

11 Agent & RAG 专题新增

RAG全流程、Chunking、Hybrid Search、ReAct、Multi-Agent、A2A、框架选型

阅读笔记 →

12 训练Infra与分布式系统新增

DDP/FSDP/ZeRO/TP/PP/3D并行、LoRA/QLoRA、Flash Attention 1-3、混合精度

阅读笔记 →

技术演进路线图

Transformer 架构 (01)
    |
    +---> Encoder-only: BERT + 下游任务 (02)
    |
    +---> Decoder-only: GPT 系列 (02)
    |
    +---> Encoder-Decoder: T5 (02)
    |
    v
LLM 架构: LLaMA2 / MoE / GQA / RoPE (03)
    |
    +---> 预训练 (Scaling Law: C = 6ND)
    |
    +---> SFT (指令微调)
    |         |
    |         +---> LoRA / QLoRA (参数高效)
    |
    +---> RLHF / DPO / GRPO (对齐) (04)
    |
    v
多模态扩展 (05)
    |
    +---> 连接式: BLIP-2 (Q-Former) / LLaVA (Linear Proj)
    |
    +---> 过渡式: Flamingo (Perceiver + Gated XATTN)
    |
    +---> 原生统一: Chameleon (Image Tokenizer) / GPT-4o
    |
    +---> 端到端: Qwen3-Omni / MiniCPM-o
    |
    v
工程落地: 量化 + 部署 + 加速 (06)

核心公式速查

名称	公式	出处
Scaled Dot-Product Attention	$$\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$	01
RoPE (旋转位置编码)	$$q_m' = q_m e^{im\theta}, \quad k_n' = k_n e^{in\theta}$$	01/03
RMSNorm	$$\text{RMSNorm}(x) = \frac{x}{\sqrt{\frac{1}{n}\sum x_i^2 + \epsilon}} \cdot \gamma$$	03
LoRA	$$h = W_0 x + \frac{\alpha}{r}(BA)x, \quad B \in \mathbb{R}^{d \times r}, A \in \mathbb{R}^{r \times k}$$	04
DPO Loss	$$\mathcal{L} = -\log\sigma\!\left(\beta\log\frac{\pi_\theta(y_w\|x)}{\pi_{ref}(y_w\|x)} - \beta\log\frac{\pi_\theta(y_l\|x)}{\pi_{ref}(y_l\|x)}\right)$$	04
CLIP Contrastive	$$\mathcal{L} = -\frac{1}{N}\sum_i\left[\log\frac{e^{s_{ii}/\tau}}{\sum_j e^{s_{ij}/\tau}}\right]$$	05
Scaling Law	$$C \approx 6ND \quad (\text{compute} = 6 \times \text{params} \times \text{tokens})$$	04

面试高频考点速览

问题	核心答案	页面
为什么除以 $\sqrt{d_k}$？	防止点积过大导致 softmax 饱和、梯度消失	01
BERT vs GPT？	Encoder双向 vs Decoder单向；MLM vs CLM	02
为什么 Decoder-Only 胜出？	CLM 随规模涌现 few-shot 能力，扩展性更好	02
RoPE 优势？	相对位置编码、长度外推、无需额外参数	03
GQA 作用？	共享 KV heads 减少 KV-cache 显存占用	03
LoRA 为什么有效？	微调更新矩阵具有低内在秩	04
RLHF 为何需要4个模型？	Actor+Ref+Reward+Critic，防止遗忘	04
CLIP 如何做 zero-shot？	文本模板 "A photo of {label}" 做相似度匹配	05
LLaVA vs BLIP-2？	简单线性投影 vs Q-Former信息瓶颈	05
原生统一 vs 连接式？	统一词表单网络 vs 冻结编码器+适配器	05

LLM & Multimodal 面试复习笔记

章节目录

01 Transformer 与注意力机制

02 预训练语言模型

03 大模型架构详解

04 训练与微调

05 多模态大模型 重点

06 工程实践

07 强化学习面试速查 新增

08 VLM 算法知识与面经 新增

09 高频面试八股题集 新增

10 推理优化与系统设计 新增

11 Agent & RAG 专题 新增

12 训练Infra与分布式系统 新增

技术演进路线图

核心公式速查

面试高频考点速览

05 多模态大模型重点

07 强化学习面试速查新增

08 VLM 算法知识与面经新增

09 高频面试八股题集新增

10 推理优化与系统设计新增

11 Agent & RAG 专题新增

12 训练Infra与分布式系统新增