LLM & Multimodal 面试复习笔记

LLM & Multimodal 面试复习笔记

综合整理自 Happy-LLM + Base-LLM (Datawhale)

覆盖:Transformer | 预训练模型 | LLM架构 | 训练微调 | 多模态 | 工程实践

章节目录

01 Transformer 与注意力机制

Self-Attention、Multi-Head Attention、位置编码(Sinusoidal/RoPE)、Encoder-Decoder 架构

阅读笔记 →

02 预训练语言模型

BERT (MLM/NSP)、GPT 系列演进、T5 Text-to-Text、LLaMA 家族对比

阅读笔记 →

03 大模型架构详解

LLaMA2 实现细节、GQA、SwiGLU、MoE 稀疏专家、解码策略

阅读笔记 →

04 训练与微调

预训练流程、SFT、LoRA/QLoRA、RLHF/DPO/GRPO、DeepSpeed ZeRO

阅读笔记 →

05 多模态大模型 重点

ViT、CLIP、BLIP-2、LLaVA、Flamingo、Chameleon、GPT-4o、Qwen-Omni

阅读笔记 →

06 工程实践

模型量化、推理加速、FastAPI部署、Docker容器化、分布式训练

阅读笔记 →

07 强化学习面试速查 新增

Policy Gradient→PPO演进、GRPO、RLHF全流程、DPO推导、算法对比

阅读笔记 →

08 VLM 算法知识与面经 新增

Visual Encoder、架构设计、对齐训练、分辨率策略、MoE、2025-2026最新进展

阅读笔记 →

09 高频面试八股题集 新增

Transformer/LLM架构/训练微调/RLHF对齐/多模态/推理优化 30道高频题含详解

阅读笔记 →

10 推理优化与系统设计 新增

KV Cache、PagedAttention、Flash Attention、量化、Speculative Decoding、系统设计题

阅读笔记 →

11 Agent & RAG 专题 新增

RAG全流程、Chunking、Hybrid Search、ReAct、Multi-Agent、A2A、框架选型

阅读笔记 →

12 训练Infra与分布式系统 新增

DDP/FSDP/ZeRO/TP/PP/3D并行、LoRA/QLoRA、Flash Attention 1-3、混合精度

阅读笔记 →

技术演进路线图

Transformer 架构 (01)
    |
    +---> Encoder-only: BERT + 下游任务 (02)
    |
    +---> Decoder-only: GPT 系列 (02)
    |
    +---> Encoder-Decoder: T5 (02)
    |
    v
LLM 架构: LLaMA2 / MoE / GQA / RoPE (03)
    |
    +---> 预训练 (Scaling Law: C = 6ND)
    |
    +---> SFT (指令微调)
    |         |
    |         +---> LoRA / QLoRA (参数高效)
    |
    +---> RLHF / DPO / GRPO (对齐) (04)
    |
    v
多模态扩展 (05)
    |
    +---> 连接式: BLIP-2 (Q-Former) / LLaVA (Linear Proj)
    |
    +---> 过渡式: Flamingo (Perceiver + Gated XATTN)
    |
    +---> 原生统一: Chameleon (Image Tokenizer) / GPT-4o
    |
    +---> 端到端: Qwen3-Omni / MiniCPM-o
    |
    v
工程落地: 量化 + 部署 + 加速 (06)

核心公式速查

名称公式出处
Scaled Dot-Product Attention $$\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$ 01
RoPE (旋转位置编码) $$q_m' = q_m e^{im\theta}, \quad k_n' = k_n e^{in\theta}$$ 01/03
RMSNorm $$\text{RMSNorm}(x) = \frac{x}{\sqrt{\frac{1}{n}\sum x_i^2 + \epsilon}} \cdot \gamma$$ 03
LoRA $$h = W_0 x + \frac{\alpha}{r}(BA)x, \quad B \in \mathbb{R}^{d \times r}, A \in \mathbb{R}^{r \times k}$$ 04
DPO Loss $$\mathcal{L} = -\log\sigma\!\left(\beta\log\frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta\log\frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)}\right)$$ 04
CLIP Contrastive $$\mathcal{L} = -\frac{1}{N}\sum_i\left[\log\frac{e^{s_{ii}/\tau}}{\sum_j e^{s_{ij}/\tau}}\right]$$ 05
Scaling Law $$C \approx 6ND \quad (\text{compute} = 6 \times \text{params} \times \text{tokens})$$ 04

面试高频考点速览

问题核心答案页面
为什么除以 $\sqrt{d_k}$?防止点积过大导致 softmax 饱和、梯度消失01
BERT vs GPT?Encoder双向 vs Decoder单向;MLM vs CLM02
为什么 Decoder-Only 胜出?CLM 随规模涌现 few-shot 能力,扩展性更好02
RoPE 优势?相对位置编码、长度外推、无需额外参数03
GQA 作用?共享 KV heads 减少 KV-cache 显存占用03
LoRA 为什么有效?微调更新矩阵具有低内在秩04
RLHF 为何需要4个模型?Actor+Ref+Reward+Critic,防止遗忘04
CLIP 如何做 zero-shot?文本模板 "A photo of {label}" 做相似度匹配05
LLaVA vs BLIP-2?简单线性投影 vs Q-Former信息瓶颈05
原生统一 vs 连接式?统一词表单网络 vs 冻结编码器+适配器05