Transformer、预训练模型、LLM 架构、训练微调、多模态大模型、工程实践 -- 综合整理自 Happy-LLM + Base-LLM (Datawhale)
stein-wang0226.github.io/mllm-interview-notes/训练(并行)与推理(自回归 + KV Cache)的数据流与张量维度推导,含 RoPE、Attention、残差、MLP 全流程维度链
stein-wang0226.github.io/transformer-decoder-flow.htmlPolicy Gradient → PPO 演进、GRPO、RLHF 全流程、DPO 推导、RLVR 范式、算法对比表
stein-wang0226.github.io/rl-interview-guide.htmlAgent 训练基础设施全景 — 四层架构设计、异步 Rollout、工具编排、Sandbox、GRPO、Reward 工程,覆盖 VERL/ROLL/RAGEN/Agent-R1 等前沿框架
stein-wang0226.github.io/agent-harness-guide.html420+ 道真实面经,覆盖 LLM 八股 / RLHF / RL / Agentic RL / VLM / Agent / RAG / 推理工程 / 手撕代码,含高频题详解答案
stein-wang0226.github.io/llm-interview-bank.htmlTokenization、N-gram、Transformer、GPT、BERT、RLHF — 复旦 CS40008 课程整理
stein-wang0226.github.io/llm-study-notes/同一份文档在 mllm-interview-notes 子站中的镜像
stein-wang0226.github.io/mllm-interview-notes/rl-interview-guide.htmlVisual Encoder、架构设计、对齐训练、分辨率策略、MoE、2025-2026 最新进展
stein-wang0226.github.io/mllm-interview-notes/vlm-knowledge-interview.htmlDDP/FSDP/ZeRO/TP/PP/3D并行、LoRA/QLoRA、Flash Attention 1-3、混合精度训练
stein-wang0226.github.io/mllm-interview-notes/12-training-infra.htmlKV Cache、PagedAttention、Flash Attention、量化、Speculative Decoding、系统设计题
stein-wang0226.github.io/mllm-interview-notes/10-inference-system.html