Stein's Notes

LLM / Multimodal / RL -- Interview & Study Notes

GitHub Profile →

Study Notes

LLM & Multimodal 面试复习笔记 Main

Transformer、预训练模型、LLM 架构、训练微调、多模态大模型、工程实践 -- 综合整理自 Happy-LLM + Base-LLM (Datawhale)

stein-wang0226.github.io/mllm-interview-notes/

Transformer Decoder 全流程 New

训练(并行)与推理(自回归 + KV Cache)的数据流与张量维度推导,含 RoPE、Attention、残差、MLP 全流程维度链

stein-wang0226.github.io/transformer-decoder-flow.html

强化学习面试速查手册

Policy Gradient → PPO 演进、GRPO、RLHF 全流程、DPO 推导、RLVR 范式、算法对比表

stein-wang0226.github.io/rl-interview-guide.html

Agent Harness 深度解析 New

Agent 训练基础设施全景 — 四层架构设计、异步 Rollout、工具编排、Sandbox、GRPO、Reward 工程,覆盖 VERL/ROLL/RAGEN/Agent-R1 等前沿框架

stein-wang0226.github.io/agent-harness-guide.html

LLM 算法岗面试题库

420+ 道真实面经,覆盖 LLM 八股 / RLHF / RL / Agentic RL / VLM / Agent / RAG / 推理工程 / 手撕代码,含高频题详解答案

stein-wang0226.github.io/llm-interview-bank.html

NLP & LLM 课程笔记

Tokenization、N-gram、Transformer、GPT、BERT、RLHF — 复旦 CS40008 课程整理

stein-wang0226.github.io/llm-study-notes/
Quick Links

RL 面试速查 (mirror)

同一份文档在 mllm-interview-notes 子站中的镜像

stein-wang0226.github.io/mllm-interview-notes/rl-interview-guide.html

VLM 算法知识与面经

Visual Encoder、架构设计、对齐训练、分辨率策略、MoE、2025-2026 最新进展

stein-wang0226.github.io/mllm-interview-notes/vlm-knowledge-interview.html

训练 Infra 与分布式系统 New

DDP/FSDP/ZeRO/TP/PP/3D并行、LoRA/QLoRA、Flash Attention 1-3、混合精度训练

stein-wang0226.github.io/mllm-interview-notes/12-training-infra.html

推理优化与系统设计 New

KV Cache、PagedAttention、Flash Attention、量化、Speculative Decoding、系统设计题

stein-wang0226.github.io/mllm-interview-notes/10-inference-system.html