Stein's Notes

Transformer、预训练模型、LLM 架构、训练微调、多模态大模型、工程实践 -- 综合整理自 Happy-LLM + Base-LLM (Datawhale)

stein-wang0226.github.io/mllm-interview-notes/

训练（并行）与推理（自回归 + KV Cache）的数据流与张量维度推导，含 RoPE、Attention、残差、MLP 全流程维度链

stein-wang0226.github.io/transformer-decoder-flow.html

Policy Gradient → PPO 演进、GRPO、RLHF 全流程、DPO 推导、RLVR 范式、算法对比表

stein-wang0226.github.io/rl-interview-guide.html

Agent 训练基础设施全景 — 四层架构设计、异步 Rollout、工具编排、Sandbox、GRPO、Reward 工程，覆盖 VERL/ROLL/RAGEN/Agent-R1 等前沿框架

stein-wang0226.github.io/agent-harness-guide.html

420+ 道真实面经，覆盖 LLM 八股 / RLHF / RL / Agentic RL / VLM / Agent / RAG / 推理工程 / 手撕代码，含高频题详解答案

stein-wang0226.github.io/llm-interview-bank.html

Tokenization、N-gram、Transformer、GPT、BERT、RLHF — 复旦 CS40008 课程整理

stein-wang0226.github.io/llm-study-notes/