LLM Infra Tutorial

面向中级工程师的 LLM 基础设施课程,涵盖 GPU 显存、分布式并行、推理系统与 RLHF。

GPU 显存模型与分布式通信基础

从 GPU 显存层级到 NCCL 通信原语,理解 LLM Infra 优化的两大基石。

2026年3月15日 · 12 分钟 · Zhanfeng Mo

分布式并行策略全景

从 DDP 到混合并行,系统梳理大模型训练中的所有并行策略。

2026年3月16日 · 13 分钟 · Zhanfeng Mo

LLM 推理系统架构(以 SGLang 为例)

深入 PagedAttention 与 RadixAttention,理解现代 LLM 推理引擎的核心设计。

2026年3月17日 · 15 分钟 · Zhanfeng Mo

RLHF 系统设计入门

从 RLHF 四模型架构到 verl 系统实现,理解为什么 RLHF 本质上是一个系统问题。

2026年3月17日 · 15 分钟 · Zhanfeng Mo

Megatron-Bridge 深度剖析:MoE 大模型训练加速的工程之道

从 Megatron-Core 架构到 Megatron-Bridge 桥接机制,深入剖析 MoE 大模型训练中的并行策略、通信优化与计算融合。

2026年4月5日 · 19 分钟 · Zhanfeng Mo