Distributed-Training | LLM Infra Tutorial

分布式并行策略全景

从 DDP 到混合并行，系统梳理大模型训练中的所有并行策略。

RLHF 系统设计入门

从 RLHF 四模型架构到 verl 系统实现，理解为什么 RLHF 本质上是一个系统问题。

Megatron-Bridge 深度剖析：MoE 大模型训练加速的工程之道

从 Megatron-Core 架构到 Megatron-Bridge 桥接机制，深入剖析 MoE 大模型训练中的并行策略、通信优化与计算融合。