分布式并行策略全景

从 DDP 到混合并行,系统梳理大模型训练中的所有并行策略。

2026年3月16日 · 13 分钟 · Zhanfeng Mo

Megatron-Bridge 深度剖析:MoE 大模型训练加速的工程之道

从 Megatron-Core 架构到 Megatron-Bridge 桥接机制,深入剖析 MoE 大模型训练中的并行策略、通信优化与计算融合。

2026年4月5日 · 19 分钟 · Zhanfeng Mo