理解大模型训练中多GPU如何协作
| 通信类型 | 网络层级 | 带宽要求 | 延迟要求 | 拓扑要求 | 典型硬件 |
|---|---|---|---|---|---|
| 🟦 TP | Scale-up | 极高 600GB/s+ (~4.8Tbps) | 极低 μs级 | 全互联 | NVLink/NVSwitch |
| 🟪 PP | Scale-out | 中等 100-400Gbps | 中等 ms级 | 点对点 | IB/RoCE |
| 🟩 DP | Scale-out | 高 400Gbps+ | 可容忍 | Ring/Tree | IB 400G+ |
| 🟧 EP | Scale-out | 极高 400Gbps+ | 低 | 无阻塞网络 | Fat-Tree IB 400G+ |
| 🟦 SP | Scale-up | 高 600GB/s+ (~4.8Tbps) | 极低 μs级 | 同TP | NVLink |
| 🟥 CP | Scale-out | 高 200-400Gbps | 中等 | Ring | IB/RoCE |
💡 关键结论: