理解大模型推理中多GPU如何协作生成回答
| 通信类型 | 网络层级 | 带宽要求 | 延迟要求 | 拓扑要求 | 典型硬件 |
|---|---|---|---|---|---|
| 🟦 TP Prefill | Scale-up | 高 200Gbps+ | 中等 | 全互联 | NVLink |
| 🟦 TP Decode | Scale-up | 极高 400Gbps+ | 极低 μs级 | 全互联 | NVLink 900GB/s |
| 🟪 PP | Scale-out | 中等 100Gbps+ | 低 | 点对点 | NVLink / IB |
| 🟧 EP (MoE) | Scale-out | 极高 400Gbps+ | 低 | Full-mesh | IB 400G+ Rail-opt |
💡 推理关键结论: