发布于 : Nov 05, 2025
Nov 2025
评估
GPU 和 LPU 不再是独立设备,而是紧密耦合的加速器网络,其性能取决于放置位置和拓扑。在 NVIDIA 的 NVL72 等机架级系统中,72 个 GPU 共享超过 13 TB 的显存,并作为单一加速器运行——直到工作负载跨交换机网络,集体操作才会成为瓶颈。类似地,Groq 的编译时、软件调度架构假设数据移动是确定性的;随机调度会破坏这些假设和可预测性。即便在同一数据中心内,GPU 性能也可能存在显著差异,这就产生了对拓扑感知调度的需求,在作业放置时同时考虑硬件布局和性能波动。 忽略 NVLink、PCIe 或 NIC 拓扑的简单调度器,往往会随意分散多 GPU 工作负载,导致步骤时间和效率下降。训练工作负载是同步且带宽受限的,更适合在连续的 NVLink 网络上调度,确保所有 reduce 和流水线阶段拥有统一、高带宽路径。这些作业应基于互连带宽进行协同调度,避免跨交换机跳转,并将链路、交换机和节点边界视为故障域。相比之下,推理工作负载受延迟和 SLO 限制,通常在跨域高可用复制与分片之间平衡,以保持专家混合(MoE)和 KV 缓存的局部性在最短路径上。针对预填充与解码阶段、微批处理以及租户隔离优化放置,可进一步提升效率。我们认为,随着加速器性能越来越依赖网络和数据中心拓扑,拓扑感知调度将成为必需。我们的团队已在评估 Kueue 及相关项目,以提高放置精度、提升性能并确保客户的可靠扩展。