Introduction

  • 问题:现代 LLM 的爆炸式需求

    • 论文首先指出 LLM 发展的三大趋势:参数规模指数级增长、混合专家(MoE)架构的采用以及上下文长度的大幅延伸[cite: 28]。
    • 这些趋势给传统 AI 集群带来巨大压力,后者受限于计算强度、内存带宽、芯片间通信开销和严格的延迟要求[cite: 3,33]。
    • 在实际生产中,动态工作负载(如突发用户查询、可变输入长度和专家激活不均衡)会放大这些挑战,同时还需满足服务级别目标[cite: 4,35]。
    • 作者强调,必须对整体软硬件堆栈进行根本性重构才能突破这些限制[cite: 5,37]。
  • 硬件解决方案:华为 CloudMatrix384

    • 为此,论文提出下一代 AI 数据中心架构 Huawei CloudMatrix[cite: 6,39],其首个生产级实现是 CloudMatrix384 超级节点[cite: 7,40]。
    • 该系统集成 384 颗昇腾 910C NPU 和 192 颗鲲鹏 CPU[cite: 8,42]。
    • 其核心特征是支持组件间直接全互联的超高带宽、低延迟统一总线(UB)网络[cite: 8,43]。
    • 这种点对点设计可实现资源池化、统一访问和独立扩展,对 MoE 专家并行和分布式 KV 缓存访问等高通信负载操作尤为有利[cite: 9,45]。
  • 软件解决方案:CloudMatrix-Infer

    • 论文提出面向 DeepSeek-R1 等大型 MoE 模型的综合服务方案 CloudMatrix-Infer[cite: 11,50]。
    • 该方案具有三大创新:
      1. 点对点服务架构:将推理过程解耦为可独立扩展的预填充、解码和缓存资源池[cite: 12,51],通过 UB 网络访问共享内存池,实现请求调度与数据位置的解耦,简化逻辑并提升缓存效率[cite: 13,56]。
      2. 大规模专家并行(LEP):利用 UB 网络高效调度 token 并组合专家输出,支持 EP320 等高并行度以最小化 MoE 延迟[cite: 14,57,61,62]。
      3. 硬件感知优化:包括精细化算子、微批流水线和 INT8 量化等优化手段,与 CloudMatrix384 架构协同设计以最大化执行效率[cite: 16,64,68]。
  • 性能表现

    • 基于 DeepSeek-R1 的评估显示 CloudMatrix-Infer 达到业界领先水平[cite: 17]。
    • 每 NPU 预填充吞吐量 6,688 token/s,解码吞吐量 1,943 token/s(单 token 延迟<50ms)[cite: 18]。
    • 对应计算效率分别为 4.45 token/s/TFLOPS(预填充)和 1.29 token/s/TFLOPS(解码),超越 NVIDIA H100/H800 GPU 系统的公开结果[cite: 19]。
    • 在更严格的 15ms 延迟约束下仍能维持 538 token/s 的解码吞吐[cite: 20]。
    • 昇腾 910C 的 INT8 量化在 16 个基准测试中保持与官方 DeepSeek-R1 API 相当的精度[cite: 21]。

第二章:LLM 发展趋势与挑战概述

本章详述 LLM 技术演进对传统数据中心基础设施带来的系统性挑战[cite: 82,83]。

  • 2.1 LLM 发展趋势 论文重点阐述三大设计趋势:

    • 参数规模持续膨胀:实证缩放定律表明增加参数可提升模型性能[cite: 86],例如 Meta 的 Llama 4(400B 至近 2T 参数)、DeepSeek-V3(671B 参数)、Google 的 PaLM(540B 参数)和 xAI 的 Grok-1(314B 参数)[cite: 87,88]。
    • MoE 稀疏化:为控制大模型成本,现代 LLM 普遍采用稀疏激活的 MoE 架构[cite: 90],使总参数量与单 token 计算成本解耦[cite: 90],如 Mixtral 8x7B[cite: 91]、Databricks 的 DBRX[cite: 92]、Meta 的 Llama 4 MoE 变体[cite: 93]、DeepSeek-V3[cite: 94]、阿里的 Qwen3-235B[cite: 95]及华为的盘古 Ultra MoE[cite: 96,97]。
    • 上下文窗口扩展:为支持长程推理任务,上下文窗口从数万 token 扩展到超百万 token[cite: 31,100],如 OpenAI 的 GPT-4.5(128k token)和 Google 的 Gemini 2.5 Pro(1M token)[cite: 101],该趋势显著增加计算成本和延迟,使得 KV 块缓存等技术成为生产系统的关键[cite: 103,104,105]。
  • 2.2 数据中心基础设施挑战 这些趋势带来四大系统级挑战:

    • 挑战 1:扩展通信密集型并行:运行大模型需要张量并行(TP)和专家并行(EP)等策略,但其依赖高频低延迟通信[cite: 110,112],传统 AI 集群网络(如 RDMA)难以跨节点高效扩展 TP/EP,常将其限制在单节点内[cite: 111,113]。
    • 挑战 2:异构负载下的高利用率:AI 负载需求各异(如训练需算力而解码需内存带宽)[cite: 114,115],固定节点配置导致资源过度配置或利用率不足[cite: 116],现代基础设施需支持 NPU/CPU/内存等资源的动态细粒度组合[cite: 117]。
    • 挑战 3:AI 与数据密集型负载融合:AI 工作流日益与数据接入、预处理和分析等传统任务融合[cite: 119,120],传统数据中心架构无法满足这类融合执行的严格通信和资源编排需求[cite: 121,122]。
    • 挑战 4:内存级存储性能:现代 AI 流程的数据规模压垮传统存储系统[cite: 124],管理大 KV 缓存、海量数据集摄入和模型检查点等任务需要内存级带宽和延迟的存储[cite: 127],传统磁盘存储层级成为性能瓶颈,导致 NPU 因数据饥饿而利用率低下[cite: 128]。