SpaceX为22万块GPU打造C语言AI训练系统
SpaceX近乎完成了一套用C语言编写的自定义AI训练系统,设计用于在22万块英伟达 GB300加速器组成的集群上运行,并通过800G网络互联。马斯克于5月28日在X上宣布了这一项目,声称该系统在大规模训练任务中的速度比谷歌 的JAX框架快逾10倍。
裸金属方法
马斯克在 X 上写道:"SpaceX 几乎已经完成了一套内部 AI 训练框架 V1.0 的开发,该框架以 C 语言编写,可精确映射到 22 万块 GB300(配备 800G 网卡),大量采用流水线并行技术,尽可能贴近裸金属层运行。"
这一方式与行业惯例背道而驰。大多数 AI 实验室使用 JAX 或 的 PyTorch 等框架训练模型,这些框架采用基于 Python 的抽象层以简化开发流程。直接使用 C 语言编写则省去了中间软件层,让代码能够更直接地与硬件交互——但代价是牺牲了开发灵活性。
每台英伟达 GB300 NVL72 机架搭载 72 块 Blackwell Ultra GPU 和 36 颗 Grace CPU,每块 GPU 配备 800 Gb/s 的网络带宽。在拥有 22 万块加速芯片的规模下,该集群跻身迄今为止已公布的最大规模 AI 训练设施之列。该框架大量依赖流水线并行技术——这是一种将模型训练任务同时分散到数千块芯片上执行的方法,在这种架构下,最小化通信延迟对性能至关重要。
Grok 与 xAI 的整合
马斯克确认,全新训练技术栈将为 xAI 的下一代重磅模型 Grok v5 提供支持。该系统的开发背景是 xAI 于 2026 年 2 月并入 SpaceX,将 AI 模型、训练硬件和软件整合至同一主体之下。
SpaceX 的 Colossus 2 集群已同步训练七个模型,其中包括面向 Grok 5 的参数规模高达 10 万亿的变体版本。此次定制 C 技术栈的推出,似乎旨在进一步加速上述工作的推进。
未经证实的说法
与 JAX 相比速度提升 10 倍的说法尚未得到独立基准测试的验证。JAX 本身持有多项 MLPerf 记录,且目前尚无任何第三方对 SpaceX 系统进行的测试结果发布。该技术栈的专有性质也引发了外界对其可审计性的质疑——与开源框架不同,封闭系统更难被外部研究人员进行基准测试或在其基础上进行二次开发。
SpaceX 正在进军一个谷歌、微软 和 Meta 已深耕多年、在训练基础设施上持续投入优化的领域。这套裸机方案能否在大规模场景下兑现其承诺,仍有待观察。