特斯拉披露百万核心 Dojo 超算故障检测技术,失误一次可致数周 AI 训练工作白费
6 月 7 日消息,特斯拉昨日发文,向用户介绍了其百万核心级 Dojo 超算系统的故障核心检测技术。
据介绍,该公司开发的 Stress 工具能够在不停机的状态下,跨处理器乃至跨集群检测易引发静默数据错误(SDC)的核心。
特斯拉表示,Dojo 是当前全球唯二现存的最大处理器之一。这种晶圆级芯片采用整片 300mm 晶圆制成,单芯片尺寸已达物理极限。
由于 Dojo 大芯片的超高复杂性,即使在制造过程中也难以 100% 检测缺陷晶粒,而静默数据错误的检测更困难。
虽然 SDC 在所有硬件上都难以避免,但 Dojo 处理器有着 8,850 个核心、18000A 电流及 15000W 的超高功耗,这会严重放大其影响,因此所有核心必须按设计运行,否则单个数据错误便可毁掉整个耗时数周才能完成 AI 训练成果。
特斯拉将晶圆级 Dojo 处理器称为“训练模块”,每个模块包含 25 个 645mm² 的 D1 Chip,采用台积电 InFO_SoW 技术封装,集成 354 个定制的 64 位 RISC-V 核心(含 1.25MB SRAM 用于存储数据和指令),以 5×5 集群排列并通过机械网络互联,可提供 10TB/s 带宽。每个 D1 还支持 4TB/s 片外带宽,因此单个“训练模块”总共具备 8,850 核心,支持 8/16/32/64 位整数及多种数据格式。
为应对核心故障风险,特斯拉最初采用差分模糊测试技术:生成随机指令集并同步发送至所有核心,通过比对输出结果识别差异。但因为主机与训练模块间通信开销过大,该过程耗时明显过长。
为了提高效率,特斯拉想办法改进了其检测技术,这个过程主要通过三项创新来完成:
为每个核心分配 0.5MB 随机指令专属负载,利用训练模块内部高带宽通信(而非主机通信)实现核心间负载传递与顺序执行,将指令测试量提升至 4.4GB 且大幅缩短时间
使核心在不重置状态下多次运行负载,增加执行环境随机性以暴露潜在错误。公司称执行次数增加带来的速度损失远低于检测可靠性提升
通过 XOR 操作周期性整合寄存器值至指定 SRAM 区域,使缺陷计算单元识别概率提升 10 倍(经缺陷核心实测),且性能损耗可控
特斯拉表示,该技术不仅适用于训练模块层级或集成 12 个模块的机柜层级,更可在集群层级运作,实现百万级运行核心中的故障定位。
特斯拉报告显示,经优化配置的 Stress 监测系统在 Dojo 集群中检出大量故障核心。检测耗时分布呈现两极分化:多数缺陷在执行 1GB-100GB 负载指令(数秒至数分钟)时被发现;难检测缺陷需执行 1000GB 以上指令(数小时)。
需强调的是,Stress 工具测试负载轻量且核心自包含,支持后台测试无需离线。最终仅故障核心会被禁用,且每个 D1 芯片可容忍数个核心失效而不影响整体功能。
特斯拉透露,Stress 工具除检测故障核心外,还能发现罕见设计级缺陷并通过软件调整修复。在监测系统广泛部署期间,多个底层软件问题也被发现并修正。从官方获悉,目前 Stress 工具已全面集成至运行中的 Dojo 集群,在 AI 训练期间实施硬件健康监测。特斯拉表示,通过该监测观察到的故障率与谷歌和 Meta 公布的数据相当,表明监测工具与硬件水准达到行业同等水平。