您现在的位置是:休闲 >>正文
Meta 训练 Llama 3 模型 :54 天内 16384 个英伟达 H100 显卡集群出现 419 次意外故障【国际服外挂对比】
休闲413人已围观
简介由于系统规模庞大,任务同步程度高,单一显卡故障就可能导致整个训练任务中断,需要重新启动。尽管如此,Meta 团队仍然保持了 90% 以上的有效训练时间。IT之家注意到,在为期 54 天的预训练期间,共 ...
由于系统规模庞大,训练型天显任务同步程度高,英伟单一显卡故障就可能导致整个训练任务中断,集群需要重新启动 。出现次意国际服外挂对比尽管如此,外故Meta 团队仍然保持了 90% 以上的训练型天显有效训练时间。
IT之家注意到,英伟在为期 54 天的集群预训练期间,共发生 466 次工作中断,出现次意其中 47 次为计划中断 ,外故419 次为意外中断 。训练型天显无限子弹修改器计划中断由自动化维护引起,英伟而意外中断主要由硬件问题引起 。集群GPU 问题是出现次意故障的主要原因 ,占意外中断的外故 58.7%。其中只有三起事件需要大量人工干预,自动锁头脚本其余均由自动化管理。

在 419 次意外停机中 ,148 次(30.1%)是由各种 GPU 故障(包括故障)引起的 ,而 72 次(17.2%)是由 GPU 的 HBM3 内存故障引起的 。有趣的物资透视软件是 ,54 天内仅发生过两次 CPU 故障。41.3% 的意外停机是由多种因素引起的,包括软件错误 、网线和网络适配器 。
为了提高效率 ,移动速度外挂Meta 团队开发了一系列工具和优化策略 ,包括缩短任务启动和检查点时间