Plaza 新闻汇总

AMD MI300X vs Nvidia H100/H200:训练性能基准测试及分析

SemiAnalysis进行了为期五个月的深入研究,以评估AMD MI300X的真实性能,并将其与Nvidia的H100和H200进行对比。

**研究背景:**

AMD MI300X在理论上拥有比Nvidia H100和H200更强的规格和更低的总拥有成本(TCO)。然而,实际性能却与纸面数据存在差距。

**主要发现:**

* Nvidia的GPU在开箱即用体验和性能方面表现卓越,测试过程中没有遇到任何软件bug。

* AMD的软件体验存在诸多问题,开箱即用体验较差,需要进行大量的调试和配置才能达到可用状态。

* AMD MI300X的实际性能远低于纸面上的理论TFLOP/s。

* MI300X在总拥有成本方面更具优势,但在公共稳定版本软件下的训练性能/TCO比值低于Nvidia H100/H200。在使用AMD自定义开发版本软件时,情况有所改变。

* MI300X的训练性能受到AMD软件的限制,包括矩阵乘法(GEMM)性能、单节点训练吞吐量和多节点扩展性能等方面。

* AMD的许多AI库都是基于Nvidia的开源或生态系统库进行修改,导致次优结果和兼容性问题。

* AMD的软件测试和质量保证(QA)流程存在不足,导致软件稳定性差,用户体验不佳。

**针对AMD的建议:**

* 增加软件工程资源,改进工程师的酬劳以吸引人才。

* 加强软件测试,包括自动化测试和性能回归测试,以及对内部版本的深度测试。

* 与Meta合作,让Meta的生产级LLM训练工作负载在PyTorch ROCm上正常运行。

* 简化软件配置,减少对环境变量的依赖,提升开箱即用体验。

* 提交MLPerf训练GPT-3 175B的结果,以客观地衡量性能。

**基准测试细节:**

文章详细介绍了GEMM、HBM带宽、单节点训练、多节点训练、NVLink/xGMI拓扑、网络通信库(NCCL/RCCL)、用户体验等多个方面的基准测试结果和分析。

**结论:**

AMD MI300X的潜力尚未完全发挥,其训练性能受到AMD软件缺陷的限制,Nvidia的CUDA生态优势仍然存在。只有AMD持续改进软件栈,才能真正挑战Nvidia在AI训练领域的主导地位。

原文地址
2024-12-22 23:40:22