性能提升超越摩尔定律!浪潮AI服务器再创MLPerf V2.0训练评测最佳成绩

6月30日,全球权威AI基准MLPerf发布了最新V2.0培训评估结果。浪潮AI服务器性能优异,两个月前在MLPerf V2.0数据中心推理评估中获得全部冠军后,此次在MLPerf V2.0单机培训性能上继续保持领先地位。本次MLPerf评估共有来自全球21家厂商和研究机构参与,包括Google、NVIDIA、浪潮信息、百度、Intel-Habana、Graphcore等,共提交264份评估结果,是此前基准评估的1.5倍。评估任务涵盖了当前主流的人工智能场景,包括自然语言处理(BERT)、智能推荐(DLRM)、图像分类(ResNet)、医学图像分割(3D U-Net)、轻量级物体检测(RetinaNet)、重量级物体检测(Mask R-CNN)、语音识别(RNN-T)和强化学习(Minigo)在单机培训评价的固定任务中,浪潮信息在高端AI服务器上以自然语言理解(BERT)、智能推荐(DLRM)、语音识别(RNN-T)3个性能成绩排名第一,位居单机冠军之首。在8台搭载NVIDIA A100Tensor Core GPU的主流高端AI服务器中,浪潮AI服务器在5项任务(BERT、DLRM、RNN-T、ResNet、Mask R-CNN)上取得了最好的成绩。MLCommons的执行董事David Kanter是MLPerff的评估组织,该组织将继续引领超越摩尔定律的AI计算性能改进,他在最近的发布会上表示,MLPerf的性能改进远远超过摩尔定律。考虑到行业对计算和人工智能的需求正以惊人的速度增长,这是非常令人兴奋的。自参加MLPerf ― AI性能评估以来,浪潮AI服务器通过硬件和硬件的全面优化,持续实现了AI性能突破。与2018年12月MLPerf初始版本V0.5典型配置8卡机型的性能数据相比,浪潮AI服务器的性能有了显著提升,提升率高达789%,是摩尔定律的2.35倍。

浪潮AI服务器在MLPerf基准评估中的卓越性能,得益于浪潮信息在AI计算系统中的卓越设计创新能力和全栈优化能力。浪潮AI服务器针对AI训练中常见的密集I/O传输瓶颈,通过PCIe retimer-free设计实现了CPU-GPU间通道的无中继高速互连,大大降低了通信延迟;它还对高负载多GPU协同任务调度、NUMA节点与GPU之间数据传输性能进行了深度优化,确保训练任务中数据I/O路径处于最佳性能状态。冷却方面,在4U空间中部署了8个500瓦高端NVIDIA A100Tensor Core GPU,支持风冷和液冷冷却模式。同时,在模型训练的全过程中,浪潮AI服务器不断优化预训练数据处理、GPU间高速通信、GPU核心加速等关键模块,最大限度地提高了AI模型的训练性能。目前,基于Transformer神经网络的预训练大规模模型正在引领新一代AI算法的发展,并逐渐从自然语言处理向计算机视觉、多模态等领域迈进。MLPerffTM评估任务的BERT模型基于Transformer架构。Transformer的简单、可堆叠的架构允许基于大量参数和大数据集开发预训练的大型模型,这极大地提高了模型的算法能力,同时也提高了AI计算系统的处理性能、通信互连、I/O性能、并行缩放、拓扑路径等。对和冷却能力的要求也更高。在本次BERT评估任务中,浪潮AI服务器通过优化的数据预处理、GPU间的密集参数通信、超参数自动检索,进一步提升BERT训练性能,在Wikipedia数据集2850176个数据上,在15.869分钟内完成了3.3亿参数BERT模型训练。与V0.7版本的49.01分钟的最高分相比,性能提高了309%。到目前为止,浪潮AI服务器已连续三次实现MLPerfTM BERT任务性能。

浪潮信息MLPerf V2.0培训评估中成绩较好的两种AI服务器分别为NF5488A5和NF5688M6。NF5488A5是全球首款NVIDIA A100Tensor Core GPU服务器,在4U空间内支持8个NVIDIA A100Tensor Core GPU和2个通过NVIDIA NVLink连接的AMD Milan CPU,支持液冷和风冷冷却技术,并赢得了40个MLPerf ?冠军。NF5688M6是一款高度可扩展的AI服务器,针对大型数据中心设计进行了优化,支持8个第三代NVLink连接NVIDIA A100Tensor Core GPU和2个Intel Ice Lake CPU,支持多达13个PCIe Gen4IO扩展,并赢得了25个MLPerf ?冠军。MLPerf是最具影响力的国际人工智能性能基准,由图灵奖获得者David Patterson与顶级学术机构合作推出。2020年,基于MLPerf基准测试的非营利性开放机器学习组织MLCommons成立,加入了50多家全球AI领导者和顶级学术机构,包括谷歌、Facebook、NVIDIA、英特尔、浪潮信息、哈佛大学、斯坦福大学、加州大学伯克利分校等,推动机器学习和人工智能的标准和测量。目前,MLCommons每年都会进行两次MLPerf AI训练性能测试,以快速响应快速变化的计算需求和计算性能的提高,并帮助用户测量设备性能。