袁庄网

浪潮AI服务器大幅提升NLP模型Transformer训练性

发布时间: 2019-11-13 12:34:07

[摘要] 又到中秋月圆时。对于很多的天文爱好者来说,一年一度的中秋无疑是赏月最佳时间。下面,就让我们一起尝试中秋赏月的高级姿势。在国家天文台,浪潮设计构建的超级计算机正在服务于中国虚拟天文台。虚拟天文台由虚拟的

近日,在北京举行的2019年人工智能计算大会(aicc 2019)上,浪潮发布了主流自然语言处理(nlp)模型transformer的最新性能测试数据。变压器模型的参数规模可达数亿,需要很高的计算和通信能力。性能数据显示,与同类服务器相比,wave ai服务器nf5488m5大大提高了变压器的训练性能,胶水基准训练时间达到80.4%,比同类产品明显缩短67%。

人工智能正在从“看和听”转向“读和写”认知智能。因为文本是信息和思想的重要载体,如果计算机能够理解和表达文本,那么它们就有读写能力,因此自然语言处理被认为是认知智能的一个重要突破。目前,主流nlp模型包括变压器、bert、gpt、xlnet等。bert和gpt都基于变压器架构。变压器被视为自然语言处理的经典模式,由谷歌在2017年提出。它利用自注意机制实现快速并行,并能增加到很深的深度,充分利用了dnn模型的特点,提高了模型的精度。

然而,变压器模型的训练是一个很大的问题,因为它的参数规模达到上亿,需要很大的计算能力。Openai的变压器模型有12层和768个隐藏单元。使用8 p100 gpu在一个8亿字的数据集上训练40个纪元需要一个月。这背后的原因主要在于gpu通信的限制。计算变压器注意机制的全连接层时会产生大量参数,更新参数梯度需要gpu之间的高速传输。同时,模型的大规模导致gpu内存量大,而批量通常很小,导致计算时间更快,计算后更新参数梯度频繁,这进一步要求gpu之间的传输速度更高。

wave ai服务器nf5488m5通过无阻塞gpu全互连设计实现了所有300gb/s的点对点带宽突破。在当前深度学习通信模型的性能都降低的情况下,nf5488m5的实际通信带宽可以达到传统nvlink互联gpu服务器的3倍以上。正是这一特性大大提高了nf5488m5变压器模型的通信效率,从而提高了计算通信比,节省了整体运行时间。测试结果表明,nf5488m5大大提高了变压器的培训性能。将基准培训时间粘合到80.4%比通过pcie互连的8gpu服务器短67%,比通过传统nvlink互连的8gpu服务器短31%。

变压器培训性能测试结果

浪潮集团ai

秒速牛牛 上海十一选五开奖结果 12bet 五百万彩票网

© Copyright 2018-2019 mp1shop.com 袁庄网 Inc. All Rights Reserved.