谷歌首次展示新版语言模型BERT,参数达

来源：语言识别时间：2024/12/26

近日，机器学习开放组织MLCommons发布了MLPerf训练基准（v1.1）的结果。

MLPerf训练是一个完整的系统基准测试，用于测试机器学习模型、软硬件等。上一轮MLPerf训练基准（v1.0）发布于5个月前，与之相比，本次最佳基准测试结果提高了2.3倍，在软硬件和系统规模方面都有了实质性的改进。

（来源：MLCommons）

MLPerf训练基准的内容由封闭式和开放式两个部分组成。开放式区别于封闭式的地方是，开放式的参与者可以提交各种模型，而封闭式为确保一个相对公平的竞争环境，只允许提交相同的参考模型。

值得一提的是，谷歌在本次基准测试的开放式部分提交了之前从未公开过的新版BERT自然语言程序。

新的BERT程序规模比通行的BERT标准版本大了3个数量级，神经网络参数达到亿个，而标准版BERT只有3.4亿个参数。更多的参数通常意味着需要更多的计算能力。

据了解，为了得到更大的BERT模型，谷歌使用的计算机搭载了个TPU（TensorProcessingUnit）芯片。与英伟达的GPU不同，TPU是谷歌针对机器学习专门定制的芯片。此“-TPU系统”目前可以通过谷歌云服务获得。

图

MLPerf训练基准（v1.1）开放式结果（来源：MLCommons）

谷歌表示，这一新颖的语言模型反映了AI规模日益增长的重要性。

谷歌还说，其能够以63%的效率运行庞大的BERT模型，这比英伟达和微软共同开发的Megatron-Turing语言模型52%的效率要好。该效率是通过相对于理论容量每秒执行的浮点运算数量来衡量的。

构建越大的AI深度学习程序，越需要使用更多的GPU芯片或新型加速器芯片。研究人员认为，程序的准确性随着AI规模的增加而增加。

谷歌机器学习基础设施负责人阿鲁沙·塞尔万（AarushSelvan）说：“我们一直在确保向MLPerf提交的文件与自身内部需求以及机器学习行业的需求完全一致。培训AI大模型在谷歌内部变得越来越重要。其是我们研究和生产的一大重点，也是我们的云客户所