图灵奖得主Jack Dongarra:高性能计算与AI大融合,如何颠覆科学计算(4)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
总结
HPC硬件在不断地演进,有标量计算机器、向量计算机器、分布式系统、加速器以及混合精度计算机器等等。当前计算机领域发生着三个重大的变化,高性能计算、深度学习、以及边缘计算与人工智能。算法和软件应该随着硬件不断的进化,正如Leiserson等人的论文所述,在摩尔定律之后,仍然存在很大的空间可以通过算法、软件和硬件架构去提升HPC系统的终极性能。
Q&A
问题1: 当前,业界和学界都 比较关注神经网络大模型的训练,比如GPT3等具有超过1700亿的参数量,通常需要百个高性能的GPU训练1~3个月。 未来采用高性能计算机可以在几天或几个小时内完成相关的训练吗?
回答1:GPU给计算机提供了强大的数值计算的能力。例如,超级计算机中98%的算力来自于GPU。而在CPU和GPU之间移动数据非常耗时。为了减少成本高昂的数据移动,可以通过将GPU和CPU距离更加贴近的方法,采用Chiplet等芯片设计方法或更为切实可行的实现路径。另外,直接将数据和对应的处理单元离得更近的方法对于解决数据搬运成本高昂的问题也将非常有帮助。
问题2:我们观察到一个现象,当前很多机器学习算法可以和硬件一起演化,并且相互影响。比如,当前ML领域性能最好的Transformer模型,英伟达等公司专门为其设计了专用的架构,使得Transformer更好用。您是否观察到这样的现象,如何评论?
回答2:这是一个非常好的例子,展现了硬件设计和其他方面的相互促进。
当前很多硬件研究人员密切关注行业的变化,并对趋势做出判断。将应用与硬件进行联合设计可以显著地提升性能,进而销售更多的硬件。我认同这种「算法和硬件共同演化」的说法。问题3:您指出未来高性能计算将是一个异构的混合体。集成这些部分将是一个非常困难的问题,甚至将会导致性能的降低。如果我们只是单纯地使用GPU,可能会导致更好的性能。您如何评价?
回答3:当前,高性能计算机中将CPU和GPU非常松散地耦合在一起,需要将数据从CPU传输到GPU上进行计算。未来,采用不同的硬件相互耦合到一起的趋势会继续延续。比如,使用专门的硬件做ML计算,可以是对GPU的进一步的增强。通过将ML相关的算法加载到对应的加速器上,在加速器上执行算法的细节并将计算结果传输给对应的处理器。未来也可实现可插拔的量子加速器,使其执行对应的量子算法等等。
99科技网:http://www.99it.com.cn
