ICLR Spotlight|Facebook提出无损INT8优化器,单机可以跑千亿参数模型了??
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
大数据文摘授权转载自夕小瑶的卖萌屋 作者:王思若
2018年GPT、BERT预训练模型的提出吹响了大模型“军备竞赛”冲锋的号角,一场大模型的狂欢拉开帷幕,业界强大的算力支撑起例如Megatron-Turing、Switch Transformer、悟道2.0等千亿&万亿参数量模型。与此同时,面对着超大模型训练在内存存储、网络通信、性能功耗等方面的严峻挑战,这同样是一场工程上极致优化的探索之旅,各家公司纷纷提供了自己的解决方案或训练框架,常用的方法有以下几种:
1. 并行化方法:主要包括数据并行、模型并行和流水线并行,切分数据、Tensor或模型Block到不同GPU上从而达到并行化的效果。之后,Google提出了基于专家并行的MoE架构,通过稀疏结构拓展实现了大模型万亿参数量的飞跃。
2. 内存&通信优化方法:进一步为了应对并行化方法在内存及通信量上的局限,16年,陈天奇团队提出亚线性内存优化的Checkpointing(重计算)方法,在反向传播时重新计算前向传播的中间激活达到节省显存的目的。
21年,微软提出了CPU offload的ZeRO-Offload方案,将梯度、优化器、参数在CPU和GPU间Swapping,通过通信成本来大幅度的节省显存开销。当然,混合精度或者半精度模型训练即采用FP16代替FP32模型参数的量化方法是更加常见有效的方案,大幅度减少内存带宽和存储空间并且提高系统吞吐量,几乎可以成倍提升模型训练速度。在这场巅峰较量中,Facebook表示:只需更改两行代码,带你体验极致的显存优化,单机即可训练千亿模型,助力贫民玩家实现大模型梦!虽然这里单机至少需要8张RTX 3090, 但未来可期呀!
哇喔~ 请各位抓紧上车并系好安全带,下一站是位于ICLR2022 Spotlight的8-BIT优化器,“一个故事,两行代码,无限显存优化”,祝您路途愉快~
论文题目:
8-BIT OPTIMIZERS VIA BLOCK-WISE QUANTIZATION论文链接:
https://arxiv.org/pdf/2110.02861.pdfGithub:
https://github.com/TimDettmers/bitsandbytes优化器遇到量化的故事
随着Transformer模型不断scale参数,Transformer家族迎来了110亿参数量的T5,1750亿参数量的OPT,1760亿参数量的BLOOM......,这些开源模型给了科研人员更多的可能去进一步探索大模型未知的潜力。但尴尬的是,8张80GB A100依然不足以对T5模型进行微调,显存又双叒叕爆掉了。实际的境况比你想的更加糟糕,仅仅对BLOOM-176B模型进行推理,就需要8张80GB的A100,如果想要进一步的对模型进行微调,至少需要72张!
99科技网:http://www.99it.com.cn

北京时间7月20日早间消息,据报道, 美国企业 MetaX LLC 公司起诉 Meta 商标侵权
快资讯2022-07-20

北京时间 7 月 19 日下午消息,据报道,亚马逊今日对 10000 多个 Facebook 群组的管
快资讯2022-07-19

北京时间 7 月 8 日消息,Meta 将推出一种新的方式,让用户们无需使用 Facebook
快资讯2022-07-08

新浪科技讯 北京时间 7 月 7 日晚间消息,据报道,Facebook(Meta)前员工布伦南
快资讯2022-07-08
