最新轻量ViT综述!后Transformer时代如何发展?(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
可以采用不同的方法来解释模型的效率。当模型运行的加速器内存有限时,它的内存占用可能很重要。在分析系统效率时,考虑计算成本(如FLOP)也很重要,无论是在训练还是进行推理时。对于设备上应用程序,通常需要在非常有限的计算预算内操作模型。本文讨论了Transformer的内存和计算效率。论文特别感兴趣的是,当将知识蒸馏(KD)应用于压缩技术时,这些模型的性能;第一部分介绍了ViT的通用框架和简介。第二部分讨论了ViT在CV领域面临的主要挑战。最后,本文对为ViT实现的各种压缩方法进行了比较分析,以使其在计算和内存需求方面具有资源效率。
开放研究挑战Positional Encoding :Transformer模型是置换等变的。通常添加位置和段嵌入以提供有关输入令牌的顺序和类型信息。几部作品探讨了如何在Transformer[6]、[7]、[8]中包含position。在[6]、[7]和[8]的许多研究中,相对位置编码被认为优于绝对位置编码。然而,目前尚不清楚造成这种差异的原因。
Weaker Inductive Bias :虽然ViT是CNN的优秀替代品,但一个使其应用极具挑战性的限制是对大型数据集的需求。ViT缺乏CNNs固有的归纳偏置,如翻译等,这使得当在不足的数据上进行训练时,其泛化能力较差。在较大数据集的情况下,情况会发生变化,例如包含14M-300M图像的Google Inhouse Large(JFT-300)。后者使ViT在RandAug[13]、Cut-Mix[14]、Mixup[15]等先进数据增强技术上具有高度可靠性。已经发现,即使有相对少量的数据,CNN也可以学习,这主要是由于其固有的归纳偏置。换句话说,归纳偏置有助于模型更快地学习和更好地泛化。尽管卷积结构在CV中仍然占据主导地位[16-18],但人们对其探索和应用仍有越来越多的兴趣。
Quadratic Complexity of Attention Mechanism :与NLP Transformer一样,ViT以与一般注意机制类似的方式缩放点积注意力。但这种方式的复杂度很高,一定程度上限制了ViT的大规模应用。
准备工作:KD已经开发了许多解决方案来解决这些问题,例如压缩Transformer和实现压缩函数,例如扩张卷积、最小-最大池化1D卷积等。模型压缩最近作为一种潜在的补救措施引起了相当大的研究关注。使用极端压缩方法,特别是超低位精度(二进制/三进制)量化,可以在资源受限的设备上拟合大型NLP模型[33]。创新的压缩管道通常涉及多个阶段的高成本知识蒸馏,以及针对此类激进压缩方案的多个超参数调整。此外,他们很少关注已经被知识蒸馏严重压缩的小型Transformer模型,需要系统的研究来支持他们的结论。作为知识蒸馏的结果,可以使用较大模型(称为教师)的输出(来自各种中间功能组件)来训练较小模型(称为学生)。有时信息是通过中介模型(通常称为助教)提供的[34],[35]。知识蒸馏由三个主要部分组成:知识、提炼算法和师生架构。教师和学生之间的知识共享框架。教师和学生之间的知识共享框架如图1所示,其中概述了知识提炼过程及其与相邻部分的关系。从图3中可以很好地理解所有分段的图示:
99科技网:http://www.99it.com.cn
