最新轻量ViT综述!后Transformer时代如何发展?
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
摘要
视觉Transformer(ViT)已经通过使用基于注意力的编码器-解码器模型,彻底改变了这一领域。最近,一些开创性的工作在计算机视觉(CV)中采用了类似Transformer的架构,他们报告了这些架构在图像分类、目标检测和语义分割等任务中的出色性能。ViT由于其具有竞争性的建模能力,已证明其性能优于卷积神经网络(CNN)。然而,这些架构需要大量的计算资源,这使得这些模型难以部署在资源受限的应用程序中。已经开发了许多解决方案来解决这一问题,例如压缩Transformer和压缩函数,如扩张卷积、最小-最大池化、1D卷积等。模型压缩最近作为一种潜在的补救措施引起了相当大的研究关注。文献中提出了许多模型压缩方法,如权重量化、权重复用、剪枝和知识蒸馏(KD)。然而,权重量化、修剪和权重复用等技术通常涉及用于执行压缩的复杂管道。KD已被发现是一种简单而有效的模型压缩技术,它允许相对简单的模型几乎与复杂模型一样准确地执行任务。本文讨论了基于KD的各种有效压缩ViT模型的方法。本文阐述了KD在降低这些模型的计算和内存需求方面所起的作用。本文还介绍了ViT面临的各种挑战,这些挑战尚待解决。
简介深度神经网络(DNN)是当今人工智能系统(AI)的组成部分。不同类型的网络已经与不同类型的任务相关联。例如,经典的神经网络,如多层感知(MLP)和全连接(FC),使用多个线性层和叠加在一起的非线性激活。卷积神经网络(CNN)使用卷积层和池化层来处理图像等移位不变数据。类似地,递归神经网络(RNN)使用递归神经元来处理序列或时间序列数据。Transformer是新型神经网络。它主要依靠自注意机制来提取内在特征,在人工智能中有很高的应用前景。近年来,由于变压器模型架构在广泛领域(包括语言和视觉)的有效性,Transformer架构获得了极大的关注。例如,Transformer是当今自然语言处理中深度学习堆栈的关键组成部分。Transformer的变体以及最近研究和实践的激增可能会使研究人员和从业者难以跟上创新的步伐。在过去的六个月里,已经提出了近十几种新的内存高效的轻量级模型。鉴于此,综述调查现有文献是非常及时和有益的。Transformer模型的一个关键特征是其自注意力机制。整个机制可以被解释为通过基于相关性的池化以顺序方式互连所有令牌的类似图形的诱导性偏差。自注意力以其二次时间和内存复杂性而闻名,这阻碍了模型在各种设置中的可伸缩性。最近,这一问题得到了大量模型变体的解决。论文对这类模型的称呼是“高效Transformer”。
99科技网:http://www.99it.com.cn
