最新轻量ViT综述!后Transformer时代如何发展?(7)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
主要观察:
仅执行跳过连接操作将导致高度不稳定。由于大型架构更改(添加或删除一个整体块),目标值在优化过程中波动很大; 此外,仅使用跳跃操作,精度显著降低,例如,在DeiT Tiny上为4%; 由于其更细粒度的操作,仅block方法中的修剪比跳过操作执行得更好; 然而,该方法仍然落后于所提出的联合UVC方法,因为后者还先验地消除了block级冗余,这一点最近在微调Transformer中广泛存在。 Dear-KD Distillation Method作者Xiang Chen等人在本研究[53]中,考虑了数据的真实数据分布不可用的情况,称为Dear-KD。Transformer强大的自注意力建模能力使其成为计算机视觉应用的理想选择。尽管如此,Transformer的出色性能在很大程度上依赖于巨大的训练图像。因此,迫切需要开发一种数据高效的Transformer解决方案。在这项研究[53]中,作者提出了一种早期的知识蒸馏方法。
拟议的框架称为Dear-KD框架,旨在提高Transformer所需的数据效率。Dear-KD,作为一个两阶段框架,从CNN的早期中间层中提炼出了第一阶段的偏差,并在第二阶段没有提炼的情况下通过训练充分发挥了Transformer的作用。为了进一步减少与完整数据对应的性能差距,作者[53]提出了一种基于Deep Inversion的边界保持内散度损失。他们展示了Dear KD在ImageNet、部分ImageNet、无数据设置和其他下游任务上优于其基线和最先进的方法。所提出的网络的早期层中的卷积已被证明显著提高了性能。由于局部模式(如纹理)在模型的早期层中被很好地捕获,因此,有必要向早期Transformer提供关于归纳偏置的明确反馈,以提高数据效率。然而,当Transformer进入后期阶段时,该指南限制了其充分表达自己的能力。因此,Transformer在第二阶段得到充分控制,以充分表达其建模能力。他们使用完整的ImageNet以可比或更少的计算实现了最先进的图像分类性能。令人印象深刻的是,观察到Dear-KD如何以仅50%的数据胜过所有ImageNet数据训练的基线Transformer。最后,基于DeiT-Ti的DearKD在ImageNet上实现了71.2%,仅比完整的ImageNet DearKD低1.0%。
主要观察 :
由于存储在特征统计中的信息有限,DF-DearKD无法处理与人类相关的类,尽管能够生成高质量的图像; 此外,由于研究不使用真实图像,生成许多样本需要大量时间和计算; 使用生成的样本进行的训练仍然需要在性能上与使用真实图像进行的训练相当。99科技网:http://www.99it.com.cn
