最新轻量ViT综述!后Transformer时代如何发展?(6)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
知识蒸馏方法 :Probe distillation + Knowledge distillation。
主要观察 :
无数据情况下的动机是缺乏监督信息,因为收集的数据没有标记; 由于学生输出和GT之间缺乏交叉熵,这不可避免地导致信息丢失和准确性下降; 为了弥补监督信息的损失,作者考虑了从预先训练的教师中获得的中间信息; 除了输出,中间层包含更多的嵌入,使学生能够获取更多信息。 Data-Efficient Image Transformers Distillation via AttentionTouvron等人[51]提出了一种新技术,名为通过注意力训练数据高效图像Transformer蒸馏。作者提出了一种基于特定于Transformer的蒸馏令牌的师生策略。蒸馏令牌确保学生通过注意力从老师那里学习,通常是从ConvoNet老师那里学习。在ImageNet上,学习到的Transformer以最先进的技术和类似的其他任务表现出竞争力(85.2%的top-1精度)。蒸馏过程由一个蒸馏令牌组成,该令牌的作用与类别令牌相同,但其目的是复制老师估计的标签。作为注意力的结果,两个令牌通过该机制在Transformer中交互。在很大程度上,这种特定于Transformer的策略优于朴素蒸馏。通过这种方式,作者[51]表明,缺少卷积层的神经网络模型可以在没有外部数据的情况下,与最先进的基准数据集(如ImageNet)相比,获得可比的结果。他们[51]还观察到,与ResNet-50和ResNet-18相比,他们的两个新模型DeiT-S和DeiTi以更少的计算需求实现了更好的性能。
知识蒸馏方法 :利用从ConvoNet老师那里预先学到的蒸馏令牌,通过注意力进行蒸馏。使用真实标签和教师预测以更高的分辨率微调模型。
损失函数:KL散度和交叉熵。
Unified Visual Transformer Compression作者Shixinng Yu等人在本文[52]中提出了一个称为统一视觉Transformer压缩(UVC)的统一框架,该框架无缝集成了修剪、层跳过和知识蒸馏。在蒸馏损失下,作者开发了一个端到端优化框架,旨在共同学习模型权重、分层修剪比率和跳过配置。然后使用原始对偶算法来解决优化问题。本文[52]的作者使用ImageNet数据集测试了几种ViT变体,包括DeiT和T2T ViT主干,他们的方法始终优于以前的竞争对手。DeiT Tiny的FLOP降低到原始FLOP的50%,而不影响精度。使用这一提议的统一框架,他们的目标是同时修剪与层级跳过相关的每个层的头部数量和维度。根据我们在这项研究中的知识,他们没有将缩减的范围扩展到其他维度,例如输入补丁的数量或令牌的大小。然而,使用这个统一框架,这些部分也可以很容易地捆绑在一起。
99科技网:http://www.99it.com.cn
