最新轻量ViT综述!后Transformer时代如何发展?(3)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
常用的蒸馏损失函数包括KL散度、MSE、Cosine Similarity Loss和Cross-Entropy Loss等。
有效ViT压缩的不同KD方法本节讨论了使用不同知识蒸馏方法对ViT进行积极压缩的各种解决方案。知识蒸馏(KD)有效地提高了轻量级学生网络的性能,因为教师可以直接向学生传授领域知识。当在大数据集上进行预训练时,通常会发现大模型比小模型获得更好的结果,因为小模型在数据规模增加时容易饱和(或不足)[46]。通过提取大规模的预训练数据,一个强大的模型可以作为小模型的老师。同时,提取的小模型可以很容易地应用于下游任务,因为他们已经从大型和大型预训练数据集中学习了很多关于泛化的知识。下面介绍了文献中提出的一些解决方案,以使用KD方法在资源受限的环境中部署ViT。
Target aware Transformer作者[46]提出的一个新颖的解决方案指出,在之前的大多数研究中,表征特征从教师回归到学生,作为一对一的空间匹配。然而,由于架构的差异,研究人员需要更加关注这一点。空间位置可以根据其位置而具有不同的语义信息。因此,一对一蒸馏方法受到极大破坏。[46]中的作者通过通过Target aware Transformer(TaT)提出了一种新颖的一对所有空间匹配知识提取方法来实现这一点。TaT允许教师特征的每个像素被转换为学生特征的所有空间位置,给定其相似性。在他们提出的方法中,使用参数相关性将教师的特征提取为所有学生特征,即,提取损失是所有学生特征的加权总和。使用Transformer结构,他们重建了每个学生特征组件,并将其与目标教师特征对齐。因此,提出的方法被命名为TaT。所提出的方法面临的一个关键挑战是,由于它计算了特征空间位置之间的相关性,因此在大型特征地图的情况下,它很可能变得难以处理。为了克服这一问题,作者以分层两步的方式扩展了管道,如下所示:
特征图被分成几个块,在每个块中,一对一地进行提取,而不是使用所有空间位置的相关性; 他们将补丁中的特征平均为一个向量,以提取知识。对于特征对齐,使用TaT将教师和学生模型特征转换为相似的特征空间。
知识蒸馏方法 :具有KL散度(KLD)损失函数的Patch group蒸馏和Anchor点蒸馏。图5和图6给出了拟议方法[46]的说明。
主要观察结果 :
除了logits之外,学生Transformer还可以通过从中间层获取信息来获取更多信息; 在[46]中,蒸馏应用于骨干网络的最后一层,即网络的logits; 一些工作已经探索了多层蒸馏,所以当涉及多层时,看看它的有效性会很有趣。 Fine-Grain Manifold Distillation Method99科技网:http://www.99it.com.cn
