最新轻量ViT综述!后Transformer时代如何发展?(8)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
整体结构如下所示:
Pipiline如下所示:
Cross Architecture Distillation Method上面讨论的大多数解决方案都考虑了用于蒸馏目的的同源结构,这有时只是一个最佳解决方案。Yufan Liu等人[54]提出了跨体系结构知识蒸馏方法,以消除异构体系结构的差距。由于Transformer卓越的性能和理解全局关系的能力,Transformer受到了极大的关注。CNN可用于从Transformer中提取补充知识以获得更高的性能。在大多数知识蒸馏方法中,使用同源架构蒸馏,例如从CNN到CNN的知识蒸馏。在跨架构场景中使用它们可能不合适,比如Transformer和CNN之间的场景。
研究[54]的目的是提出一种新的方法来提取跨架构之间的知识。当使用Transformer将知识传输到学生CNN网络时,知识传输能力显著提高。在Transformer教师模型中,学生学习了局部空间特征(来自CNN模型)和互补的全局特征(来自于CNN模型)。设计了两个projectors,一个用于部分交叉注意力(PCA),另一个用于分组线性(GL)。这两个projectors将学生的中间特征对齐到两个不同的特征空间中,从而使提取知识比直接模仿老师的输出更容易。使用PCA projectors,将学生特征映射到教师的Transformer注意力空间。一位Transformer老师用这个projectors向学生解释全局关系是如何运作的。为了创建Transformer特征空间,使用GL projectors将每个学生的特征映射到Transformer特征区域。因此,它有助于缓解教师和学生形成特征的方式之间的差异。
此外,作者提出了一种鲁棒的多视图训练方案,以增强框架的稳定性和鲁棒性。实验结果表明,与14种最先进的方法相比,所提出的方法在大数据集和小数据集上的表现更好。
论文[54]还提出了一种鲁棒的对抗性交叉视图训练方案,以减轻跨架构多样性造成的不稳定性。代表多个视图的示例对于中断学生网络是必要的。他们构建了一个对抗性判别器,可以用来区分教师和令人不安的学生特征。相比之下,教学生混淆鉴别器。学生在经历融合后能够变得更加稳定和强健。
主要观察:
在KD过程中,两个projector在ImageNet上获得了更好的性能; 结果,PCA和GL projector显著提高了CNN特征的质量,尽管它们在推理过程中被去除了; 余弦相似性大幅增加,甚至高于同源结构; 因此,精心设计的KD方法可以在Transformer和CNN之间实现更高的知识转移。 对比分析99科技网:http://www.99it.com.cn
