最新轻量ViT综述!后Transformer时代如何发展?(9)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
在对视觉Transformer中的各种知识蒸馏方法进行了全面的文献调查之后,表1中列出了在不同的知识蒸馏方案下使用不同架构的教师和学生的方法总结。表1对不同蒸馏方案下的不同蒸馏方法进行了分类,并以不同的颜色进行了清晰的突出显示和颜色编码。此外,在本节将讨论使用上述方法以及下表中提到的各种蒸馏损失函数。使用的各种损失函数如下所述:
从上述比较分析表中可以明显看出,ViT中不同KD方法的比较。所有方法都表现良好,显著减少了参数数量和FLOPS。在进行全面研究后,观察到使用上述KD方法在ViT中实现良好压缩比的同时,性能没有显著下降。在所讨论的所有KD方法中,预处理蒸馏在参数降低方面优于所有方法,并比其他微调蒸馏方法获得更好的准确率。Tiny Vit实现了82.1%的准确率,比基线Vit模型更轻,只有28M个参数,与基线模型相比,准确率仅下降了1%。与其他最先进的技术相比,具有协同建议和基于注意力的蒸馏方法的跨架构蒸馏也表现良好。
研究结论和局限性ViT在CV任务中表现出有效性,削弱了CNNs在CV领域的主导地位,因此获得了相当大的关注。ViT在多个基准测试中取得了重大进展,并取得了与最先进的CNN方法相当甚至更好的结果。ViT的一些关键技术仍需改进,以应对ViT在CV任务中面临的复杂挑战。ViT模型的优势之一是其能够扩展到高参数复杂性。然而,这种显著的特性允许训练非常大的模型,但会导致高的训练和推理成本。这些模型需要巨大的计算资源,这是昂贵的,并且会带来巨大的代价。此外,这些大型模型的实际应用需要严格的压缩。本文详细讨论了ViT以及ViT在CV任务中面临的开放挑战。此外,本文还深入了解了使用KD的ViT压缩,以使这些大型模型计算和资源高效。
未来方向 诚然,自注意力允许我们对完整的图像上下文信息进行建模,但它与高内存和计算成本相关。为了捕获局部和全局上下文像素信息,注意力机制产生了O(N2)的巨大时间复杂性,其中N表示几个输入特征图。必须使用交叉注意力模块和知识蒸馏来生成交叉路径上的稀疏注意力图,以减少计算负担。它使用的GPU内存是non-local block的11倍; 作为一个独立的计算原语,它提供了有竞争力的结果,但当与卷积神经网络结合时,它产生了最好的结果。可以探索和使用注意力增强,从而在不同架构中提高图像分类和目标检测的系统性能; 可视化和解释Transformer仍然是一个未解决的问题,需要获得空间精确的激活特定可视化的方法。随着这方面的进展,可以更好地理解Transformer模型,也可以诊断决策过程中的错误行为和偏见。它还可以促进新颖架构的设计,使我们能够避免偏见; 在大型特征图的情况下,由于这些方法计算特征空间位置之间的相关性,上述方法可能变得难以处理。因此,在以更高分辨率进行微调时,这仍然是一个有待解决的挑战; 从上面的研究中,有三个主要原因是放大效果更好:(a)大模型(具有更多参数)可以从更多的训练数据中受益,而小模型可以快速稳定。他们无法从更多的训练样本中受益。因此,大规模模型可以进一步提高其表征学习能力; 最近被称为Restormer的Transformer模型认为,如果Transformer架构被放大,它应该是一个更广泛或更深入的设计。虽然广泛的模型可以通过并行化减少计算时间,但更深层次的架构可以提供更好的性能; 在上述许多研究中,相对位置编码被认为优于绝对位置编码。然而,造成这种差异的原因仍在确定之中。因此,需要系统地研究和理解不同位置编码方法的优点和缺点。99科技网:http://www.99it.com.cn
