ECCV 2022丨轻量级模型架构火了,力压苹果MobileViT(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
02
背景
然而,我们认为ViTs和ConvNets都是不可或缺的,原因如下: 1)从应用的角度来看,ViTs和ConvNets都有其优点和缺点。ViT模型通常具有更好的性能,但通常计算成本高且难以训练。与ViTs相比,ConvNets可能表现出较差的性能,但它们仍然具有一些独特的优势。例如, ConvNets具有更好的硬件支持并且易于训练 。此外,正如[ Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing Xu, and Yunhe Wang. Cmt: Convolutional neural networks meet vision transformers. ]和研究者的实验中总结的那样, ConvNets在移动或边缘设备的小型模型领域仍然占主导地位 。 2)从信息处理的角度来看,ViTs和ConvNets都具有独特的特征。ViT擅长提取全局信息,并使用注意力机制从输入数据驱动的不同位置提取信息。ConvNets专注于对局部关系进行建模,并且通过归纳偏置具有很强的先验性。上述分析自然提出了一个问题: 我们能否向ViT学习以改进用于移动或边缘计算应用的ConvNet? ViT论文: https://arxiv.org/abs/2010.11929 ConvNeXt论文: https://arxiv.org/abs/2201.03545
03
新框架
研究者们取ViT的三个亮点,将纯卷积 结构变强。研究者认为,ViT和ConvNet有三个主要区别:ViT更擅长提取全局特征,采用meta-former结构,而且信息集成由数据驱动。ParC的设计思路便是从这三点着手来优化ConvNet。 普通ConvNet和ViT之间的三个主要区别 。a)ConvNet常用的Residual block;b)ViT中常用的Meta-Former 结构;c)研究者提出的ParC block。 具体而言,研究人员设计了一种位置信息敏感的循环卷积(Position aware circular convolution, ParC)。这是一种简单有效的轻量卷积运算算子,既拥有像ViT类结构的全局感受野,同时产生了像局部卷积那样的位置敏感特征,能克服依赖自注意力结构提取全局特征的问题。 Position aware circular convolution 水平方向的全局循环卷积 可以看到ParC-H沿着通过连接输入的开始和结束生成的圆执行卷积。因此,研究者将提出的卷积命名为循环卷积。提议的ParC引入了三个修改:
结合circular padding和大感受野低秩分解卷积核提取全局特征;
引入位置嵌入,保证输出特征对于空间位置信息的敏感性;
动态插值实时生成尺寸适配的卷积核和位置编码,应对输入分辨率变化情况,这增强了对不同尺寸输入的适应能力。
99科技网:http://www.99it.com.cn
