华为天才少年谢凌曦：关于视觉识别领域发展的个人观点(5)

2022-09-13 12:29来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

当前，纯视觉无监督预训练的本质在于从退化中学习。这里的退化，指的是从图像信号中去除某些已经存在的信息，要求算法复原这些信息：几何类方法去除的是几何分布信息（如patch的相对位置关系）；对比类方法去除的是图像的整体信息（通过抽取不同的view）；生成类方法如MIM去除的是图像的局部信息。这种基于退化的方法，都具有一个无法逾越的瓶颈，即退化强度和语义一致性的冲突。由于没有监督信号，视觉表征学习完全依赖于退化，因此退化必须足够强；而退化足够强时，就无法保证退化前后的图像具有语义一致性，从而导致病态的预训练目标。举例说，对比学习从一张图像中抽取的两个view如果毫无关系，拉近它们的特征就不合理；MIM任务如果去除了图像中的关键信息（如人脸），重建这些信息也不合理。强行完成这些任务，就会引入一定的bias，弱化模型的泛化能力。未来，应该会出现一种无需退化的学习任务，而我个人相信，通过压缩来学习是一条可行的路线。

方向2：模型微调和终身学习

作为一个基础问题，模型微调已经发展出了大量的不同的setting。如果要把不同的setting统一起来，可以认为它们无非考虑三个数据集，即预训练数据集 Dpre （不可见）、目标训练集 Dtrain 、目标测试集 Dtest （不可见且不可预测）。根据对三者之间关系的假设不同，比较流行的setting可以概括如下：

迁移学习：假设 Dpre 或者 Dtrain 和 Dtest 的数据分布大不相同；

弱监督学习：假设 Dtrain 只提供了不完整的标注信息；

半监督学习：假设 Dtrain 只有部分数据被标注；

带噪学习：假设 Dtrain 的部分数据标注可能有误；

主动学习：假设 Dtrain 可以通过交互形式标注（挑选其中最难的样本）以提升标注效率；

持续学习：假设不断有新的 Dtrain 出现，从而学习过程中可能会遗忘从 Dpre 学习的内容；

……

从一般意义上说，很难找到统一的框架来分析模型微调方法的发展和流派。从工程和实用角度看，模型微调的关键在于对域间差异大小的事先判断。如果认为 Dpre 和 Dtrain 的差异可能很大，就要减少从预训练网络中迁移到目标网络中权重的比例，或者增加一个专门的head来适应这种差异；如果认为 Dtrain 和 Dtest 的差异可能很大，就要在微调过程中加入更强的正则化以防止过拟合，或者在测试过程中引入某种在线统计量以尽量抵消差异。至于上述各种setting，则分别有大量研究工作，针对性很强，此处不再赘述。关于这个方向，我认为有两个重要问题：

99科技网：http://www.99it.com.cn

共9页: