针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习(7)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
6层CNN(与基于CIFAR10的图4和图5相同);
VGG11(11层)学习CIFAR100数据集中的90个类别,仅在FIL和SWIL两个条件下对新的“train”类进行训练。
如图7B所示,对于上述两种网络模型,新的“train”类和交通工具类别之间的重叠度更高,但与VGG19模型相比,各类别的分离度较低。与FIL相比,SWIL学习新事物的速度与层数的增加大致呈线性关系(斜率=0.84)。该结果表明,类别间表征距离的增加可以加速学习并减少内存负载。 图7:( A ) VGG19学习新的“train”类后,作者团队根据倒数第二层激活函数计算的相似性矩阵。“truck” 、“streetcar” 、“bus” 、“house” 和 “tractor”5种类别与“train”的相似性最大。从相似度矩阵中排除对角元素(相似度 =1)。(B,左)作者团队针对6层CNN、VGG11和VGG19网络,经过倒数第二层激活函数后,进行t-SNE降维可视化的结果图。(B,右)纵轴表示加速比(FIL/SWIL),横轴表示3个不同网络的层数相对于6层CNN的比率。黑色虚线、红色虚线和蓝色实线分别代表斜率 =1的标准线、最佳拟合线和仿真结果。( C ) VGG19模型的学习情况:FoL(黑色)、FIL(蓝色)、PIL(棕色)、SWIL(洋红色)和 EqWIL(金色)预测新“train”类、相似旧类别(交通工具类别)和不同旧类别(除了交通工具类别)的召回率,预测所有类别的总准确率,以及在测试数据集上的交叉熵损失,其中横坐标都是epoch数。每张图显示的是重复10次后的平均值,阴影区域为±1 SEM。( D ) 从左到右依次表示模型预测Fashion-MNIST“boot”类(图3)、CIFAR10“cat”类(图4)、CIFAR10“car”类(图5)和CIFAR100“train”类的召回率,是SWIL(洋红色)和FIL(蓝色)使用的图像总数(对数比例)的函数。“N”表示每种学习条件下每个epoch使用的图像总数(包括新、旧类别)。 如果在更多非重叠类上训练网络,并且各表征之间的距离更大,速度是否会进一步提升? 为此,作者团队采用了一个深度线性网络(用于图1-3中的Fashion-MNIST示例),并对其进行训练,以学习由8个Fashion-MNIST类别(不包括“bags”和“boot”类)和10个Digit-MNIST类别形成的组合数据集,然后训练网络学习新的“boot”类别。 和作者团队的预期相符,“boot”与旧类别“sandals”和“sneaker”相似度更高,其次是其余的Fashion-MNIST类(主要包括服饰类图像),最后Digit-MNIST类(主要包括数字类图像)。 基于此,作者团队首先交织了更多相似的旧类别样本,再交织Fashion-MNIST和Digit-MNIST类样本(共计n=350张图像/epoch)。实验结果表明,与FIL类似,SWIL可以快速学习新类别内容而不受干扰,但使用的数据子集要小得多,内存比为325.7x (114000/350) ,加速比为162.85x (228000/1400)。作者团队在当前结果中观察到的加速比为2.1x (162.85/77.1),与Fashion-MNIST数据集相比,类别数目增加了 2.25倍 (18/8)。 本节的实验结果有助于确定SWIL可以适用于更复杂的数据集 (CIFAR100) 和神经网络模型(VGG19),证明了该算法的泛化性。同时证明了扩大类别之间的内部距离或增加非重叠类别的数量,可能会进一步提高学习速度并降低内存负载。
99科技网:http://www.99it.com.cn

5月5日,阿里巴巴达摩院发布新型联邦学习框架FederatedScope,该框架支持大规模
快资讯2022-08-15

近日,美国专利商标局正式授权苹果一项专利,该专利显示通过在屏下使用光纤
快资讯2022-08-10
