主页 > 快资讯 > 正文

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习(7)

2022-08-30 17:29来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

复制网址

6层CNN（与基于CIFAR10的图4和图5相同）；

VGG11（11层）学习CIFAR100数据集中的90个类别，仅在FIL和SWIL两个条件下对新的“train”类进行训练。

如图7B所示，对于上述两种网络模型，新的“train”类和交通工具类别之间的重叠度更高，但与VGG19模型相比，各类别的分离度较低。与FIL相比，SWIL学习新事物的速度与层数的增加大致呈线性关系（斜率=0.84）。该结果表明，类别间表征距离的增加可以加速学习并减少内存负载。图7：( A ) VGG19学习新的“train”类后，作者团队根据倒数第二层激活函数计算的相似性矩阵。“truck” 、“streetcar” 、“bus” 、“house” 和 “tractor”5种类别与“train”的相似性最大。从相似度矩阵中排除对角元素（相似度 =1）。（B，左）作者团队针对6层CNN、VGG11和VGG19网络，经过倒数第二层激活函数后，进行t-SNE降维可视化的结果图。（B，右）纵轴表示加速比（FIL/SWIL），横轴表示3个不同网络的层数相对于6层CNN的比率。黑色虚线、红色虚线和蓝色实线分别代表斜率 =1的标准线、最佳拟合线和仿真结果。( C ) VGG19模型的学习情况：FoL（黑色）、FIL（蓝色）、PIL（棕色）、SWIL（洋红色）和 EqWIL（金色）预测新“train”类、相似旧类别（交通工具类别）和不同旧类别（除了交通工具类别）的召回率，预测所有类别的总准确率，以及在测试数据集上的交叉熵损失，其中横坐标都是epoch数。每张图显示的是重复10次后的平均值，阴影区域为±1 SEM。( D ) 从左到右依次表示模型预测Fashion-MNIST“boot”类（图3）、CIFAR10“cat”类（图4）、CIFAR10“car”类（图5）和CIFAR100“train”类的召回率，是SWIL（洋红色）和FIL（蓝色）使用的图像总数（对数比例）的函数。“N”表示每种学习条件下每个epoch使用的图像总数（包括新、旧类别）。如果在更多非重叠类上训练网络，并且各表征之间的距离更大，速度是否会进一步提升？为此，作者团队采用了一个深度线性网络（用于图1-3中的Fashion-MNIST示例），并对其进行训练，以学习由8个Fashion-MNIST类别（不包括“bags”和“boot”类）和10个Digit-MNIST类别形成的组合数据集，然后训练网络学习新的“boot”类别。和作者团队的预期相符，“boot”与旧类别“sandals”和“sneaker”相似度更高，其次是其余的Fashion-MNIST类（主要包括服饰类图像），最后Digit-MNIST类（主要包括数字类图像）。基于此，作者团队首先交织了更多相似的旧类别样本，再交织Fashion-MNIST和Digit-MNIST类样本（共计n=350张图像/epoch）。实验结果表明，与FIL类似，SWIL可以快速学习新类别内容而不受干扰，但使用的数据子集要小得多，内存比为325.7x (114000/350) ，加速比为162.85x (228000/1400)。作者团队在当前结果中观察到的加速比为2.1x (162.85/77.1)，与Fashion-MNIST数据集相比，类别数目增加了 2.25倍 (18/8)。本节的实验结果有助于确定SWIL可以适用于更复杂的数据集 (CIFAR100) 和神经网络模型(VGG19)，证明了该算法的泛化性。同时证明了扩大类别之间的内部距离或增加非重叠类别的数量，可能会进一步提高学习速度并降低内存负载。

99科技网：http://www.99it.com.cn

共8页: