针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习(6)

2022-08-28 14:42来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

接下来，作者团队测试是否可以使用SWIL学习序列化形式呈现的新内容（序列学习框架）。为此他们采用了图4中经过训练的CNN模型，在FIL和SWIL条件下学习CIFAR10数据集中的“cat”类（任务1），只在CIFAR10的剩余9个类别上训练，然后在每个条件下训练模型学习新的“car”类（任务2）。图6第1列显示了SWIL条件下学习“car”类别时，其他各项类别的图像数量分布情况（共计n=2500张图像/epoch）。需要注意的是，预测“cat”类时也交叉学习新的“car”类。由于在FIL条件下模型性能最佳，SWIL仅与FIL进行了结果比较。如图6所示，SWIL预测新、旧类别的能力与FIL相当（H=14.3，P>0.05)。模型使用SWIL算法可以更快地学习新的“car”类别，加速比为45x（50000×20/(2500×8)），每个epoch的内存占用比FIL少20倍。

模型学习“cat”和“car”类别时，在SWIL条件下每个epoch使用的图像数量（内存比和加速比分别为18.75x 和 20x），少于在FIL条件下每个epoch使用的整个数据集（内存比和加速比分别为31.25x 和45x），并且仍然可以快速学习新类别。扩展这一思想，随着学过的类别数目不断增加，作者团队预期模型的学习时间和数据存储会成倍减少，从而更高效地学习新类别，这或许反映了人类大脑实际学习时的情况。

实验结果表明，SWIL可在序列学习框架中集成多个新类，使神经网络能够在不受干扰的情况下持续学习。图6：作者团队训练6层CNN学习新的“cat”类（任务1），然后学习“car”类（任务2），直到性能在以下两种情况下趋于稳定：1）FIL：包含所有旧类别（以不同颜色绘制）和以相同概率呈现的新类别（“cat”/“car”）图像；2) SWIL：根据与新类别（“cat”/“car”）的相似性进行加权并按比例使用旧类别示例。同时将任务1中学习的“cat”类包括在内，并根据任务2中学习“car”类的相似性进行加权。第1张子图表示每个epoch使用的图像数量分布情况，其余各子图分别表示FIL（蓝色）和SWIL（洋红色）预测新类别、相似旧类别和不同旧类别的召回率，预测所有类别的总准确率，以及在测试数据集上的交叉熵损失，其中横坐标都是epoch数。利用SWIL扩大类别间的距离，减少学习时间和数据量

作者团队最后测试了SWIL算法的泛化性，验证其是否可以学习包括更多类别的数据集，以及是否适用于更复杂的网络架构。他们在CIFAR100数据集（训练集500张图像/类，测试集100张图像/类）上训练了一个复杂的CNN模型-VGG19（共有19层），学习了其中的90个类别。然后对网络进行再训练，学习新类别。图7A显示了基于CIFAR100数据集，作者团队根据倒数第二层的激活函数计算的相似性矩阵。如图7B所示，新“train”（“火车”）类与许多现有的交通工具类别（如“bus” （“公共汽车”）、“streetcar” （“有轨电车”）和“tractor”（“拖拉机”）等）很相似。与FIL相比，SWIL可以更快地学习新事物（加速比=95.45x (45500×6/(1430×2))）并且使用的数据量 (内存比=31.8x) 显著减少，而性能基本相同(H=8.21, P>0.05) 。如图7C所示，在PIL（H=10.34，P<0.05）和EqWIL（H=24.77，P<0.05）条件下，模型预测新类别的召回率较低并且产生的干扰较大，而SWIL克服了上述不足。同时，为了探索不同类别表征之间的较大距离是否构成了加速模型学习的基本条件，作者团队另外训练了两种神经网络模型：

99科技网：http://www.99it.com.cn

共8页: