针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习(2)

2022-08-30 17:29来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

应用于图像分类数据集的DNN动力学模型

McClelland等人的实验表明，在具有一个隐藏层的深度线性网络中，SWIL可以学习一个新类别，类似于完全交错学习 (Fully Interleaved Learning，FIL)，即将整个旧类别与新类别交错，但使用的数据量减少了40%。然而，网络是在一个非常简单的数据集上训练的，只有两个上义词类别，这就对算法的可扩展性提出了疑问。首先针对更复杂的数据集（如Fashion-MNIST），探索不同类别的学习在具有一个隐藏层的深度线性神经网络中如何演变。移出了“boot”（“靴子”）和“bag”（“纸袋”）类别后，该模型在剩余的8个类别上的测试准确率达到了87%。然后作者团队重新训练模型，在两种不同的条件下学习（新的）“boot”类，每个条件重复10次：

集中学习(Focused Learning ，FoL)，即仅呈现新的“boot”类；

完全交错学习 (FIL)，即所有类别（新类别+以前学过的类别）以相等的概率呈现。在这两种情况下，每个epoch总共呈现180张图像，每个epoch中的图像相同。

该网络在总共9000张从未见过的图像上进行了测试，其中测试数据集由每类1000张图像组成，不包括“bag”类别。当网络的性能达到渐近线时，训练停止。不出所料，FoL对旧类别造成了干扰，而FIL克服了这一点（图1第2列）。

如上所述，FoL对旧数据的干扰因类别而异，这是SWIL最初灵感的一部分，并表明新“boot”类别和旧类别之间存在分级相似关系。例如，“sneaker”（“运动鞋”）和“sandals”（“凉鞋”）的召回率比“trouser”（“裤子”）下降得更快（图1第2列），可能是因为整合新的“boot”类会选择性地改变代表“sneaker”和“sandals”类的突触权重，从而造成更多的干扰。

图1：预训练网络在两种情况下学习新“boot”类的性能对比分析：FoL（上）和 FIL（下）。从左到右依次为预测新“boot”类别的召回率（橄榄色）、现有类别的召回率（用不同颜色绘制）、总准确度（高分意味着低误差）和交叉熵损失（总误差的度量）曲线，是保留的测试数据集上与epoch数有关的函数。计算不同类别之间的相似度

FoL在学习新类别的时候，在相似的旧类别上的分类性能会大幅下降。之前已经探讨了多类别属性相似度和学习之间的关系，并且表明深度线性网络可以快速获取已知的一致属性。相比之下，在现有类别层次结构中添加新分支的不一致属性，需要缓慢、渐进、交错的学习。在当前的工作中，作者团队使用已提出的方法在特征级别计算相似度。简言之，计算目标隐藏层（通常是倒数第二层）现有类别和新类别的平均每类激活向量之间的余弦相似度。图2A显示了基于Fashion MNIST数据集的新“boot”类别和旧类别，作者团队根据预训练网络的倒数第二层激活函数计算的相似度矩阵。类别之间的相似性与我们对物体的视觉感知一致。例如，在层次聚类图（图2B）中，我们可以观察到“boot”类与“sneaker”和“sandal”类之间、以及“shirt”（“衬衫”）和“t-shirt”（“T恤”）类之间具有较高的相似性。相似度矩阵（图2A）与混淆矩阵（图2C）完全对应。相似度越高，越容易混淆，例如，“衬衫”类与“T恤”、“套头衫”和“外套”类图像容易混淆，这表明相似性度量预测了神经网络的学习动态。在上一节的FoL结果图（图1）中，旧类别的召回率曲线中存在相近的类相似度曲线。与不同的旧类别（“trouser”等）相比，FoL学习新“boot”类的时候会快速遗忘相似的旧类别（“sneaker” 和 “sandal”）。图2：( A ) 作者团队根据预训练网络的倒数第二层激活函数，计算的现有类别和新“boot”类的相似度矩阵，其中对角线值（同一类别的相似性绘制为白色）被删除。( B ) 对A中的相似矩阵进行层次聚类。( C ) FIL算法在训练学习“boot”类后生成的混淆矩阵。为了缩放清晰，删除了对角线值。

99科技网：http://www.99it.com.cn

共8页: