理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远(5)

2022-08-28 10:27来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

3、然后我们使用完整的标记数据来拟合线性分类器（其中 C 是类的数量），使交叉熵损失最小。最终的分类器得出了的映射。第 3 步仅适合线性分类器，因此“魔法”发生在第 2 步（深度网络的自监督学习）。在自监督学习中，可以看到的一些属性包括：学习一项技能，而不是逼近一个函数。自监督学习不是逼近一个函数，而是学习可用于各种下游任务的表示。假设这是自然语言处理中的主导范式，那么下游任务是通过线性探测、微调还是提示获得，都是次要的。越多越好。在自监督学习中，表征的质量随着数据量的增加而提高。而且，数据越多样越好。

图注：谷歌 PaLM 模型的数据集解锁能力。随着资源（数据、计算、模型大小）的拓展，深度学习模型的不连续改进一次又一次地被看到，这在一些合成环境中也得到了证明。

图注：随着模型大小的增加，PaLM 模型在一些基准测试中显示出一些不连续的改进（上述图中只有三个大小的警告），并解锁了一些令人惊讶的功能，比如解释笑话。

性能在很大程度上与损失或数据无关。不止一种自监督损失，有几种对比性和重建性损失被用于图像。语言模型有时采用单面重建（预测下一个标记），有时则是使用掩蔽模型，其目标是预测来自左右标记的掩蔽输入。也可以使用稍微不同的数据集，这可能会影响效率，但只要做出“合理”的选择，常规情况下，原始资源比使用的特定损失或数据集更能预测性能。有些实例比其他实例更难。这一点不只限于自监督学习，数据点或存在一些固有的“难度级别”。事实上，有几个实际证据表明，不同的学习算法有不同的“技能水平”，不同的点有不同的“难度水平”（分类器 f 对 x 进行正确分类的概率，随着 f 的技能单向递增，随 x 的难度单向递减）。“技能与难度”范式是对 Recht 和 Miller 等人所发现的“线上准确性”现象最清晰的解释，在我同 Kaplun、Ghosh、Garg 和 Nakkiran 的合著论文中，还展示了数据集中的不同输入如何具有固有的“难度特征”，常规情况下，该特征似乎对不同的模型来说是稳健的。图注：Miller 等人的图表显示了在 CIFAR-10 上训练并在 CINIC-10 上测试的分类器的线现象准确性图注：将数据集解构为来自 Kaplun 和 Ghosh 等人在论文“Deconstructing Distributions: A Pointwise Framework of Learning”中的不同“难度概况”点，以获得越来越多的资源分类器。顶部图表描述了最可能类的不同 softmax 概率，作为由训练时间索引的某个类别分类器的全局精度的函数；底部饼图展示了将不同数据集分解为不同类型的点。值得注意的是，这种分解对于不同的神经架构是相似的。训练即教学。现代对大模型的训练似乎更像是在教学生，而不是让模型适应数据，在学生不理解或看起来疲劳（训练偏离）时采取“休息”或尝试其他方式。Meta 大模型的训练日志很有启发性——除了硬件问题外，还可以看到一些干预措施，例如在训练过程中切换不同的优化算法，甚至考虑“热交换”激活函数（GELU 到 RELU）。如果将模型训练视为拟合数据而不是学习表示，则后者没有多大意义。图注：Meta 的训练日志节选下面探讨两种情况：

99科技网：http://www.99it.com.cn

共7页: