理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
无论机器学习是否“深度”,它都属于 Breiman 所说的第二种文化,即专注于预测,这种文化已流传很长一段时间。例如 Duda 和 Hart 1973 年的教科书《Deconstructing Distributions: A Pointwise Framework of Learning》、以及Highleyman 1962 年《The Design and Analysis of Pattern Recognition Experiments》的论文片段,对于今天的深度学习从业者来说,其辨识度非常高:
同样地,Highleyman 的手写字符数据集和被用来与数据集拟合的架构 Chow(准确率约为 58%)也引起了现代读者的共鸣。
为什么深度学习不同?
1992 年,Stuart Geman、Elie Bienenstock 和 Rene Doursat 共同写了一篇题为“Neural Networks and the Bias/Varian Dilemma”的论文,其中谈到一些悲观的看法,例如,“当前的前馈神经网络,在很大程度上不足以解决机器感知和机器学习中的难题”;具体来说,他们认为通用神经网络无法成功解决困难的任务,神经网络成功的唯一途径是通过手工设计特征。用他们的话来说,即是:“重要的特征必须是内置的或‘硬连线的’(hard-wired)……而不是通过统计的方法来学习。” 事后看来,他们的观点完全错了。而且,现代神经网络的架构如 Transformer 甚至比当时的卷积网络更通用。但理解他们犯错的背后原因是很有趣的。 我认为,他们犯错的原因是深度学习确实与其他学习方法不同。一个先验的现象是:深度学习似乎只是多了一个预测模型,像最近的邻居或随机森林。它可能有更多的“旋钮”(knobs),但这似乎是数量上而不是质量上的差异。用 PW Andreson 的话来说,就是“more is different”(多的就是不同的)。 在物理学中,一旦规模发生了几个数量级的变化,我们往往只需要一个完全不同的理论就可以解释,深度学习也是如此。事实上,深度学习与经典模型(参数或非参数)的运行过程是完全不同的,即使从更高的角度看,方程(和 Python 代码)看起来相同。 为了解释这一点,我们来看两个非常不同例子的学习过程:拟合统计模型,与教学生学习数学。
场景A:拟合统计模型通常来说,将统计模型与数据进行拟合的步骤如下: 1、我们观察一些数据 x 与y。可将 x 视为一个 n x p 的矩阵,y 视为一个 n 维向量;数据来源于一个结构和噪声模型:每个坐标 的得到形式是 ,其中 是对应的噪声,为简单起见使用了加性噪声,而 是正确的真实标签。)
2、通过运行某种优化算法,我们可以将模型 拟合到数据中,使 的经验风险最小。也就是说,我们使用优化算法来找到 的最小化数量 ,其中 是一个损失项(捕捉 距离 y 有多近), 是一个可选的规范化项 (试图使得 偏向更简单的模型)。
99科技网:http://www.99it.com.cn
