理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
2
经典和现代预测模型
无论机器学习是否“深度”,它都属于 Breiman 所说的第二种文化,即 专注于预测 ,这种文化已流传很长一段时间。例如 Duda 和 Hart 1973 年的教科书《Deconstructing Distributions: A Pointwise Framework of Learning》、以及Highleyman 1962 年《The Design and Analysis of Pattern Recognition Experiments》的论文片段,对于今天的深度学习从业者来说,其辨识度非常高: 同样地,Highleyman 的手写字符数据集和被用来与数据集拟合的架构 Chow(准确率约为 58%)也引起了现代读者的共鸣。
3
为什么深度学习不同?
1992 年,Stuart Geman、Elie Bienenstock 和 Rene Doursat 共同写了一篇题为“Neural Networks and the Bias/Varian Dilemma”的论文,其中谈到一些悲观的看法,例如,“当前的前馈神经网络,在很大程度上不足以解决机器感知和机器学习中的难题”;具体来说,他们认为通用神经网络无法成功解决困难的任务,神经网络成功的唯一途径是通过手工设计特征。用他们的话来说,即是:“重要的特征必须是内置的或‘硬连线的’(hard-wired)……而不是通过统计的方法来学习。” 事后看来,他们的观点完全错了。而且,现代神经网络的架构如 Transformer 甚至比当时的卷积网络更通用。但理解他们犯错的背后原因是很有趣的。 我认为,他们犯错的原因是 深度学习确实与其他学习方法不同。 一个先验的现象是:深度学习似乎只是多了一个预测模型,像最近的邻居或随机森林。它可能有更多的“旋钮”(knobs),但这似乎是数量上而不是质量上的差异。用 PW Andreson 的话来说,就是“more is different”(多的就是不同的)。 在物理学中,一旦规模发生了几个数量级的变化,我们往往只需要一个完全不同的理论就可以解释,深度学习也是如此。事实上, 深度学习与经典模型(参数或非参数)的运行过程是完全不同的, 即使从更高的角度看,方程(和 Python 代码)看起来相同。 为了解释这一点,我们来看两个非常不同例子的学习过程: 拟合统计模型,与教学生学习数学。
99科技网:http://www.99it.com.cn

近日,MetaAI发布了NLLB-200模型,宣布在200多种语言(其中有70%是低资源语言)上
元宇宙2022-08-31
