主页 > 互联网+ > 正文

理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远(3)

2022-08-28 14:20来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

场景A:拟合统计模型

通常来说,将统计模型与数据进行拟合的步骤如下: 1、我们观察一些数据 x 与y。可将 x 视为一个 n x p 的矩阵,y 视为一个 n 维向量;数据来源于一个结构和噪声模型:每个坐标 的得到形式是 ,其中 是对应的噪声,为简单起见使用了加性噪声,而 是正确的真实标签。) 2、通过运行某种优化算法,我们可以将模型 拟合到数据中,使 的经验风险最小。也就是说,我们使用优化算法来找到 的最小化数量 ,其中 是一个损失项(捕捉 距离 y 有多近), 是一个可选的规范化项 (试图使得 偏向更简单的模型)。 3、我们希望,我们的模型能具有良好的总体损失,因为泛化误差/损失 很小(这种预测是基于实验数据所在的总体数据来获得的)。 图注:Bradley Efron经过对噪音的观察所复现的牛顿第一定律漫画 这种非常通用的范式包含了许多设置,包括最小二乘线性回归、最近邻、神经网络训练等等。在经典的统计设置中,我们期望观察到以下情况: 偏差/方差权衡: 将 F 作为优化的模型集。(当我们处于非凸设置和/或有一个正则器项,我们可以让 F作为这种模型的集合,考虑到算法选择和正则器的影响,这些模型可以由算法以不可忽略的概率实现。) F 的偏差是对正确标签的最佳近似,可以通过元素 来实现。F 的类越大,偏差越小,当 ,偏差甚至可以是零。然而,当 F 类越大, 则需要越多样本来缩小其成员范围,从而算法输出模型中的方差就越大。总体泛化误差是偏差项和方差贡献的总和。 因此,统计学习通常会显示偏差/方差权衡,并通过正确模型复杂性的“金发姑娘选择”来最小化整体误差。事实上,Geman 等人也是这么做的,通过说“偏差-方差困境导致的基本限制适用于包括神经网络在内的所有非参数推理模型”来证明他们对神经网络的悲观情绪是合理的。 更多并非总是最好的。 在统计学习中,获得更多的特征或数据并不一定能提高性能。 例如,从包含许多不相关特征的数据中学习更具挑战性。类似地,从混合模型中学习,其中数据来自两个分布之一(例如 和 ),比独立学习单个更难。 收益递减。 在许多情况下,将预测噪声降低到某个参数 ,其所需的数据点数量在某些参数 k 下以 的形式拓展。在这种情况下,需要大约 k 个样本来“起飞”,而一旦这样做,则会面临收益递减的制度,即假设花耗 n 个点来达到(比如)90%的准确度,那么想要将准确度提高到95%,则大约需要另外 3n 个点。一般来说,随着资源增加(无论是数据、模型的复杂性,还是计算),我们希望捕捉到更多更细的区别,而不是解锁新的质量上的能力。 对损失、数据的强烈依赖。 在将模型拟合到高维数据时,一个很小的细节就有可能造成结果的很大不同。统计学家知道,诸如 L1 或 L2 正则化器之类的选择很重要,更不用说使用完全不同的数据集,不同数量的高维优化器将具有极大的差异性。 数据点没有自然的“难度”(至少在某些情况下)。 传统上认为,数据点是独立于某个分布进行采样的。尽管靠近决策边界的点可能更难分类,但考虑到高维度的测量集中现象,可预计大多数点的距离将存在相似的情况。因此,至少在经典数据分布中,并不期望点在其难度水平上有很大差异。然而,混合模型可以显示这种差异的不同难度级别,所以与上述其他问题不同,这种差异在统计设置中不会非常令人惊讶。

99科技网:http://www.99it.com.cn

相关推荐
下一个像“计算机”一样能够改变世界的行业或产品是什么? 下一个像“计算机”一样能够改变世界的行业或产品是什么?

航天(Spaceflight):又称空间飞行、太空飞行、宇宙航行或航天飞行。系指航天器

互联网+2022-07-26

霍金的理论对现在的世界有什么意义吗? 霍金的理论对现在的世界有什么意义吗?

会展它包括的不仅是展销,也有婚庆,会议,节日等等。所以学会展的出来,可

互联网+2022-07-26

计算机行业现在饱和了吗?值得学习吗? 计算机行业现在饱和了吗?值得学习吗?

你应该与时俱进,学习物联网,人工智能,区块链,大数据分析等新技术新知识

互联网+2022-07-22

谁知道虫孔的最新理论研究吗? 谁知道虫孔的最新理论研究吗?

指一个隧道般的黑洞。它可以成为通往宇宙中另一个地方或另一个宇宙的捷径。

互联网+2022-07-01

Nvidia的Grace CPU超级芯片可以为两台超级计算机供 Nvidia的Grace CPU超级芯片可以为两台超级计算机供

Nvidia在设计和生产基于Arm的CPU方面的扩张是该公司去年宣布的一个非常令人震惊

互联网+2022-06-20

仅剩十年!国际数据巨头称经典计算机将面临巨大挑战 仅剩十年!国际数据巨头称经典计算机将面临巨大挑战

原标题:仅剩十年!国际数据巨头称经典计算机将面临巨大挑战 近日,IDC(国

互联网+2021-11-30

英伟达计划打造 Earth-2 超级计算机 专门用来预测气候变化 英伟达计划打造 Earth-2 超级计算机 专门用来预测气候变化

原标题:英伟达计划打造 Earth-2 超级计算机 专门用来预测气候变化 11 月 15 日讯

互联网+2021-11-15

蚂蚁集团首席 AI 科学家:可信 AI 之智能对抗技术已进入支付宝风控部署 蚂蚁集团首席 AI 科学家:可信 AI 之智能对抗技术已进入支付宝风控部署

原标题:蚂蚁集团首席 AI 科学家:可信 AI 之智能对抗技术已进入支付宝风控部

互联网+2021-07-09

10 量子比特 霍尼韦尔推出量子计算机 10 量子比特 霍尼韦尔推出量子计算机

原标题:10 量子比特 霍尼韦尔推出量子计算机 据外媒报道,霍尼韦尔宣布推出

互联网+2020-11-02

微软推出「行星计算机」概念 用 AI 掌握地球一草一木 微软推出「行星计算机」概念 用 AI 掌握地球一草一木

原标题:微软推出「行星计算机」概念 用 AI 掌握地球一草一木 在论坛的专题讨

互联网+2020-07-11