重磅！斯坦福李飞飞教授团队新研究登 Nature 子刊(2)

2022-09-02 16:40来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

完善数据：筛选、清洗、标注、增强

初始数据集收集完成后，我们就需要进一步完善数据，为 AI 的开发提供更有效的数据。这是 AI 以模型为中心的方法与以数据为中心的方法的关键不同之处，如图 2a ，以模型为中心的研究通常是基于给定的数据，专注于改进模型架构或优化此数据。而以数据为中心的研究则侧重于可扩展的方法，通过数据清洗、筛选、标注、增强等过程来系统地改进数据，并且可以使用一站式的模型开发平台。图2a：AI 以模型为中心与以数据为中心的方法比较。MNIST、COCO 和 ImageNet 是 AI 研究中常用的数据集。
数据筛选
如果数据集的噪声很大，我们就得仔细对数据进行筛选之后再做训练，这样可以显著提高模型的可靠性和泛化性。图 2a 中的飞机图像就是鸟类数据集中应删除的噪声数据点。在图 2b 中，由于训练数据的偏差，在以前使用的大型皮肤病学数据上训练的四种最先进的模型都表现不佳，在深色皮肤图像上的诊断效果尤其不好，而在较小的高质量数据上训练的模型 1 在深浅肤色上都相对更可靠一些。图 2b：浅色皮肤和深色皮肤图像上的皮肤病诊断测试性能。图 2c 显示，ResNet、DenseNet 和 VGG 这三种用于图像分类的流行深度学习架构，如果是在噪声大的图像数据集上进行训练，其性能都欠佳。而经过数据Shapley 值过滤后，质量较差的数据被删除，此时在更干净的数据子集上训练的ResNet模型性能显著更优。图 2c：数据过滤前后不同模型的对象识别测试性能比较。括号中的数字表示过滤掉噪声数据后剩下的训练数据点的数量，结果汇总在五个随机种子上，阴影区域代表 95% 置信区间。这就是数据评估的意义所在，它旨在量化不同数据的重要程度，并过滤掉可能由于质量差或偏差而损害模型性能的数据。
数据清洗
在本文中，作者介绍了两种数据评估方法来帮助清洗数据：一种方法是测量在训练过程中删除不同数据时 AI 模型表现的变化，这可以采用数据的 Shapley 值或影响近似值来获得，如下图 3a。这种方法能够有效计算大型 AI 模型的评估。图3a：数据评估。当在训练中删除特定点（图中被划掉的褪色五角星）时，数据的 Shapley 值测量在不同数据子集上训练的模型的性能变化，从而来量化每个数据点（五角星符号）的值。颜色表示类别标签。另一种方法则是预测不确定性来检测质量差的数据点。数据点的人类注释可能会系统地偏离 AI 模型预测，置信学习算法可以检测出这些偏差，在 ImageNet 等常见基准测试中发现超过 3% 的测试数据被错误标注。过滤掉这些错误可以大大提升模型的性能。

99科技网：http://www.99it.com.cn

共5页:
上一页
1
2
3
4
5
下一页

相关推荐

斯坦福李飞飞团队新研究登Nature子刊：实现可信AI，数据的设计、完善、评估是关键
在当前 AI 模型的开发以模型为中心转向以数据为中心的趋势下，数据的质量变

快资讯2022-09-01

斯坦福李飞飞团队新研究登 Nature 子刊：实现可信 AI，数据的设计、完善、评估是关键
数据的设计、完善、评估三大步骤是关键。

快资讯2022-09-01

重磅发布|从“造物节”看平台驱动下的敏捷创新
数字经济时代，随着各类数字平台壮大，越来越多的小微企业飞速成长、高频创

快资讯2022-08-27

终于iOS 16重磅功能来了：iPhone14 Pro专属
5月30日，有消息人士向彭博社“Power On”的马克·古尔曼透露，苹果即将发布的

快资讯2022-08-15

十周年重磅更新！魅族新版Flyme发布：两年前的机型也能升级
6月30日，魅族官方宣布，最新Flyme 9.3大版本正式开放全量推送，新版本适配最新

快资讯2022-08-15

释放大量空间！微信PC版迎来重磅更新：终于能进行存储管理了
5月31日消息，小雷发现微信PC版推送了3.7.0正式版更新，没有收到推送的朋友，

快资讯2022-08-12

宇通重磅发布“超基因价值链”，全面引领客车行业价值升级
这是最特别的时代，也是大有可为的时代。当前，随着国家“双碳”战略和交

快资讯2022-08-11

该换新机了！iPhone14重磅功能提前曝光：息屏显示稳了
不久前，有消息人士向彭博社记者马克·古尔曼透露，苹果发布的iOS 16将会支持

快资讯2022-07-24

腾讯公布“车云一体化”战略布局推出智能汽车云等重磅产品
6月24日，“TIME Day·腾讯智慧出行2022新品发布会”于线上举行。会上，腾讯智慧

快资讯2022-07-18

VR沉浸式通信公司ENGAGE XR与HTC VIVE和斯坦福大学建立合作伙伴关系
日前， VR沉浸式通信公司ENGAGE XR宣布与HTC VIVE和斯坦福大学的虚拟人机交互实验

快资讯2022-06-24

头条资讯

元宇宙概念为何爆发，互联网技术枯竭

音乐对顾客心理的影响

县级加盟什么店挣钱？

加盟雪丰建材需要什么条件？

未来经济发展的趋势？

推荐资讯

win7系统应用程序提示0x00000010错误怎么解决方法

OPPO,Vivo,华为，小米，哪个手机和智能手表更胜一筹？

在小县城开一家什么店比较赚钱?

在县城，做什么项目能挣大钱？

未来价值投资在哪里，未来经济世界又有着怎样的联系？

最近更新

企服新浪潮，从数字藏品到元宇宙

趋势前瞻：Web3里的中国力量

红洞张贝龙：中国Web3发展过程中亟待解决的问题

莫晓康：隐私计算是区块链入场实体经济的门票

打通数据要素梗阻，区块链恰逢其时