重磅!斯坦福李飞飞教授团队新研究登 Nature 子刊(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
2
完善数据:筛选、清洗、标注、增强
初始数据集收集完成后,我们就需要进一步完善数据,为 AI 的开发提供更有效的数据。这是 AI 以模型为中心的方法与以数据为中心的方法的关键不同之处,如图 2a ,以模型为中心的研究通常是基于给定的数据,专注于改进模型架构或优化此数据。而 以数据为中心的研究则侧重于可扩展的方法, 通过数据清洗、筛选、标注、增强等过程来系统地改进数据,并且可以使用 一站式的模型开发平台。 图2a:AI 以模型为中心与以数据为中心的方法比较。MNIST、COCO 和 ImageNet 是 AI 研究中常用的数据集。
数据筛选如果数据集的噪声很大,我们就得仔细对数据进行筛选之后再做训练,这样可以显著提高模型的可靠性和泛化性。图 2a 中的飞机图像就是鸟类数据集中应删除的噪声数据点。 在 图 2b 中,由于训练数据的偏差,在以前使用的大型皮肤病学数据上训练的四种最先进的模型都表现不佳,在深色皮肤图像上的诊断效果尤其不好,而在较小的高质量数据上训练的模型 1 在深浅肤色上都相对更可靠一些。 图 2b:浅色皮肤和深色皮肤图像上的皮肤病诊断测试性能。 图 2c 显示,ResNet、DenseNet 和 VGG 这三种用于图像分类的流行深度学习架构,如果是在噪声大的图像数据集上进行训练,其性能都欠佳。而经过数据Shapley 值过滤后,质量较差的数据被删除,此时在更干净的数据子集上训练的ResNet模型性能显著更优。 图 2c:数据过滤前后不同模型的对象识别测试性能比较。括号中的数字表示过滤掉噪声数据后剩下的训练数据点的数量,结果汇总在五个随机种子上,阴影区域代表 95% 置信区间。 这就是数据评估的意义所在,它旨在量化不同数据的重要程度,并过滤掉可能由于质量差或偏差而损害模型性能的数据。
数据清洗在本文中,作者介绍了两种数据评估方法来帮助清洗数据: 一种方法是测量在训练过程中删除不同数据时 AI 模型表现的变化,这可以采用数据的 Shapley 值或影响近似值来获得,如下图 3a。这种方法能够有效计算大型 AI 模型的评估。 图3a:数据评估。当在训练中删除特定点(图中被划掉的褪色五角星)时,数据的 Shapley 值测量在不同数据子集上训练的模型的性能变化,从而来量化每个数据点(五角星符号)的值。颜色表示类别标签。 另一种方法则是预测不确定性来检测质量差的数据点。数据点的人类注释可能会系统地偏离 AI 模型预测,置信学习算法可以检测出这些偏差,在 ImageNet 等常见基准测试中发现超过 3% 的测试数据被错误标注。过滤掉这些错误可以大大提升模型的性能。
99科技网:http://www.99it.com.cn

日前, VR沉浸式通信公司ENGAGE XR宣布与HTC VIVE和斯坦福大学的虚拟人机交互实验
快资讯2022-06-24