斯坦福李飞飞团队新研究登Nature子刊:实现可信AI,数据的设计、完善、评估是关键(4)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
最后,当现有数据仍十分有限时,数据增强就是一种扩充数据集和提高模型可靠性的有效方法。
计算机视觉数据可以通过图像旋转、翻转和其他数字转换来增强,文本数据可以通过变换自动书写风格来增强。还有最近的 Mixup,是一种更复杂的增强技术,它通过对训练样本对进行插值来创建新的训练数据,如图 3c。
除了人工数据增强之外,目前的 AI 的自动化数据增强流程也是一种流行方案。此外,当未标注的数据可用时,还可以通过使用初始模型进行预测(这些预测称为伪标签)来实现标签增强,然后在具有真实和高置信度伪标签的组合数据上训练一个更大的模型。
图 3c:Mixup 通过创建对现有数据进行插值的合成数据来扩充数据集。蓝点表示训练集中的现有数据点,红点表示通过插值两个现有数据点创建的合成数据点。
用于评估和监控 AI 模型的数据
在模型经过训练后,AI 评估的目标是模型的通用性和可信性。
为了实现这一目标,我们应该仔细设计评估数据,从而去找到模型的现实世界设置(real-world settings),同时评估数据也需要与模型的训练数据有足够大的差异。
举个例子,在医学研究中,AI 模型通常是基于少数医院的数据训练的。这样的模型在新的医院部署时,由于数据收集和处理方面的差异,其准确性就会降低。为了评价模型的泛化性,就需要从不同的医院、不同的数据处理管道收集评价数据。在其他应用程序中,评估数据应该从不同的来源收集,最好由不同的注释器标记为训练数据。同时,高质量的人类标签仍然是最重要的评价。
AI 评估的一个重要作用是,判断 AI 模型是否在不能很好形成概念的训练数据中将虚假相关性作为「捷径」。例如,在医学成像中,数据的处理方式(例如裁剪或图像压缩)可能产生模型拾取的虚假相关性(即捷径)。这些捷径表面上可能很有帮助,但当模型部署在稍有不同的环境中时,就可能会出现灾难性的失败。
系统的数据消融是检查潜在的模型「捷径」的好方法。在数据消融(data ablation)中,AI 模型在虚假相关表面信号的消融输入上进行训练和测试。
图 4:数据消融
使用数据消融探测出模型捷径的一个例子是,一项关于常见自然语言推理数据集的研究发现,仅对文本输入的前一半进行训练的人工智能模型在推断文本的前一半和后一半之间的逻辑关系方面取得了很高的准确性,而人类在相同的输入上的推断水平和随机猜测差不多。这就表明人工智能模型利用虚假相关性作为完成这项任务的捷径。研究团队发现,特定的语言现象会被人工智能模型利用,如文本中的否定与标签高度相关。
99科技网:http://www.99it.com.cn
