重磅！斯坦福李飞飞教授团队新研究登 Nature 子刊(4)

2022-09-02 16:40来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

在模型经过训练后，AI 评估的目标是模型的通用性和可信性。为了实现这一目标，我们应该仔细设计评估数据，从而去找到模型的现实世界设置（real-world settings），同时评估数据也需要与模型的训练数据有足够大的差异。举个例子，在医学研究中，AI 模型通常是基于少数医院的数据训练的。这样的模型在新的医院部署时，由于数据收集和处理方面的差异，其准确性就会降低。为了评价模型的泛化性，就需要从不同的医院、不同的数据处理管道收集评价数据。在其他应用程序中，评估数据应该从不同的来源收集，最好由不同的注释器标记为训练数据。同时，高质量的人类标签仍然是最重要的评价。 AI 评估的一个重要作用是，判断 AI 模型是否在不能很好形成概念的训练数据中将虚假相关性作为「捷径」。例如，在医学成像中，数据的处理方式（例如裁剪或图像压缩）可能产生模型拾取的虚假相关性（即捷径）。这些捷径表面上可能很有帮助，但当模型部署在稍有不同的环境中时，就可能会出现灾难性的失败。系统的数据消融是检查潜在的模型「捷径」的好方法。在数据消融（data ablation）中，AI 模型在虚假相关表面信号的消融输入上进行训练和测试。图 4：数据消融使用数据消融探测出模型捷径的一个例子是，一项关于常见自然语言推理数据集的研究发现，仅对文本输入的前一半进行训练的人工智能模型在推断文本的前一半和后一半之间的逻辑关系方面取得了很高的准确性，而人类在相同的输入上的推断水平和随机猜测差不多。这就表明人工智能模型利用虚假相关性作为完成这项任务的捷径。研究团队发现，特定的语言现象会被人工智能模型利用，如文本中的否定与标签高度相关。数据消融被广泛适用于各个领域。例如，在医学领域，可以屏蔽图像中与生物相关的部分，用这种方式来评估人工智能是从虚假背景中学习，还是从图像质量的人工制品中学习。 AI 评估通常局限于比较整个测试数据集的总体性能指标。但即使 AI 模型在总体数据层面工作良好，它仍然可能在特定的数据子组上显示出系统性错误，而对这些错误集群的特征描述可以让我们更加了解模型的局限性。当元数据可用时，细粒度的评估方法应该尽可能地按数据集中参与者的性别、性别、种族和地理位置对评估数据进行切片——例如，“亚洲老年男性”或“美国土著女性”——并量化模型在每个数据子组上的表现。多精度审计（Multi-accuracy auditing）是一种自动搜索 AI 模型表现不佳的数据子组的算法。在此处，审计算法被训练来使用元数据预测和聚类原始模型的错误，然后提供 AI 模型犯了什么错，为什么会犯错等问题的可解释答案。当元数据不可用时，Domino 等方法会自动识别评估模型容易出错的数据集群，并使用文本生成来创建这些模型错误的自然语言解释。

99科技网：http://www.99it.com.cn

共5页:

相关推荐