主页 > 快资讯 > 正文

重磅!斯坦福李飞飞教授团队新研究登 Nature 子刊(4)

2022-09-02 16:40来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

在模型经过训练后,AI 评估的目标是模型的 通用性 和 可信性 。 为了实现这一目标,我们应该仔细设计评估数据,从而去找到模型的现实世界设置(real-world settings),同时评估数据也需要与模型的训练数据有足够大的差异。 举个例子,在医学研究中,AI 模型通常是基于少数医院的数据训练的。这样的模型在新的医院部署时,由于数据收集和处理方面的差异,其准确性就会降低。为了评价模型的泛化性,就需要从不同的医院、不同的数据处理管道收集评价数据。在其他应用程序中,评估数据应该从不同的来源收集,最好由不同的注释器标记为训练数据。同时,高质量的人类标签仍然是最重要的评价。 AI 评估的一个重要作用是, 判断 AI 模型是否在不能很好形成概念的训练数据中将虚假相关性作为「捷径」 。例如,在医学成像中,数据的处理方式(例如裁剪或图像压缩)可能产生模型拾取的虚假相关性(即捷径)。这些捷径表面上可能很有帮助,但当模型部署在稍有不同的环境中时,就可能会出现灾难性的失败。 系统的数据消融是检查潜在的模型「捷径」的好方法。 在数据消融(data ablation)中,AI 模型在虚假相关表面信号的消融输入上进行训练和测试。 图 4:数据消融 使用数据消融探测出模型捷径的一个例子是,一项关于常见自然语言推理数据集的研究发现,仅对文本输入的前一半进行训练的人工智能模型在推断文本的前一半和后一半之间的逻辑关系方面取得了很高的准确性,而人类在相同的输入上的推断水平和随机猜测差不多。这就表明人工智能模型利用虚假相关性作为完成这项任务的捷径。研究团队发现,特定的语言现象会被人工智能模型利用,如文本中的否定与标签高度相关。 数据消融被广泛适用于各个领域。例如,在医学领域,可以屏蔽图像中与生物相关的部分,用这种方式来评估人工智能是从虚假背景中学习,还是从图像质量的人工制品中学习。 AI 评估通常局限于比较整个测试数据集的总体性能指标。但即使 AI 模型在总体数据层面工作良好,它仍然可能在特定的数据子组上显示出系统性错误,而 对这些错误集群的特征描述可以让我们更加了解模型的局限性。 当元数据可用时,细粒度的评估方法应该尽可能地按数据集中参与者的性别、性别、种族和地理位置对评估数据进行切片——例如,“亚洲老年男性”或“美国土著女性”——并量化模型在每个数据子组上的表现。多精度审计(Multi-accuracy auditing)是一种自动搜索 AI 模型表现不佳的数据子组的算法。在此处,审计算法被训练来使用元数据预测和聚类原始模型的错误,然后提供 AI 模型犯了什么错,为什么会犯错等问题的可解释答案。 当元数据不可用时,Domino 等方法会自动识别评估模型容易出错的数据集群,并使用文本生成来创建这些模型错误的自然语言解释。

99科技网:http://www.99it.com.cn

相关推荐
斯坦福李飞飞团队新研究登Nature子刊:实现可信AI,数据的设计、完善、评估是关键 斯坦福李飞飞团队新研究登Nature子刊:实现可信AI,数据的设计、完善、评估是关键

在当前 AI 模型的开发以模型为中心转向以数据为中心的趋势下,数据的质量变

快资讯2022-09-01

斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键 斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键

数据的设计、完善、评估三大步骤是关键。

快资讯2022-09-01

重磅发布|从“造物节”看平台驱动下的敏捷创新 重磅发布|从“造物节”看平台驱动下的敏捷创新

数字经济时代,随着各类数字平台壮大,越来越多的小微企业飞速成长、高频创

快资讯2022-08-27

终于iOS 16重磅功能来了:iPhone14 Pro专属 终于iOS 16重磅功能来了:iPhone14 Pro专属

5月30日,有消息人士向彭博社“Power On”的马克·古尔曼透露,苹果即将发布的

快资讯2022-08-15

十周年重磅更新!魅族新版Flyme发布:两年前的机型也能升级 十周年重磅更新!魅族新版Flyme发布:两年前的机型也能升级

6月30日,魅族官方宣布,最新Flyme 9.3大版本正式开放全量推送,新版本适配最新

快资讯2022-08-15

释放大量空间!微信PC版迎来重磅更新:终于能进行存储管理了 释放大量空间!微信PC版迎来重磅更新:终于能进行存储管理了

5月31日消息,小雷发现微信PC版推送了3.7.0正式版更新,没有收到推送的朋友,

快资讯2022-08-12

宇通重磅发布“超基因价值链”,全面引领客车行业价值升级 宇通重磅发布“超基因价值链”,全面引领客车行业价值升级

这是最特别的时代,也是大有可为的时代。 当前,随着国家“双碳”战略和交

快资讯2022-08-11

该换新机了!iPhone14重磅功能提前曝光:息屏显示稳了 该换新机了!iPhone14重磅功能提前曝光:息屏显示稳了

不久前,有消息人士向彭博社记者马克·古尔曼透露,苹果发布的iOS 16将会支持

快资讯2022-07-24

腾讯公布“车云一体化”战略布局 推出智能汽车云等重磅产品 腾讯公布“车云一体化”战略布局 推出智能汽车云等重磅产品

6月24日,“TIME Day·腾讯智慧出行2022新品发布会”于线上举行。会上,腾讯智慧

快资讯2022-07-18

VR沉浸式通信公司ENGAGE XR与HTC VIVE和斯坦福大学建立合作伙伴关系 VR沉浸式通信公司ENGAGE XR与HTC VIVE和斯坦福大学建立合作伙伴关系

日前, VR沉浸式通信公司ENGAGE XR宣布与HTC VIVE和斯坦福大学的虚拟人机交互实验

快资讯2022-06-24