斯坦福李飞飞团队新研究登Nature子刊:实现可信AI,数据的设计、完善、评估是关键(5)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
数据消融被广泛适用于各个领域。例如,在医学领域,可以屏蔽图像中与生物相关的部分,用这种方式来评估人工智能是从虚假背景中学习,还是从图像质量的人工制品中学习。
AI 评估通常局限于比较整个测试数据集的总体性能指标。但即使 AI 模型在总体数据层面工作良好,它仍然可能在特定的数据子组上显示出系统性错误,而对这些错误集群的特征描述可以让我们更加了解模型的局限性。
当元数据可用时,细粒度的评估方法应该尽可能地按数据集中参与者的性别、性别、种族和地理位置对评估数据进行切片——例如,“亚洲老年男性”或“美国土著女性”——并量化模型在每个数据子组上的表现。多精度审计(Multi-accuracy auditing)是一种自动搜索 AI 模型表现不佳的数据子组的算法。在此处,审计算法被训练来使用元数据预测和聚类原始模型的错误,然后提供 AI 模型犯了什么错,为什么会犯错等问题的可解释答案。
当元数据不可用时,Domino 等方法会自动识别评估模型容易出错的数据集群,并使用文本生成来创建这些模型错误的自然语言解释。
数据的未来
目前大多数 AI 研究项目只开发一次数据集,但现实世界的 AI 用户通常需要不断更新数据集和模型。持续的数据开发将带来以下挑战:
首先,数据和 AI 任务都可以随着时间的推移而变化:例如,可能道路上出现了一种新的车辆模型(即领域转移),或者可能 AI 开发人员想要识别一种新的对象类别(例如,不同于普通公交车的校车类型),这就会改变标签的分类。而将扔掉数百万小时的旧标签数据十分浪费,所以更新势在必行。
此外,培训和评估指标应该经过精心设计后用来权衡新数据,并为每个子任务使用适当的数据。其次,为了持续获取和使用数据,用户将需要自动化大部分以数据为中心的 AI 过程。这种自动化包括使用算法来选择将哪些数据发送给标注器,以及如何使用它来重新训练模型,并且只在过程出现错误时(例如,准确度指标下降时)才向模型开发人员发出警报。作为“MLOps(Machine Learning Operations,机器学习操作)”趋势的一部分,业界公司开始使用工具来实现机器学习生命周期的自动化。
99科技网:http://www.99it.com.cn
