斯坦福李飞飞团队新研究登Nature子刊:实现可信AI,数据的设计、完善、评估是关键
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
大数据文摘授权转载自AI科技评论
作者:李梅、王玥 编辑:陈彩娴
在当前 AI 模型的开发以模型为中心转向以数据为中心的趋势下,数据的质量变得尤为重要。
在以往的 AI 开发流程中,数据集通常是固定的,开发工作的重点是迭代模型架构或训练过程来提高基准性能。而现在,数据迭代成为重心,因此我们需要更系统的方法来评估、筛选、清洗和注释用于训练和测试 AI 模型的数据。
最近,斯坦福大学计算机科学系的Weixin Liang、李飞飞等人在《自然-机器智能》上共同发表了一篇题为“Advances, challenges and opportunities in creating data for trustworthy AI”的文章,在 AI 数据全流程的各个环节上讨论了保证数据质量的关键因素和方法。
论文地址: https://www.nature.com/articles/s42256-022-00516-1.epdf?sharing_token=VPzI-KWAm8tLG_BiXJnV9tRgN0jAjWel9jnR3ZoTv0MRS1pu9dXg73FQ0NTrwhu7Hi_VBEr6peszIAFc6XO1tdlvV1lLJQtOvUFnSXpvW6_nu0Knc_dRekx6lyZNc6PcM1nslocIcut_qNW9OUg1IsbCfuL058R4MsYFqyzlb2E%3D
AI 数据流程中的主要步骤包括:数据设计(数据的采集和记录)、数据改善(数据筛选、清洗、标注、增强)以及用于评估和监控 AI 模型的数据策略,其中的每一个环节都会影响最终 AI 模型的可信度。
图1:从数据设计到评估的以数据为中心的方法开发路线图。
AI的数据设计
确定了一个人工智能应用程序后,开发 AI 模型第一步就是设计数据(即识别和记录数据来源)。
设计应当是一个迭代过程——用试验数据来开发初始的 AI 模型,然后再收集额外数据来修补模型的局限性。设计的关键标准是确保数据适用于任务,并覆盖足够的范围来代表模型可能遇到的不同用户和场景。
而目前用于开发 AI 的数据集通常覆盖范围有限或者具有偏差。例如在医疗 AI 中,用于开发算法的患者数据的收集在地区分布上不成比例,这会限制 AI 模型对不同人群的适用性。
提高数据覆盖率的一种方法,是让更广泛的社区参与数据的创建。目前最大的公共数据集 Common Voice 项目就是一个例证,该数据集包含了来自 166000 多名参与者的 76 种语言的 11192 小时语音转录。
而当代表性数据难以获得时,可以用合成数据来填补覆盖空白。比如真实人脸的收集通常涉及隐私问题和抽样偏差,而由深度生成模型创建的合成人脸现在已经被用于减轻数据不平衡和偏差。在医疗保健领域,可以共享合成医疗记录来促进知识发现,而无需披露实际的患者信息。在机器人技术中,真实世界的挑战是终极的测试平台,也可以用高保真模拟环境来让智能体在复杂和长期任务中实现更快、更安全的学习。
99科技网:http://www.99it.com.cn
