重磅!斯坦福李飞飞教授团队新研究登 Nature 子刊(3)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
数据标注也是数据偏差的一个主要来源。尽管 AI 模型可以容忍一定程度的随机标签噪声,但有偏差的错误会产生有偏差的模型。目前,我们主要依赖于人工标注,成本很昂贵,比如标注单个 LIDAR 扫描的成本可能超过 30 美元,因为它是三维数据,标注者需要绘制出三维边界框,比一般的标注任务要求更高。 因此作者认为,我们需要仔细校准 MTurk 等众包平台上的标注工具,提供一致的标注规则。在医疗环领域,还要考虑到标注人员可能需要专业知识或者可能有无法众包的敏感数据。 降低注释成本的一种方法是数据编程。 在数据编程中,AI 开发人员不再需要手动标记数据点,而是编写程序标签函数来自动标注训练集。如图 3b,使用用户定义的标签函数为每个输入自动生成多个可能有噪声的标签后,我们可以设计额外的算法,来聚合多个标签功能以减少噪声。 图 3b:数据编程。 另一种降低标注成本的「人在回路」(human-in-the-loop)方法是 优先考虑最有价值的数据, 以便我们通过 主动学习(active learning) 来进行标注。主动学习从最佳实验设计中汲取思想,在主动学习中,算法从一组未标注的数据点中选择信息量最大的点,比如具有高信息增益的点或模型在其上具有不确定性的点吗,然后再进行人工标注。这种方法的好处是,所需的数据数量比标准的监督学习所需的数据量要少得多。
数 据增强最后,当现有数据仍十分有限时, 数据增强 就是一种扩充数据集和提高模型可靠性的有效方法。 计算机视觉数据可以通过图像旋转、翻转和其他数字转换来增强,文本数据可以通过变换自动书写风格来增强。还有最近的 Mixup,是一种更复杂的增强技术,它通过对训练样本对进行插值来创建新的训练数据,如图 3c。 除了人工数据增强之外,目前的 AI 的自动化数据增强流程也是一种流行方案。此外,当未标注的数据可用时,还可以通过使用初始模型进行预测(这些预测称为伪标签)来实现标签增强,然后在具有真实和高置信度伪标签的组合数据上训练一个更大的模型。 图 3c:Mixup 通过创建对现有数据进行插值的合成数据来扩充数据集。蓝点表示训练集中的现有数据点,红点表示通过插值两个现有数据点创建的合成数据点。
3
用于评估和监控 AI 模型的数据
99科技网:http://www.99it.com.cn

日前, VR沉浸式通信公司ENGAGE XR宣布与HTC VIVE和斯坦福大学的虚拟人机交互实验
快资讯2022-06-24