听声辨物,这是AI视觉该干的???|ECCV 2022
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
听到“唔哩——唔哩——”的警笛声,你可以迅速判断出声音来自路过的一辆急救车。 能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢? 来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的 视听分割 任务 (Audio-Visual Segmentation, AVS) 。 视听分割,就是要分割出发声物,而后生成发声物的精细化分割图。 相应的,研究人员提出了第一个具有像素级标注的视听数据集 AVSBench 。 新任务、新的数据集,搞算法的又有新坑可以卷了。 据最新放榜结果,该论文已被ECCV 2022接受。
精准锁定发声物听觉和视觉是人类感知世界中最重要的两个传感器。生活里,声音信号和视觉信号往往是互补的。 视听表征学习 (audio-visual learning) 已经催生了很多有趣的任务,比如视听通信 (AVC) 、视听事件定位 (AVEL) 、视频解析 (AVVP) 、声源定位 (SSL) 等。 这里面既有判定音像是否描述同一事件/物体的分类任务,也有以热力图可视化大致定位发声物的任务。 但无论哪一种,离精细化的视听场景理解都差点意思。 △ AVS 任务与 SSL 任务的比较 视听分割“迎难而上”,提出要准确分割出视频帧中正在发声的物体全貌—— 即以音频为指导信号,确定分割哪个物体,并得到其完整的像素级掩码图。
AVSBench 数据集要怎么研究这个新任务呢? 鉴于当前还没有视听分割的开源数据集,研究人员提出AVSBench 数据集,借助它研究了新任务的两种设置: 1、单声源 (Single-source) 下的视听分割
2、多声源 (Multi-sources) 下的视听分割数据集中的每个视频时长5秒。 单声源子集包含23类,共4932个视频,包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关的发声物。 △ AVSBench单源子集的数据分布 多声源子集则包含了424个视频。 结合难易情况,单声源子集在 半监督 条件下进行,多声源子集则以 全监督 条件进行。 研究人员对AVSBench里的每个视频等间隔采样5帧,然后 人工 对发声体进行像素级标注。 对于单声源子集,仅标注采样的第一张视频帧;对于多声源子集,5帧图像都被标注——这就是所谓的半监督和全监督。 △ 对单声源子集和多声源子集进行不同人工标注 这种像素级的标注,避免了将很多非发声物或背景给包含进来,从而增加了模型验证的准确性。
一个简单的baseline方法有了数据集,研究人员还抛砖引玉,在文中给了个简单的baseline。 吸收传统语义分割模型的成功经验,研究人员提出了一个端到端的视听分割模型。 △ 视听分割框架图 这个模型遵循编码器-解码器的网络架构,输入视频帧,最终直接输出分割掩码。 另外,还有两个网络优化目标。 一是计算预测图和真实标签的损失。 而针对多声源情况,研究人员提出了 掩码视听匹配损失函数 ,用来约束发声物和音频特征在特征空间中保持相似分布。
99科技网:http://www.99it.com.cn
