听声辨物,这是AI视觉该干的???ECCV2022
衡宇发自凹非寺
量子位公众号QbitAI
听到唔哩唔哩的警笛声,你可以迅速判断出声音来自路过的一辆急救车。
能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢?
来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的视听分割任务(AudioVisualSegmentation,AVS)。
视听分割,就是要分割出发声物,而后生成发声物的精细化分割图。
相应的,研究人员提出了第一个具有像素级标注的视听数据集AVSBench。
新任务、新的数据集,搞算法的又有新坑可以卷了。
据最新放榜结果,该论文已被ECCV2022接受。精准锁定发声物
听觉和视觉是人类感知世界中最重要的两个传感器。生活里,声音信号和视觉信号往往是互补的。
视听表征学习(audiovisuallearning)已经催生了很多有趣的任务,比如视听通信(AVC)、视听事件定位(AVEL)、视频解析(AVVP)、声源定位(SSL)等。
这里面既有判定音像是否描述同一事件物体的分类任务,也有以热力图可视化大致定位发声物的任务。
但无论哪一种,离精细化的视听场景理解都差点意思。
AVS任务与SSL任务的比较
视听分割迎难而上,提出要准确分割出视频帧中正在发声的物体全貌
即以音频为指导信号,确定分割哪个物体,并得到其完整的像素级掩码图。AVSBench数据集
要怎么研究这个新任务呢?
鉴于当前还没有视听分割的开源数据集,研究人员提出AVSBench数据集,借助它研究了新任务的两种设置:
1、单声源(Singlesource)下的视听分割
2、多声源(Multisources)下的视听分割
数据集中的每个视频时长5秒。
单声源子集包含23类,共4932个视频,包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关的发声物。
AVSBench单源子集的数据分布
多声源子集则包含了424个视频。
结合难易情况,单声源子集在半监督条件下进行,多声源子集则以全监督条件进行。
研究人员对AVSBench里的每个视频等间隔采样5帧,然后人工对发声体进行像素级标注。
对于单声源子集,仅标注采样的第一张视频帧;对于多声源子集,5帧图像都被标注这就是所谓的半监督和全监督。
对单声源子集和多声源子集进行不同人工标注
这种像素级的标注,避免了将很多非发声物或背景给包含进来,从而增加了模型验证的准确性。一个简单的baseline方法
有了数据集,研究人员还抛砖引玉,在文中给了个简单的baseline。
吸收传统语义分割模型的成功经验,研究人员提出了一个端到端的视听分割模型。
这个模型遵循编码器解码器的网络架构,输入视频帧,最终直接输出分割掩码。
另外,还有两个网络优化目标。
一是计算预测图和真实标签的损失。
而针对多声源情况,研究人员提出了掩码视听匹配损失函数,用来约束发声物和音频特征在特征空间中保持相似分布。部分实验结果
光说不练假把式,研究人员进行了广泛实验。
首先,将视听分割与相关任务的6种方法进行了比较,研究人员选取了声源定位(SSL)、视频物体分割(VOS)、显著性物体检测(SOD)任务上的各两个SOTA方法。
实验结果表明,视听分割在多个指标下取得了最佳结果。
和来自相关任务方法进行视听分割的对比结果
其次,研究人员进行了一系列消融实验,验证出,利用TPAVI模块,单声源和多声源设置下采用两种backbone的视听分割模型都能得到更大的提升。
引入音频的TPAVI模块,可以更好地处理物体的形状细节(左),并且有助于分割出正确的发声物(右)
对于新任务的视听匹配损失函数,实验还验证了其有效性。
OneMoreThing
文中还提到,AVSBench数据集不仅可以用于所提出的视听分割模型的训练、测试,其也可以用于验证声源定位模型。
研究人员在项目主页上表示,正在准备比AVSBench大10倍的AVSBenchv2。
一些视频的分割demo也上传在主页上。感兴趣的话可以前往查看
论文地址:
https:arxiv。orgabs2207。05042
GitHub地址:
https:github。comOpenNLPLabAVSBench
项目主页:
https:opennlplab。github。ioAVSBench
完
量子位QbitAI头条号签约
关注我们,第一时间获知前沿科技动态
巴西大胜,2022版梦幻四重奏成型赛后问到姆巴佩,内马尔无语巴西在世界杯前倒数第二场热身赛再次轻取对手,以3:0战胜实力不俗的非洲劲旅加纳。队中头号球星内马尔表现出色,完成2次助攻。热刺前锋里沙利松独中两元,大巴黎中卫马尔基尼奥斯角球建……
女篮世界杯中美大战评分四人满分三将不及格,教练组运筹帷幄女篮世界杯小组赛,中国女篮迎来大热门美国,为了这场比赛,美国女篮全主力火线回归,比赛首节中国还能咬住比分,但从第二节开始,美国多点开花的优势尽显,尤其在李梦和王思雨休息后,中国……
诗歌写诗何靠山摄影《写诗》文何靠山不知道什么时候开始喜欢写诗也不知道是什么时候喜欢你一个飘雪的夜独自走在凌晨三点半的寒冷路上哼唱着你最喜欢听的……
重返帝国只需小氪一下,直接起飞《重返帝国》备受关注的千城之战,即将震撼打响!全新版本新增六大势力、多名全新英雄、势力战场,以及势力援军、兵种韬略、联盟技能、飞艇改造、收藏图鉴等众多玩法,相信这些大胆创……
海尔智家半年报营收和利润逆势增长9。115。9卡萨帝高端品牌文天伟8月29日晚,海尔智家发布2022半年报。财报显示,上半年海尔智家实现收入1218。6亿元,较2021年同期增长9。1;实现归母净利润79。5亿元,较2021年同期……
芯片业由盛转衰三星等韩国制造商出货量三年来首次下滑三星手机芯片韩国芯片制造商7月份的工厂出货量遭遇了近三年来的首次下降,凸显出作为全球经济晴雨表的半导体需求疲软。在此之前,疫情等因素一度导致全球芯片供应紧张,创造了一个产……
她已辞职8月30日,中国银行发布公告称,本行董事会收到陈春花的辞呈。因个人工作原因,陈春花辞去本行独立非执行董事、董事会企业文化与消费者权益保护委员会主席及委员、战略发展委员会委员、人……
Aedas新作四川宜宾绿地文旅中心,自然地貌的全新诠释有着中国竹都之称的四川宜宾,坐落在金沙江、岷江、长江三江交汇处,是沿江城市带区域中心城市,更是四川南向开放的枢纽门户。优越的地理位置,使其成为成渝双城经济圈的重要组成。Y……
38岁文章近照太憔悴,脸色蜡黄独自开车就医,面部浮肿显老态饿了吗?戳右边关注我们,每天给您送上最新出炉的娱乐硬核大餐!11月22日,有八卦媒体曝光了文章的近况,晒出了他独自前往医院看病的视频,并感慨文章有些落魄,此事引发了网友热……
吉利丰田投资燃油,电动车时代里巨头为何开倒车?暴雪马上就在中国要废了,从九城时代,再到网易时代,80后90后们的BLZ(玻璃渣)游戏青春即将结束。它留下了很多的经典名词,比如GG(GoodGame)、GL(GoodLuck……
雷神科技北交所上市,电竞装备第一股底气何来?2022年12月23日,青岛雷神科技股份有限公司(简称雷神科技)在北交所上市,这也意味着资本市场正式迎来电竞装备第一股。作为海尔集团人单合一模式下投资孵化的明星创客公司,……
用什么勾勒男装全新轮廓?回望男装史有着鲜明的答案。无论是经典的战壕风衣,或者是猎装,再例如经典版型的西装。腰线在男士制衣中起到了承上启下关键的作用。当然,我们不会在此罗列男装历史。因为收紧的腰线……