澎湃Logo
下载客户端

登录

无障碍
  • +1

基于跨模态元迁移,美图&大连理工的参考视频目标分割方法只需单阶段

2022-05-30 09:05
来源:澎湃新闻·澎湃号·湃客
字号

机器之心专栏

机器之心编辑部

本文中,来自美图影像研究院(MT Lab)与大连理工大学卢湖川团队的研究者们共同探究了如何仅使用文本描述作为参考的视频目标分割任务,突破性地提出了首个单阶段方法 ——YOFO,能够有效地进行端到端训练并达到 SOTA 效果。该论文已被 AAAI 2022 接收。

引言

参考视频目标分割(Referring VOS, RVOS)是一个新兴起的任务,它旨在根据参考文本,从一段视频序列中分割出文本所指述的对象。与半监督视频目标分割相比,RVOS 只依赖抽象的语言描述而不是像素级的参考掩膜,为人机交互提供了一种更方便的选择,因此受到了广泛关注。

论文链接:https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf

该研究的主要目的是为解决现有 RVOS 任务中所面临的两大挑战:

如何将文本信息、图片信息进行跨模态融合,从而既保持两种模态间的尺度一致性,又能充分地将文本所提供的有用特征参考充分融入到图片特征中;

如何抛弃现有方法的二阶段策略(即先在图片级别逐帧得到粗略的结果,再利用该结果作为参考,经过增强时序信息的结构细化得到最终预测),将整个 RVOS 任务统一进单阶段的框架中。

对此,该研究提出了一种跨模态元迁移的端到端 RVOS 框架 ——YOFO,其主要的贡献和创新点为:

只需单阶段推理,即可实现利用参考文本信息直接得到视频目标的分割结果,在两个主流的数据集 ——Ref-DAVIS2017 和 Ref-Youtube-VOS 上获得的效果超越了目前所有二阶段方法;

提出了一个元迁移(Meta-Transfer)模块来增强时序信息,从而实现了更聚焦于目标的特征学习;

提出了一个多尺度跨模态特征挖掘(Multi-Scale Cross-Modal Feature Mining)模块,能够充分融合语言、图片中的有用特征。

实现策略

YOFO 框架主要流程如下:输入图片和文本先分别经过图片编码器和语言编码器提取特征,随后在多尺度跨模态特征挖掘模块进行融合。融合后的双模态特征在包含了记忆库的元迁移模块中进行简化,排除掉语言特征中的冗余信息,同时能保存时序信息来增强时间相关性,最后通过一个解码器得到分割结果。

图 1:YOFO 框架主要流程。

多尺度跨模态特征挖掘模块:该模块通过逐级融合不同尺度的两个模态特征,能够保持图像特征所传达的尺度信息与语言特征间的一致性,更重要的是保证了语言信息不会在融合过程中被多尺度图像信息所淡化淹没。

图 2:多尺度跨模态特征挖掘模块。

元迁移模块:采用了一种 learning-to-learn 策略,过程可以简单地描述为以下的映射函数。其中迁移函数

是一个卷积,则

是它的卷积核参数:

优化的过程可以表达为以下目标函数:

其中,M 代表能够储存历史信息的记忆库,W 代表不同位置的权重,能够对特征中不同的位置赋予不同的关注度,Y 代表储存在记忆库中的每个视频帧的双模态特征。该优化过程尽可能地使元迁移函数具有重构双模态特征的能力,同时也使得整个框架能够进行端到端的训练。

训练和测试:训练时所使用的损失函数是 lovasz loss,训练集为两个视频数据集 Ref-DAVIS2017、Ref-Youtube-VOS,并通过静态数据集 Ref-COCO 进行随机仿射变换模拟视频数据作为辅助训练。元迁移的过程在训练和预测时都要进行,整个网络在 1080ti 上的运行速度达到了 10FPS。

实验结果

研究采用的方法在两个主流 RVOS 数据集(Ref-DAVIS2017 和 Ref-Youtube-VOS)上均取得了优异的效果,量化指标及部分可视化效果图如下:

图 3:在两个主流数据集上的量化指标。

图 4:在 VOS 数据集上的可视化效果。

图 5:YOFO 的其他可视化效果展示。

研究还通过一系列的消融实验以说明特征挖掘模块(FM)以及元迁移模块(MT)的有效性。

图 6:特征挖掘模块(FM)以及元迁移模块(MT)的有效性。

此外,研究分别对使用了 MT 模块和不使用 MT 模块的解码器输出特征进行了可视化,可以明显地看出 MT 模块能够正确地捕捉到语言所描述的内容且对干扰噪声进行过滤。

图 7:使用 MT 模块前后的解码器输出特征对比。

关于研究团队

本论文由美图影像研究院(MT Lab)和大连理工大学卢湖川团队的研究者们共同提出。美图影像研究院(MT Lab)是美图公司致力于计算机视觉、机器学习、增强现实、云计算等领域的算法研究、工程开发和产品化落地的团队,为美图现有和未来的产品提供核心算法支持,并通过前沿技术推动美图产品发展,被称为「美图技术中枢」,曾先后多次参与 CVPR、ICCV、ECCV 等计算机视觉国际顶级会议,并斩获冠亚军十余项。© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

原标题:《基于跨模态元迁移,美图&大连理工的参考视频目标分割方法只需单阶段》

阅读原文

    哆哆女性网起名姓韩宝宝起名免费软件版读书观后感600字外贸seo好吗梦见买桃子吃桃子 周公解梦华为手环4pro外贸怎么做网站优化副食店怎么起名字好听5c5c5c.com制作一个网站多少钱电力器材公司起名叶罗丽精灵梦真正破解版缺土和缺火起什么名字慈溪网站建设网站推广美国网站制作深圳电子商务网站设计万网网站建设金昌制作网站诗经氓保安公司该怎么起名忍者杀手se邱氏少女起名大全情侣qq秀商丘到云南专线微营销的推广策略饺子馆起取名大全湘潭高端网站建设爱塔珠宝按摩师刘成刘雪小说免费周易取名大全免费取名淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻不负春光新的一天从800个哈欠开始有个姐真把千机伞做出来了国产伟哥去年销售近13亿充个话费竟沦为间接洗钱工具重庆警方辟谣“男子杀人焚尸”男子给前妻转账 现任妻子起诉要回春分繁花正当时呼北高速交通事故已致14人死亡杨洋拄拐现身医院月嫂回应掌掴婴儿是在赶虫子男孩疑遭霸凌 家长讨说法被踢出群因自嘲式简历走红的教授更新简介网友建议重庆地铁不准乘客携带菜筐清明节放假3天调休1天郑州一火锅店爆改成麻辣烫店19岁小伙救下5人后溺亡 多方发声两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#青海通报栏杆断裂小学生跌落住进ICU代拍被何赛飞拿着魔杖追着打315晚会后胖东来又人满为患了当地回应沈阳致3死车祸车主疑毒驾武汉大学樱花即将进入盛花期张立群任西安交通大学校长为江西彩礼“减负”的“试婚人”网友洛杉矶偶遇贾玲倪萍分享减重40斤方法男孩8年未见母亲被告知被遗忘小米汽车超级工厂正式揭幕周杰伦一审败诉网易特朗普谈“凯特王妃P图照”考生莫言也上北大硕士复试名单了妈妈回应孩子在校撞护栏坠楼恒大被罚41.75亿到底怎么缴男子持台球杆殴打2名女店员被抓校方回应护栏损坏小学生课间坠楼外国人感慨凌晨的中国很安全火箭最近9战8胜1负王树国3次鞠躬告别西交大师生房客欠租失踪 房东直发愁萧美琴窜访捷克 外交部回应山西省委原副书记商黎光被逮捕阿根廷将发行1万与2万面值的纸币英国王室又一合照被质疑P图男子被猫抓伤后确诊“猫抓病”

    哆哆女性网 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化