SwiftNet:实时视频对象分割

AI算法与图像处理

共 1895字,需浏览 4分钟

 ·

2021-03-16 17:13

点击下面卡片关注AI算法与图像处理”,选择加"星标"或“置顶”

重磅干货,第一时间送达





摘要


在这项工作中,作者提出了用于实时视频对象分割(VOS)的SwiftNet,它报告了77.8%的J &F和70 FPS的DAVIS 2017 test-dev数据集,在所有现有解决方案的整体精度和速度性能中都非常出色。作者通过像素自适应记忆(PAM)在基于匹配的VOS中精心压缩时空冗余来实现这一目标。暂时地,PAM自适应地只在对象显示显著变化的帧上触发更新。在空间上,PAM只在临时变化的像素上执行内存更新和匹配,显著减少了在分割无关像素上浪费的计算量。此外,SwiftNet引入了一个光聚合编码器,通过简化参考编码来加速分割。该代码将被公开,作者希望SwiftNet可以作为有效的视频对象分割的强大基线,并促进视频对象分割在移动视觉中的应用。


论文创新点


总之,本文突出了三个主要贡献:

  • 作者建议SwiftNet在整体分割精度和速度方面创造新的记录,从而为公开源代码的实时VOS提供一个强大的基线。

  • 作者指出时空冗余是实时VOS的致命弱点,并利用像素自适应记忆(PAM)组合变化感知触发器和像素更新匹配来解决该问题。还引入了光聚合编码器(LAE),以实现高效和全面的参考编码。

  • 作者在DAVIS 2016和2017以及YouTube-VOS数据集上进行了大量的实验,以77.8%的J & f和70 FPS的速度达到最佳的整体分割精度和速度性能。



框架结构


SwiftNet方法的说明。先执行实黑线表示的操作生成分割掩码,然后用虚线进行内存更新。

这是一个压缩的非局部计算的示例,为了简单起见,省略了下标t。

通过卷积生成图像特征图,计算含亚像素的掩模特征图。


实验结果


在DAVIS17验证集上显示SwiftNet (ResNet-50)定量结果。

在DAVIS 2017验证集上的定量结果。在下面的所有表中,OL表示在线学习,实时方法位于水平线以下。


结论


作者提出了一种名为SwiftNet的实时半监督视频对象分割(VOS)解决方案,它提供了最佳的整体精度和速度性能。SwiftNet通过使用像素自适应内存(PAM)明确压缩基于匹配的VOS的时空冗余来实现实时分割。在PAM中,使用变化感知触发器减少了时间冗余,该触发器自适应地选择增量帧进行内存更新,同时忽略静态帧。空间冗余通过像素级内存更新和匹配模块消除,该模块放弃全帧操作,只渐进地处理暂时变化的像素。此外,光聚合编码器的设计有利于全面和加快参考帧编码。总的来说,SwiftNet是非常高效和兼容的,通过发布源代码,作者希望它能够为更多实时VOS解决方案的到来奠定坚实的基础。


链接:https://arxiv.org/pdf/2102.04604.pdf

     
个人微信(如果没有备注不拉群!
请注明:地区+学校/企业+研究方向+昵称



下载1:何恺明顶会分享


AI算法与图像处理」公众号后台回复:何恺明,即可下载。总共有6份PDF,涉及 ResNet、Mask RCNN等经典工作的总结分析


下载2:终身受益的编程指南:Google编程风格指南


AI算法与图像处理」公众号后台回复:c++,即可下载。历经十年考验,最权威的编程规范!



   
下载3 CVPR2021

AI算法与图像处公众号后台回复:CVPR即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文

点亮 ,告诉大家你也在看



浏览 39
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报