MPASNET：用于视频场景中无监督深度人群分割的运动先验感知SIAMESE网络-轻识

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

人群分割是拥挤场景分析的基础任务，获取精细的像素级分割图是人们非常希望实现的。然而，这仍然是一个具有挑战性的问题，因为现有的方法要么需要密集的像素级注释来训练深度学习模型，要么仅仅从光学或粒子流与物理模型生成粗略的分割地图。在本文中，作者提出了运动先验感知Siamese网络(MPASNET)用于无监督人群语义分割。这个模型不仅消除了注释的需要，而且产生了高质量的分割图。特别地，作者首先分析帧间的相干运动模式，然后对集合粒子采用圆形区域合并策略生成伪标记。此外，作者为MPASNET配备了siamese分支，用于增强不变正则化和siamese特征聚合。在基准数据集上的实验表明，作者的模型在mIoU方面的性能优于目前最先进的模型12%以上。

MPASNET与以往方法的比较

论文创新点

据作者所知，这项工作是第一个专注于人群分割的基于无监督深度学习的模型。作者的贡献总结如下:

作者重新讨论了基于运动相似度的方法，并提出了以集体运动粒子为中心的掩模圆形区域合并来产生近似的标注用于深度人群分割。
作者设计了一个端到端的暹罗网络和相关的损耗函数来学习自生成的伪标签。
作者在两个有代表性的数据集上评估了作者的无监督方法，显著优于最先进的方法。

框架结构

提出的MPASNET结构。(a)以增广图像为输入的暹罗分支。(b)暹罗特征聚合。(c)运动引导圆形区域合并的伪标记。(d)分割头。

实验结果

与最新方法的定性比较。(一)原始帧。(b) CM[4]提取的运动粒子。(c) CrowdRL的分割结果。(d) CM合成的圆形区域合并伪标签。(e) MPASNET分割结果。(f)地面真理。作者的方法比其他方法有了明显的改进。

在IoU方面与最新方法的定量比较。MPASNET*表示没有siamese分支的训练MPASNET(即没有augmented - invariant regularization and siamese feature aggregation)。

每个成分的影响。AIR：增广不变正则化。SFA：Siamese特性聚合。Dice:Dice损失。CE：交叉熵损失。

结论

在本文中，作者提出了用于无监督深度人群语义分割的MPASNET。与现有的方法不同，作者的模型利用运动先验生成伪标签，无需人工操作，从而学习在缺乏地面真相的情况下生成高质量分割地图。实验表明，与最先进的无监督方法相比，作者的框架取得了实质性的改进。

论文链接：https://arxiv.org/pdf/2101.08609.pdf

- END -

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目31讲

在「小白学视觉」公众号后台回复：Python视觉实战项目31讲，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~