273FPS, mIoU 72!图像分割,只要这一个就够了!!!
共 2214字,需浏览 5分钟
·
2022-04-26 07:33
图像分割技术在医疗病灶分析、自动驾驶车道线分割、绿幕人像抠图等领域发挥着举足轻重的作用。相比目标检测、图像分类等技术,图像分割需要将每个像素点进行分类,在精细的图像识别任务中不可替代。
图1 图像分割应用
图2 各算法速度与精度平衡情况示意
如何能同时实现速度和精度的均衡,在当前云、边、端多场景协同的产业大趋势下高标准满足产业需求,是各届研究人员致力投入的方向。
PP-LiteSeg就是这样一个同时兼顾精度与速度的SOTA(业界最佳)语义分割模型。它基于Cityscapes数据集,在1080ti上精度为mIoU 72.0时,速度高达273.6 FPS , (mIoU 77.5 时,FPS为102.6),超越现有CVPR SOTA模型STDC,真正实现了精度和速度的SOTA均衡。
图3 PP-LiteSeg速度与精度
空口无凭,欢迎优秀的你直接试用! (记得Star收藏跟进最新状态)
传送门:
https://github.com/PaddlePaddle/PaddleSeg
PP-LiteSeg结构详解
那PP-LiteSeg为何可以拥有这么优秀的效果呢?
其基于编解码架构,提出三个创新模块:灵活的解码模块(FLD)、注意力融合模块(UAFM)、简易金字塔池化模块(SPPM)。具体而言,PP-LiteSeg模型首先使用轻量级STDCNet作为编码模块, 然后将编码模块的输出作为SPPM模块的输入,得到具有全局上下文信息的特征图,最后使用FLD解码模块从深层到浅层不断融合特征图,得到分割结果。
图4 PP-LiteSeg结构图
灵活的解码模块(FLD)
为了消除传统解码模块的冗余,PP-LiteSeg提出了灵活的解码模块(FLD)。随着层级从深到浅,传统解码模块中特征图的尺寸逐渐增大,通道数保持不变。而FLD模块中特征图的通道数逐渐减小,可以平衡不同层的算量。同时,根据编码模块灵活调整解码模块中通道数,平衡编码模块和解码模块的算量,使得整个模型更加高效。
图5 传统解码架构与FLD解码架构对比
注意力融合模块(UAFM)
PP-LiteSeg提出了统一注意力融合模块(UAFM)来有效地加强特征表示,而且设计了空间注意力模块(b)和通道注意力模块(c)。空间注意力模块使用输入特征图的空间相互关系来生成权重,表示空间维度不同像素点的重要性。通道注意力模块是使用输入特征图的通道相互关系来生成权重,表示不同通道的重要性。所以,UAFM充分利用了输入特征的空间以及通道之间的关系,加强了特征表示。
图6 (a) UAFM模块的结构图 (b) 空间注意力模块 (c) 通道注意力模块
简易金字塔池化模块(SPPM)
上下文融合模块是语义分割模型中不可或缺的一部分。基于PPM模块的设计思想,PP-LiteSeg设计了一种简易金字塔池化模块(SPPM)。SPPM模块主要操作:
使用空间金字塔池化操作来融合特征图的信息,其中有三个全局池化算子,分别输出1*1, 2*2, 4*4尺寸的特征图;
对小尺寸的特征图执行卷积和上采样运算,得到通道和尺寸相同的特征图; 将上一步的输出进行相加,执行以个卷积运算后,得到最终的特征图。和传统PPM模型相比,SPPM模块减小了中间特征图的通道数、移除了跳跃连接、使用加法算子替换级联算子。
图7 简易金字塔池化模块(SPPM)
正是基于这些模块的设计与改进,最终PP-LiteSeg超越其他方法,在1080ti上精度为mIoU 72.0时,速度高达273.6 FPS , (mIoU 77.5 时,FPS为102.6),实现了精度和速度的SOTA平衡。更多关于PP-LiteSeg的内容,请参考:
https://github.com/PaddlePaddle/PaddleSeg/tree/develop/configs/pp_liteseg
扫码报名直播课
进入技术交流群
4月26日20:30,百度资深高工将为我们详细介绍精度和速度平衡的PP-LiteSeg,对其原理及使用方式进行拆解,更有汽车金属垫片缺陷分割实战,加上直播现场互动答疑,还在等什么!抓紧扫码上车吧!
图1
END