点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

作者：MrZH | 来源：知乎
https://zhuanlan.zhihu.com/p/120254892
转载：机器学习与生成对抗网络
仅分享，侵删

1. 为什么需要图像质量评估标准

图像/视频在传输、压缩和缩放过程中都会不可避免地遇到失真的情况，所以我们需要一种能够评价图片/视频经过变换之后质量损失程度的质量评价标准（quality assessment，QA）；这种评价应用其实很广泛（比如可以用作神经网络中的损失函数来度量生成图片的质量）。质量评估在图像压缩、视频编解码等领域有重要意义，因此学界对高效可靠的质量评估方式的需求日益增加。

相信大家一定对这张图非常熟悉。Lenna 图像已经成为被广泛使用的测试图像。今天，Lenna 图像的使用被认为是数字图像历史上最重要的事件之一

2. 评估标准分类

从评估对象来划分，QA可分为图像质量评估（Image Quality Assessment, IQA）和视频质量评估（Video Quality Assessment, VQA），该篇简述的主角是图像质量评估，视频质量评估方式与图像质量评估方式有着许多共通之处，读者可以自行了解，在之后的文章中也将会对其进行介绍。

质量评估标准分类

2.1 主观评估&客观评估

图像质量评估又可分为主观评估和客观评估。主观评估比较好理解，就是按照观看者的主观观感来对图像质量作出评价。一种常用的操作流程是给出原始图像（参考图像）和失真图像（待评估图像），并让观看者们对失真图像进行评分，然后对所有主观得分求和取平均得到平均主观得分（Mean Opinion Score）。近些年来主观评价方法在神经网络图像识别和风格迁移等领域有比较广泛的应用。

客观评估的思想是使用某种特定的数学模型给出参考图像和评估图像之间的差异量化值。检验一种客观图像质量评估算法是否可靠的标准，是其“是否与人的主观质量判断相一致”，即理想情况下客观评价分数高的失真图像同时也应该有高的主观评价分数。主观评估费时费力，并且受观看者个人喜好、显示设备、情绪等诸多因素影响；而客观评价方式具备自动化和分数不随观看者转移的优点，已经成为图像质量评估研究的重点。因此有必要设计出能够自动精准地预测图像质量的数学模型。

2.2 全参考&半参考&无参考评估

IQA按照原始参考图像是否存在/尺寸是否与待评估图像一致等又可以分为3类：全参考(Full Reference, FR-IQA)、半参考(Reduced Reference, RR-IQA)和无参考(No Reference, NR-IQA)。

全参考评估只能在拥有无失真的原始图像存在的情况下进行，难度相对较低。其核心思想是对两幅图像的信息量或特征相似度进行比较，由于信息充足，所以研究较为充分各种评价指标也比较成熟。

在实际应用情况中，往往无法获得准确参考图像或者根本无法获得参考图像，所以半参考和无参考评估也具有较高的实用价值。无参考评估是另一种极端情况，此时仅有失真图像而无任何参考图像，因此具有较高的挑战性。

半参考评估只有原始图像的部分信息或从参考图像中提取的部分特征，此类方法介于FR-IQA和NR-IQA之间。本文主要介绍基于全参考的图像客观评估方式，对于其它几种评估方式，感兴趣的读者可以在“图像质量评估综述”[1] 中作进一步了解。

3. 具体的评估方式介绍

评估图像质量的方式有很多，有从像素差异入手的，也有从图像整体结构入手的。但是评估方式最终的目的是为了判断图像能否满足观众的舒适度，因此通常需要比较评估方式（计算模型）给出的数值结果与观测的主观值之间的接近程度。

3.1 PSNR

PSNR即峰值信噪比（Peak Signal to Noise Ratio），借助均方误差来计算图像失真情况，PSNR值越大代表失真图像与参考图像越接近，即画质越好。其计算公式大家一定不陌生：

其中I 和K 代表参考图像与失真图像，均为MxN 的图片（这里仅给出了一个通道的情况，对于RGB格式的图像需对三个通道均进行相应计算后取平均值）；MSE 为均方误差（Mean Square Error），代表了两张图片逐像素差异比较的结果；MAX 为像素可线束的颜色数目数（以像素采用8bit为例，该情况下MAX=2^8-1=255）。

PSNR是目前图像视频处理领域应用最为广泛的数值评估方式之一，因为它计算非常方便。但是它的局限性也非常明显，就是它“不够接近人眼的直观感觉”。从它的计算公式可以得知，它的评价指标是基于逐像素点的，也就是说一幅图像中的每个像素点对图像质量结果输出的权重是相同的，这非常不合理（比如人脸区域的像素噪声和大面积天空区域的像素噪声在同等严重程度的情况下，人的主观感受通常会是对前者难以忍受，而对后者有比较大的容忍度）；同时，人的视觉系统对于亮度信息的敏感度是强于色度信息的，以上种种因素导致PSNR给出的结果往往与人的主观感受大相径庭。

非常经典的一张图，出现于提出SSIM算法的论文中。可以看到即使是在MSE相同的情况下，人眼观看质量也可能天差地别；而之后要介绍的SSIM更接近人眼的主观感受

3.2 结构相似度SSIM（Structural Similarity Index）

论文链接：

https://www.cns.nyu.edu/pub/lcv/wang03-preprint.pdf

本文提出了结构相似度SSIM [2] 的概念，它是一种符合人类直觉的图像质量评价标准。从名字上我们不难发现，这种指标是在致力于向人类的真实感知看齐。

客观评价标准中会设计一个可见性误差（visibility of error）函数，这个函数会以某种标准计算参考图像（reference image）（也就是未失真的原始图像）和失真图像之间的差距，最后用计算出的值作为指标来衡量失真图像的质量。根据人眼的观看习惯，人总是倾向于首先捕捉整个画幅的所有信息后，再对细节内容进行细致的观察，同时，对于纹理信息变化较为剧烈的区域更敏感，而对于纹理信息变化缓慢的区域不以为意。怎样将这些特性通过评估模型反映出来是研究者们一直在探究的。

SSIM由亮度对比、对比度对比、结构对比三部分组成。其具体的计算方式如下所示：

上述计算公式中的、、为常数，避免分母接近于0时造成的不稳定性；S 函数为的简化形式。通过观察计算公式不难发现SSIM具有对称性、有界性（不超过1）和最大值唯一性。

在进行实际计算操作的时候，需要注意的是SSIM要求两张图片的大小相同，因此首先需要对图片进行尺寸统一；并且从计算公式可知亮度测量和对比度测量都是基于灰度进行的，因此需要对图片进行灰度化处理。加窗求窗内局部区域的SSIM指数，这样操作的效果要好于全局（即局部计算SSIM后取平均）。类比人眼睛每次只能聚焦于一处的特点，SSIM的提出者采用 sliding window 以步长为 1 计算两幅图各个对应 sliding window 下的 patch 的 SSIM，然后取平均值作为两幅图整体的 SSIM，称为MSSIM（Mean SSIM）（例如，用标准差为1.5的高斯加权函数作为加权窗口，每一步基于窗口内像素进行计算，得到由局部SSIM指数构成的SSIM指数映射矩阵。求和计算，用平均SSIM指数作为最终结果）。

3.3 多尺度结构相似度（Multi Scale Structural Similarity Index，MS-SSIM）

论文链接：

https://ece.uwaterloo.ca/~z70wang/publications/msssim.pdf

MS-SSIM [3] 在SSIM的基础上更进一步。其关注点在于，图像到观看者的距离、像素信息密集程度等因素均会对观看者给出的主观评价产生影响。论文中给出的一个例子是观看者给一个分辨率为1080p的较为模糊的画面的评分可能会比分辨率为720p的较为锐利的画面的评分高。因此在评价图像质量的时候不考虑尺度因素可能会导致得出片面的结果。因此MS-SSIM提出在不同分辨率（尺度）下多次计算结构相似度后综合结果得到最终的评价数值。其计算过程框图如下所示：

其中输入图像的长和宽都以为因子进行缩小。论文中给出了计算公式，并通过实验确定了最接近主观感受的参数值，如下所示：

3.4 基于信息量加权的结构相似度方案IW-SSIM（Evaluation of Information Content-Weighted SSIM）

论文链接：

https://sse.tongji.edu.cn/linzhang/iqa/evalution_iw_ssim/eva-iw-ssim.htm

IW-SSIM [4] 是MS-SSIM方法的进一步扩展，它引入了空间变化的权重。具体实现方式感兴趣的读者可以前往链接观看，在此不做赘述。

4. 全景视频/图片质量评估方式

基于逐点计算的PSNR并不符合人眼对亮度信息敏感而对色度信息迟钝的特性；同时人眼对一幅图像的观看重点往往落于视觉中心。因此传统的PSNR评价结果与人的主观感觉不一致。正如再上一篇简述中介绍的，常见的全景视频/图片的保存格式是ERP格式，尽管传统的图像质量评估方式能够直接应用在该格式的平面图像上，但是评价效果往往不尽如人意。一个最直接的问题就是，两极区域的像素“何德何能”与赤道区域的像素享有相同的评价中权重？在观看过程中人眼看到的实际上是投影到球面上的部分区域（有FOV限制），在ERP格式上对图像质量进行评价是否有失偏颇？

4.1 360Lib&针对全景视频/图片提出的新型质量评估标准

研究者们注意到了这些问题，并提出了多种方案来处理全景图像与传统图像在质量评价上的不同。360Lib [5] 是JVET小组设计并面向使用者公开的全景视频研究平台，主要关注投影方案的评价标准。在360Lib平台中的搭建中JVET小组采纳了一些学者提出的新型评价标准作为全景视频的客观质量评估标准，并实现了内置。它们包括WS-PSNR、S-PSNR、CPP-PSNR等。

360Lib中的全景视频评估系统框架

360Lib框架中新增的多种评价标准使用情况各不相同不同，同一种标准也可以在不同的情况下使用。评价对象的选取方式分为四种，分别为仅编码分析、跨格式分析、端对端分析和传统分析。

仅编码分析对应框架中间部分，用于分析格式转换后编码前的图像与经过编码解码后的图像之间的失真，用来评价投影方式对编解码失真度适应性。

跨格式分析在不同投影格式的图片之间进行分析，通过球面全景作为中间步骤链接，能反映出投影方式与球面投影之间均匀性关系。

端对端分析是在跨格式的基础上，再升采样并重构出ERP格式后进行失真比较的方式，在系统框架图中跨度最长，能综合反映投影好坏。

360Lib评价标准框架全面考虑各种情形，针对性地发现各种投影方案的优缺点。

4.2 WS-PSNR

WS-PSNR（Weighted to Spherically uniform PSNR）[6] 通过引入权重的方式对源视频与输出视频直接计算PSNR。其计算公式如下，记图像的大小为。

其中和分别为参考图像和测试图像点的像素值，为权重。权重值对于不同的投影方式有不同的选取。常见的ERP和CMP格式的投影权重的计算公式和示意图如下所示，亮度越高代表权重越大。

ERP与CMP格式的权重分布示意图，颜色越浅权重越大

WS-PSNR通过在平面图像上引入权重值来计算图像质量，遵循了人眼的观看习惯，客观性高；完全平面操作使其与现有视频编码框架兼容性好，复杂度低；图像中的每一个点都参计算，准确性高。它的缺点是无法进行跨投影格式的评估，因为参考图像和测试图像必须是相同投影类型，否则不同格式的权重值无法客观比较。

4.3 S-PSNR

S-PSNR（Spherical PSNR）[7] 使用球面上一系列预先确定位置的点来对参考图像和测试图像进行采样，比较它们两两之间的差值，累加得到整幅图像的S-PSNR值。

S-PSNR的计算过程示意如下所示。对于球上的点s，分别找到参考序列和测试序列上相应位置的点（在360Lib中非整数位置用距离其最近的整数位置像素代替，而不使用差值，因此360Lib中的S-PSNR也写作S-PSNR-NN），然后计算两者之间像素值之差。对文件预先确定的点遍历，累加差值，最终得到S-PSNR。

S-PSNR计算过程示意图

S-PSNR的优点是能进行跨格式评估，同时不要求参考序列与测试序列图像分辨率相同，提高了灵活性。与WS-PSNR不同，S-PSNR用到了立体坐标计算，对于特定的全景图片来说，可以指定采样点的位置，对人眼更关注信息位置进行更密集的计算，以更贴近人眼的实际观看效果。

S-PSNR的不足是对于高分辨率图片来说，像素利用率低。在360Lib中使用的采样点位置信息文件中包含655362个点，以4K视频为例（3840x1920=7372800个像素），实际上仅有8.9%的像素参与失真计算，这对于其真实性是不利的。

4.4 CPP-PSNR

克拉斯特抛物线投影（Craster’s Parabolic Projection，CPP）[8] 是一种在地图学上常用的伪圆柱等面积投影方式，投影示意如图所示。CPP投影在相同空间分辨率下形状失真优于ERP投影，因为ERP两极区域像素被无限拉伸而引入数据冗余，而CPP对其进行了改进。

全景视频从球坐标到CPP投影坐标的变换公式为：

全景视频从CPP投影坐标到球坐标的逆变换公式为：

CPP格式的投影效果示意图。其与ERP最直观的区别在于对纬度的处理上，CPP并没有选择使画面完全填充矩形，保留了球面视频再不同纬度区域像素信息不同的特点

360Lib中CPP-PSNR计算过程为，将输入序列从ERP格式转换成CPP格式，再由CPP变换到其他的投影格式进行编码和后续操作，这样做的优势是免去了对冗余像素的处理过程，提高转换和编码效率。

在进行CPP-PSNR计算时需要对有效区域进行标注，因为CPP投影并没有完全填充矩形区域，原来ERP格式中的冗余像素在CPP格式中即显示为无有效含义像素，就像上图中的矩形角落。对参考序列和测试序列的有效区域进行传统PSNR计算，得到的值即作为CPP-PSNR输出。相对于传统PSNR，CPP-PSNR可以计算不同分辨率和不同投影格式的序列之间的PSNR。

5. 小结

到目前为止，已经有非常多种的图像质量评价标准被提出并应用于各个领域中。但是实际上，各类IQA算法给出的单一数值量化质量指标，还是无法很好地反映图像的综合质量和人眼观看效果。因此IQA评估算法目前只能解决一部分有明确指向的问题，还不能真正客观完备地解决现实生活中复杂和多变的图片信息，这也是研究者们目前仍在持续努力的方向。我们可以看到近些年来更多种的评估指标被不断提出，也有课题组开始尝试使用神经网络来给出图像质量的参考结果，有机会的话之后我们可以再深入地聊聊这方面的一些前沿内容。

参考文献

[1]小猪佩奇：图像质量评估综述

[2] cns.nyu.edu/pub/lcv/wan

[3] ece.uwaterloo.ca/~z70wa

[4] sse.tongji.edu.cn/linzh

[5] jvet.hhi.fraunhofer.de/

[6] Y. Sun, A. Lu, L. Yu, “AHG8: WS-PSNR for 360 video objective quality evaluation,” Joint Video Exploration Team of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11, JVET-D0040, Oct. 2016, Chengdu, China.

[7] Y. He, X. Xiu, Y. Ye, “AHG8: On cross-format S-PSNR-NN”, Joint Video Exploration Team of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11, JVET-F0042, April 2017, Hobart, Australia.

[8] Q. Xu, J. Boyce, Y. He, Y. Ye, “360Lib modifications for spherical rotation”, Joint Video Exploration Team of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11, JVET-F0065, April 2017, Hobart, Australia

图像质量量化评估标准综述

1. 为什么需要图像质量评估标准

2. 评估标准分类

3. 具体的评估方式介绍

4. 全景视频/图片质量评估方式

5. 小结

参考文献