TPAMI 2024 | 评估人脸图像质量:大规模数据库和Transformer方法

小白学视觉

共 40427字,需浏览 81分钟

 ·

2024-06-21 10:15

点击上方小白学视觉”,选择加"星标"或“置顶”

重磅干货,第一时间送达

      

Assessing Face Image Quality: A Large-Scale Database and a Transformer Method

题目:评估人脸图像质量:大规模数据库和Transformer方法

作者:Tie Liu; Shengxi Li; Mai Xu; Li Yang; Xiaofei Wang
源码:https://github.com/stayhungry1/FIQA


摘要

在过去的十年中,人脸图像的数量呈爆炸式增长,各种失真不可避免地存在于传输或存储的人脸图像上。这些失真导致人脸图像的可见和不良退化,影响了它们的体验质量(QoE)。为了解决这个问题,本文提出了一种基于Transformer的新型方法,用于人脸图像质量评估(命名为TransFQA)。具体来说,我们首先建立了一个大规模的人脸图像质量评估(FIQA)数据库,其中包含42,125张具有不同失真类型和多样化内容的人脸图像。通过广泛的众包研究,我们获得了712,808个主观评分,据我们所知,这为评估人脸图像质量提供了最大的数据库。此外,通过研究建立的数据库,我们全面分析了失真类型和面部组成部分(FCs)对整体图像质量的影响。相应地,我们提出了TransFQA方法,其中开发了面部引导的Transformer网络(FT-Net),通过一种新的渐进式注意力机制整合全局上下文、面部区域和FC详细特征。然后,设计了一个针对特定失真的预测网络(DP-Net),以加权不同的失真并准确预测最终质量分数。最后,实验全面验证了我们的TransFQA方法在人脸图像质量评估方面显著优于其他最先进的方法。

关键词

  • 人脸图像数据库

  • 图像质量评估

  • Transformer

I. 引言

过去十年,人脸图像和视频,如自拍人脸、虚拟会议和在线访谈,见证了数据量的爆炸式增长。鉴于有限的带宽和存储资源,图像压缩对于减少数据量至关重要。然而,图像压缩不可避免地会导致人脸图像的显著退化,例如阻塞、噪声和模糊伪影,这显著影响了用户端的体验质量(QoE)。因此,迫切需要研究对人类感知有贡献的人脸图像质量,这是图像质量评估(IQA)的核心。此外,通过评估视觉质量,可以预防压缩和传输过程中对人脸图像的不良退化;还可以应用质量增强来减轻人脸图像上的严重失真。

近年来,人们对从实用性或保真度的角度评估人脸图像的视觉质量越来越感兴趣。具体来说,与实用性相关的IQA方法能够自动测量图像对于面部识别的效用[1], [2], [3], [4], [5], [6], [7], [8]。例如,Abaza等人[2]提出了测量IQA因素,即对比度、亮度、焦点和照明,以预测人脸图像的效用。Phillips等人[3]提出了一种贪婪修剪排序(GPO)预言机,作为面部识别性能提升的估计上限。然后,他们将13种质量度量与该预言机在识别性能方面进行了比较。在[6]中,Hernandez-Ortega等人首先通过计算目标图像与同一主题的最高质量图像之间的欧几里得距离来生成真实标签。然后,他们使用真实标签来微调面部识别网络以进行效用预测。最近,Ou等人[8]提出了一种无监督方法,考虑了类内和类间相似性分布距离,以预测面部效用。尽管有许多人为了实用性相关的IQA工作,但很少有工作[9], [10], [11], [12]关注人脸图像的保真度相关IQA。更重要的是,这些方法通过简单地应用为通用图像开发的IQA方法来评估人脸图像质量,从而忽略了面部领域的特定先验知识。此外,现有方法无法处理人脸图像上不同类型的失真,这在实践中是常见的。为了解决现有工作的上述问题,本文提出了一种新型的人脸图像IQA方法。

在本文中,我们首先建立了一个大规模的数据库用于人脸图像质量评估(称为FIQA数据库),我们的FIQA数据库包含了总共42,125张人脸图像,其中包括625张参考人脸图像。我们数据库中的人脸图像展现出多样化的特性,包括各种表情、不同年龄和背景,从而确保了内容的多样性。此外,我们的数据库包含了丰富的失真类型,包括7种单一失真、与3个代表性的恢复任务相关的失真,以及4种代表性的混合失真和现实世界中的失真。进一步地,我们进行了广泛的主观质量评估研究,以获得真实场景下的质量得分。总共有1,432名参与者加入了我们的众包研究,我们获得了712,808个主观评分。然后执行了严格的数据处理流程,以确保我们数据库的可靠性。结果就是,对于每张人脸图像,我们至少获得了15个可靠的主观评分。基于建立的FIQA数据库,我们彻底分析了失真类型和面部组成部分(FCs)对图像质量的影响。我们发现,人类对不同失真类型的敏感性和感知结果是不同的。此外,人脸图像的主观质量与其FCs的质量比非面部区域(NFRs)的质量更相关。

受我们发现的启发,我们提出了一种基于Transformer的人脸图像质量评估方法(命名为TransFQA)。据我们所知,我们的TransFQA方法是面部特定的Transformer用于质量评估的开创性工作。我们的TransFQA方法由4个主要网络组成,即解析和干线网络(PS-Net)、区分性FC嵌入网络(DF-Net)、FC引导的Transformer网络(FT-Net)和特定失真预测网络(DP-Net)。更具体地说,PS-Net提取空间特征并预测面部掩模,这提升了人脸图像质量评估的性能。紧接着PS-Net之后,DF-Net结合来自PS-Net的面部掩模生成区分性的FC嵌入,以供后续的FT-Net使用。然后,我们提出的FT-Net将全局上下文和面部区域(FR)融合为新设计的Transformer的键和值。同时,FT-Net将FC详细特征作为查询整合进来,并最终以一种新颖的渐进方式获得增强的质量特征。与此同时,FT-Net预测了一个失真向量,该向量暗示了当前扭曲图像中每种失真类型的概率。最后,我们提出了DP-Net,利用失真向量实现特定失真的质量预测。

据我们所知,我们的工作是首次尝试对FC质量依赖性进行建模,并处理不同类型的失真以评估人脸图像质量,这可能为未来关于扭曲人脸图像的研究铺平了道路。我们方法的主要贡献有三个方面:

  • 我们建立了一个大规模的人脸图像质量评估数据库,其中包含42,125张具有丰富内容的人脸图像,每种失真类型都有,并且每张人脸图像都至少由15名受试者进行了评分。我们的FIQA数据库可在 https://github.com/stayhungry1/FIQA 上在线获取。

  • 我们全面分析了人类对各种失真类型的敏感性和感知差异,并进一步研究了不同FCs对图像质量的影响。

  • 我们提出了TransFQA方法,其中注意力机制被用来捕捉不同FCs之间的质量依赖性,并且多个特定失真预测器被自适应地融合,用于具有不同失真类型的人脸图像的IQA。

III. FIQA 数据库

在本节中,我们建立了FIQA数据库,作为评估面部图像质量的先决条件。我们的FIQA数据库具有以下几个显著优势:

  • 大规模:FIQA目前是评估面部图像质量的最大数据库,包含42,125张面部图像和相应的712,808个主观评分,由1,432名参与者评定。

  • 全面性:我们的FIQA数据库涵盖了7种单一失真以及与3个基本恢复任务相关的新兴退化,以及4种代表性的混合失真和实际应用中的实际失真,全面接近现实世界情况。

  • 现实性:FIQA包括从不同来源收集的实际面部图像,以及由于传统和新出现的实际应用中产生的失真。这些图像展现了现实世界场景中多样和隐含的失真组合。

  • 多样性:我们FIQA数据库中收集的面部图像表现出多样性,包括不同的背景、年龄和表情。

A. 源内容和失真刺激

我们的FIQA数据库由4个子集组成:单一失真的面部图像(FIQA-S)、恢复的面部图像(FIQA-R)、多重失真的图像(FIQA-M)以及实际图像(FIQA-W)。总共,我们的数据库基于42,125张面部图像构建,其中625张是参考面部图像。在许可许可下,这些参考面部图像是从Flickr [40]和Karras等人 [41]收集的。根据3个标准选择参考面部图像:(a) 图像质量高;(b) 每个图像仅包含1个人脸;(c) 选定图像中的人脸姿势范围从-90°到90°,即不仅仅是近正面面孔。所有参考图像的分辨率均为1024×1024。因此,收集的图像表现出多样性,包括不同的表情、不同的年龄和背景,从而确保了我们数据库的多样性。



  • FIQA-S:有7种代表性的单一失真类型,即HEVC压缩(HC)、JPEG压缩(JC)、模糊(BR)、噪声(NE)、对比度变化(CC)、饱和度变化(SC)和空间失真(SD)。每种失真类型都包含4或5个质量降级级别,在预定义范围内。总共有32个质量降级级别,分别对应FIQA数据库中的每个参考面部图像。请注意,对于每种失真类型的不同级别,我们确保失真的面部图像既可以在感知上区分开来,又能涵盖广泛的感知质量范围。因此,通过在不同降级级别下损坏每个参考图像,总共获得了20,000张失真的面部图像,即更高级别对应更多的失真。

  • FIQA-R:面部图像质量评估对于最近的工业应用至关重要。因此,我们将3个典型的实际面部图像恢复任务整合如下:

    1. 面部超分辨率(FSR)。FSR也称为面部幻觉(FH),旨在从低分辨率(LR)图像重建高分辨率(HR)面部图像。FSR在实践中非常重要,例如长距离监控系统。我们选择了属于3个不同类别的代表性FSR方法,即传统[42]、目标驱动[43]和感知驱动[44]FSR。

    2. 低光照面部增强(LFE)。在不令人满意的光照条件下拍摄的面部图像受到可见性差和传递高级任务所需信息不理想的困扰。在这里,我们选择了属于2个不同类别的代表性方法,即传统[45]和数据驱动[46]的低光照增强。

    3. 盲面部恢复(BFR)。面部图像在现实世界场景中通常遭受复杂的退化,BFR近年来出现,以解决从多样化退化中恢复的挑战[47]。我们选择了代表性的感知驱动方法,BSRGAN [48]用于通用图像和PSFR-GAN [47]用于面部图像。

  • FIQA-M:面部图像在现实世界场景中可能经历多个阶段的失真[48]、[49]。我们整合了在实际场景中出现的代表性混合失真。(1) BR & SD。在获取过程中,面部图像可能容易受到BR和SD的联合失真,由于相对运动和远距离感知。(2) HC & JC。获取后,由于在线社交媒体服务和网络应用中的多次压缩过程,通常会发生退化。(3) NE & JC。面部图像可能在智能监控和犯罪侦查中,在获取和传输过程中大量受到NE(伪影)和JC(压缩过程中)的污染。(4) BR & SD & CC & SC。如上所述,BR & SD经常出现在获取过程中。获取的图像可能进一步被编辑或通过CC和SC操作失真。

  • FIQA-W:我们进一步从不同来源收集实际面部图像。从不同来源收集的面部图像在现实世界场景中展现了多样和隐含的失真组合。

每种失真类型的失真图像数量列在表II中。图2展示了我们FIQA数据库中4个子集中多样化失真的示例。从这个图中可以看出,我们FIQA数据库中面部图像的主观质量因不同类型的失真而异。由于空间限制,更多的失真面部图像示例在补充材料的图3-6中展示。失真的更多细节也在补充材料的第1.1节中解释。



此外,为了验证我们的FIQA数据库与现实世界场景的联系,我们分析了数据库的质量相关属性,与最近的实际世界数据库PIQ23 [12]进行了比较,该数据库用于智能手机肖像面部图像质量评估。更具体地说,PIQ23数据库包含5,116张由智能手机获取的实际失真肖像图像。然后,我们按照[50]使用5个质量相关属性来描述我们的FIQA和实际世界PIQ23数据库的统计特性。质量相关属性包括光线、对比度、色彩丰富度、模糊和空间信息(SI)。图3绘制了PIQ23数据库以及我们FIQA数据库的合成和实际失真的概率密度,关于上述属性。一般而言,PIQ23数据库对于这5个质量相关属性具有相对高斯式的分布,并且更接近中心;我们FIQA数据库的合成和实际失真在5个质量相关属性方面展现出与PIQ23数据库相似的分布。这验证了我们FIQA数据库中的合成和实际失真通常接近现实世界场景,突出了FIQA数据库的实用性。



B. 收集主观质量评分

在我们的实验中,我们开发了一个网站,以便于受试者在线对每组失真图像的质量评分。在质量评分实验之前,首先指导受试者通过失真而不是面部的审美质量来评定图像的质量。此外,我们确保了观看环境的一致性,符合以下标准:(1) 使用电脑或平板电脑对图像的主观评分进行评定。(2) 只能使用Firefox或Chrome浏览器访问我们的网站进行质量评分。(3) 图像在浏览器中的查看设置为其原始分辨率,以避免调整大小的影响。

质量评定的实验程序如图7所示(补充材料)。一般而言,实验程序基本上由两个阶段组成:训练和测试阶段。在训练阶段,向受试者展示了具有广泛质量水平和多样失真类型的失真图像样本,以便受试者对失真面部图像有一个大致的了解。然后,受试者休息约1分钟后进入测试阶段。在测试阶段,失真图像被随机分成4个会话。在每个测试会话中,观看每个失真图像后,受试者被要求通过我们的图形用户界面对其进行质量评定,如图8所示(补充材料)。考虑到每个受试者的实验环境可能比较复杂,受试者的评定可能受到审美质量的影响,我们采用了退化类别评定(DCR)双刺激方法[51]。具体来说,参考面部图像显示在左侧,受试者被告知在6-10秒内评估右侧失真图像的质量。我们采用了DCR 5级量表:5:不可察觉,4:可察觉但不烦人,3:稍微烦人,2:烦人,1:非常烦人。对于实际图像,我们遵循[52]采用绝对类别评定(ACR)5级量表,因为实际面部图像没有参考图像。这里,在每个测试会话的末尾插入了5个警报图像,以确保受试者仍然专注于实验。短暂休息后,受试者进入下一个测试会话,直到完成所有测试会话。

参与上述主观实验的受试者总数为1,432人,即887名男性和545名女性。这些受试者的年龄从19岁到55岁不等。最后,我们为每张失真的面部图像获得了至少15个有效的质量评定分数。在获得所有受试者的质量评分后,我们根据警报图像、评定时间和置信区间的标准,从群众中移除了不可靠的分数和受试者。更多关于标准的细节在补充材料的第1.3节中介绍。结果,我们从1,432名受试者中收集了总共712,808个原始主观评分。其中,通过上述标准移除了54,581个分数和91名受试者。最后,我们的FIQA数据库中有1,341名受试者对41,500张失真图像的658,227个质量评分。关于分数和受试者数量(比例)的详细信息,请参见补充材料中的表3。值得一提的是,每张失真面部图像的质量评分数量至少为15个,满足了ITU-R BT.500-13 [39] IQA标准要求的最低受试者数量。

C. 主观评分的验证

根据[31],一个IQA数据库应该包含具有高可靠性的主观评分,并涵盖从低质量到高质量的广泛视觉质量范围。首先,图4显示了我们FIQA数据库中所有主观评分的分布直方图。我们可以观察到,我们FIQA数据库的主观评分涵盖了从最低分1到最高分5的广泛主观质量范围。图5绘制了FIQA-S中每种基本失真类型在不同失真级别下的主观评分的箱线图。从这个图中可以看出,不同失真级别的主观评分在所有失真类型中都很好地分开了。此外,随着失真级别的增加,主观评分降低,表明主观评分能够反映其相应的失真级别。此外,FIQA-R和FIQA-M的结果可以在补充材料的图9中找到。

接下来,我们计算类内相关系数(ICC)[55]来评估我们FIQA数据库中主观评分的可靠性。值得一提的是,ICC是衡量受试者之间一致性或一致性的广泛使用的度量标准,这意味着主观评分的可靠性。较大的ICC值意味着主观评分在反映图像质量方面更可靠。表III报告了几个数据库的ICC结果。可以看到,我们FIQA数据库的ICC值与其他所有数据库相当,表明我们FIQA数据库的高可靠性。具体来说,我们在众包研究中获得的FIQA数据库的ICC值为0.60,甚至高于Li等人[53]、[54]在实验室中获得的值。



总之,上述关于分布和一致性的主观评分结果验证了我们FIQA数据库在面部图像IQA任务中的有效性。

IV. 数据分析

本节中,我们首先在IV-A部分调查基本失真对图像质量的影响,然后在IV-B部分分析复杂失真对图像质量的影响。最后,在IV-C部分,我们研究面部组成部分(FCs)对主观质量的影响,这些发现激发了我们在第五节中的架构设计。

A. 基本失真对图像质量的影响

发现1:对于面部图像,基本失真类型的主观质量下降在相同的客观质量下降下显著不同。

分析:图6.1绘制了我们FIQA-S数据库中不同基本失真类型的主观和客观得分对的散点图和线性拟合曲线,以可视化它们之间的相关性。客观得分包括PSNR和SSIM的结果,如图6的不同行所示。可以看到,在图6的第一行中,当PSNR下降10dB时,HC的主观得分降低2.5,而BR的主观得分降低仅为1.6。对于SSIM,结果也类似,如图6的第二行所示。因此,主观质量的下降在不同的失真类型下显著不同,即使在相同的客观质量下降下。这完成了发现1的分析。



发现2:在我们FIQA-S数据库中的所有失真类型中,人类对压缩失真的感知最为敏感,对颜色相关失真最不敏感。

分析:发现1表明人们对不同类型失真的敏感度不同。这里,我们进一步研究了我们FIQA-S数据库中基本失真类型对人类敏感度的差异。我们在图6中比较了不同基本失真类型的主观和客观得分的斜率系数。较大的斜率系数意味着主观得分在客观得分相同增加时增加得更剧烈,意味着人类对失真的感知更为敏感。如图6的第一行所示,HC和JC的斜率系数分别为0.25和0.27,在我们FIQA数据库中的所有失真类型中排名前两位。这表明在所有基本失真类型中,人类对压缩失真的感知最为敏感。这主要是因为图像压缩给面部区域带来了阻塞伪影和振铃效应,显著降低了人们对图像的可理解性。相反,CC和SC的斜率系数小于所有其他类型。这意味着在所有基本失真类型中,人类对颜色相关失真最不敏感。这可能是因为颜色相关失真对图像可理解性的影响较小。我们进一步在补充材料的图10中说明了定性结果。对于SSIM的另一个客观指标,除了NE失真外,也可以发现类似的结果,将在发现3中讨论。最后,完成了发现2的分析。

发现3:当它们的主观质量得分相似时,NE比其他基本失真类型对图像结构的降解更为严重。

分析:这里,我们研究了NE对图像结构退化的影响,并与其他基本失真类型进行了比较。图7显示了在不同主观得分范围内对7种基本失真类型的平均SSIM值进行评估的雷达图。我们可以从这个图中观察到,当它们的主观得分处于相同范围时,NE的平均SSIM值始终低于其他失真类型。这表明在相似的主观质量下,NE对图像结构的降解比其他类型的失真更为严重。特别是,当主观得分落入[1,2]的范围时,NE的SSIM值降低到0.2,这进一步表明NE严重降解了图像结构。最后,完成了发现3的分析。



B. 复杂失真对图像质量的影响

发现4:关于图像恢复,人类对BFR在PSNR方面的感知最为敏感,对LFE在SSIM方面的感知最为敏感。

分析:图8.2绘制了3个代表性任务中恢复图像的主观和客观得分对的散点图和线性拟合曲线。客观得分是通过PSNR和SSIM度量计算的。关于PSNR,BFR任务的斜率在恢复任务中最大。这可能是因为BFR处理的是盲目和复杂的退化,恢复主要基于感知驱动的方法,主观质量比客观PSNR度量得到了更好的改善。另一方面,关于SSIM,LFE的主观得分随着主观得分的提高而比其他任务增加得更快。这与SSIM度量的结构测量一致,而LFE几乎不会通过增强光照条件改变图像结构。这完成了发现4的分析。



发现5:当面部图像在多个阶段经历失真时,如果相同的失真发生在后续阶段,人类对最初轻微失真的图像的感知更为敏感。

分析:我们研究了在给定初始失真的情况下,后续失真对图像质量的影响。为此,我们计算了得分差异,以衡量在初始失真下人们对随后添加的失真的敏感度。然后,我们根据它们的得分变化将失真图像分为非重叠的集合,分为低、中和高灵敏度。图9绘制了按初始失真分类的主观质量得分的直方图。对于所有4种代表性的失真组合,当灵敏度从低变到高时,初始失真得分的直方图一致地向右移动。这表明当最初失真的面部图像具有高质量时,人类对混合失真中的质量变化更为敏感。这完成了发现5的分析。



C. 面部组成部分对图像质量的影响

发现6:面部图像的主观质量更多地依赖于面部区域(FR)的质量,而不是非面部区域(NFR)。

分析:在这里,我们随机选择了15个参考图像(对应960个失真图像)和30个真实世界的图像在我们的FIQA数据库中。这些图像的FR和NFR通过最先进的脸庞解析网络[47]提取用于主观注释。然后,我们进行了主观质量研究,以对每个提取区域的得分进行评分,并且获得了72名参与者评定的37,748个主观质量得分。在表IV中,我们使用皮尔逊线性相关系数(PLCC)、斯皮尔曼等级顺序相关系数(SROCC)、肯德尔等级顺序相关系数(KROCC)和均方根误差(RMSE)来衡量FR/NFR与整体图像主观得分之间的相关性。较大的PLCC、SROCC和KROCC值,或者较小的RMSE值,意味着FR/NFR的主观得分与整体图像的主观得分之间的相关性更高。从表IV中可以观察到,FR的PLCC、SROCC和KROCC值远高于NFR,而FR的RMSE值低于NFR。补充材料中的表4进一步列出了每种失真类型的相关性结果。这些结果表明,与NFR相比,FR的质量对面部图像的整体质量更为重要。这完成了发现6的分析。



发现7:眼睛和嘴巴区域对面部图像主观得分的影响大于鼻子、眉毛、耳朵、皮肤和头发区域。

分析:与发现6类似,首先从我们FIQA数据库中随机选择的面部图像中提取面部组成部分区域,包括眼睛、鼻子、嘴巴、眉毛、耳朵、皮肤和头发。然后,进行主观质量研究以对每个组成部分的得分进行评分,从而使另外251名参与者获得了132,112个主观质量得分。在表V中,我们报告了不同组成部分的主观得分与整体图像之间的相关性,包括PLCC、SROCC、KROCC和RMSE。从表中可以看出,眼睛和嘴巴的PLCC、SROCC和KROCC值远高于鼻子、眉毛、耳朵、皮肤和头发,而眼睛和嘴巴的RMSE值最低。这揭示了眼睛和嘴巴区域的质量与面部图像的整体主观得分更紧密相关,与其他组成部分相比。最后,完成了发现7的分析。



V. 提出的TransFQA方法

鉴于我们在第四节中的分析,本节中我们提出了TransFQA方法。图10展示了我们TransFQA方法的总体框架,它由4个主要网络组成:PS-Net、DF-Net、FT-Net和DP-Net。如图10所示,面部图像I首先输入到PS-Net中,其中面部先验模块预测面部掩模{ } 用于Nf个面部组成部分(FCs),并且干线CNN从面部图像中提取空间特征FS。
随后,DF-Net结合空间特征FS和面部掩模{ } 形成区分性的FC标记嵌入FE。在DF-Net之后,FT-Net基本上建立了一个新的Transformer架构,它明确地以渐进的方式整合了物理信息,即全局上下文、面部区域(FR)和FC详细特征,用于面部图像质量评估(IQA)。具体来说,对于全局线索,空间特征FS输入到全局IQA模块中以获得全面全局上下文特征P' 和失真向量 。同时,为了学习局部线索,嵌入FE输入到内部/FC(IFC)查询模块中,以捕获长距离内部和FC之间的关系,从而提高面部图像质量评估的性能。因此,可以获得FC详细特征U 。之后,给定FR图 ,增强的FR编码器模块通过渐进式注意力机制整合P' 、U ,获得增强的FR-FC质量特征D 。最后,失真向量 和质量特征D 输入到DP-Net中,该网络适应性地融合多个特定失真的预测器以产生面部图像的整体质量得分 。以下部分将介绍这4个网络的详细信息。

A. 解析和干线网络(PS-Net)

根据第四节中的发现6和7,面部图像的主观质量与其FCs的质量比与其非面部区域(NFRs)的质量更相关。因此,在PS-Net中开发了面部先验模块来预测面部掩模,这可以促进面部的质量评估。此外,PS-Net中采用了干线CNN来从面部图像中提取空间特征。PS-Net中面部先验模块和干线CNN的详细信息如下。
面部先验模块:面部先验模块的详细结构如图10所示。受到在面部对齐和解析中采用沙漏网络成功的启发[47] [57] [58],我们在面部先验模块中采用了具有编码器-解码器架构的沙漏网络,用于估计面部掩模。在编码器中,面部图像I输入到一系列残差块和下采样操作中进行特征提取。因此,可以获得编码特征E,如下所示:
其中Conv(·)和Dw(·)分别表示卷积层和下采样操作。另外,Rn(·)是编码器中第n个残差块的函数。然后,编码特征E输入到几个残差块中以进一步获得高级别特征 。最后,解码器使用一系列残差块和上采样操作,紧接着一个最终卷积层来预测面部掩模 :
这里,Up(·)表示上采样操作, (·)是解码器中第n个残差块的函数。根据预测的掩模 ,我们可以总结Nf个掩模 { } 用于质量评估,例如眼睛、嘴巴等。
Stem CNN:由于特征学习能力的突出表现,ResNet[59]已在许多计算机视觉任务中得到广泛应用,包括图像和视频的质量评估。如图10所示,我们使用ResNet50前3个阶段的卷积干线和残差块来提取空间特征,而不是最近IQA作品中的整个ResNet50[25] [26] [60]。这样,提取的特征尺寸可以保持在较大规模,以便于后续处理。然后,使用1×1卷积的转换层进行降维。我们获得空间特征FS ∈ RC×H×W用于学习全局上下文和FC相关特征,这些特征用于后续的DF-Net和FT-Net。这里,C是特征图的通道数;H和W分别表示特征图的高度和宽度。

B. 区分性FC嵌入网络(DF-Net)

发现7表明,面部图像的主观质量依赖于不同FCs的质量。因此,我们设计了DF-Net,以适当地结合Nf个面部掩模,其中可以生成一系列区分性的FC嵌入,用于FT-Net。更具体地说,DF-Net由每个FC特征嵌入(PFFE)模块组成,其结构如图11(a)所示。给定第i个FC的预测面部掩模 和空间特征FS,可以通过以下方式生成区分性质量特征:
其中⊙表示逐元素乘法,Convs(·)表示共享卷积层的操作。因此,我们可以生成一系列FC特征 {FD } ∈ RC×Nf ×H×W。
随后,我们沿FC、高度和宽度的维度,以Nt、Ht和Wt的间隔统一地将FC特征划分为管状标记。这个划分过程可以表示为:
其中N'f、H'和W'分别表示每个维度上的管状标记的数量。我们重新排列这些管状标记,然后采用线性层降低它们的维度,得到标记嵌入FE ∈ RC×N'f×(H'W')。数学上,我们可以通过以下管状标记化生成FC标记嵌入:
其中Pat(·)和Lin(·)分别对应管状划分和线性层的操作。

C. FC引导的Transformer网络(FT-Net)

根据发现1和2,不同类型的失真以不同程度影响人类感知。因此,我们在我们的FT-Net中提出了一个全局IQA模块来预测一个失真向量,该向量指示每种失真类型的概率。注意,失真向量可以用于辅助随后的DP-Net中的质量预测。同时,全局IQA模块能够从面部图像中提取全局上下文特征。另一方面,我们设计了一个IFC查询模块在FT-Net中。根据发现7,这个模块采用两种类型的注意力机制来学习FC详细特征,用于评估面部图像的质量。基于这两个模块,我们开发了增强的FR编码器模块,以渐进的方式整合全局上下文、FR和FC详细特征,目的是实现面部IQA的从粗到细的注意力。FT-Net中模块的更多细节如下。
全局IQA模块:在我们的全局IQA模块中,我们采用Transformer作为主干来捕获评估面部图像质量时的非局部长距离依赖性。如图11(b)所示,我们的全局IQA模块由一系列带有层归一化(LN)、多头自注意力(MSA)层和前馈网络(FFN)的Transformer编码器块组成,灵感来自ViT架构[61]。具体来说,给定空间特征 ,我们首先将它们分割成N个等大小的补丁,并采用线性层生成标记嵌入。可学习的位置上嵌入通过元素求和添加到标记嵌入中,得到 。以第l个编码器块为例,我们可以得到输出特征如下:
最后,给定最后一个编码器块编码的特征 ,全局IQA模块通过2个FFN生成全局上下文特征 和失真向量
其中Mean(·)表示沿长度维度的均值操作。这里,失真向量 指示每种失真类型的概率。这样,我们的全局IQA模块可以被鼓励去预测失真向量,并从全局视角对面部图像的长距离质量依赖性进行建模。
IFC查询模块:给定DF-Net中的区分性FC标记嵌入 ,我们的IFC查询模块利用两种类型的注意力机制来模拟FC的内部和FC之间的质量关系,用于评估面部图像的质量。如图12(a)所示,我们的IFC查询模块由一系列Transformer编码器块组成;每个块包含一个内部FC层、一个FC间层和一个FFN层。这里,可学习的位置上嵌入首先添加到FC标记嵌入 ,获得嵌入 作为编码器块的输入。接下来,以第l个编码器块为例,我们说明这两种类型的注意力机制。
  • 内部FC注意力机制:我们首先对每种个别FC标记嵌入内的空间区域之间的质量依赖性进行建模。具体来说,输入嵌入 输入到内部FC层,并且只在同一FC标记嵌入内的所有补丁之间进行自注意力。以第i个FC标记嵌入为例,其内部FC层的操作可以表示为:
其中 的第i个FC嵌入,而 表示内部FC的MSA函数。这里,我们对 个FC嵌入应用内部MSA操作,并得到输出特征
  • FC间注意力机制:我们在第二种类型中捕获不同FC标记嵌入之间的质量关系。具体来说,来自内部FC层的输出特征 输入到FC间层,在该层中,只在同一空间区域的不同FC嵌入的所有补丁之间进行自注意力。对于 的第i个空间区域,FC间层的操作可以表示为:
其中 表示 在第i个空间区域的补丁序列,而 表示FC间的MSA函数。对 的N个空间区域进行FC间操作,得到输出特征
通过FC间层之后,特征流入FFN层以生成输出
最后,我们可以从最后一个编码器块获得FC详细特征 ,用作随后增强的FR编码器模块中的查询。总结来说,利用上述两种注意力机制,我们的IFC查询模块结合了区分性的FC标记嵌入,以捕获FC内部和FC之间的质量关系,从而提高面部图像质量评估的性能。
增强的FR编码器模块:在全局IQA和IFC查询模块之后,增强的FR编码器模块整合了两个关键组件(如图12所示):(1)面部区域多头自注意力(FR-MSA)基本上学习粗略的注意力,关注一般失真区域;(2)多头交叉注意力(MCA)层学习细粒度的注意力,以获得增强的FR-FC质量特征。我们的增强FR编码器模块的总体推理方案在算法1中展示。具体来说,全局上下文特征是通过密集采样标记并计算一些与面部图像质量弱相关的非信息区域之间的相关性来获得的。因此,我们设计了FR-MSA层,使用FR图 作为线索,以关注信息丰富区域(算法1的第3-15行)。FR-MSA的详细结构如图12(c)所示。可以看到,两个路径中的值通过值GV和FR嵌入FR_a重新加权。这样,FR嵌入FR_a突出了FR中的重要信息,并忽略了NFR中的不相关信息。此外,在算法1的第18-19行中,使用FC详细特征 来计算查询,而FR相关特征Gl被转换为键和值。总结来说,有Le个块迭代地融合全局上下文、FR和FC详细特征,获得增强的FR-FC质量特征 用于DP-Net。

D. 特定失真预测网络(DP-Net)

考虑到在发现1和2中人类对各种失真类型的不同敏感度和感知结果,我们设计了DP-Net来利用失真向量实现特定失真的质量预测。近年来,许多工作尝试估计失真信息,并将该信息考虑在图像质量评估(IQA)任务中[64] [65]。一般来说,这些工作使用固定网络进行多任务学习,包含两个流。然而,固定网络因表示能力有限而无法有效建模图像失真空间,且不灵活地处理具有不同失真类型的图像。为解决这个问题,给定失真向量 ,我们提出了特定失真质量评估(DSQA)模块,它在我们DP-Net中通过自适应融合多个特定失真的预测器来进行质量预测。
具体来说,受到超网络[26]和动态卷积[66] [67]的启发,我们设计的DSQA模块由几个卷积层构成。以第 层为例,我们首先将失真向量 个特定失真预测器的参数 [ ] 融合:
然后,我们使用自适应加权的预测器生成输出质量得分
其中,DSC(·|·) 表示卷积层的操作, 是层的总数。此外, 表示第 层的输出特征。注意,第 层学习到的参数 是依赖于输入图像的,而不是对所有输入图像都是固定的。
通过这种方式,DP-Net能够根据不同失真的特性和人类对它们的感知敏感度,动态调整并融合多个特定失真的预测器,从而更准确地评估图像质量。

VI. 实验

A. 实验设置

实现细节:在本节中,我们将全面评估所提出的TransFQA方法在评估人脸图像质量方面的性能。评估基于我们提出的FIQA数据库,该数据库被随机分为训练集(29,050张图像)、验证集(4,150张图像)和测试集(8,300张图像),比例大约为7:1:2,与大多数IQA作品[27]中纯净内容的独立性保持一致。我们进行了重复实验,以验证我们的TransFQA方法的平均性能,通过随机分割训练、验证和测试集。重复试验进行了10次,以减少偏差。对于所提出的TransFQA方法,编码器和解码器阶段的残差块数量分别为Ne = 4和Nd = 4。我们设置Lg = 12用于全局IQA模块,Li = 6用于IFC查询模块,Le = 12用于增强FR编码器模块。DSQA模块的总层数Ld设置为3。此外,我们的TransFQA是在Pytorch平台上实现的。所有实验都是在配备Intel(R) Core(TM) i9-10980XE @ 3.00 GHz CPU和Nvidia GeForce RTX 3090 GPU的系统上进行评估的。
训练协议:对于面部先验估计,我们使用像素级交叉熵来衡量预测掩模ˆIM与真实掩模IM之间的面部组件分割精度。具体来说,分割损失LS定义为所有FCs的平均交叉熵:
其中 分别表示第i个通道在位置(m, n)的IM和ˆIM的值。此外,Nc是FCs的总数。由于我们的FIQA数据库不包含手动标记的面部掩模,我们使用了CelebAMask-HQ数据库[68]中30,000张带有掩模注释的面部图像来训练我们的面部先验模块。
此外,对于人脸图像的质量评估,我们结合了欧几里得距离和交叉熵损失,并使用以下损失训练了TransFQA方法中其余模块:
其中s是主观分数,x是表示真实失真类型的向量。另外,λ1和λ2是加权超参数,分别设置为0.01和1。此外,我们采用了Adam优化器[69],初始学习率为10^-4,并在10个周期后采用了权重衰减方案,衰减因子为10。
评估指标:人脸图像质量评估的性能可以通过测量预测质量和相应真实质量分数之间的一致性来评估。为此,我们采用了5个标准指标,即PLCC、SROCC、KROCC、RMSE和MAE来指示分数一致性。具体来说,PLCC、RMSE和MAE衡量预测准确性,而SROCC和KROCC衡量预测单调性。因此,一个表现良好的IQA方法具有更高的PLCC、SROCC和KROCC值,同时实现更低的RMSE和MAE值。为了保持不同分数范围的一致性,我们遵循[70]首先使用非线性逻辑映射函数将预测质量分数拟合到相应的真实主观分数,然后计算拟合分数和主观分数之间的5个指标值。
基线:我们采用了4种针对评估人脸图像质量的最新方法作为比较,即SER-FIQ[7]、SDD-FIQA[8]、Gunasekar等人[11]和SEM-HyperIQA[12]。其中,Gunasekar等人和SEM-HyperIQA是与保真度相关的IQA方法,而SER-FIQ和SDD-FIQA是与实用性相关的IQA方法。此外,我们还比较了广泛使用的与通用自然图像保真度相关的IQA方法,包括DIVINE[15]、NIQE[62]、CNNIQA[20]、WaDIQaM-NR[23]、MetaIQA[25]、HyperIQA[26]、MUSIQ[60]、MANIQA[63]和VCRNet[27]。DIVINE和NIQE是基于NSS的方法,而其他方法是基于深度学习的IQA方法。表VI列出了上述基线方法的属性。此外,为了公平比较,除了SER-FIQ和SDD-FIQA之外的所有基于深度学习的方法都使用与我们相同的训练设置在FIQA数据库上进行了重新训练。对于每种重新训练的方法,我们选择了在验证集上表现最佳的模型。由于SER-FIQ和SDD-FIQA依赖于身份信息的真实标签,而这在FIQA数据库中是不存在的,我们使用它们的公开预训练模型与SER-FIQ和SDD-FIQA方法进行了比较。

B. 定量结果

表VI报告了我们的TransFQA方法和其他13种最新方法在PLCC、SROCC、KROCC、RMSE和MAE指标方面的实验结果,这些结果是在我们FIQA数据库的所有测试图像上获得的。从表中可以看出,我们的方法在所有5个指标上明显优于其他方法。具体来说,我们的TransFQA方法在PLCC、SROCC、KROCC、RMSE和MAE指标方面分别比第二好的方法SEM-HyperIQA提高了0.0490、0.0559、0.0690、0.0726和0.0760,比率分别为6.09%、7.02%、11.38%、12.91%和17.48%。此外,表VI中还报告了标准差值,表示置信区间。从表中可以观察到,我们的TransFQA方法稳定且一致地优于所有其他方法。为了进一步评估我们的TransFQA方法,我们在FIQA数据库中的每种失真类型上进行了性能比较,并将结果报告在补充材料的表5中,其中我们的方法在所有失真类型上一致优于比较方法。
为了进一步展示预测分数和主观分数之间的相关性,我们在图13中绘制了我们的方法和其他13种比较方法在FIQA数据库测试集上的预测和主观分数对的散点图。此外,还绘制了从预测分数回归得到的逻辑拟合曲线。可以观察到,我们TransFQA方法的预测分数随着真实主观分数的增加而增加,呈现出大致直线的拟合线,而散点接近拟合曲线。这意味着预测分数和主观质量分数之间存在强烈且正相关的关联,证明了我们方法预测的分数与人类标注的主观分数高度一致。此外,我们可以从图13中观察到,我们的方法在评估人脸图像质量时显示出统一的预测单调性。因此,我们的TransFQA方法能够准确预测人脸图像的主观质量分数,与现有最先进方法相比表现出最佳性能。
然后,我们进行了F检验[71]以评估IQA方法的优越性能是否具有统计显著性。对于每种IQA方法,我们首先计算了所有测试人脸图像的预测分数和主观质量分数之间的残差值的方差。一般来说,低方差表示IQA方法的鲁棒性和一致性。残差值在图14中报告,该图显示了我们TransFQA方法在比较方法中的方差最低。这验证了我们的方法在IQA中比现有最先进方法更鲁棒和一致。此外,图14中报告了两种IQA方法之间的F比率,通过将一种方法的残差方差(图14的列)除以另一种方法的残差方差(图14的行)来计算。这样,可以根据测试图像的规模(数量)确定一个阈值[71],在我们的FIQA数据库中为1.052。换句话说,在图14中,F比率值大于1.052表示行中的方法在99%的显著性水平上统计上优于列中的方法。从图14中可以看出,最后一行的所有F比率值都超过了阈值,证实了我们的TransFQA的性能在统计上优于所有13种比较方法。此外,t检验[72]结果在补充材料的图12中进一步展示。
我们通过在根据失真类型进行的训练/测试集分割上进行实验,评估了我们的方法在面对看不见的失真类型时的性能。更重要的是,训练和测试集与原始内容(即参考图像)不重叠,以进一步评估我们方法的泛化能力。具体来说,正如第III-A节中提到的,我们将FIQA数据库中的失真类型分为4个不重叠的类别,即FIQA-S、FIQA-R、FIQA-M和FIQA-W。由于FIQA-S中的失真是FIQA-R、FIQA-M和FIQA-W中失真的基本构建块,我们的评估从在FIQA-S上训练开始,然后测试其他看不见的失真类型。表VII报告了我们的TransFQA方法和其他13种比较方法在PLCC和SROCC方面的结果,当在看不见的失真上测试时。我们可以观察到,我们的TransFQA在跨类型评估中一致优于比较方法,在PLCC和SROCC方面分别比第二好的方法提高了至少0.0214和0.0221。上述结果验证了我们TransFQA方法的优越泛化能力。
上述评估是在我们提出的FIQA数据库上进行的。然后,我们在最新的智能手机肖像人脸IQA数据库PIQ23[12]上比较了不同方法的结果。具体来说,PIQ23数据库包含5,116张由智能手机获取的肖像图像。每张肖像图像都根据细节、曝光和整体属性进行了评分。我们按照默认设置[12]将数据库分为训练集和测试集,对应于场景/设备分割。然后,基于深度学习的保真度方法在PIQ23数据库的训练集上进行了重新训练。表VIII报告了平均实验结果,以PLCC、SROCC、KROCC、RMSE和MAE指标为依据。从表中可以看出,我们的方法在所有5个指标上都大大优于其他方法,这表明我们提出的TransFQA方法能够在评估人脸图像质量方面,在提出的FIQA和其他数据库上都优于现有的最先进方法。

C. 定性结果

为了从主观性能的角度进一步说明我们方法在IQA中的优越性能,我们遵循gMAD竞赛[30]评估了所提出的TransFQA方法。gMAD竞赛中有两个角色,即“防御者”和“攻击者”。gMAD竞赛本质上是在寻找由防御者IQA模型预测的图像质量相似的图像对,而根据攻击者IQA模型则有显著差异。如果图像对中的图像质量可以被人类轻易区分,则认为攻击者模型成功挑战了防御者IQA模型;否则,防御者模型就从攻击者的挑战中存活下来。一般来说,一个理想的IQA方法能够抵御来自比较方法的“攻击”,并且同时能够成功地攻击比较方法,符合人类的感知。
我们的TransFQA方法被用来与最佳比较方法SEM-HyperIQA[12]竞争。为了构建gMAD的游乐场,我们使用了包含2400张包含人脸的Waterloo Exploration数据库[30]中的图像,并且忽略了没有人类面孔的自然图像。图15展示了SEM-HyperIQA和TransFQA方法之间的gMAD图像对。我们还提供了该图下方的质量评分,这是通过遵循[73]进行主观测试,从16名受试者那里收集的,然后使用范围为[0, 100]的ACR方法。如图15(a)和(b)所示,当我们的TransFQA方法作为“防御者”时,由“攻击者”,即SEM-HyperIQA方法,从预测分数中最不同的图像对中选出的图像对,根据人类感知表现出相似的质量,这与我们的TransFQA方法高度一致。这意味着我们的TransFQA方法成功抵御了SEM-HyperIQA方法的“攻击”。相反,在图15(c)和(d)中,当我们的TransFQA方法作为“攻击者”时,顶部图像根据人类感知明显比底部图像质量更好,这意味着TransFQA能够找到被SEM-HyperIQA预测为相似图像质量的强有力反例,从而击败了SEM-HyperIQA方法。因此,上述定性结果证明了我们的TransFQA方法在输出与人类感知一致的准确和一致分数方面的优越性能。

D. 消融研究

本节介绍消融实验,以验证TransFQA方法中5个主要组件的有效性,即DF-Net的面部先验、IFC查询模块、增强FR编码器、FT-Net的整体架构,以及DP-Net中的DSQA模块。此外,我们还对混合训练数据和一般性能一致性进行了消融实验。
DF-Net的消融:我们首先通过比较DF-Net上的2个消融设置,进行了消融实验,以分析面部先验对我们TransFQA方法中质量评估的影响。具体来说,我们首先从PFFE模块中移除了面部先验,并将其称为Ours w/o FP。然后,我们减少了面部先验的通道数,并将其称为Ours RED。图16(a)展示了在上述消融设置下TransFQA方法产生的结果。观察到,在移除TransFQA方法中的面部先验后,Ours w/o FP设置的性能显著下降,这突出了先验在人脸图像质量评估中的作用。此外,通过与Ours RED设置比较,我们的TransFQA方法在包含10个通道的面部掩模时,在评估人脸图像质量方面表现更好,这表明了增加面部掩模的通道数可以提高性能。我们还在补充材料的图13中提供了DF-Net的定性结果。上述结果验证了TransFQA可以成功地融合面部先验,以增强人脸图像的质量评估。
IFC查询模块的消融:在我们的TransFQA方法中,IFC查询模块采用内部FC和跨FC层来学习FC详细特征,以评估人脸图像质量。用R代表跨FC,用A代表内部FC,简写,我们通过4个消融设置来评估我们的IFC查询模块的有效性:(1) 移除IFC查询模块中的内部FC和跨FC层(记为Ours w/o AR),(2) 用内部FC层替换IFC查询模块中的跨FC层(记为Ours AA),(3) 交换内部FC层和跨FC层(记为Ours RA),(4) 用跨FC层替换内部FC层(记为Ours RR)。
消融结果IFC查询模块显示在图16(b)中。从图中可以发现,包括内部FC和跨FC层的TransFQA方法取得了最佳结果,Ours和Ours RA的性能是可比的。此外,移除内部FC层或跨FC层中的任何一个都会略微降低评估性能,移除两个层会导致人脸图像质量评估的最差性能。因此,上述4个消融实验验证了在融合区分性FC嵌入时采用内部和跨FC线索的有效性,这对于所提出的IFC查询模块至关重要。
增强FR编码器模块的消融:我们进一步通过替换模块中的几个关键组件进行了消融实验,以验证增强FR编码器模块的有效性,即Ours w/o CF用于移除MCA和FR-MSA层,Ours w/o F用于移除FR-MSA层,Ours w/o C用于移除MCA层。表IX的前3行报告了在上述消融设置下获得的结果。结果验证了MCA和FR-MSA层对提高评估性能都有所贡献,这证实了我们TransFQA方法中所提出的增强FR编码器模块的有效性。
FT-Net的消融:我们通过比较我们的方法与其他4种基于Transformer的方法的性能和模型参数来评估我们的FT-Net,即MUSIQ[60]、MANIQA[63]以及我们的TransFQA方法的2个变体。对于这2个变体,我们用推荐的设置[61]、[74](记为Ours ViT和Ours CvT)替换了FT-Net。PS-Net的空间特征和预测掩模被连接作为ViT或CvT网络的输入,从而形成了将全局上下文、FR和FC详细特征整合的两个基线。如表X所示,我们的方法大大优于现有的基于Transformer的IQA方法MUSIQ[60]和MANIQA[63],即使模型参数更少。此外,我们可以观察到,替换我们方法中的FT-Net后,Ours ViT和Ours CvT(模型参数增加)的性能下降了。这种下降验证了我们FT-Net中新提出的Transformer架构在逐步聚合所有级别信息时的必要性。我们FT-Net利用物理信息的可视化结果在补充材料的图14中展示。
DSQA模块的消融:我们评估了所提出的DSQA模块中2个关键组件的有效性。具体来说,我们将TransFQA与2个消融设置进行了比较,即Ours w/o D用于移除失真向量,Ours MUL用于使用乘法操作来融合失真信息,这与[64]相同。表IX列出了消融结果。从表中可以看出,缺乏失真类型导致了相对较大的性能下降,这验证了融合特定失真质量评估策略的有效性。更重要的是 ,与Ours MUL设置相比,我们的TransFQA在所有5个指标上都有所提高,表明了适应多个特定失真线索的DSQA模块的有效性。
混合训练数据的消融:我们进一步通过替换真实世界数据库PIQ23中的训练数据进行了实验,以调查我们的FIQA数据库与真实世界失真的接近程度。具体来说,我们随机替换了PIQ23数据库训练集中的图像,用我们FIQA数据库中的合成失真图像。我们通过以下3种消融设置在训练期间验证接近度:(1) 用我们FIQA数据库中的合成失真图像替换PIQ23数据库训练集中的部分数据(记为Replacing);(2) 使用PIQ23数据库的整个训练集(记为Original);(3) 移除PIQ23数据库训练集中的部分数据(记为Removing)。注意,对于Replacing设置,训练的图像总数与Original设置相同。对于所有设置,我们在PIQ23数据库的整个测试集上评估性能。图17报告了我们的TransFQA方法在PIQ23数据库测试集上的性能,当使用上述3种消融设置进行训练时。从图中可以发现,Replacing设置的性能与Original设置相当,这表明我们的合成失真可以补偿真实世界图像,从而在PIQ23数据库上保持相似的测试性能。然而,如果不替换我们FIQA数据库中的图像,以相同比例移除训练图像将导致显著的性能下降;这进一步暗示了我们FIQA数据库的实用性。
一般性能一致性的消融:我们评估了所有比较方法在FIQA数据库中的合成和真实世界失真人脸图像上的性能。具体来说,我们根据FIQA数据库中的合成和真实世界失真将测试图像分为两组。我们在表XI中直观地提供了每种方法在上述两组中的排名,分别以PLCC、SROCC、KROCC、RMSE和MAE指标为依据。从表中可以观察到,比较方法在评估合成和真实世界失真时的一般一致性。例如,我们的TransFQA和SEM-HyperIQA[12]方法在所有方法中排名前两位,无论是合成失真还是真实世界失真,而基于实用性的方法,即SER-FIQ[7]和SDD-FIQA[8]在合成和真实世界场景中始终获得最后排名。这突出表明我们FIQA数据库中的合成失真具有代表性,并且与真实世界失真足够接近,以至于方法通常在合成和真实世界失真图像上取得了一致的优越(和较差)性能。

VII. 结论

在本文中,我们提出了TransFQA方法用于人脸图像的质量评估。首先,我们建立了迄今为止规模最大的人脸图像质量评估数据库,其中包含42,125张不同失真类型的人脸图像,每张图像的质量得分至少由15名受试者评定。接下来,我们深入分析了失真类型和面部组成部分(FCs)对整体图像质量的影响。受到这些发现的启发,我们提出了一种基于Transformer的新颖方法,包含4个主要网络,用于预测人脸图像的主观质量。特别是,FT-Net旨在通过新提出的渐进式注意力机制整合全局上下文、面部区域(FR)和FC的详细特征。此外,开发了DP-Net以权衡不同类型的失真,然后评定最终的质量分数。广泛的实验结果表明,我们的TransFQA方法在人脸图像质量评估方面显著优于其他最先进的方法。
未来,探索弱监督或无监督方法评估人脸图像质量的潜力将是有趣的。TransFQA方法可能通过少样本学习范式得到增强。同时,构建一个包含更多类型失真人脸图像的更大数据库,以及TransFQA方法在感知启发式视频编码等潜在应用方面的探索,可以视为另一个有前景的未来工作。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲
小白学视觉公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群


欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


浏览 91
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报