一文读懂3D人脸识别十年发展及未来趋势

人工智能与算法学习

共 2091字,需浏览 5分钟

 ·

2021-10-11 00:01

选自arXiv

来源:机器之心
人脸识别是机器学习社区研究最多的课题之一,以 3D 人脸识别为代表的相关 ML 技术十年来都有哪些进展?这篇文章给出了答案。

近年来,人脸识别的研究已经转向使用 3D 人脸表面,因为 3D 几何信息可以表征更多的鉴别特征。近日,澳大利亚迪肯大学的三位研究者回顾了过去十年发展起来的 3D 人脸识别技术,总体上分为常规方法和深度学习方法。

从左至右依次是迪肯大学信息技术学院博士生 Yaping Jing、讲师(助理教授) Xuequan Lu 和高级讲师 Shang Gao。

该调查通过代表性研究的详细描述来对各类技术进行评估,其中将技术的优缺点总结为对面部变化(表情、姿态和遮挡等)的准确性、复杂性和稳健性。该调查全面涵盖了 3D 人脸识别的常规方法和深度学习方法,并阐明了可用的 3D 人脸数据库和未来的研究挑战与方向。


论文地址:https://arxiv.org/pdf/2108.11082v1.pdf
该调查研究的主要贡献包括如下:

  • 这是第一篇全面涵盖传统方法和基于深度学习的 3D 人脸识别方法的调查论文;

  • 与现有调查不同,它特别关注基于深度学习的 3D 人脸识别方法;

  • 涵盖 3D 人脸识别最新、最前沿的发展,为 3D 人脸识别提供清晰的进度图;

  • 它对可用数据集上的现有方法进行了全面比较,并提出了未来的研究挑战和方向。


如下图 1 所示,根据所采用的特征提取方法,3D 人脸识别技术可以分为两类:传统方法和基于深度学习的方法。


3D 人脸数据库

大规模 3D 人脸数据库 / 数据集对于 3D 人脸识别的发展至关重要,它们用于训练特征提取算法并评估其性能。为了满足这一需求,许多研究机构和研究人员建立了各种 3D 人脸数据库。

下表 I 列出了当前突出的 3D 人脸数据库,并比较了数据格式、身份数量、图像变化(例如表情、姿势和遮挡)和扫描仪设备。


四种不同的 3D 数据格式如下图 2 所示——点云( 2a)、网格(2b)、距离图像(2c)或深度图,以及 3D 视频;两种类型的采集扫描仪设备:基于激光的和基于立体的。


传统方法

如下图 3 所示,传统 3D 人脸识别系统中有两个主要阶段:训练和测试。在训练阶段,需要 3D 人脸数据来生成特征库,面部特征通过数据预处理和特征提取模型获得,然后保存在特征库中;在测试阶段,获取一个探针作为目标人脸,并进行与训练阶段相同的数据预处理和特征提取过程。

人脸识别是一个匹配的过程。将目标人脸的特征向量与存储在特征库中的特征向量进行比较。扫描图库并返回匹配距离最近的人脸。如果距离小于预定义的阈值,则将目标人脸标记为已识别,否则失败。因此,人脸识别过程包含三个核心步骤:数据预处理、特征提取和人脸匹配。所有这些都会影响识别的性能。


下表 2 列举了基于局部特征的 3D 方法以及它们的重要细节。


基于深度学习的 3D 人脸识别

十年来,深度神经网络已成为最流行的人脸识别技术之一。与传统方法相比,基于深度学习的方法比图像处理有很大的优势。对于传统方法,关键步骤是根据 3D 人脸数据的几何信息找到稳健的特征点和描述符。与端到端的深度学习模型相比,这些方法具有良好的识别性能,但涉及检测关键特征的算法操作相对复杂。而对于基于深度学习的方法,可以通过在大型数据集上训练深度神经网络来学习稳健的人脸表征。

下表 III 总结了社区在该领域做出的非凡努力。Spreeuwers 提出了一种用于 3D 人脸配准的固有坐标系。该系统基于通过鼻子、鼻尖和鼻子方向的垂直对称平面。


混合 3D 人脸识别方法结合了不同类型的方法(基于局部和基于整体),并将局部和全局特征应用于人脸匹配。通过结合不同的特征提取技术,它们可以处理更多的面部差异,例如表情、姿势和遮挡。最近的混合方法在下表 IV 中进行了比较。


用于面部识别的深度神经网络很多,而卷积神经网络 (CNN) 是最受欢迎的。CNN 通常由卷积层、池化层和全连接层组成。卷积层的目的是从输入数据中提取特征。每个卷积层使用滤波器内核执行卷积操作并应用非线性传递函数。池化层的目标是通过将一层神经元簇的输出整合到下一层的单个神经元中来降低特征图的维度。通过 CNN 学习的稳健性和判别性特征表示可以显著提高人脸识别的性能。

下图 4 描绘了基于 Deep-CNN(DCNN)的常见人脸识别过程。


下表 V 列出了最近的基于 DCNN 的 3D 人脸识别技术。


下表 VI 总结了该调查列举的方法在 rank-1 的不同数据库上的识别率。与传统的人脸识别算法相比,基于 DCNN 的方法具有流水线更简单、性能更高的优点。一般来说,基于深度学习的方法不必执行关键点检测、人脸分割或特征融合。相反,它们只需要将 3D 数据转换为合适的网络输入格式(例如 2D 图像)。




浏览 66
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报