最新《医学图像分割》综述，详述六大类100多个算法-轻识

来源：专知

医学图像自动分割是医学领域的一个重要课题，也是计算机辅助诊断领域的一个重要分支。U-Net由于其灵活性、优化的模块化设计和在所有医学图像模式中的成功，是最广泛应用的图像分割体系结构。多年来，U-Net模式获得了学术界和工业界的广泛关注。来自德国亚琛工业大学等学者《医学图像分割》综述，详述六大类100多个算法，非常值得关注！

该网络的几个扩展已经被提出，以解决医疗任务所产生的规模和复杂性。解决原始U-Net模型的缺陷是供应商为其业务利用适当的U-Net变体模型的首要步骤。在一个地方有一个不同变体的概要可以使构建者更容易识别相关的研究。此外，对于ML研究人员来说，这将帮助他们了解对模型构成挑战的生物任务的挑战。为了解决这个问题，我们讨论了U-Net模型的实际方面，并提出了一个分类法来对每个网络变体进行分类。此外，为了在临床应用中衡量这些策略的性能，我们提出在知名数据集上对一些独特和著名的设计进行公平的评估。我们提供了一个全面的实现库，其中包含训练过的模型，供未来的研究使用。此外，为了便于今后的研究，我们创建了一个在线U-Net论文列表，并列出了它们可能的正式实现。所有信息都收集在https://github.com/NITR098/Awesome-U-Net资源库中。

https://arxiv.org/abs/2211.14830

1. 引言

图像分割，定义为将整个图像划分为一系列区域，在广泛的应用中起着至关重要的作用。医学图像分割是该领域的一个重要例子，为临床使用提供了许多好处。自动化分割简化了数据处理时间，并通过提供特定任务的可视化和测量来指导临床医生。在几乎所有的临床应用中，可视化算法不仅提供了对人体组织异常区域的洞察，而且指导医师监测癌症进展。语义分割作为自动图像处理技术的一个准备步骤，可以通过建模来检测与手头任务更相关的特定区域(如心脏分割)[1]，从而进一步提高可视化质量。

图像分割任务可以分为两类:语义分割和实例分割[2]，[3]。语义分割是一种像素级的分类，将图像中的所有像素划分为相应的类别，而实例分割也需要基于语义分割来识别同一类别中的不同对象。设计分割方法来区分器官或病变像素需要特定于任务的图像数据提供适当的关键细节。用于获取数据的常见医学成像方式有x射线、正电子发射断层扫描(PET)、计算机断层扫描(CT)、磁共振成像(MRI)和超声(US)[4]。早期传统的医学图像分割方法主要集中在边缘检测、模板匹配技术、区域增长、图切割、活动轮廓线、机器学习等数学方法。近年来，深度学习已经在多个领域成熟起来，解决了许多特定于医疗领域的边缘案例。卷积神经网络(CNNs)成功地实现了图像的特征表示提取，从而在图像分割中消除了手工制作特征的需要，其优越的性能和准确性使其成为该领域的主要选择。

在[5]中提出了使用深度神经网络建模语义分割的初步尝试。该方法将输入图像通过卷积编码器产生潜在表示。然后在生成的特征图的顶部包含完全连接的层，以产生像素级的预测。这种体系结构的主要限制是使用完全连接的层，这耗尽了空间信息，从而降低了整体性能。Long等人[6]提出了完全卷积网络(FCNs)来解决这一限制。FCN结构在编码器路径上应用由卷积、激活和池化层组成的几个卷积块来捕获语义表示，并类似地使用卷积层和解码路径中的上采样操作来提供像素级预测。解码路径上的连续上采样过程的主要动机是逐步增加空间维度以获得细粒度分割结果。

受FCNs体系结构和编码器解码器模型的启发，Ronneberger等人开发了用于生物医学图像分割的U-Net[7]模型。它专门用于医学图像分析的实际使用，可以应用于各种模式，包括CT [8]， [9]， [10]， [11]， [12]， MRI [13]， [14]， [15]， [16]， [17]， US [18]， [19]， [20]， x光[21]，[22]，光学相干层析成像(OCT) [23]， [24]， PET[25]，[26]。

FCN网络，特别是U-Net，可以有效地利用有限的带注释数据集，利用数据增强(例如，随机弹性变形)提取图像的详细特征，而不需要新的训练数据，从而获得良好的分割性能[27]。这种优势使其取得了巨大的成功，并导致了U-Net模型在医疗细分领域的广泛应用。U-Net网络由两部分组成。第一部分是收缩路径，使用由几个卷积块组成的下采样模块提取语义和上下文特征。在第二部分中，扩展路径应用一组具有上采样操作的卷积块，在降低特征维数的同时，逐步提高特征图的空间分辨率，通常提高两倍，从而产生按像素划分的分类分数。U-Net最重要的部分是跳跃连接，它将收缩路径中每个阶段的输出复制到扩展路径中相应的阶段。这种新颖的设计沿着网络传播必要的高分辨率上下文信息，这鼓励网络在重复使用低级别表示和高上下文表示的同时进行精确定位。自2015年以来，这种新结构成为医学图像分割领域的骨干，并派生了该模型的几个变体，以推进基于它的最先进技术。

U-Net的自动编码器设计使其成为在重要应用中打破其结构的独特工具，例如，图像合成[28]，[29]，[30]，图像去噪[31]，[32]，[33]，图像重建[34]，[35]和图像超分辨率[36]。为了更好地了解U-Net模型在医疗领域的重要性，我们提供了图1，关于在处理医疗图像分析挑战时使用U-Net模型的方法的统计信息。从图1中可以明显看出，U-Net影响了医学图像分析领域的大多数不同分割任务，在过去十年中出版物数量的极端增长。

我们的综述涵盖了最新的基于U-Net的医学图像分割文献，并讨论了截至2022年9月提出的100多种方法。我们对这些方法的不同方面进行了广泛的回顾和阐述，包括关于普通U-Net的网络架构增强、医疗图像数据模式、损失函数、评估指标及其关键贡献。根据UNet及其变体的快速发展，我们提出了在我们的分类法中被频繁引用的方法的总结。我们将U-Net变体分为以下几类:

1) Skip Connection Enhancements

2) Backbone Design Enhancements

3) Bottleneck Enhancements

4) Transformers

5) Rich Representation Enhancements

6) Probabilistic Design

这份综述一些主要贡献概述如下:

本综述涵盖了U-Net及其变体在医学图像分割问题上的最新文献，并概述了截至2022年9月提出的100多个分割算法，分为六类。
我们对基于U-Net的算法的不同方面进行了全面的回顾和深刻的分析，包括基础U-Net架构的改进、训练数据模态、损失函数、评估指标及其关键贡献。
我们在流行的数据集上提供了一些评审方法的对比实验，并在GitHub上提供了代码和预训练的权重。

2. 分类体系

本节提出了一种分类法，该分类法组织了文献中提出的不同方法，以修改用于医学图像分割的U-Net架构。由于U-Net的模块化设计，我们提出了我们的分类法来处理U-Net的继承设计，而不是[37]中提供的概念分类法。此外，这一特性使得很难将每个研究只归入一个组，因此一个方法可能属于几个划分的组。图2描述了我们的分类法结构，我们认为这种分类法有助于该领域的组织，甚至有助于未来的研究。在第3节中，我们将讨论分类法的每个概念。在本节的其余部分，我们将首先解释原始的2D U-Net，然后，我们将介绍3D U-Net。最后，我们将从临床角度阐述U-Net模型的重要性。

图2 提出的U-Net分类法根据其基本设计思想对U-Net模型的不同扩展进行分类。更具体地说，我们的分类法考虑了U-Net模型的模块化设计，并显示了改进发生的地方(例如，跳跃式连接)。

图5:U-Nets核心在医学图像分析和临床使用中的详细概述。在研究论文中讨论了U-Nets如何参与临床决策的说明。第一个块处理图像采集、准备和预处理步骤，以为深度神经网络提供通用格式的数据。第二步使用神经架构搜索算法为手头的任务找到一个有效的架构，而第三步旨在执行后置操作，以进一步完善网络输出。最后，应用程序块使用软件输出来辅助专家进行某些操作(例如，肿瘤生长监测)。

3. U-NET扩展

U-Net是一个无处不在的网络，它在2015年首次发布时被引用了大约4.8万次。这证明它可以处理广泛领域的各种图像模式，而不仅仅是在医学领域。在我们看来，U-Net的核心优势是它的模块化和对称设计，这使得它适合广泛修改和与各种即插即用模块协作以提高性能。因此，通过追求这一线索，我们侵犯了Ronneberger等人的[7]网络，除了坚实的辅助修改外，还可以实现模块化改进的对等体，以实现SOTA或与分割性能相当的性能。在这方面，我们提供了我们的分类法(图2)，并将UNet修改的各种变体划分为如下的系统类别:

1) Skip Connection Enhancements