基于半监督深度学习网络的水体分割方法

引用本文

吴宇鑫, 陈知明, 李建军. 基于半监督深度学习网络的水体分割方法[J]. 郑州大学学报(理学版), 2023, 55(6): 29-34.

WU Yuxin, CHEN Zhiming, LI Jianjun. Semi-supervised Deep Learning Network Based Water Body Segmentation Method[J]. Journal of Zhengzhou University(Natural Science Edition), 2023, 55(6): 29-34.

基金项目

国家自然科学基金项目(31570627);湖南省自然科学基金面上项目(202049382)

通信作者

通信作者: 李建军(1970—)，男，教授，主要从事林业及生态信息化研究，E-mail: lijianjun_21@163.com

作者简介

吴宇鑫(1997—)，男，硕士研究生，主要从事深度学习和计算机视觉研究，E-mail: samwu5597@163.com

文章历史

收稿日期：2022-06-25

Contents Abstract Full text Figures/Tables PDF

基于半监督深度学习网络的水体分割方法

吴宇鑫, 陈知明, 李建军

中南林业科技大学计算机与信息工程学院湖南长沙 410004

收稿日期：2022-06-25

基金项目：国家自然科学基金项目(31570627);湖南省自然科学基金面上项目(202049382)

作者简介：吴宇鑫(1997—)，男，硕士研究生，主要从事深度学习和计算机视觉研究，E-mail: samwu5597@163.com.

通信作者：通信作者: 李建军(1970—)，男，教授，主要从事林业及生态信息化研究，E-mail: lijianjun_21@163.com.

摘要：水体分割是遥感图像语义分割的一个重要应用方向，现有的深度学习语义分割方法，无法有效分割复杂的水体边界、难以将空间信息和语义信息统一。为了解决上述问题，提出一种针对水体分割的深度学习网络。网络引入了注意力感知机制，能够对特征图中重要的信息加权，提高了对水体边界轮廓的感知能力。为了解决网络上采样过程中语义信息和空间信息不平衡的问题，将不同尺度的特征图融合进行预测。采用半监督框架对网络进行训练，充分利用无标记图像的特征信息，增强了网络的分割性能。实验表明，提出的网络分割性能优于其他现有语义分割网络。

关键词：水体分割语义分割注意力机制多尺度特征融合半监督深度学习卷积神经网络

Semi-supervised Deep Learning Network Based Water Body Segmentation Method

WU Yuxin, CHEN Zhiming, LI Jianjun

School of Computer and Information Engineering, Central South University of Forestry and Technology, Changsha 410004, China

Abstract: Water body segmentation is one of important application direction of semantic segmentation of remote sensing images. The existing deep learning semantic segmentation methods still had some shortcomings, such as complex water body boundaries couldn′t be segmented effectively, and the spatial and semantic information couldn′t be unified. In order to solve the problems, network for water body segmentation was proposed. The attention-aware mechanism was introduced, which could weight the important information in the feature map and improve the perception ability of the water body boundary contour. In order to solve the problem of imbalance between semantic and spatial information in the sampling process, the network fused feature maps of different scales for prediction. A semi-supervised framework was used to train the network. The feature information of the unlabeled images was fully utilized to enhance the segmentation performance of the network. Experiments showed that the segmentation performance of the network proposed was better than other existing semantic segmentation networks.

Key words: water segmentation semantic segmentation attention mechanism multi-scale feature fusion semi-supervised deep learning convolutional neural network

0 引言

水体检测是图像语义分割在遥感图像处理领域的一个重要应用，旨在分割出图像中包含像素级别的水和非水的部分，可作为水灾预警的判断依据之一。传统的遥感图像水体检测方法主要是基于阈值的方法，对遥感图像光谱的不同波段进行组合，对于水体和非水体部分会在不同波段呈现出不同的反射率，从而确定阈值区分水体部分和非水体部分^[1]。但此类方法大多泛化性较差，只能在特定的影像条件或者局部区域得到好的分类结果, 面对复杂的水体几何形态时, 采用传统的遥感影像水体检测方法难以取得较好的检测结果^[2]。

近年来，深度学习蓬勃发展，基于深度学习的水体分割方法极大提高了遥感影像水体检测能力。区别于传统方法手工构建特征，深度学习使用卷积神经网络自动提取遥感影像特征，能够重复利用并挖掘图像信息，在分割精度和准确度上超越了传统方法。虽然自然场景的深度学习方法已经取得了相当大的进展，但水体图像的语义分割仍面临着一些挑战：池塘以及狭窄的河流等小型水体在分割结果中被忽略、复杂几何结构的水域边界分割模糊。

对于这些问题，本文针对水体检测任务提出一种半监督深度学习的网络。首先，在网络中引入注意力感知模块(attention perception, AP)，提高网络的空间特征提取能力，提升网络对边界的感知。其次，提出多尺度特征融合模块(multi-scale feature fusion, MFF)，在网络下采样和上采样的过程中对不同尺度的特征图进行加权整合，进一步提高网络的特征提取能力，有效规避了语义分割上采样过程中的空间信息衰减问题。最后，本文将网络嵌入平均教师(mean-teacher)半监督框架中，针对水体分割任务对半监督框架的一致性正则化过程进行扩展，充分利用无标记数据来辅助网络进行学习，进一步提升网络分割性能。

1 本文方法 1.1 网络模型整体结构

图 1是模型整体框架，有标签的图像训练学生模型(student model)，训练过程中的每一个批次之后，都将历史的学生模型参数和本批次中训练的学生模型参数进行加权平均, 并作为教师模型(teacher model)的参数。利用扩展的一致性正则化原则将无标记图像几何变换(transforms)后作为教师模型输入，再将无标记图像先作为学生模型输入，对输出图像进行几何变换。将两个模型得到的输出计算其均方误差，并作为半监督学习中一致性正则化的损失项。学生模型和教师模型的网络结构如图 2所示，网络主干采用Unet结构，即编码器和解码器结构。编码器作为特征提取分类模块，使用resnet-50作为骨干网络。同时，为了加强对水体边界细节，在每一层的编码器和解码器模块添加了AP。在解码器中使用MFF模块进一步融合特征图，提升水体分割精度。

图 1 扩展的一致性正则化半监督框架 Fig. 1 Extended consistent regularization semi-supervised framework

图 2 网络结构图 Fig. 2 Network structure

1.2 注意力感知模块

受到scSE^[3]的启发，在编码器和解码器中每一层卷积块后都加人$\mathrm{AP}$模块。每一层卷积后的特征图设为$X \in \mathbf{R}^{H \times W \times C}, H 、W$分别为特征图的高度和宽度, $C$为通道数。模块结构如图 3所示, 注意力被分为空间注意力和通道注意力, 分别形成空间注意力特征图$X_{S}$和通道注意力特征图$X_{C}$, 最终两个特征图对应像素点相加得到输出特征图$X_{S C}$。

图 3 注意力感知模块 Fig. 3 Attention perception module

通道注意力特征图的生成, 是对原特征图$X$通道维度上的加权, 首先通过平均池化, 将每个通道上的特征图大小压缩至$1 \times 1$。经过两个全连接层将通道之间相关性联系起来, 得到对应每个通道的权重, 并与原特征图$X$相乘得到通道注意力特征图$X_{C}$。空间注意力特征图$X_{S}$的生成则是通过卷积将通道维度的信息进行压缩, 而保留空间信息, 得到一个$1 \times W \times H$的空间注意力权重, 此权重反馈了空间分辨率层面逐个像素点的重要程度, $X_{S}$由该权重与原特征图$X$相乘得到。

1.3 多尺度特征融合模块

在解码器上采样过程中，特征图的空间分辨率不断放大，但是特征图的空间信息会随着上采样过程而变得粗糙，无法进行精准的定位。因此受到超柱^[4](hypercolumn)的启发，在预测的时候将解码过程中所有的特征图融合作为预测的输入。对于解码器结构中每一层的特征图，将底层和高层的特征图上采样统一大小，然后进行维度上的拼接, 再连接一个3×3的卷积核，这样能有效将低层特征图的语义信息和高层特征图的空间信息进行融合。

1.4 平均教师(mean-teacher)半监督框架 1.4.1 半监督网络结构

如图 1所示，设计了一个针对水体分割的模型。在半监督任务中, 训练集由$N$个标注数据和$M$个未标注数据构成。本文将标注数据表示为$D_{L}=\left\{\left(x_{i}, y_{i}\right)\right\}_{i=1}^{N}$, 未标注数据表示为$D_{U}=\left\{\left(x_{i}, y_{i}\right)\right\}_{i=N+1}^{N+M}$, 其中: $x_{i} \in \mathbf{R}^{H \times W \times 3}$表示输人的RGB三通道图像; $y_{i}=(0, 1)^{H \times W}$是分割标注。半监督分割学习任务的目标是通过学习网络参数$\theta$来优化目标函数,

$ \min \sum\limits_{i=1}^{M} L_{S}\left(f\left(x_{i}, \theta\right), y_{i}\right)+\lambda \sum\limits_{i=1}^{N+M} L_{C}\left(\theta^{\prime}, D_{L}, D_{U}\right), $

(1)

其中：f(·)表示分割网络；θ表示学生模型的权重；θ′表示教师模型的权重；L_S是监督学习的损失函数，考虑分割水体任务可能存在正、负样本不平衡的问题，损失函数具体设计为交叉熵损失^[5]和focal^[6]损失的均值；L_C表示一致性正则化损失。简而言之，就是给同一个输入x_i进行不同的数据扰动，分别使用教师模型和学生模型进行预测，将两者的预测结果求均方误差。λ表示平衡监督学习和半监督学习损失函数比例的权重因子，该比例因子随着训练时期不同动态变化，总体趋势是不断增加的。数值和训练迭代次数的关系为

$ \lambda=0.1 \mathrm{e}^{-5\left(1-\frac{c}{m}\right)^{2}}, $

(2)

其中：m为训练设定的最大迭代次数；c为当前迭代次数，c取值为[0，m]。研究表明^[7]，训练的每一次迭代对模型的权重进行集成，能够使模型预测精度不断上升。在每一次迭代中，学生模型更新完成后，将自己的权重采用指数移动平均值(EMA)^[8]方式传递给教师模型，

$ \theta_{t}^{\prime}=\alpha \theta_{t-1}^{\prime}+(1-\alpha) \theta_{t}, $

(3)

其中：θ_t′表示当前迭代的教师模型权重参数；$\theta_{t-1}^{\prime}$表示上一次迭代的教师模型的权重参数；θ_t表示当前迭代的学生模型权重参数；α表示对应的比例因子。因此，教师模型更新的过程为：当前迭代的教师模型权重由上一次迭代的教师权重和当前迭代的学生模型权重以比例α组合而成。α是一个决定教师模型对学生模型依赖程度的一个量化值。α过小，当前教师模型权重更新会更多依赖学生模型权重。反之，则当前的教师模型权重就会更多依赖上一次迭代的教师模型权重。通常要让训练过程中教师模型权重在前期依赖学生模型，而在训练后期则依赖上一次迭代的教师模型。因此在整个训练过程中需要动态调整α，使得α值从0逐渐增大至0.99。

1.4.2 扩展的一致性正则化

在标准平均教师半监督模型中，一致性正则化的设计仅仅是对输入图像x_i添加一个随机扰动，这种扰动通常为随机噪声，因此公式(1)中$L_{C}\left(\theta^{\prime}, D_{L}, D_{U}\right)$的一般形式为

$ L_{C}\left(\theta^{\prime}, D_{L}, D_{U}\right)=\left\|f\left(x_{i} ; \theta^{\prime} ; \varepsilon^{\prime}\right)-f\left(x_{i} ; \theta ; \varepsilon\right)\right\|^{2} \text {, } $

(4)

其中：ε′、ε表示对输入数据x_i进行不同的扰动。将扰动后的数据分别输入教师模型和学生模型，得到的两个分割结果的均方误差作为一致性正则化的损失。一致性正则化的目的是达到一个理想的分类网络，即使对输入数据进行微小的干扰，其预测结果应该是一致的。对于分类任务而言，这种扰动可以是噪声，也可以是对输入图像的几何变换。然而，在图像分割任务中，任务是像素级别分类。由于卷积操作不能保证空间变换一致性，旋转后的输入图像得到的预测无法与输入图像直接预测后再旋转保持一致。基于此，受到Li等^[9]以及邵伟志等^[10]的启发，本文将一致性正则化进一步扩展，在原有的旋转翻转空间变换基础上，增加了弹性形变。弹性形变的加入不会扭曲图像中水体信息。在教师模型输入前，先对数据不进行空间变换。而对学生模型输入的数据不进行任何变换，预测后再对数据进行空间变换操作，$L_{C}\left(\theta^{\prime}, D_{L}, D_{U}\right)$变为

$ \begin{aligned} & L_{C}\left(\theta^{\prime}, D_{L}, D_{U}\right)=\frac{1}{|A|} \sum\limits_{j=1}^{|A|} \| f\left(x_{i} ; \theta^{\prime} ; \varepsilon^{\prime} ; T_{j}\right)- \\ & f\left(x_{i} ; \theta ; \varepsilon ; T_{j}\right) \|^{2}, \end{aligned} $

(5)

其中：T_j表示空间变换形式；|A|表示进行了多少不同种类的空间变换，在本文中使用了旋转、翻转、弹性形变。扩展后的一致性正则化，在训练过程中会不断对输入数据进行空间变换，使网络模型逐步降低分割任务对空间变换的敏感程度。

2 实验结果与分析 2.1 数据集与评估指标

本文使用的数据集来自kaggle数据竞赛平台上开源的水体分割数据集^[11]，该数据集是由Sentinel-2卫星拍摄的一组水体图像，所有图像均被处理成三通道的RGB图像。该数据集共有2 841张图片，每张图像都带有一张黑白蒙版作为标记图像。如图 4所示。

图 4 数据集 Fig. 4 Dataset

使用准确率(precision)、召回率(recall)、交并比(IoU)来评价分割模型的性能。三个指标计算方式为

$ \begin{gathered} precision =\frac{T P}{T P+F P}, \\ recall =\frac{T P}{T P+F N}, \\ I o U=\frac{T P}{T P+F P+F N}, \end{gathered} $

其中：TP表示真正例，即准确提取出水体像素的总像素点数；FP表示假正例，即未提取出水体像素点总数；FN表示假反例，即未提取出非水体部分的像素点总数。

2.2 网络参数设置

本文网络训练使用pytorch深度学习框架。使用albumentations^[12]数据增强库对训练数据填充、翻转、随机裁剪操作。裁剪像素256×256作为网络输入，同时对标签图像进行同样的处理。编码器采用的resnet-50在imagNet上的预训练权重作为编码器的初始权重。本文网络在RTX2080Ti平台上训练，初始学习率为0.1，采用带动量的SGD进行优化，余弦退火算法动态调整学习率。

2.3 实验结果 2.3.1 与其他方法进行对比

本文提出的方法与其他常用的分割方法对比结果如表 1所示。本文所提方法的各指标均优于其他方法。水体分割图对比结果如图 5所示，相较于其他方法，本文提出的分割框架的结果分割精度更高，对边缘以及细小河流的分割更加精准。分割细节对比如图 6所示，得益于注意力机制对空间特征细节的提取以及多尺度模块对不同尺度特征的叠加，本文提出的方法对细小水域提取能力要高于其他方法。DeepLab v3有空洞卷积的设计，有效扩大了特征提取的感受野，也有着不错的性能，但与本文提出的方法相比仍有一定的差距。

表 1 水体分割各项指标对比 Tab. 1 Comparison of indicators for water segmentation

图 5 与现有水体分割方法对比 Fig. 5 Comparison with existing water body segmentation methods

图 6 分割细节对比 Fig. 6 Comparison of split details

2.3.2 消融实验

选用Unet作为消融实验的基础网络(baseline)，将本文方法中的三个模块分别添加到baseline中，以此来验证各个模块对baseline的影响。所有训练过程中的超参数设置相同，结果见表 2~3。

表 2 模块AP和MFF分别对网络的影响 Tab. 2 Impact of modules AP and MFF on the network respectively

表 3 使用半监督框架的影响 Tab. 3 Impact of using semi-supervised framework

1) AP模块

本文基于Unet网络，为Unet网络中编码器和解码器的每一层添加注意力模块(AP)。对特征图进行可视化，图 7中颜色越鲜艳表示网络模型参数对该区域的权重越大。添加了AP模块的网络特征图对水体部分关注程度更加集中，覆盖范围更广，对水体边界拟合程度更好，说明AP模块的添加有助于关注水体空间局部特征。根据表 2可知，在baseline基础上添加AP模块，IoU与baseline相比有1.24%的提高。

图 7 特征图可视化图 Fig. 7 Feature map visualization

2) MFF模块

在基础网络Unet添加MFF模块并与baseline进行对比，如表 2所示。添加MFF模块后的IoU比baseline提高了2.25%，Precision提高了1.77%。这表明MFF模块更好地平衡了语义和空间信息，并恢复了丢失的细节。

3) 平均教师半监督训练方法

为了评估半监督学习方法在所提出的框架中的影响，通过随机抽取训练数据集中200张图像作为标记图像，再从剩下的数据集中随机抽取200张、400张、800张图像作为无标记图像。与标记图像组合成3个不同的数据集。对每个数据集进行两次实验：仅以全监督的方式使用标记图像、以半监督方式使用标记图像和未标记图像。由表 3可知，基于相同的baseline，半监督方法的IoU比完全监督方法有所提高，这表明半监督方法能够有效利用无标记图像的特征信息。而随着无标记图像数量的增多，各项指标都有小幅度上升，充分说明本文提出的半监督框架有效利用了无标记图像信息，显著提高了性能。

3 总结

本文针对遥感水体图像分割提出一种半监督深度学习的网络模型，采用注意力感知模块，编码器和解码器的每一层都对特征图进行加权，保留重要特征，忽略无关特征，提升了网络对复杂水体的感知能力，增强了模型分割性能。使用多尺度特征图融合模块，将解码器中的特征图进行组合，丰富了最后预测时的特征图信息，在增加空间信息的同时保留了语义信息，有效解决了上采样过程空间分辨率增大而导致分割精度降低的问题。网络还采用平均教师的深度学习半监督框架，针对水体分割任务对一致性正则化进行扩展，使得网络能够在有限的标记数据下通过学习无标记数据的特征来增强网络对水体的分割能力。实验表明，本文提出的网络在IoU、precision、recall三项指标上都优于现有语义分割网络DeepLab v3、FCN-8、PSPNet以及Unet。消融实验验证了本文所提出网络的每个模块的有效性。

在未来的工作中，将探索其他深度学习与遥感图像相结合的应用。例如，仅使用少量的遥感图像样本训练模型，使其模型性能能够达到可用标准的少样本学习。

参考文献

[1]	GAO B C. NDWI—a normalized difference water index for remote sensing of vegetation liquid water from space[J]. Remote sensing of environment, 1996, 58(3): 257-266. DOI:10.1016/S0034-4257(96)00067-3 (0)
[2]	李鑫伟, 李彦胜, 张永军. 弱监督深度语义分割网络的多源遥感影像水体检测[J]. 中国图象图形学报, 2021, 26(12): 3015-3026. LI X W, LI Y S, ZHANG Y J. Weakly supervised deep semantic segmentation network for water body extraction based on multi-source remote sensing imagery[J]. Journal of image and graphics, 2021, 26(12): 3015-3026. DOI:10.11834/jig.200192 (0)
[3]	ROY A G, NAVAB N, WACHINGER C. Concurrent spatial and channel 'squeeze & excitation' in fully convolutional networks[C]//Medical Image Computing and Computer Assisted Intervention. Cham: Springer International Publishing, 2018: 421-429. (0)
[4]	HARIHARAN B, ARBELÁEZ P, GIRSHICK R, et al. Hypercolumns for object segmentation and fine-grained localization[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2015: 447-456. (0)
[5]	NASR G E, BADR E A, JOUN C. Cross entropy error function in neural networks: forecasting gasoline demand[C]//The International FLAIRS Conference. Palo Alto: AAAI Press, 2002: 381-384. (0)
[6]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 2999-3007. (0)
[7]	TARVAINEN A, VALPOLA H. Mean teachers are better role models: weight-averaged consistency targets improve semi-supervised deep learning results[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 1195-1204. (0)
[8]	LAWRANCE A J, LEWIS P A W. An exponential moving-average sequence and point process (EMA1)[J]. Journal of applied probability, 1977, 14(1): 98-113. DOI:10.2307/3213263 (0)
[9]	LI X M, YU L Q, CHEN H, et al. Transformation-consistent self-ensembling model for semisupervised medical image segmentation[J]. IEEE transactions on neural networks and learning systems, 2021, 32(2): 523-534. DOI:10.1109/TNNLS.2020.2995319 (0)
[10]	邵伟志, 潘丽丽, 雷前慧, 等. 基于一致性正则化与熵最小化的半监督学习算法[J]. 郑州大学学报(理学版), 2021, 53(3): 79-84. SHAO W Z, PAN L L, LEI Q H, et al. Semi-supervised learning algorithm based on the consistency regularization and entropy minimization[J]. Journal of Zhengzhou university (natural science edition), 2021, 53(3): 79-84. (0)
[11]	ESCOBAR F. Satellite images of water bodies[DB/OL]. (2020-05-20)[2021-11-06]. https://www.kaggle.com/datasets/franciscoescobar/satellite-images-of-water-bodies. (0)
[12]	BUSLAEV A, IGLOVIKOV V I, KHVEDCHENYA E, et al. Albumentations: fast and flexible image augmentations[J]. Information, 2020, 11(2): 125. DOI:10.3390/info11020125 (0)