2. 山西大学 计算智能与中文信息处理教育部重点实验室 山西 太原 030006
2. Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan 030006, China
彩色图像分割是图像处理中的一项重要技术,在实际应用过程中,面对不同的分割任务需求,需要灵活地采用不同的图像分割方法。图像分割方法主要分为基于边缘、阈值、聚类和特定理论[1-4]等分割方法。模糊聚类算法由于其快速有效的分割特点,已经被成功应用于智能交通、医学影像等领域。在众多的模糊聚类方法中,模糊C均值算法(fuzzy C-means,FCM)已成为图像分割领域最主要的方法之一。但FCM算法也存在一些不足之处:首先,FCM算法忽略了图像的空间信息,对噪声和分布不均匀的像素较为敏感;其次,FCM算法在进行图像分割时,需要遍历所有像素,图像分辨率越高,算法的时间复杂度越高。
针对FCM算法忽略图像空间信息,对噪声较为敏感等问题,Krinidis等[5]提出了基于模糊局部信息C均值聚类算法(fuzzy local information C-means,FLICM),通过引入空间模糊因子,将像素的局部空间信息与灰度信息相结合,提升了算法的鲁棒性,但该算法的时间复杂度较高。针对FCM算法分割时间取决于图像分辨率大小的问题,学者们提出利用直方图信息对原始图像分类,可大大降低算法的时间复杂度。Cai等[6]提出了快速广义的模糊聚类算法(fast generalized fuzzy C-means,FGFCM),该算法的时间复杂度取决于图像的灰度级数量,且通过融合局部空间信息和灰度信息,提高了算法对噪声的鲁棒性,又保留了图像的边缘细节,但是在对给定彩色图像进行分割时,需要进行特殊的预处理。Lei等[7]提出了快速鲁棒性的模糊聚类算法(fast and robust fuzzy C-means,FRFCM),该算法首先利用形态学运算去除图像噪声,然后利用形态学重建弥补图像细节,使得FRFCM获得了更为理想的分割效果,但是该算法在彩色图像分割中,仍需要大量的执行时间。
上述改进的FCM算法在提高图像分割效果的同时,也增加了计算量;尤其是在彩色图像分割中,传统FCM算法及其改进的算法,只利用了像素的灰度、颜色、纹理等底层特征来进行图像聚类,未考虑图像的高层语义信息。针对这些问题,本文提出一种视觉显著性引导的模糊聚类图像分割方法(saliency-guided fuzzy C-means,SGFCM),将显著图作为先验信息,引导模糊聚类对彩色图像进行分割;同时将像素的显著值度量引入FCM的目标函数中,来提高算法的分割精度。
本文工作的主要贡献为:
1) 使用显著性检测方法对图像进行预分割,分割结果具有高层语义信息,符合人眼视觉特征,利用高层语义信息引导模糊聚类方法进行图像分割;
2) 在模糊聚类算法的目标函数中,引入显著性度量,在前景和背景颜色相似的图像分割任务中,能够有效地将前景与背景进行分离。
1 模糊C均值(FCM)聚类算法FCM算法是众多模糊聚类技术中应用最广泛的算法之一。Dunn最先提出了FCM算法[8],首次将模糊理论引入聚类算法中,而后Bezdek对其进行了改进与推广[9]。FCM算法主要是通过不断的迭代运算,得到更新的隶属度矩阵和聚类中心,最终求得目标函数值。将FCM算法应用于图像分割中,是将一幅图像中包含的所有像素点看作一个需要归类的样本数据集合,以各像素点的特征作为样本的特征向量,通过欧氏距离度量像素点之间的相似性,从而将图像分割转变为求解FCM算法的最优解问题,其目标函数为
| $ {J_m} = \sum\limits_{k = 1}^c {\sum\limits_{i = 1}^n {} } u_{ki}^md_{ki}^2({x_i}, {v_k}), $ | (1) |
其中:c为聚类类别数;n为图像中像素的总数;uki为隶属度函数,表示第i个样本属于第k个类中心的概率;m为模糊指数,决定了划分结果的模糊性,一般情况下m=2;dki表示样本xi到聚类中心vk的欧氏距离,用于衡量相似性大小。式(1)的约束条件为
| $ \left\{ {\begin{array}{*{20}{l}} {{u_{ki}} \in [0, 1], \;\;\;\;\;\;1 \le i \le n, 1 \le k \le c, }\\ {0 < \sum\limits_{k = 1}^c {{u_{ki}}} < n, \;\;\;\;\;\;\;\;\;\;\;\;1 \le k \le c。} \end{array}} \right. $ | (2) |
针对传统FCM及改进算法未考虑图像高层语义信息的问题,本文提出SGFCM方法,图 1为算法的过程图。算法分为两个分支:第一个分支通过显著性检测和阈值处理生成具有区域级标注的引导图,作为先验信息;第二个分支通过多元形态学重建对待分割图像进行去噪。将两个分支产生的结果图用于模糊聚类算法中,实现彩色图像分割。本文提出的SGFCM方法,有效地将高层语义信息和底层颜色信息相结合,使用视觉显著性引导模糊聚类对图像进行分割,分割效果与人类感知更符合。
|
图 1 算法过程图 Fig. 1 Algorithm process diagram |
人类的视觉注意力机制可以很容易地在复杂的背景中判断图像中的显著区域,优先分配图像分析所需要的计算资源。视觉显著性是模仿人类视觉注意力机制选择场景中某个子集的能力,由此产生的显著图像对视觉处理的后续任务有着重大的意义。本文利用显著性检测对图像的显著区域和背景区域进行标记,生成引导图,在两部分区域分别执行模糊聚类算法,能有效提高计算效率,缩短算法的执行时间。图 2为实现引导图的整个流程。
|
图 2 引导图实现过程 Fig. 2 Guide map realization process |
首先输入待分割图像I,通过显著性检测得到显著图,如图 2(b)所示,区域越亮,表示该区域的显著值越高,越容易引起观察者的注意。得到显著图后,利用阈值分割和形态学处理对显著图进一步处理,本文选取OSTU算法来得到阈值图,如图 2(c)所示。由图 2(c)可知,经过阈值分割的图像中存在一些较小的独立的像素块,为了去除显著区域周围较小的干扰像素块,采用形态学处理的方式改善阈值分割后的结果,如图 2(d)所示。白色框外的部分为确定的背景区域,记为FB;框内包含部分背景和目标,为不确定区域,记为FU。
2.2 预处理图像在传输和存储的过程中容易产生噪声,而传统的FCM算法对含噪声的图像不具有鲁棒性,针对这个问题,学者们提出对灰度图像进行形态学重建[10],不仅能平滑图像,保留图像的边缘细节,同时能在事先不确定噪声类型的情况下对图像去噪,有利于提高后续分割算法的准确率。但彩色图像不同于灰度图像,它拥有R、G、B三个通道的信息,所以彩色图像中每一个像素都是一个矢量,需要将矢量进行排序后,才能对图像进行形态学重建处理。本文采用文献[11]提出的一种偏序方法,将RGB空间中的矢量变换到YUV空间,排序之后再进行多元形态学重建操作。原图像经过多元形态学重建处理后,能够去除大部分噪声和孤立点,同时保留图像细节信息,使后续模糊聚类算法结果更加准确。
结合2.1小节中所生成的引导图FU、FB和经过预处理的图像IM以及公式(3),能够得到具有标记信息的待分割图像IS。IU表示具有标记信息的前景区域,IB表示具有标记信息的背景区域。
| $ \left\{ \begin{array}{l} {I_{\rm{S}}} = {I_{\rm{B}}} + {I_{\rm{U}}}, \\ {I_{\rm{U}}} = {I_M} \cap {F_{\rm{U}}}, \\ {I_{\rm{B}}} = {I_M} \cap {F_{\rm{B}}}。\end{array} \right. $ | (3) |
在彩色图像分割中,FCM算法以及改进算法都是通过像素与聚类中心的颜色相似度来计算目标函数值,未考虑像素的显著性。本文提出将像素的显著值加到FCM的目标函数中,计算像素点与中心像素的颜色距离和显著值距离。
本文提出的SGFCM算法的目标函数定义为
| $ {J_m} = \sum\limits_{k = 1}^c {\sum\limits_{i = 1}^n {} } {\rm{ }}u_{ki}^m[d_{ki}^2({x_i}, {v_k}) + s_{ki}^2({x_i}, {v_k})], $ | (4) |
其中:c为聚类中心总数;n为像素总数;xi表示第i个像素;vk表示第k类的中心;uki为隶属度函数,表示把像素xi划分到第k个类中心的概率;m为模糊指数;ski2(xi, vk)表示xi到第k个聚类中心的显著值距离,用于衡量像素与聚类中心显著性的相似性,使用xis、vks分别代表第i个像素和第k个类中心的显著性值,ski2的计算公式为
| $ s_{ki}^2={({x_{is}}-{v_{ks}})^2}。$ |
本文在CIE-Lab空间下完成图像分割,所以像素点与聚类中心的距离公式为
| $ {d_{ki}} = {\rm{ }}\sqrt {{{({x_{il}} - {v_{kl}})}^2} + {{({x_{ia}} - {v_{ka}})}^2} + {{({x_{ib}} - {v_{kb}})}^2}}。$ |
SGFCM算法的具体步骤描述如下。
输入:待分割RGB图像I。
输出:分割结果图M。
步骤1 对待分割图像进行形态学重构,消除噪声影响,对图像进行显著性检测,得到图像的显著性图,根据OSTU算法和形态学处理得到标记图,作为模糊聚类算法的引导图;
步骤2 在IU区域和IB区域分别进行聚类,更新隶属度和聚类中心;
步骤3 如果算法迭代次数大于T,或聚类中心变化小于阈值,则算法结束,输出分割结果;否则执行步骤2;
步骤4 根据公式(3),合并最终结果图。
3 实验结果与分析为了验证本文提出的SGFCM算法对彩色图像的分割效果,同时评估本文算法的有效性和效率,实验选取了FCM、FGFCM、FLICM、FRFCM以及深度分割网络PSP-Net[12]作为对比算法进行分析比较。实验硬件配置为CPU:Intel i7-10700K@3.8 GHz;RAM: DDR4 16 GB、3 200 MHz;GPU:NVIDIA GTX 1080 Ti、11 GB。编程环境为MATLAB 2019b和Python 3.7。
3.1 参数设置本文算法和其他4种模糊聚类对比算法都是基于目标函数优化的聚类算法,因此在目标函数迭代之前,需要设置3个参数:模糊指数、收敛条件和最大迭代次数。本文实验中这3个参数分别设置为2、10-5和50。对于需要采用固定大小邻域窗口的算法,统一采用3×3的邻域窗口。FGFCM算法的空间尺度因子为λs=3,FRFCM算法中用于多元重构的SE大小和用于隶属度滤波的窗口大小都设置为3×3。对于深度分割网络PSP-Net,训练阶段设置batchsize=16,初始学习率为0.01,在梯度下降求解神经网络参数时,使用Momentum优化方法来加快收敛速度,设置Momentum中的参数β=0.9,权重衰减为0.000 1。显著性检测算法采用文献[13]中提出的基于直方图对比度的方法,颜色量化在RGB颜色空间中进行,在Lab空间测量颜色的距离。
3.2 分割效果对比实验为了验证本文算法的有效性,使用公共数据集BSDS500[14]、MSRC[15]和PASCAL VOC2012[16]进行实验。BSDS500数据集包含500张大小为481×321或321×481的自然图像。MSRC数据集包含591张大小为320×213或213×320的自然图像。PASCAL VOC2012数据集包含20个目标类别,其中训练集、验证集和测试集的图像数量分别为10 582张、1 449张、1 456张。
本文算法与模糊聚类算法的对比实验选取MSRC和BSDS500作为测试数据集,图 3展示了5种算法对自然图像的分割对比图,1)~3)行的分割图像来自BSDS500数据集,4)~6)行的分割图像来自MSRC数据集。图 3的1)~5)行图像中,显著目标较小或图像的背景较为复杂,对比算法FCM、FGFCM、FLICM的分割结果中包含了大量的小区域块,有时甚至无法准确将目标聚类,FRFCM算法因为使用多元形态重构和隶属度滤波,得到了较好的分割结果。本文算法能够较好地将目标分割出来,且背景较为干净。第6)行图像中前景目标有明显的光线明暗变化所带来的噪声,其他4种对比算法的分割结果都被这种噪声所影响,导致分割结果不连续,本文算法能较为完整地将前景分割出来,有效地避免了噪声的干扰。
|
图 3 五种算法在BSDS500和MSRC数据集的结果对比 Fig. 3 Comparison of the results of five algorithms on BSDS500 and MSRC dataset |
本文算法与深度分割网络PSP-Net的对比实验选取PASCAL VOC2012为测试数据集。图 4展示了图像的分割结果对比图,PSP-Net的分割结果具有语义信息,但部分图像的分割结果不完整。本文算法的分割结果虽然不含语义信息,但无论在背景简单或者纹理复杂的图像中,都能够将图像中的前景物体较为完整地分割出来。总体来看,在处理前景与背景颜色相似或差异较大的图像时,本文算法都能得到较好的分割结果。本文所提出的SGFCM算法利用视觉显著性来表达目标和背景之间的空间分布信息,引导聚类进行分割,替代以往改进算法利用像素邻域信息来表示空间信息,能够使算法准确识别显著目标的位置,从而进行有效分割。
|
图 4 SGFCM算法与PSP-Net在PASCAL VOC2012数据集的结果对比 Fig. 4 Comparison of the results of SGFCM and PSP-Net on PASCAL VOC2012 dataset |
为了评估算法的分割性能,实验使用5种评价指标对分割结果进行测试:概率边缘指数[17](PRI)、重叠比率[14](CV)、变化信息[14](VI)、全局一致性误差[18](GCE)、边界位移误差[19](BDE)。由于深度分割网络的评价指标与模糊聚类算法有较大差异,本文只对模糊聚类算法进行定量分析。
PRI是一种相似度度量,用于分割后的图像M与对应的真值图(GT)中相同的像素对进行计数,pij是分割后图像M的第i个聚类中心与GT中的第j个聚类中心的像素数;N是图像中像素的总数。
| $ \begin{array}{l} PRI\left( {M, GT} \right) = 1 - (\sum\limits_i^{} {} {(\sum\limits_i^{} {} {p_{ij}})^2} - \\ \;\;\;\;2\sum\limits_i^{} {} {\rm{ }}{(\sum\limits_i^{} {} {p_{ij}})^2} + 2\sum \sum {p_{ij}}^2)/N。\end{array} $ |
CV是一种重叠度度量,可以用来评价分割效果,其中,O(R, R′)=|R∩R′|/|R∪R′|表示分割后的图像M和GT中,两个区域R与R′的重叠度,
| $ CV\left( {M \to GT} \right) = (\sum\limits_{RES}^{} {\left| R \right|} {\rm{ }}\cdot\mathop {{\rm{max}}}\limits_{R' \in I' } O\left( {R, R' } \right))/N 。$ |
VI是一种相似度度量,根据它们的平均条件熵来度量2个分割结果之间的距离,H和I分别代表 2个分割结果之间的熵和相互信息,
| $ VI(M, GT)=H(M)+H(GT)-2I(M, GT)。$ |
GCE是两个分割相互一致的全局误差,
| $\begin{array}{l} GCE = \frac{1}{n}{\rm{ min}}\sum\limits_{{p_i}}^{} {} \left\{ {E\left( {M, GT, {p_i}} \right)E\left( {M, GT, {p_i}} \right)} \right\}, \\ E(GT, M, {p_i}) = {\rm{ }}\left| {R(GT, {p_i})\backslash R(M, {p_i})} \right|{\rm{ }}/\\ \left| {R(GT, {p_i})} \right|。\end{array} $ |
BDE是一种度量误差,用于测量M与GT之间的边界像素的平均误差,其中:N1和N2分别表示M和GT边界中的总像素;d是GT中的一个像素pi与M中最接近的边界像素p之间的距离。
| $ \begin{array}{l} BDE(M, GT) = \sum\limits_i^{{N_i}} {} {\rm{ }}d\left( {{p_i}, M} \right)/{N_1} + 2\sum\limits_i^{{N_2}} {} {\rm{ }}d\left( {{p_i}, GT} \right)/{N_2}, \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;d({p_i}, M) = \mathop {{\rm{min}}}\limits_{p \in M} {\rm{ }}\left\| {{p_i} - p} \right\|。\end{array} $ |
PRI和CV的数值越大,分割越理想,VI、GCE和BDE的数值越小,表明分割结果越好,利用上述指标测试相关算法在BSDS500和MSRC两个数据集上的平均分割效果。对BSDS500数据集的图像,聚类个数设置为2~6;对MSRC数据集的图像,聚类个数设置为2~4,其中每个指标下的最优值用黑体进行标记。表 1和表 2分别展示了5种算法在BSDS500数据集和MSRC数据集上的平均性能。分析表 1和表 2中的数据可知,FCM、FGFCM、FLICM 3种算法的PRI、CV、VI、GCE值相似,FRFCM算法的PRI值和BDE值明显优于其他算法。本文提出的SGFCM算法在PRI、CV、VI、GCE上的平均性能都优于对比算法,其BDE值与最优值相差在0.04以内。
|
|
表 1 五种算法在BSDS500数据集上的平均性能 Tab. 1 The average performance of the five algorithms on the BSDS500 data set |
|
|
表 2 五种算法在MSRC数据集上的平均性能 Tab. 2 The average performance of the five algorithms on the MSRC data set |
执行时间是衡量算法性能的一个重要指标,本文实验分别计算了5种算法在BSDS500和MSRC两个数据集上的平均执行时间,如表 3所示,每个数据集下效率最高的算法使用黑体标记。
|
|
表 3 五种算法的执行时间比较 Tab. 3 Comparison of execution time of five algorithms |
从表 3可以看出,除SGFCM算法外,FCM算法比其他算法要快,因为FCM算法没有计算额外邻域信息。FGFCM比FLICM所用时间少的原因是FGFCM提前计算了邻域信息,而FLICM在每次迭代中反复计算邻域信息,导致计算复杂度较高。FRFCM具有较快的速度是因为该算法的多元形态重构和隶属度滤波只需要计算一次。本文算法较快的主要原因是利用显著性检测对图像进行初始化分割,经过阈值处理和形态学处理得到的引导图具有区域级标记信息,能够表达图像的高层语义信息。使用图像的高层语义信息引导模糊聚类对图像进行分割,在背景区域和不确定区域分别使用模糊聚类算法对像素进行聚类,无须在每次迭代计算邻域信息,有效减少了聚类算法的迭代时间,提升了算法的效率。
4 总结本文提出一种视觉显著性引导的模糊聚类图像分割算法(SGFCM),利用视觉显著性的高层语义信息引导模糊聚类算法对图像进行分割。本文算法使用显著性检测对图像的显著区域和背景区域进行初始化分割,经过阈值处理和形态学处理,得到具有区域级标注的引导图,引导模糊聚类算法在不同的区域分别进行聚类,能够大大减少聚类算法的迭代时间;同时将像素的显著性值作为一个衡量相似性因子,引入模糊聚类算法的目标函数中来提升算法的分割准确率。经过大量实验表明,本文算法在复杂背景的图像中进行分割时,能有效去除背景干扰,在较短时间内完成图像分割任务。但本文算法存在一定的局限性,聚类中心个数需要事先设定,未来将对此进行算法的完善。
| [1] |
LYU H R, FU H Y, HU X J, et al. Esnet: edge-based segmentation network for real-time semantic segmentation in traffic scenes[C]//2019 IEEE International Conference on Image Processing. Piscataway: IEEE Press, 2019: 1855-1859.
( 0) |
| [2] |
辛娇娇, 陈本豪, 郭元术, 等. 基于改进暗通道先验的图像去雾算法[J]. 郑州大学学报(理学版), 2020, 52(1): 72-78. XIN J J, CHEN B H, GUO Y S, et al. Image defogging algorithm based on improved dark channel prior[J]. Journal of Zhengzhou university (natural science edition), 2020, 52(1): 72-78. ( 0) |
| [3] |
LU L Z, WANG C, YIN X. Incorporating texture into SLIC super-pixels method for high spatial resolution remote sensing image segmentation[C]//The 8th International Conference on Agro-geoinformatics. Piscataway: IEEE Press, 2019: 1-5.
( 0) |
| [4] |
刘国奇, 邓铭, 李晨静. 融合RGB颜色空间的植物图像分割模型[J]. 郑州大学学报(理学版), 2019, 51(1): 18-23. LIU G Q, DENG M, LI C J. Plant image segmentation model based on RGB color space[J]. Journal of Zhengzhou university (natural science edition), 2019, 51(1): 18-23. ( 0) |
| [5] |
KRINIDIS S, CHATZIS V. A robust fuzzy local information C-means clustering algorithm[J]. IEEE transactions on image processing, 2010, 19(5): 1328-1337. DOI:10.1109/TIP.2010.2040763 ( 0) |
| [6] |
CAI W L, CHEN S C, ZHANG D Q. Fast and robust fuzzy C-means clustering algorithms incorporating local information for image segmentation[J]. Pattern recognition, 2007, 40(3): 825-838. DOI:10.1016/j.patcog.2006.07.011 ( 0) |
| [7] |
LEI T, JIA X H, ZHANG Y N, et al. Significantly fast and robust fuzzy C-means clustering algorithm based on morphological reconstruction and membership filtering[J]. IEEE transactions on fuzzy systems, 2018, 26(5): 3027-3041. DOI:10.1109/TFUZZ.2018.2796074 ( 0) |
| [8] |
DUNN J C. A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters[J]. Journal of cybernetics, 1973, 3(3): 32-57. DOI:10.1080/01969727308546046 ( 0) |
| [9] |
BEZDEK J C. Pattern recognition with fuzzy objective function algorithms[M]. Berlin: Springer Press, 1981.
( 0) |
| [10] |
WU Y P, PENG X Q, RUAN K, et al. Improved image segmentation method based on morphological reconstruction[J]. Multimedia tools and applications, 2017, 76(19): 19781-19793. DOI:10.1007/s11042-015-3192-2 ( 0) |
| [11] |
LEI T, ZHANG Y N, WANG Y, et al. A conditionally invariant mathematical morphological framework for color images[J]. Information sciences, 2017, 387: 34-52. DOI:10.1016/j.ins.2017.01.003 ( 0) |
| [12] |
ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, IEEE Press, 2017: 6230-6239.
( 0) |
| [13] |
CHENG M M, MITRA N J, HUANG X L, et al. Global contrast based salient region detection[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(3): 569-582. DOI:10.1109/TPAMI.2014.2345401 ( 0) |
| [14] |
ARBELÁEZ P, MAIRE M, FOWLKES C, et al. Contour detection and hierarchical image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2011, 33(5): 898-916. DOI:10.1109/TPAMI.2010.161 ( 0) |
| [15] |
SHOTTON J, WINN J, ROTHER C, et al. Textonboost: joint appearance, shape and context modeling for multi-class object recognition and segmentation[C]//European Conference on Computer Vision. Berlin: Springer Press, 2006: 1-15.
( 0) |
| [16] |
EVERINGHAM M, GOOL L, WILLIAMS C K I, et al. The pascal visual object classes (VOC) challenge[J]. International journal of computer vision, 2010, 88(2): 303-338. DOI:10.1007/s11263-009-0275-4 ( 0) |
| [17] |
UNNIKRISHNAN R, PANTOFARU C, HEBERT M. Toward objective evaluation of image segmentation algorithms[J]. IEEE transactions on pattern analysis and machine intelligence, 2007, 29(6): 929-944. DOI:10.1109/TPAMI.2007.1046 ( 0) |
| [18] |
MARTIN D, FOWLKES C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2001: 416-423.
( 0) |
| [19] |
WANG X F, TANG Y X, MASNOU S, et al. A global/local affinity graph for image segmentation[J]. IEEE transactions on image processing, 2015, 24(4): 1399-1411. DOI:10.1109/TIP.2015.2397313 ( 0) |
2022, Vol. 54



0)