基于ASPP-SOLOv2的复杂场景下透明玻璃仪器实例分割

引用本文

葛建统, 杨鑫, 祝模芮, 冉进业, 翟持, 张浩. 基于ASPP-SOLOv2的复杂场景下透明玻璃仪器实例分割[J]. 高校化学工程学报, 2023, 37(6): 962-970. DOI: 10.3969/j.issn.1003-9015.2023.06.011.

GE Jiantong, YANG Xin, ZHU Morui, RAN Jinye, ZHAI Chi, ZHANG Hao. Instance segmentation of chemical transparent glassware in complex scene using ASPP-SOLOv2[J]. Journal of Chemical Engineering of Chinese Universities, 2023, 37(6): 962-970. DOI: 10.3969/j.issn.1003-9015.2023.06.011.

基金项目

国家自然科学基金(21806131)；西南大学教育教学改革研究项目(2022JY009)；重庆市研究生教育教学改革研究项目(yjg223123)。

通讯联系人

张浩，E-mail：haozhang@swu.edu.cn

作者简介

葛建统(1997-)，男，浙江台州人，重庆理工大学硕士生。

文章历史

收稿日期：2022-09-05;
修订日期：2023-01-20。

Contents Abstract Full text Figures/Tables PDF

基于ASPP-SOLOv2的复杂场景下透明玻璃仪器实例分割

葛建统 ¹, 杨鑫 ¹, 祝模芮 ², 冉进业 ³, 翟持 ⁴, 张浩 ⁵

1. 重庆理工大学化学化工学院, 重庆 400054;
2. 布达佩斯技术与经济大学电气工程与信息学院, 布达佩斯 1111;
3. 西南大学计算机信息与科学学院, 重庆 400715;
4. 昆明理工大学化学工程学院, 云南昆明 650500;
5. 西南大学化学化工学院, 重庆 400715

收稿日期：2022-09-05；修订日期：2023-01-20。

基金项目：国家自然科学基金(21806131)；西南大学教育教学改革研究项目(2022JY009)；重庆市研究生教育教学改革研究项目(yjg223123)。

作者简介：葛建统(1997-)，男，浙江台州人，重庆理工大学硕士生。

通讯联系人：张浩，E-mail：haozhang@swu.edu.cn

摘要：针对深度学习方法对复杂背景下实验室透明玻璃仪器识别效果不佳的问题，建立包含1 548张含常用玻璃化学仪器图像的实验室复杂场景实例分割数据集，提出基于动态快速实例分割算法2.0版(SOLOv2)的透明仪器实例分割算法，利用空洞空间金字塔池化(ASPP)融合多尺度信息，通过自下而上增强方式提高底层信息利用率，交并比阈值大于50% 的精确率最终达到90.50%，类平均精度(AP_av)达到76.00%，比原始方法平均精度提高8.7%。消融实验表明ASPP的引入增强透明仪器的几何、边缘等特征的表示能力，提高对密集重叠目标的分割精度。该方法使AP_av提高22.58%，在骨干网络特征分辨率为原图1/16的阶段，加入该模块可实现浅层信息和高阶语义信息的最佳平衡。

关键词：实例分割透明玻璃仪器数据集动态快速实例分割空洞空间金字塔池化

Instance segmentation of chemical transparent glassware in complex scene using ASPP-SOLOv2

GE Jiantong ¹, YANG Xin ¹, ZHU Morui ², RAN Jinye ³, ZHAI Chi ⁴, ZHANG Hao ⁵

1. School of Chemistry and Chemical Engineering, Chongqing University of Technology, Chongqing 400054, China;
2. Faculty of Electrical Engineering and Informatics, Budapest University of Technology and Economics, Budapest 1111, Hungary;
3. School of Computer Science and Technology, Southwest University, Chongqing 400715, China;
4. Faculty of Chemical Engineering, Kunming University of Science and Technology, Kunming 650500, China;
5. School of Chemistry and Chemical Engineering, Southwest University, Chongqing 400715, China

Abstract: Deep learning methods are not good for the identification of laboratory transparent glassware in complex scenes. An instance segmentation dataset for laboratory complex scenes containing 1548 images of frequently used chemical transparent glassware was established in this study. An instance-level segmentation method of transparent glassware based on SOLOv2 was proposed, which combined multi-scale information with atrous spatial pyramid pooling(ASPP), and the low-level feature representation was improved by bottom-up enhancement. The final average precision with more than 50% intersection over union is 90.50% and class mean average precision (AP_av) is 76.00%, which is 8.7% higher than the average accuracy of the baseline method. Ablation experiments show that ASPP can enhance the representation of geometric, edge features of transparent glassware, and improve the instance segmentation accuracy with dense overlapping objects. The mAP of proposed method is increased by 22.58%, and adding ASPP in the C3 stage of the backbone network can achieve the best balance of low-level information and high-level semantic information.

Key words: instance segmentation chemical transparent glassware dataset segmenting objects by locations atrous spatial pyramid pooling

1 前言

全自动化学实验设备不仅避免重复劳动、操作失误和实验事故，而且能够尝试高危、高毒等极端条件实验。当前已存在较多自主化学实验设备^[1]或者利用图像分析技术对系统内部进行特性判别^[2-3]与流型辨识^[4]来辅助实验。准确识别并操作玻璃仪器是化学机器人视觉系统必须解决的任务^[5-6]。

由于实验室仪器繁多且排列紧密，识别对象高度重叠，遮挡导致的非自然物体边界和物体真实轮廓在语义上难以区别，进一步加大了实验室透明仪器实例分割的难度。作为物体检测和语义分割的有机结合，基于掩膜区域的卷积网络(Mask R-CNN)^[7]、混合底层和高层信息的方法(BlendMask)^[8]、搜索识别网络(SINet)^[5]和一种动态快速实例分割2.0版(SOLOv2)^[9]方法等模型利用卷积核自动提取目标图像特征，在实例分割领域很成功，但通用的模型直接用于玻璃仪器实例分割效果尚有较大提升空间。针对透明目标的检测，部分研究^[10-12]利用深度相机和超声波传感器等多传感器融合经典视觉辅助系统获取透明目标光学与深度信号。Xu等^[13]利用光场线性、遮挡检测和几何关系信息从四维光场图像中分割出透明物体；Chen等^[14]利用多尺度编解码器网络和残差网络同时获取任意背景图像中透明物体的轮廓掩膜、颜色衰减掩模和折射流场；Xie等^[15-16]通过融合浅层特征和高级特征获取边界线索改进透明目标语义分割准确率，可准确识别其透明物体分割数据集(Trans10K)中94.14% 的目标；Zhang等^[17-18]针对生活场景的透明物体进行语义分割，在Trans10K数据集的平均交并比达到75.14%。然而，上述模型的训练数据集容量小、背景语义不合理且目标相对独立：Xu等^[13]的数据集仅包含49张图片和7种物品；Chen等^[14]的数据集包含876张真实图像和178 000张合成图像，背景和目标物体不够自然；目前Trans10K由11类真实家庭场景的图像组成，包含10 428张图片。针对化学实验室场景实例分割，Eppel等^[19]建立了包含2 187张图片的化学实验室数据集并进行语义和实例分割任务，平均交并比达到0.80。然而，该数据集未能对透明容器进行细分且背景简单，不能满足实验室自主化设备的视觉系统要求。

为实现复杂场景下透明玻璃仪器实例分割，本研究建立了包含1 548张复杂场景图像的实例级标注数据。SOLOv2在COCO数据集可以18帧⋅s⁻¹的速度实现38.8% 的掩模分割精度，在显著目标的实例分割任务中具备较好的实时检测性能，但在复杂场景下无法完整地定位透明目标，故以具备出色实时检测性能的SOLOv2^[9]方法为基础，提出了基于空洞空间金字塔池化的分割模型(ASPP-SOLOv2)，提高对密集重叠透明物体的实例分割精度。该模型利用空洞空间金字塔池化(ASPP)^[20]与特征金字塔输出的特征部分进行自下而上融合后增强多尺度信息^[21-22]，可以改善透明仪器的几何、边缘等浅层信息和高层语义的表示能力，最终提升模型在复杂场景下对目标的分割能力。

2 复杂背景化学实验透明玻璃仪器数据集

由于当前公开数据集规模小、类别少且缺少实例标注，本研究依据微软公开的数据集(COCO)^[23]的相关标准采集某大学化学类实验室工作场景图片，使用Labelme软件进行完全标注，形成了1 548张带有实例标注的化学类透明仪器数据集(CTG)。CTG数据集地址：https://github.com/Pau0031/Chemical-Transparent-Apparatus-Research。该数据集包含三颈烧瓶、上嘴抽滤瓶、圆底烧瓶、容量瓶、样品瓶、离心管、塑料吸管、比色管、量筒、锥形瓶、广口瓶、烧杯、螺纹试剂瓶和盐水瓶共14类，分别统计分辨率、实例大小比例和类别分布，并与Eppel的数据集(Vector-LabPics)^[19]中的透明容器进行比较，如图 1所示，图 1(a)为类别对比；图 1(b)为图像分辨率分布，px为像素单位；图 1(c)为实例占全图比例分布；图 1(d)为单幅图像实例个数分布。

图 1 CTG数据集与vector-LabPics数据集特征对比图 Fig.1 Comparison of features between CTG dataset and vector-LabPics dataset

由于实验室性质限制，CTG数据集中锥形瓶和容量瓶数目远多于其他实例。数据集的分辨率、实例大小比例和实例类别数量分布统计如下：

1、分辨率：高分辨率图像能够提供更多边界细节^[24]，图 1(b)中CTG数据集图像最大高度为4 060像素，最小为150像素；最大宽度为2 905像素，最小宽度为150像素，其中包括大量的1 080像素分辨率图像。与Vector-LabPics数据集相比，CTG数据集分辨率分布更为集中，原始图像特征方差更小。图像分布在不同的高宽比(h/w)之间，1 020张图像集中在高宽比为(0.70，1.10)区间上，占总体比例较大，只有4张图像在高宽比为(1.90，2.30)的区间上。

2、实例大小比例：为实现复杂场景下透明玻璃仪器实例分割，本研究所建CTG数据集实例大小比例与Vector-LabPics数据集较为一致。归一化后实例大小分布^[25](基于800像素×800像素的分辨率)见图 1(c)，整个数据集中目标占整图的比例在0.01%~71.00%。其中像素区域小于32²的实例有242个，占比3.97%。像素区域介于32²~96²的实例有1 585个，占比26.01%。像素区域大于96²的实例有4 266个，占比70.02%。单幅图像平均实例个数为3.94，是Vector-LabPics数据集平均实例个数的2.01倍，单幅最高实例个数达到54，场景复杂度大幅提高，如图 1(d)。从图中看出CTA数据集与Vector-LabPics数据集有相似的分布范围。

3、实例类别数量：CTG数据集中的实例共有6 093个，且与Vector-LabPics数据集的透明容器部分实例类别进行比较，如图 1(a)。实例类别有4个与Vector-LabPics数据集相同。由于Vector-LabPics数据集中烧瓶、容器和罐子等存在多目标交叉标注、多种不同类型的目标标注为1类等问题，为了满足应用需求，在CTG数据集新增10个类别，使之更加接近实际实验室场景。

3 算法介绍 3.1 SOLOv2

动态快速实例分割(SOLO)^[9]通过完整实例标注的有监督学习，引入实例类别概念对目标按位置进行分割，摆脱对边界框的精确检测和像素的分组处理。SOLOv2在SOLO模型的基础上引入掩膜学习和掩膜非最大抑制，大幅度提高了模型的推理速度。基于检测框的两阶段模型分割效果依赖于候选检测框的生成，这会影响模型的推理速度。相比两阶段模型，单阶段模型SOLOv2在推理过程中免去了感兴趣区域的生成和目标框的回归，并优化后处理算法降低计算量以满足实时检测的需要，直接将输入图像映射到所需的实例类别和掩膜，该方法在COCO数据集上以18帧⋅s⁻¹的速度实现38.8% 的掩模分割精度。所以本工作以SOLOv2算法为基础，实现对化学类透明玻璃仪器的识别。

3.2 空洞空间金字塔池化

空洞空间金字塔池化在金字塔池化模块引入空洞卷积，采取并联式的空洞卷积弥补局部信息的丢失并获取远距离像素信息，捕捉多尺度上下文信息，即特征图上每个像素取值不仅考虑前一个卷积层上对应位置的参数，同时邻近像素的取值也会影响当前层该位置上的参数权重，提高复杂场景中重叠目标分割精度。通过具有不同感受野的多个并行空洞卷积层的计算，提取密集的特征映射并实现多尺度信息融合，有利于学习复杂场景中重叠目标之间的区别，网络结构如图 2所示。

图 2 空洞空间金字塔池化模块 Fig.2 Schematic diagram of Atrous Spatial Pyramid Pooling Modules

3.3 ASPP-SOLOv2模型结构

基于上述单阶段实例分割模型和空洞卷积的优点，本研究在SOLOv2的骨干网络结构中引入ASPP分支，并以自下而上的路径聚合方式进行合理的特征融合，提出ASPP-SOLOv2模型来提高对密集重叠透明仪器的分割能力。该模型输入图像经过骨干网络和特征金字塔(FPN)提取特征信息，同时在骨干网络1/16阶段，通过ASPP在分辨率较大且图像边界细节信息充足阶段扩大感受野，提取多尺度信息。该信息与FPN前4层输出结果进行特征融合，经过3×3卷积、批归一化和最大池化后输出的5个不同尺寸的特征图，最终输入掩膜预测分支和类别预测分支产生实例结果，并用非极大值抑制方法筛选结果。

其中，骨干网络使用变体残差网络(Res2Net)加强细粒度特征的提取。通过引入ASPP分支并将其结果上采样4倍后，与FPN输出的最底层特征图进行维度叠加。借鉴路径聚合网络^[21]的设计理念，为了更好地结合浅层特征和高层语义特征，将叠加后的特征图经过1×1卷积降维后，与更深层特征进行维度叠加和特征融合，如图 3所示。这样可以使模型更准确地表示透明仪器的多尺度复杂特征，有利于下一阶段的预测输出。掩膜预测分支取FPN前4层特征进行卷积，分为掩膜特征分支和卷积核学习分支，通过产生相同数量的特征图和卷积核，将二者相乘得到实例掩膜预测结果。同时，对FPN输出中最高分辨率和最低分辨率特征图分别进行2倍双线性插值下采样和上采样后，由实例类别预测分支产生实例类别。根据实例中心在网格的位置映射实例掩膜结果和实例类别之间对应的关系，最终输出实例预测结果。

图 3 ASPP-SOLOv2结构示意图 Fig.3 Schematic diagram of the framework of ASPP-SOLOv2

3.4 损失函数

模型损失函数L由分类损失Loss_cate和掩膜损失Loss_mask构成，见式(1)：

$ L {\text{ = }} {\text{Los}}{{\text{s}}_{{\text{cate}}}}{\text{ + }}\lambda {\text{Los}}{{\text{s}}_{{\text{mask}}}} $

(1)

其中，分类损失Loss_cate为焦点损失函数^[22]，见式(2)；掩膜损失Loss_mask见式(3)；超参数λ为掩膜损失权重，设置为3，与原始方法保持一致。

$ {\text{Los}}{{\text{s}}_{{\text{cate}}}} = - {\rm{Labels}}\alpha {\left( {1 - \sigma \left( p \right)} \right)^\gamma }{\log _{}}\left( {\sigma \left( p \right)} \right) - \left( {1 - {\rm{Labels}}} \right)\left( {1 - \alpha } \right)\sigma {\left( p \right)^\gamma }{\log _{}}\left( {1 - \sigma \left( p \right)} \right) $

(2)

式中：Labels为真实标签；σ(p)为预测类别经过激活函数计算后的结果；超参数α和γ分别默认为0.25和2.0。

$ {\text{Los}}{{\text{s}}_{{\text{mask}}}} = \frac{{\text{1}}}{{{N_{{\text{pos}}}}}}\sum\limits_k {{I_{\{ {p_{i, j}} > 0\} }}{\text{Los}}{{\text{s}}_{{\text{Dice}}}}} \left( {p, q} \right) $

(3)

式中：I为布尔型变量，i = [k/S]；j = k mod S；k为正样本的全局序号；i为该样本所处的通道号；j为该样本在该通道的网格单元位置；S为网格单元数；N_pos为正样本数；p和q分别为预测掩膜和真实掩膜；如果p_{i, j} > 0，则I为1，否则为0；[]表示取整运算，mod为取余数运算。

Loss_Dice(p, q)是用于评估2个样本相似性的度量函数，如式(4)所示：

$ {\text{Los}}{{\text{s}}_{{\text{Dice}}}} = 1 - \frac{{2\sum {_{\left( {x, \;y} \right)}} \left( {{p_{(x, \;y), }}\, {q_{(x, \;y)}}} \right)}}{{\sum {_{(x, \;y)}{p^2}_{(x, \;y)} + \sum {_{(x, \;y)}{q^2}_{(x, \;y)}} } }} $

(4)

式中：p(x, y)和q(x, y)分别为p和q中位于(x，y)处的像素值。

4 透明玻璃仪器的实例分割预测 4.1 评价指标

本研究采用基于交并比(IoU)的平均精确率(AP)和平均召回率(AR)评估模型性能。计算公式如式(5)~(7)所示。

$ {\rm{AP}} {\text{ = }} \frac{{{N_{{\rm{TP}}}}}}{{{N_{{\rm{TP}}}} + {N_{{\rm{FP}}}}}} $

(5)

$ {\rm{AR}} = \frac{{{N_{{\rm{TP}}}}}}{{{N_{{\rm{TP}}}} + {N_{{\rm{FN}}}}}} $

(6)

$ {\rm{A}}{{\rm{P}}_{{\rm{av}}}} = \frac{{\sum\limits_{i = 1}^N {\frac{{{N_{{\rm{TP}}, }}_i}}{{{N_{{\rm{TP}}, }}_i + {N_{{\rm{FP}}, }}_i}}} }}{N} $

(7)

式中：N_TP为被正确检测出来的正样本数量；N_FP为误检数量；N_FN为漏检数量；N为类别数；AP_av为多类别AP均值。

依据COCO数据集标准，定义像素区域小于32²的目标为小目标，介于32²~96²的目标为中型目标，大于96²的目标为大型目标。精确率AP为召回率曲线与坐标轴所围成的面积，面积越大模型性能越好。AP_av也是衡量模型性能优劣最重要的一个性能评估指标。本研究选取交并比IoU阈值为0.50和0.75时得到的平均精度AP_0.50和AP_0.75，以及IoU阈值介于0.50~0.95时得到的平均精度AP_av衡量模型分割的效果，对分割精度依次表示为AP_S、AP_M、AP_L。平均召回率AR表示对正样本预测正确的数量与所有预测为正样本数量的比值在所有类别的均值，可用于衡量模型的性能。

4.2 训练策略

为了验证方法有效性，论文训练集包括1 393张图像，测试集为155张。本工作硬件环境为NVIDIA - GeForce RTX 3060-12GB，AMD Ryzen 9 3950X 16-Core Processor 3.50 GHz，内存64.0 GB。软件环境为Paddlepaddle。训练批量设置为2；初始学习率为10⁻³，在第18阶段降至10⁻⁴，第33阶段降至10⁻⁵，第44阶段为10⁻⁶；空洞空间金字塔池化模块的各层空洞设为[1，6，12，18]。在预处理阶段，使用随机分辨率缩放策略将输入图像缩放至640~800像素。本研究使用COCO数据集上ResNet50、ResNet101、Res2Net50网络权重作为预训练参数。

4.3 实验结果

基于本工作提出的数据集，同时训练了不同规格的SOLOv2、BlendMask和Mask R-CNN，最终均达到收敛，模型结果见表 1。相比于Mask R-CNN对化学实验透明玻璃容器的先检测再分割，SOLOv2在目标物体局部区域的分割相对精细。采用Res2Net50 FPN主干网络的SOLOv2比主干网络为ResNet50 FPN的SOLOv2模型在AP_av和AP_0.75更为优秀，平均精度达到67.3%，比后者高7.1%。其主要原因为Res2Net50利用层次残差连接方式替换通用的3×3卷积核，可以在更细粒度级别上表达多尺度特征，经过特征融合提高网络复杂度和性能。随着网络深度的增加，SOLOv2(ResNet101_FPN)的平均精度达到75.2%，比SOLOv2(Res2Net50_FPN)的平均精度高了7.9%。由于BlendMask不仅融合了FPN的高低层信息，还利用该结果与有效的边界框预测结果产生感兴趣区域，将具有不同注意力权重的特征信息进行叠加，生成实例预测区域，对小目标的分割精度更为有利。为了在边界细节信息丰富且分辨率较大的图像提取特征，在Res2Net50的1/16大小的特征图上使用ASPP模块提取多尺度信息，通过自底向上的方式获取底层的定位信号，增强整个特征层次结构，ASPP-SOLOv2实例分割AP_av上可达76.0%，比SOLOv2(ResNet101_FPN)高出0.8%，网络的整体参数降低了6.8MB。用ResNet101_FPN作为ASPP-SOLOv2的Backbone后AP_av为75.8%，参数量为82.6 MB，其参数量比以Res2Net50_FPN作为Backbone的ASPP-SOLOv2增加20.8 MB。虽然骨干网络的深度可以影响图像的基础特征提取的效果，但是对这些特征的合理加工和利用是下一步定位和分割的关键。故ASPP-SOLOv2在引入ASPP模块后，通过自下而上融合手段增强多尺度信息，在骨干网络卷积层数较少的情况下，弥补对透明物体的特征提取能力不足。这表明在纵向卷积层数较少的情况下，原始方法对透明物体的检测能力不足，但是通过侧边连接方式来增强特征是可行的，之后可以探索更好的方案。

表 1 实例分割对比结果 Table 1 Comparison of mask AP in instance segmentation with different net-structures

模型预测可视化结果如图 4所示，SOLOv2(ResNet50_FPN)和SOLOv2(Res2Net50_FPN)不能精确分割锥形瓶和烧杯重叠区域，在实例像素的分配上存在误差，然而主干网络为ResNet101_FPN的SOLOv2模型可实现精确分割且产生正确边界框。得益于根据实例位置和大小为实例中每个像素分配类别的设计理念，ASPP-SOLOv2在近距离检测和分割玻璃仪器方面，明显比Mask R-CNN更具优势，如图 5所示。故ASPP-SOLOv2比Mask R-CNN的平均分割精度高5.5%，略高于BlendMask，总体上分割精度较高。

图 4 不同骨干网络下SOLOv2的分割结果 Fig.4 Segmentation results of SOLOv2 under different backbone conditions

图 5 实例分割结果可视化结果对比 Fig.5 Comparison of instance segmentation visual results

4.4 消融实验

为研究ASPP模块及其位置对模型实例分割效果的影响，本研究进行了如下消融实验：删除ASPP模块，保留路径聚合并将FPN输出的1/4阶段时的特征图通道数由3×3卷积调整为原来的2倍；使用ASPP对骨干网络中C1、C2、C3和C4特征进行计算(C1、C2、C3和C4分别表示相较于原图像尺寸1/4、1/8、1/16和1/32的输出阶段，见图 3)，比较ASPP对不同阶段的特征提取对ASPP-SOLOv2的影响，结果见表 2。

表 2 ASPP模块应用于模型不同阶段的效果对比 Table 2 Effects of applying ASPP modules at different model stages

从表中可以看出，去掉ASPP模块后，模型平均分割精度为62.0%，相比ASPP-SOLOv2(76.0%)性能降低18.42%，是因为该方案仍然保留了后续的自下而上的侧向连接和下采样，对FPN的输出结果进一步融合，意图向深层传递浅层位置信息，性能下降5.3%。结果表明，缺少ASPP分支提取的特征，对FPN输出的多尺度特征进行反复融合，反而会使模型的性能下降。实验表明该模块的加入可大幅度提高对透明玻璃仪器的分割精度。随着ASPP模块加入位置的后移，模型AP_0.5和AP_0.75呈现余弦波动趋势并于C3阶段达到顶点，其主要原因是图像尺寸在卷积过程中不断缩小，产生高级语义信息的同时丢失大量的浅层信息，两类信息对实例分割精度的影响在C3阶段形成最佳组合，如图 6所示。

图 6 不同阶段下，ASPP输出结果的特征可视化 Fig.6 Feature visualization of ASPP output under different stages

5 结论

为实现复杂场景下透明玻璃仪器的实例分割，本研究提供了包含1 548张化学实验室内日常拍摄的透明玻璃仪器实例级别标注的数据集，利用空洞空间金字塔池化强化SOLOv2模型对透明仪器多尺度特征的提取，改善密集重叠情况下的特征表示，提高目标分割精度。提出的ASPP-SOLOv2模型的AP_av达到76.0%，AP_0.5为90.5%，AP_0.75为83.2%，相比于SOLOv2(Res2Net50_FPN)分别高出8.7%、4.3% 和11.0%。由于对小目标检测不佳，未来将考虑采用注意力机制解决远景小目标分割不准确的问题。

参考文献

[1]	LEY S V, FITZPATRICK D E, INGHAM R J, et al. Organic synthesis: march of the machines[J]. Angewandte Chemie International Edition, 2015, 54(11): 3449-3464. DOI:10.1002/anie.201410744
[2]	胡建建, 李亚南, 陈涛, 等. 基于模式识别的小管道沸腾在线监测新方法[J]. 高校化学工程学报, 2021, 35(4): 616-623. HU J J, LI Y N, CHEN T, et al. A new online monitoring method for boiling in small channels based on pattern recognition[J]. Journal of Chemical Engineering of Chinese Universities, 2021, 35(4): 616-623. DOI:10.3969/j.issn.1003-9015.2021.04.005
[3]	严建华, 朱建新, 马增益, 等. 图像法用于流化床颗粒混合特性的研究[J]. 高校化学工程学报, 2006, 20(5): 745-751. YAN J H, ZHU J X, MA Z Y, et al. Research on mixing character of fluidized bed particles with image processing technique[J]. Journal of Chemical Engineering of Chinese Universities, 2006, 20(5): 745-751. DOI:10.3321/j.issn:1003-9015.2006.05.014
[4]	邵晓寅, 黄志尧, 冀海峰, 等. 基于电容层析成像和模糊模式识别的油气两相流流型辨识新方法的研究[J]. 高校化学工程学报, 2003, 17(6): 616-621. SHAO X Y, HUANG Z Y, JI H F. et al. Study on flow pattern identification of gas-oil two-phase flow based on electrical capacitance tomography and fuzzy pattern recognition[J]. Journal of Chemical Engineering of Chinese Universities, 2003, 17(6): 616-621. DOI:10.3321/j.issn:1003-9015.2003.06.003
[5]	FAN D-P, JI G-P, CHENG M-M, et al. Concealed object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 44(10): 6024-6042.
[6]	周环宇. 基于机器视觉的桌面型机械臂的研究及应用[D]. 青岛: 青岛科技大学, 2020. ZHOU H Y. Research and application of desktop robot arm based on machine vision [D]. Qingdao: Qingdao University of Science and Technology, 2020.
[7]	HE K M, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2020, 42(2): 386-397.
[8]	CHEN H, SUN K Y, TIAN Z, et al. Blendmask: Top-down meets bottom-up for instance segmentation: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition [C]. Seattle: IEEE, 2020.
[9]	WANG X L, ZHANG R F, KONG T, et al. Solov2: Dynamic and fast instance segmentation: Proceedings of the 34th Neural Information Processing Systems [C]. [S. l.]: [s. n.], 2020.
[10]	BAI J Q, LIAN S G, LIU Z X, et al. Smart guiding glasses for visually impaired people in indoor environment[J]. IEEE Transactions on Consumer Electronics, 2017, 63(3): 258-266. DOI:10.1109/TCE.2017.014980
[11]	CHEN H, WANG K W, YANG K L. Improving realsense by fusing color stereo vision and infrared stereo vision for the visually impaired: Proceedings of the 1st International Conference on Information Science and Systems [C]. Jeju: Association for Computing Machinery, 2018.
[12]	HUANG Z M, WANG K W, YANG K L, et al. Glass detection and recognition based on the fusion of ultrasonic sensor and RGB-D sensor for the visually impaired: Proceedings of the SPIE 10794, Target and Background Signatures Ⅳ [C]. Berlin: SPIE, 2018.
[13]	XU Y C, NAGAHARA H, SHIMADA A, et al. TransCut: Transparent object segmentation from a light-field image: Proceedings of the 2015 IEEE International Conference on Computer Vision [C]. Santiago: IEEE, 2015: 3442-3450.
[14]	CHEN G Y, HAN K, WONG K Y K. TOM-Net: Learning transparent object matting from a single image: 2018 IEEE/CVE Conference on Computer Vision and Pattern Recognition [C]. Salt Lake City: IEEE, 2018.
[15]	XIE E Z, WANG W J, WANG W H, et al. Segmenting transparent objects in the wild: Proceedings of the 16th European Conference on Computer Vision [C]. Glasgow: Springer, 2020: 696-711.
[16]	XIE E Z, WANG W J, WANG W H, et al. Segmenting transparent objects in the wild with transformer: Proceedings of the 30th International Joint Conference on Artificial Intelligence [C]. Montreal: International Joint Conference on Artificial Intelligence, 2021.
[17]	ZHANG J M, YANG K L, CONSTANTINESCU A, et al. Trans4Trans: Efficient transformer for transparent object segmentation to help visually impaired people navigate in the real world: 2021 IEEE/CVF International Conference on Computer Vision Workshops [C]. Montreal: IEEE, 2021.
[18]	ZHANG J M, YANG K L, CONSTANTINESCU A, et al. Trans4Trans: Efficient transformer for transparent object and semantic scene segmentation in real-world navigation assistance[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(10): 19173-19186. DOI:10.1109/TITS.2022.3161141
[19]	EPPEL S, XU H P, BISMUTH M, et al. Computer vision for recognition of materials and vessels in chemistry lab settings and the vector-labpics data set[J]. ACS Central Science, 2020, 6(10): 1743-1752. DOI:10.1021/acscentsci.0c00460
[20]	CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation: Proceedings of the 15th European Conference on Computer Vision [C]. Munich: Springer, 2018.
[21]	LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition [C]. Salt Lake City: IEEE, 2018.
[22]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327. DOI:10.1109/TPAMI.2018.2858826
[23]	LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common objects in context: Proceedings of the 13th European Conference on Computer Vision [C]. Zurich: Springer, 2014.
[24]	ZENG Y, ZHANG P P, LIN Z, et al. Towards high-resolution salient object detection: 2019 IEEE/CVF. International Conference on Computer Vision [C]. Seoul: IEEE, 2019.
[25]	FAN D P, ZHANG J, XU G, et al. Salient objects in clutter[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(2): 2344-2366. DOI:10.1109/TPAMI.2022.3166451