Enhancement of underwater images on improved StarGAN by mixed attention module
-
摘要:
围绕水下图像色偏和模糊的特点,针对不同浑浊度的水下图像差异较大问题,提出了一种基于混合注意力模块 (Convolutional block attention module, CBAM) 改进的星型生成对抗网络 (Star generative adversarial networks, StarGAN) 用于水下多浑浊图像增强。首先使用水下相机采集实验室和养殖平台环境2组水下多浊度图像数据集;其次优化StarGAN,在每个ResidualBlock模块后引入一个由通道注意力模块和空间注意力模块串联组成的CBAM;最后进行消融实验,并与其他方法比较,使用水下图像质量评估 (Underwater image quality measurement, UIQM)、水下彩色图像质量评估 (Underwater color image quality evaluation, UCIQE) 和图像熵作为图像质量评价指标。结果表明,实验室数据集增强后,UIQM达到1.18,UCIQE达到30.13,图像熵达到12.83;养殖平台数据集增强后,UIQM达到0.52,UCIQE达到10.35,图像熵达到9.94。该方法对实验室和养殖平台环境中不同浑浊度的图像增强均有较好的效果,在消融实验及与其他方法的比较中,该方法的得分均为最高。
Abstract:Based on the characteristics of color cast and blur in underwater images, we proposed a StarGAN (Star generative adversarial networks) based on CBAM (Convolutional block attention module) improvement for the underwater multi turbidity image enhancement to address the problem of significant differences in underwater images with different turbidity levels. First, we collected two sets of underwater turbidity image datasets from laboratory and aquaculture platform environments by using an underwater camera. Secondly, we optimized StarGAN by introducing a CBAM consisting of a channel attention module and a spatial attention module in series after each ResidualBlock module. Finally, we conducted ablation experiments and compared them with other methods by using UIQM (Underwater color image quality measurement), UCIQE (Underwater color image quality evaluation)and Image entropy as image quality evaluation indicators. The results show that UIQM reached 1.18, UCIQE reached 30.13 and Image entropy reached 12.83 of the enhanced laboratory dataset. UIQM reached 0.52, UCIQE reached 10.35 and Image entropy reached 9.94 of the enhanced aquaculture platform dataset. The experimental results indicate that in ablation experiments and compared with the other methods, this method has a good effect on enhancing multi turbidity images, with the highest scores.
-
在水产养殖业中,对鱼、虾、蟹和贝类等水产品的观测是至关重要的环节。通过监测这些水产品的生长状态,可以及时调整养殖策略,而定期检查其健康状况则有助于及早发现疾病,显著提高水产品的生长效率和存活率[1]。然而,随着水产品需求的增加和就业观念的变化,水产养殖业劳动力短缺问题日益严重[2]。因此,从依赖人工的传统监测方式转变为智能化养殖,是现代渔业发展的必然趋势[3];而这一转变实现的前提是能够有效获取水下养殖对象的信息。
机器视觉技术作为一种非接触式、高精度、无损的水下观测手段,已经在渔业相关的水下目标感知领域得到了广泛应用[4-8]。对于视觉感知技术,获取清晰的图像数据是确保智能化算法有效运行的关键[9]。但由于养殖方式和作业工况的限制,目前采集到的图像常常存在模糊和失真等问题。这些问题主要由水下成像环境与空气中成像环境的差异造成,光在水中会受到吸收和散射的影响,其中水对光的选择性吸收导致成像出现色偏,前向散射导致特征模糊,而后向散射则会导致对比度降低[10]。因此,开发适用于渔业水下场景的图像增强算法显得尤为重要。
水下图像增强技术主要分为基于物理模型和非物理模型的2类方法。基于物理模型的方法依赖于Jaffe-McGlamery成像模型[11],通过分析水下光线的吸收和散射特性,结合先验模型和回归分析等技术手段,对水下图像进行补偿和增强。例如,Drews等[12]根据Jaffe-McGlamery成像模型,对比了空气中和水中暗通道先验在红色通道的差异,并提出了适用于水下场景的暗通道先验增强模型。Galdrand等[13]针对水下图像红色通道的严重退化问题,对暗通道先验模型进行了优化,使用1−R (红通道)替换了原有的红通道,提出了水下红通道先验增强模型。这些方法主要围绕成像模型和水下先验知识来估计水下的透射率,并构建水下退化模型。但由于实际养殖环境中的水成分复杂,过度依赖先验知识使得建立合适的水下退化模型变得十分困难。因此,基于物理模型的水下图像增强算法在渔业水下图像增强方面的直接应用受到了限制。而非物理模型方法主要通过直接对像素进行操作,如直方图均衡化、伽马校正、白平衡和基于融合的技术等[14-17],由于这些方法未充分考虑水下环境中复杂的耦合噪声和随机噪声,基于人工经验的调整策略可能会导致伪影和过曝现象,无法满足水下图像自适应动态增强的技术发展需求。
近年来,随着神经网络技术的迅速发展,深度学习方法也逐步应用于水下图像增强领域,包括卷积神经网络[18-19]、对抗生成模型[20-23]等。卷积神经网络能够自动学习和提取水下图像中的特征,减少了对人工经验的依赖,有效降低了水下图像增强的难度。然而,由于水下成像环境的复杂性,卷积神经网络在处理水下图像增强任务时的鲁棒性仍有待提高。对抗生成模型通过生成器和判别器之间的对抗训练,学习水下图像特征,增强了模型的鲁棒性。但是,基于生成对抗模型的水下图像增强模型受限于固定的感受野,难以应对水下图像退化的不均匀性。为解决这一问题,注意力机制逐渐被引入水下图像增强领域,包括通道注意力、语义信息注意力、自注意力等[24-27]。此外,生成对抗模型的训练需要大量的成对数据,而由于水下环境的特殊性,获得大量成对的水下图像数据非常困难,这极大地限制了水下增强模型的训练效果。针对此问题,Du等[28]提出了将循环生成对抗模型应用于水下增强任务,因循环生成对抗模型在训练时不需要成对的数据集,有效地解决了水下图像缺少参考图像的问题。但由于水下环境的复杂多变,单一的增强模型难以对不同退化程度的水下图像进行增强。近年来,针对多域联合图像生成问题,已经提出了能够满足多域交互迁移需求的相关模型[29],这为水下图像增强提供了有益参考。但受水下复杂环境导致的色偏、对比度低以及模糊等问题的影响,传统多域迁移模型在感知复杂噪声和失真方面的能力不足,直接应用于水下图像增强领域存在局限性。针对这一问题,本研究提出了一种基于混合注意力模块优化的星型生成对抗网络 (Star generative adversarial networks, Star-GAN)水下图像增强方法。该方法将多浊度图像增强问题转化为多域迁移问题,通过StarGAN模型实现利用单一迁移模型对差异化浑浊图像进行清晰化处理;同时,引入了具备通道和空间注意力混合优化的混合注意力模块 (Convolutional block attention module, CBAM),以减少图像迁移过程中的吸收和散射作用对颜色和清晰度的影响;最后通过消融和对比实验验证了该方法的有效性。
1. 材料与方法
1.1 平台与硬件
实验室采集设备如图1-a所示。采用1个长60 cm×宽60 cm×高60 cm的玻璃缸作为水下场景模拟平台。水下相机通过固定支架安装于玻璃缸的正上方,镜头部分浸入水下约5 cm,分辨率设置为2 048像素×1 536像素,采样距离为40 cm。为了控制光照条件,室内的玻璃窗用遮光材料密封,并使用固定亮度的室内光源进行照明。用DS500系列便携式多参数水质仪测量水体浊度,并以牛奶作为调节浊度的溶剂。选择3种不同类型的图像作为背景,使用防水材料打印。
养殖平台环境下,大黄鱼 (Larimichthys crocea) 的图像数据于“渔机1号”养殖平台1号养殖舱采集。该养殖舱水深为8 m,直径为20 m。采用滑轨式水下相机在水深2 m处采样。在采样过程中开启相机两侧的补光灯,每盏补光灯的输出功率为1 W,如图1-b所示。
数据分析的电脑配置:操作系统为64位Windows 10,CPU处理器为Intel (R) Xeon(R),GPU为NVIDIA Quadro M400,显存为24 GB。算法基于PyTorch框架,采用Python 3.7编程语言进行开发。
1.2 数据获取
本研究的数据集由两部分组成:实验室场景下的水下图像数据集和养殖平台环境下的大黄鱼图像数据集。实验室场景水下数据集的构建方法为:首先将1张用防水材料打印的图像放置在缸底,并用铁块压住,接着在玻璃缸中加入深为45 cm (约162 L)、浊度为0 NTU的纯净水,使用水下相机对0 NTU的3张水下图像进行取样,然后用滴管向水中缓慢加入少量牛奶并搅拌均匀,静置后测量水体浊度。若水体浊度上升1 NTU,则重复操作继续采样;若浊度无明显变化,则继续向水体中加入少量牛奶,直至浊度上升1 NTU。随后,重复上述操作,直至水体浊度达到30 NTU,此时图像已被悬浮物完全遮挡。因此,本实验设定实验室环境中水体浑浊度采集上限为30 NTU。实际养殖场景中,水体浊度会随着水域、温度和季节的变化而变化,如海上养殖平台冬天的水体泥沙含量比夏天高,为此在实验室中模拟了多种浊度的水体并采集多浊度数据共105张。不同浊度环境下采集的图像退化程度不同,根据王浩[30]提出的基于直方图分级的水下图像标准,将0 NTU的水下图像视为清晰图像,其余水下图像按0~10 NTU、10~20 NTU、20~30 NTU分为轻度浑浊、中度浑浊和重度浑浊图像。
本研究主要解决单一场景多浑浊度图像增强问题。针对每个单一场景单独训练模型会导致效率较低且训练出的模型泛用性差,为了提高训练效率和模型的泛用性,本实验将实验室中采集的3个单一场景水下图像数据集合并训练,同时为了验证训练的模型能否实现特定场景水下图像的增强,将实验室中采集的浑浊图像数据集裁剪并随机拼接,构建了94张图像用于测试。
养殖平台数据集的构建方法是从平台采集的数据中挑选300张图像,并通过旋转、翻转等操作将数据集扩充至900张。设定浑浊强度为0.5、0.7和0.9,使用加雾算法生成3种不同浑浊度的图像各900张。从原始图像和每种浊度图像中各随机抽取90张作为测试集,其余图像作为训练集。
1.3 星型生成对抗网络 (StarGAN)
水下成像环境多变,不同浑浊程度水体中采集的图像退化程度差别较大,为了针对退化程度不同的水下图像进行处理,本研究引入星型生成对抗网络 (StarGAN)。StarGAN是一种用于图像迁移的非对称网络[29], 如图2所示,StarGAN由一个生成器G、一个判别器D和一个辅助分类器C构成。
StarGAN的损失函数由对抗性损失、域分类损失和循环一致性损失3部分组成。对抗性损失的计算公式为:
$$ {L}_{\mathrm{a}\mathrm{d}\mathrm{v}}{\mathrm{=}}{\mathbb{E}}_{x}\left[\mathrm{l}\mathrm{g}\mathrm{D}\left(x\right)\right]{\mathrm{+}}{\mathbb{E}}_{x,c}\left[\mathrm{l}\mathrm{g}(1{\text{−}}\mathrm{D}\left(\mathrm{G}\left(x,c\right)\right))\right] $$ (1) 式中:$ x $ 表示输入图像;c表示目标域标签;G表示生成器;D表示判别器。生成器G试图最小化目标函数,而判别器D试图最大化目标函数。此外,由于原始的对抗性损失容易出现模型崩溃的问题。为了提高训练过程的稳定性,将使用Wasserstein对抗性损失函数代替原始的对抗性损失函数。Wasserstein对抗性损失函的计算公式为:
$$ \begin{array}{c} {L}_{\mathrm{w}\mathrm{a}\mathrm{d}\mathrm{v}}{\mathrm{=}}{\mathbb{E}}_{x}\left[\mathrm{D}\left(x\right)\right]{\text{−}}{\mathbb{E}}_{x,c}\left[\mathrm{D}\left(\mathrm{G}\left(x,c\right)\right)\right]{\text{−}}\\ {\lambda }_{\mathrm{w}}{\mathbb{E}}_{\widehat{x}}\left[{\left({\parallel {\nabla }_{\widehat{x}}\mathrm{D}\left(\widehat{x}\right)\parallel }_{2}{\text{−}}1\right)}^{2}\right] \end{array} $$ (2) 式中:$ \widehat{x} $ 表示沿着一对真实图像和生成图像之间的直线进行均匀采样;$ {\lambda }_{\mathrm{w}} $ 设置为10。
由于StarGAN使用一个生成器实现多个域之间的相互迁移,生成目标域图像的同时还要将生成的图像分到正确的域中,因此需要引入域分类损失。域分类损失的计算公式为:
$$ {L}_{\mathrm{d}\mathrm{c}}{\mathrm{=}}{\mathbb{E}}_{x,{c}{\text{'}}}[{\text{−}}\mathrm{l}\mathrm{g}{\mathrm{D}}_{c}\left({c}{\text{'}}|x\right)] $$ (3) $$ {L}_{\mathrm{g}\mathrm{c}}{\mathrm{=}}{\mathbb{E}}_{x,c}[{\text{−}}\mathrm{l}\mathrm{g}{\mathrm{D}}_{c}\left(c|\mathrm{G}(x,c)\right)] $$ (4) 式中:$ {c}{\mathrm{\text{'}}} $ 表示源域标签;由于辅助分类器不能脱离判别器单独作用,使用 $ {\mathrm{D}}_{c} $ 表示辅助分类器和判别器;$ {L}_{\mathrm{g}\mathrm{c}} $ 表示生成器的域分类损失;$ {L}_{\mathrm{d}\mathrm{c}} $ 表示辅助分类器和判别器的域分类损失。
最小化Wasserstein对抗性损失和域分类损失可以使生成器G生成更接近目标域的图像,然而只使用这2个损失函数会导致生成的图像丢失大量源域信息,为了进一步约束生成器G,使其生成图像在接近目标域的同时尽可能保留源域信息,因此引入循环一致性损失。循环一致性损失的计算公式为:
$$ {L}_{\mathrm{r}\mathrm{e}}{\mathrm{=}}{\mathbb{E}}_{x,c,{c}{\text{'}}}[\parallel x{\text{−}}\mathrm{G}\left(\mathrm{G}\left(x,c\right),{c}{\text{'}}\right){\parallel }_{1}] $$ (5) 生成器G根据源域图像和目标域标签生成目标域图像后,再根据目标域图像和源域标签生成源域图像,循环一致性损失使用L1范数约束生成器,使由目标域再次生成的源域图像和初始的源域图像尽可能接近。
因此生成器和判别器的整体损失函数为:
$$ {L}_{\mathrm{D}}{\mathrm{=}}{\text{−}}{L}_{\mathrm{w}\mathrm{a}\mathrm{d}\mathrm{v}}{\mathrm{+}}{\lambda }_{\mathrm{d}\mathrm{c}}{L}_{\mathrm{d}\mathrm{c}} $$ (6) $$ {L}_{\mathrm{G}}{\mathrm{=}}{L}_{\mathrm{w}\mathrm{a}\mathrm{d}\mathrm{v}}{\mathrm{+}}{\lambda }_{\mathrm{g}\mathrm{c}}{L}_{\mathrm{g}\mathrm{c}}{\mathrm{+}}{\lambda }_{\mathrm{r}\mathrm{e}}{L}_{\mathrm{r}\mathrm{e}} $$ (7) 式中:$ {L}_{{\mathrm{D}}} $ 表示判别器和辅助分类器损失函数;$ {L}_{{\mathrm{G}}} $ 表示生成器损失函数。
1.4 混合注意力模块
StarGAN存在对复杂噪声和失真感知能力不强的问题,水下环境由于选择性吸收和散射的影响,存在色偏和模糊等失真问题。针对水下图像的色偏和模糊问题,本研究拟采用通道注意力模块和空间注意力模块来解决。色偏问题主要由水下环境中光线的吸收和散射不均匀所致,而通道注意力模块能够通过调整不同颜色通道的权重有效纠正色偏。此外,水下图像模糊往往是由于悬浮物的散射作用造成的。空间注意力模块专注于捕捉空间纹理信息的相关性,因此,在图像重建过程中,它能够增强对图像细节和结构信息的关注。综合考虑这2个关键问题,本研究选用混合注意力模块 (CBAM)[31] 来增强水下图像的质量。CBAM通过整合通道和空间注意力机制的优势,为提升水下图像增强效果提供了坚实的基础。
CBAM整体结构如图3所示,其中C、H和W分别代表输入和输出的通道数、高度和宽度维度。
如图4所示,通道注意力模块 (CAM) 首先通过平均池化和最大池化对每个通道的特征进行降维处理,将特征图压缩为2个向量。这2个向量随后被送入1个共享前馈神经网络 (也称为多层感知器,Multilayer Perceptron,MLP) 进行处理,输出2个可以反映各通道相对重要性的注意力权重。将这2个注意力权重进行拼接,并通过Sigmoid函数激活,生成1个通道注意力权重图。
如图5所示,空间注意力模块 (SAM) 首先对经过通道注意力模块调整的特征图进行平均池化和最大池化操作,提取每个空间位置的特征,生成2个二维特征图。接着将这2个特征图合并,并送入1个1×1的卷积层,生成1个空间注意力权重图。
1.5 生成器整体结构
本实验在StarGAN生成器的每个残差块后加1个CBAM模块,改进后的生成器由卷积层、归一化层、激活层、反卷积层、残差块和CBAM组成。其中卷积层的作用是提取图像特征,归一化层可以稳定训练过程并加速收敛,激活层使用非线性变化以提高模型的表达能力;反卷积层将特征图恢复为图像,残差块使用短路连接,可以缓解模型梯度消失的问题并增强特征学习能力;CBAM模块通过通道和空间注意力机制进一步提高特征表示,自动调整特征图的通道和空间权重,强调重要特征区域。生成器整体结构的定义如表1所示。
表 1 生成器结构Table 1. Structure of generator层名
Name of layer输入
Input输出
Output超参数
Hyper-parameter卷积层Convolutional layer 7×256×256 64×256×256 k=7, s=1, bias=’False’ 归一化层Normalization layer 64×256×256 64×256×256 f=’ReLU’ 卷积层Convolutional layer 64×256×256 128×128×128 k=4, s=2, bias=’False’ 归一化层Normalization layer 128×128×128 128×128×128 f=’ReLU’ 卷积层Convolutional layer 128×128×128 256×64×64 k=4, s=2, bias=’False’ 归一化层Normalization layer 256×64×64 256×64×64 f=’ReLU’ 6个残差块和混合注意力模块Residual block and CBAM×6 256×64×64 256×64×64 k=3, s=1, bias=’False’ 反卷积层Transposed convolution layer 256×64×64 128×128×128 k=4, s=2, bias=’False’ 归一化层Normalization layer 128×128×128 128×128×128 f=’ReLU’ 反卷积层Transposed convolution layer 128×128×128 64×256×256 k=4, s=2, bias=’False’ 归一化层Normalization layer 64×256×256 64×256×256 f=’ReLU’ 反卷积层Transposed convolution layer 64×256×256 3×256×256 k=7, s=1, bias=’False’ 归一化层Normalization layer 3×256×256 3×256×256 f=’Tanh’ 注:超参数中,k表示卷积核大小,s表示步长,bias表示偏置,f表示使用的激活函数。 Note: Among the hyper-parameters, k represents the convolution kernel size, s represents the step size, bias represents the bias, and f represents the activation function used. 1.6 评价指标
本研究从定性评价和定量评价2个维度对增强后的图像进行评价。定性评价采用视觉观察的方法来评估图像的增强效果,定量评价选择水下彩色图像质量评估 (Underwater color image quality evaluation, UCIQE)[32]、水下图像质量评估 (Underwater image quality measurement, UIQM)[33]和图像熵[34] 3个评价指标来进行分析。
UIQM是Panetta等[33]针对水下图像特点 (如水对不同波长光的选择性吸收作用导致的色偏、前向散射导致的图像模糊以及后向散射导致的对比度降低等问题) 提出的水下图像质量评价指标。UIQM是水下图像色度、清晰度和对比度的线性加权组合,可以有效评价水下图像的失真和模糊程度,因此本研究将UIQM作为一个图像质量评价指标。UIQM的计算公式为:
$$ \mathrm{U}\mathrm{I}\mathrm{Q}\mathrm{M}{\mathrm{=}}0.028\;2\mathrm{u}\mathrm{i}\mathrm{c}\mathrm{m}{\mathrm{+}}0.295\mathrm{ }3\mathrm{u}\mathrm{i}\mathrm{s}\mathrm{m}{\mathrm{+}}3.575\mathrm{ }3\mathrm{u}\mathrm{i}\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{m} $$ (8) 式中:uicm表示水下图像色度;uism表示水下图像清晰度;uiconm表示水下图像对比度。UIQM的值越高表示水下图像色彩越平衡、清晰度越好、对比度越高,即质量越好。
UCIQE是CIELab空间中色度、饱和度和亮度的线性加权组合。水下图像在CIELab空间中的色彩因子与主观图像质量感知有较强的相关性,因此UCIQE使用CIELab空间中色度、饱和度和亮度的加权组合来评价水下图像的失真程度。UCIQE可以较好地评价水下图像颜色失真程度,因此本研究将UCIQE作为第2个图像质量评价指标。UCIQE的计算公式为:
$$ \mathrm{U}\mathrm{C}\mathrm{I}\mathrm{Q}\mathrm{E}{\mathrm{=}}0.468o{\mathrm{+}}0.274\mathrm{ }5\mathrm{c}\mathrm{o}\mathrm{n}{\mathrm{+}}0.257\mathrm{ }6\mu $$ (9) 式中:$ o $ 表示水下图像色度的标准差;con表示水下图像亮度的对比度;$ \mu $ 表示水下图像饱和度的平均值。UCIQE的值越大表示水下图像的质量越好。
图像熵是从统计分析角度衡量图像质量的一个重要指标,通常用于评价图像的信息量。图像熵值反映了图像信息的丰富程度,熵值越高,表明图像质量越好。图像熵分为一维熵和二维熵2种形式。一维熵主要描述图像的灰度分布,但无法涵盖图像内容的空间结构信息。二维熵在一维熵的基础上增加了空间结构信息,能够更全面地从空间结构的角度评估图像的细节丰富程度。因此,为了更精确地衡量图像质量,本研究选用二维熵作为第3个图像质量评价指标。二维熵的计算公式为:
$$ p(i,\;j){\mathrm{=}}\frac{f(i,\;j)}{mn} $$ (10) $$ {E}_{2}{\mathrm{=}}{\text{−}}{\sum }_{i{\mathrm{=}}0}^{255}{\sum }_{j{\mathrm{=}}0}^{255}p\left(i,\;j\right){\mathrm{l}\mathrm{o}\mathrm{g}}_{2}p(i,\;j) $$ (11) 式中:f (i, j) 代表像素对 (i, j) 出现的频率;$ {E}_{2} $ 代表二维图像熵,其值越大表示图像包含的信息越多,质量越好。
2. 结果与分析
2.1 模型参数
本模型基于StarGAN架构进行了注意力机制的增强,采用CBAM作为注意力模块。由于在StarGAN的残差块中集成了CBAM,而损失函数保持不变,因此实验参数沿用了Choi等[29]的设置:$ {\lambda }_{\mathrm{w}}{\mathrm{=}}10 $,$ {\lambda }_{\mathrm{d}\mathrm{c}}{\mathrm{=}}{\lambda }_{\mathrm{g}\mathrm{c}}{\mathrm{=}}1 $,$ {\lambda }_{\mathrm{r}\mathrm{e}}{\mathrm{=}}10 $。模型训练采用Adam优化算法,输入图像尺寸 (像素) 设定为256×256,批量大小(batch_size)为8,学习率为0.000 1,训练轮次 (epoch)为50 000。
2.2 实验结果
2.2.1 消融实验
水下图像因水体对可见光的吸收率不同而产生不同程度的色偏,同时受散射作用影响,图像往往显得模糊。混合注意力模块 (CBAM) 由通道注意力模块 (CAM) 和空间注意力模块 (SAM) 组成,可以从通道和空间2个维度突出重要特征。本实验通过在StarGAN中加入CBAM模块,旨在提高模型对颜色偏差和模糊区域的处理能力。如图6所示,在模型参数保持一致的情况下,未加注意力模块的StarGAN能较好地改善模糊图像的清晰度,但在色偏校正方面表现不佳,尤其对内容相对复杂的图像,增强后的虚影明显,纹理特征丢失严重。而加入CAM的StarGAN,在提升图像清晰度和校正色偏方面表现较好,但由于在生成器中仅加入CAM,缺少对纹理细节的关注,因此生成的大黄鱼图像纹理细节丢失,只能看清大致轮廓,无法清晰分辨胸鳍和尾鳍等部位,在增强左右场景不同的实验室中度浑浊图像时会出现失真现象。加入SAM的StarGAN,在处理图像时虽然增强了图像细节,但在色偏校正方面的效果不佳。相比之下,CBAM的加入使得StarGAN在色偏校正和图像增强方面均表现出色,同时对实验室和养殖场景各种浑浊度的图像均有良好的增强效果,能够生成边缘清晰和纹理丰富的大黄鱼图像,清晰展现胸鳍、背鳍和尾鳍等部位。然而,当色偏和模糊同时出现时,模型的增强能力有所下降。
图 6 分为4域增强的原始图像和增强后图像注:第1行为实验室轻度浑浊图像及增强后图像;第2行为实验室中度浑浊图像及增强后图像;第3行为养殖平台浑浊度为0.5的图像及增强后图像;第4行为养殖平台浑浊度为0.7的图像及增强后图像;第5行为养殖平台浑浊度为0.9的图像及增强后图像。Figure 6. Original image and enhanced image divided into four domainsNote: The first row shows slightly cloudy images of the laboratory dataset and enhanced restoration images; the second row shows moderately cloudy images of the laboratory dataset and enhanced restoration images; the third row shows images with a turbidity of 0.5 of aquaculture platform dataset and enhanced restoration images; the fourth row shows images with a turbidity of 0.7 of aquaculture platform dataset and enhanced restoration images; the fifth row shows images with a turbidity of 0.9 of aquaculture platform dataset and enhanced restoration images.实验室数据消融实验的定量评估结果如表2所示。StarGAN在未集成注意力模块时,其各项评分均为最低。相比之下,集成了SAM和CAM的StarGAN在2种环境下的3项评分均有所提高。CAM通过自动调整特征图的通道权重,强化了重要通道特征并抑制了不重要的通道,这增强了模型对色偏的校正能力。特别是在UCIQE评价指标上,由于其主要从色彩角度衡量图像的质量,因此UCIQE的评分提升最为显著。而集成了CBAM的StarGAN在3项评分中均表现最佳,表明由CAM和SAM串联组成的CBAM能显著提升模型对水下图像中复杂噪声和失真的处理能力,提高生成图像的质量。这一结果与消融实验的定性评估结果相一致。
表 2 消融实验结果比较Table 2. Comparison of results of ablation experiments域数量
Number of
domains增强模型
Enhanced
model实验室数据集
Laboratory dataset养殖平台数据集
Aquaculture platform dataset图像熵
E2水下彩色
图像质量评估
UCIQE水下图像
质量评估
UIQM图像熵
E2水下彩色
图像质量评估
UCIQE水下图像
质量评估
UIQM2 StarGAN 12.08 27.13 0.85 8.43 8.46 0.34 StarGAN+CAM 12.50 29.33 1.05 9.07 8.67 0.39 StarGAN+SAM 12.24 27.61 0.96 9.26 9.28 0.41 StarGAN+CBAM 12.68 29.91 1.07 9.65 9.57 0.44 4 StarGAN 12.67 28.21 1.06 9.05 8.67 0.38 StarGAN+CAM 12.80 29.56 1.17 9.20 9.66 0.41 StarGAN+SAM 12.68 28.60 1.14 9.36 10.01 0.47 StarGAN+CBAM 12.83 30.13 1.18 9.94 10.35 0.52 2.2.2 多域迁移的作用
水下环境的浑浊程度是影响图像成像质量的关键因素之一。通常情况下,在浊度较高的水体中捕获的图像会显得更加模糊,而且在水体浊度差异较大时,水下图像的退化程度也会表现出明显差异。由于单一增强模型难以适应不同退化程度的水下图像,因此需要对退化程度差异较大的水下图像进行分域增强。为说明分域增强的必要性,本实验参考大多数模型仅涉及源域和目标域2个域的特点,并参照王浩[30]的浊度分级方法,将实验室环境和养殖平台环境的水下图像分别进行了2域增强和4域增强的对比研究,定性结果如图6和图7所示。实验室环境数据集中的4个模型在增强后均存在色偏未完全去除的问题;在进行2域增强时,这些模型增强后的图像背景还出现了比较明显的过曝现象,尤其在处理中度浑浊的图像时尤为明显。相比之下,采用集成了CBAM的StarGAN能够保留更多的背景细节,显示出分域增强在处理不同浑浊度水下图像时的有效性。在养殖平台环境下,对比不加注意力模块的StarGAN和加入CAM的StarGAN,两者在处理分为2个域的水下图像时,对浊度为0.9的图像几乎无法实现有效增强。而加入SAM的StarGAN以降低低浊度图像增强效果为代价,使得不同浊度水平(0.5、0.7和0.9)的图像增强效果相差不大。使用加入CBAM的StarGAN进行增强时,无论是分为2个域还是4个域,增强后的图像均出现了较为明显的瓦影,导致图像质量显著下降。实验室和养殖平台2种环境下的水下图像增强定量结果表明,4域增强能有效提升图像质量,其效果优于2域增强方法。
图 7 分为2域增强的原始图像和增强后图像注:第1行为实验室轻度浑浊图像及增强后图像;第2行为实验室中度浑浊图像及增强后图像;第3行为养殖平台浑浊度为0.5的图像及增强后图像;第4行为养殖平台浑浊度为0.7的图像及增强后图像;第5行为养殖平台浑浊度为0.9的图像及增强后图像。Figure 7. Original image and enhanced image divided into two domainsNote: The first row shows slightly cloudy images of the laboratory dataset and enhanced restoration images; the second row shows moderately cloudy images of the laboratory dataset and enhanced restoration images; the third row shows images with a turbidity of 0.5 of aquaculture platform dataset and enhanced restoration images; the fourth row shows images with a turbidity of 0.7 of aquaculture platform dataset and enhanced restoration images; the fifth row shows images with a turbidity of 0.9 of aquaculture platform dataset and enhanced restoration images.2.2.3 与其他方法的比较
将本研究方法与双注意力变换的水下图像增强 (UDAformer)[26]、对比水下恢复方法 (Contrastive underwater restoration approach, CWR)[35]、水下暗通道先验 (Underwater dark channel prior, UDCP)[12]、循环生成对抗网络 (CycleGAN)[28]和自适应直方图均衡 (Contrast limited adaptive histogram equalization, CLAHE)[36]进行比较,增强结果如图8所示。
图 8 原始图像和增强后图像注:第1行为实验室轻度浑浊图像及增强后图像;第2行为实验室中度浑浊图像及增强后图像;第3行为养殖平台浑浊度为0.5的图像及增强后图像;第4行为养殖平台浑浊度为0.7的图像及增强后图像;第5行为养殖平台浑浊度为0.9的图像及增强后图像。Figure 8. Original image and enhanced imageNote: The first row shows slightly cloudy images of the laboratory dataset and enhanced restoration images; the second row shows moderately cloudy images of the laboratory dataset and enhanced restoration images; the third row shows images with a turbidity of 0.5 of aquaculture platform dataset and enhanced restoration images; the fourth row shows images with a turbidity of 0.7 of aquaculture platform dataset and enhanced restoration images; the fifth row shows images with a turbidity of 0.9 of aquaculture platform dataset and enhanced restoration images.综合2种环境下采集的水下图像数据集分析,UDCP的应用场景较单一,仅在浑浊度较低且无色偏的特定条件下,获得了与本研究方法接近的增强效果,对于存在色偏的情况时,UDCP不仅无法纠正色偏,反而可能加剧色偏问题。CLAHE无法校正色偏问题,其增强效果主要体现在改善低浑浊度模糊图像上。UDAformer虽在色偏校正方面表现较好,但在模糊图像方面的效果不佳,存在忽略图像内容的随机生成问题。CWR和CycleGAN在增强带有色偏的模糊图像时的效果不及本研究方法,但在处理无色偏的模糊图像时,表现出与本研究方法相似的定性效果。本研究方法在处理有色偏的水下图像时,对轻度和中度浑浊的图像增强效果较好,而对无色偏且浑浊度为0.5、0.7和0.9的图像也能有效增强,说明当色偏和模糊耦合出现时,会降低模型的增强能力。
本研究还对几种模型增强后的图像进行了定量比较,结果见表3。通过对比表2和表3的定量结果发现,CycleGAN在色彩生成方面的表现优于CWR,但在细节生成方面则不如CWR。CLAHE对于增强水下模糊图像几乎无效,而UDAformer在色彩生成能力上表现最差。UDCP在增强无色偏水下图像时的性能接近本研究方法。此外,尽管不同模型增强后的图像在定性效果上存在较大差异,但3种评价指标的定量结果却很相似。这主要是因为现有的水下图像评价指标多从色彩和细节等方面评估图像质量,然而在渔业领域的水下图像中,色彩和细节并不丰富,导致通用的水下图像质量评价指标对于增强后的结果给出了相近的评分。
表 3 本研究方法与其他方法的比较Table 3. Comparison of method proposed in this study with other methods增强方法
Enhanced method实验室数据集
Laboratory dataset养殖平台数据集
Aquaculture platform dataset图像熵
E2水下彩色图像
质量评估
UCIQE水下图像
质量评估
UIQM图像熵
E2水下彩色图像
质量评估
UCIQE水下图像
质量评估
UIQM水下图像增强UDAformer 12.31 23.67 0.88 8.26 7.14 0.41 对比水下恢复方法CWR 12.35 28.52 1.12 9.05 9.83 0.42 水下暗通道先验UDCP 9.29 17.53 0.16 9.93 10.01 0.51 自适应直方图均衡CLAHE 10.27 18.12 0.46 9.34 8.46 0.32 循环生成对抗网络CycleGAN 12.51 28.58 1.13 9.23 9.45 0.45 本研究方法StarGAN+CBAM 12.83 30.13 1.18 9.94 10.35 0.52 3. 小结
鉴于渔业养殖环境和作业工况的复杂性和多变性,采集到的水下图像在浑浊度上存在明显差异,这使得单一模型难以适应不同浑浊度图像的增强需求。因此,本研究提出了一种基于CBAM改进的StarGAN模型,专门用于水下多浑浊度图像的增强。首先,引入了StarGAN框架,并集成了CBAM模块以增强模型在色偏纠正和图像去模糊方面的能力。其次,构建了包含2种环境(养殖平台和实验室)的水下多浑浊度数据集,其中实验室数据集涵盖了3种固定场景下的多浑浊度图像,并通过图像拼接技术扩充了数据集;而养殖平台环境的数据集则包括了清晰图像及其对应的加浑浊版本,并通过旋转和翻转操作进一步扩充了数据集。最后,通过消融实验验证了本研究方法的有效性。与其他先进模型的性能相比,本研究优化的StarGAN模型展现出了更优的性能。
-
图 6 分为4域增强的原始图像和增强后图像
注:第1行为实验室轻度浑浊图像及增强后图像;第2行为实验室中度浑浊图像及增强后图像;第3行为养殖平台浑浊度为0.5的图像及增强后图像;第4行为养殖平台浑浊度为0.7的图像及增强后图像;第5行为养殖平台浑浊度为0.9的图像及增强后图像。
Figure 6. Original image and enhanced image divided into four domains
Note: The first row shows slightly cloudy images of the laboratory dataset and enhanced restoration images; the second row shows moderately cloudy images of the laboratory dataset and enhanced restoration images; the third row shows images with a turbidity of 0.5 of aquaculture platform dataset and enhanced restoration images; the fourth row shows images with a turbidity of 0.7 of aquaculture platform dataset and enhanced restoration images; the fifth row shows images with a turbidity of 0.9 of aquaculture platform dataset and enhanced restoration images.
图 7 分为2域增强的原始图像和增强后图像
注:第1行为实验室轻度浑浊图像及增强后图像;第2行为实验室中度浑浊图像及增强后图像;第3行为养殖平台浑浊度为0.5的图像及增强后图像;第4行为养殖平台浑浊度为0.7的图像及增强后图像;第5行为养殖平台浑浊度为0.9的图像及增强后图像。
Figure 7. Original image and enhanced image divided into two domains
Note: The first row shows slightly cloudy images of the laboratory dataset and enhanced restoration images; the second row shows moderately cloudy images of the laboratory dataset and enhanced restoration images; the third row shows images with a turbidity of 0.5 of aquaculture platform dataset and enhanced restoration images; the fourth row shows images with a turbidity of 0.7 of aquaculture platform dataset and enhanced restoration images; the fifth row shows images with a turbidity of 0.9 of aquaculture platform dataset and enhanced restoration images.
图 8 原始图像和增强后图像
注:第1行为实验室轻度浑浊图像及增强后图像;第2行为实验室中度浑浊图像及增强后图像;第3行为养殖平台浑浊度为0.5的图像及增强后图像;第4行为养殖平台浑浊度为0.7的图像及增强后图像;第5行为养殖平台浑浊度为0.9的图像及增强后图像。
Figure 8. Original image and enhanced image
Note: The first row shows slightly cloudy images of the laboratory dataset and enhanced restoration images; the second row shows moderately cloudy images of the laboratory dataset and enhanced restoration images; the third row shows images with a turbidity of 0.5 of aquaculture platform dataset and enhanced restoration images; the fourth row shows images with a turbidity of 0.7 of aquaculture platform dataset and enhanced restoration images; the fifth row shows images with a turbidity of 0.9 of aquaculture platform dataset and enhanced restoration images.
表 1 生成器结构
Table 1 Structure of generator
层名
Name of layer输入
Input输出
Output超参数
Hyper-parameter卷积层Convolutional layer 7×256×256 64×256×256 k=7, s=1, bias=’False’ 归一化层Normalization layer 64×256×256 64×256×256 f=’ReLU’ 卷积层Convolutional layer 64×256×256 128×128×128 k=4, s=2, bias=’False’ 归一化层Normalization layer 128×128×128 128×128×128 f=’ReLU’ 卷积层Convolutional layer 128×128×128 256×64×64 k=4, s=2, bias=’False’ 归一化层Normalization layer 256×64×64 256×64×64 f=’ReLU’ 6个残差块和混合注意力模块Residual block and CBAM×6 256×64×64 256×64×64 k=3, s=1, bias=’False’ 反卷积层Transposed convolution layer 256×64×64 128×128×128 k=4, s=2, bias=’False’ 归一化层Normalization layer 128×128×128 128×128×128 f=’ReLU’ 反卷积层Transposed convolution layer 128×128×128 64×256×256 k=4, s=2, bias=’False’ 归一化层Normalization layer 64×256×256 64×256×256 f=’ReLU’ 反卷积层Transposed convolution layer 64×256×256 3×256×256 k=7, s=1, bias=’False’ 归一化层Normalization layer 3×256×256 3×256×256 f=’Tanh’ 注:超参数中,k表示卷积核大小,s表示步长,bias表示偏置,f表示使用的激活函数。 Note: Among the hyper-parameters, k represents the convolution kernel size, s represents the step size, bias represents the bias, and f represents the activation function used. 表 2 消融实验结果比较
Table 2 Comparison of results of ablation experiments
域数量
Number of
domains增强模型
Enhanced
model实验室数据集
Laboratory dataset养殖平台数据集
Aquaculture platform dataset图像熵
E2水下彩色
图像质量评估
UCIQE水下图像
质量评估
UIQM图像熵
E2水下彩色
图像质量评估
UCIQE水下图像
质量评估
UIQM2 StarGAN 12.08 27.13 0.85 8.43 8.46 0.34 StarGAN+CAM 12.50 29.33 1.05 9.07 8.67 0.39 StarGAN+SAM 12.24 27.61 0.96 9.26 9.28 0.41 StarGAN+CBAM 12.68 29.91 1.07 9.65 9.57 0.44 4 StarGAN 12.67 28.21 1.06 9.05 8.67 0.38 StarGAN+CAM 12.80 29.56 1.17 9.20 9.66 0.41 StarGAN+SAM 12.68 28.60 1.14 9.36 10.01 0.47 StarGAN+CBAM 12.83 30.13 1.18 9.94 10.35 0.52 表 3 本研究方法与其他方法的比较
Table 3 Comparison of method proposed in this study with other methods
增强方法
Enhanced method实验室数据集
Laboratory dataset养殖平台数据集
Aquaculture platform dataset图像熵
E2水下彩色图像
质量评估
UCIQE水下图像
质量评估
UIQM图像熵
E2水下彩色图像
质量评估
UCIQE水下图像
质量评估
UIQM水下图像增强UDAformer 12.31 23.67 0.88 8.26 7.14 0.41 对比水下恢复方法CWR 12.35 28.52 1.12 9.05 9.83 0.42 水下暗通道先验UDCP 9.29 17.53 0.16 9.93 10.01 0.51 自适应直方图均衡CLAHE 10.27 18.12 0.46 9.34 8.46 0.32 循环生成对抗网络CycleGAN 12.51 28.58 1.13 9.23 9.45 0.45 本研究方法StarGAN+CBAM 12.83 30.13 1.18 9.94 10.35 0.52 -
[1] 黄月群, 李文菁, 黄寿琨, 等. 鱼类行为监测技术应用研究[J]. 水产学杂志, 2022, 35(2): 102-107. [2] 刘世晶, 李国栋, 刘晃, 等. 中国水产养殖装备发展现状[J]. 水产学报, 2023, 47(11): 190-203. [3] 黄一心, 鲍旭腾, 徐皓. 中国渔业装备科技研究进展[J]. 渔业现代化, 2023, 50(4): 1-11. [4] 陈炜玲, 邱艳玲, 赵铁松, 等. 面向海洋的水下图像处理与视觉技术进展[J]. 信号处理, 2023, 39(10): 1748-1763. [5] GARCIA R, PRADOS R, QUINTANA J, et al. Automatic segmentation of fish using deep learning with application to fish size measurement[J]. ICES J Mar Sci, 2020, 77(4): 1354-1366. doi: 10.1093/icesjms/fsz186
[6] KLEINHAPPEL T K, PIKE T W, BURMAN O H P. Stress-induced changes in group behaviour[J]. Sci Rep, 2019, 9(1): 17200. doi: 10.1038/s41598-019-53661-w
[7] ZHANG P, YU H, LI H Q, et al. Msgnet: multi-source guidance network for fish segmentation in underwater videos[J]. Front Mar Sci, 2023, 10: 1256594. doi: 10.3389/fmars.2023.1256594
[8] WANG H, ZHANG S, ZHAO S L, et al. Real-time detection and tracking of fish abnormal behavior based on improved YOLOV5 and SiamRPN++[J]. Comput Electron Agric, 2022, 192: 106512. doi: 10.1016/j.compag.2021.106512
[9] 王柯俨, 黄诗芮, 李云松. 水下光学图像重建方法研究进展[J]. 中国图象图形学报, 2022, 27(5): 1337-1358. [10] ZHOU J C, ZHANG D H, ZHANG W S. Classical and state-of-the-art approaches for underwater image defogging: a comprehensive survey[J]. Front Inform Technol Electron Eng, 2020, 21(12): 1745-1769. doi: 10.1631/FITEE.2000190
[11] JAFFE J S. Computer modeling and the design of optimal underwater imaging systems[J]. IEEE J Oceanic Eng, 1990, 15(2): 101-111. doi: 10.1109/48.50695
[12] DREWS P, NASCIMENTO E, MORAES F, et al. Transmission estimation in underwater single images[C]//Proc IEEE Int Conf Comput Vis Workshops, 2013: 825-830.
[13] GALDRAN A, PARDO D, PICÓN A, et al. Automatic red-channel underwater image restoration[J]. J Vis Commun Image Represent, 2015, 26: 132-145. doi: 10.1016/j.jvcir.2014.11.006
[14] FU X Y, CAO X Y. Underwater image enhancement with global-local networks and compressed-histogram equalization[J]. Signal Process Image Commun, 2020, 86: 115892. doi: 10.1016/j.image.2020.115892
[15] ZHANG D, HE Z X, ZHANG X H, et al. Underwater image enhancement via multi-scale fusion and adaptive color-gamma correction in low-light conditions[J]. Eng Appl Artif Intell, 2023, 126: 106972. doi: 10.1016/j.engappai.2023.106972
[16] TAO Y, DONG L L, XU W H. A novel two-step strategy based on white-balancing and fusion for underwater image enhancement[J]. IEEE Access, 2020, 8: 217651-217670. doi: 10.1109/ACCESS.2020.3040505
[17] ZHOU J C, ZHANG D H, ZHANG W S. Underwater image enhancement method via multi-feature prior fusion[J]. Appl Intell, 2022, 52(14): 16435-16457. doi: 10.1007/s10489-022-03275-z
[18] LI C Y, ANWAR S, PORIKLI F. Underwater scene prior inspired deep underwater image and video enhancement[J]. Pattern Recognit, 2020, 98: 107038. doi: 10.1016/j.patcog.2019.107038
[19] LI C Y, GUO C L, REN W Q, et al. An underwater image enhancement benchmark dataset and beyond[J]. IEEE Trans Image Process, 2019, 29: 4376-4389.
[20] PANETTA K, KEZEBOU L, OLUDARE V, et al. Comprehensive underwater object tracking benchmark dataset and underwater image enhancement with GAN[J]. IEEE J Oceanic Eng, 2021, 47(1): 59-75.
[21] HAMBARDE P, MURALA S, DHALL A. UW-GAN: single-image depth estimation and image enhancement for underwater images[J]. IEEE Trans Instrument Meas, 2021, 70: 1-12.
[22] ISLAM M J, XIA Y Y, SATTAR J. Fast underwater image enhancement for improved visual perception[J]. IEEE Robot Autom Lett, 2020, 5(2): 3227-3234. doi: 10.1109/LRA.2020.2974710
[23] HAN J, ZHOU J, WANG L, et al. Fe-gan: fast and efficient underwater image enhancement model based on conditional GAN[J]. Electronics, 2023, 12(5): 1227. doi: 10.3390/electronics12051227
[24] WANG Z F, LI C F, MO Y Z, et al. RCA-CycleGAN: unsupervised underwater image enhancement using red channel attention optimized CycleGAN[J]. Displays, 2023, 76: 102359. doi: 10.1016/j.displa.2022.102359
[25] ZHANG D H, ZHOU J C, GUO C L, et al. Synergistic multiscale detail refinement via intrinsic supervision for underwater image enhancement[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2024, 38(7): 7033-7041.
[26] SHEN Z, XU H Y, LUO T, et al. UDAformer: underwater image enhancement based on dual attention transformer[J]. Comput Graph, 2023, 111: 77-88. doi: 10.1016/j.cag.2023.01.009
[27] 方明, 刘小晗, 付飞蚺. 基于注意力的多尺度水下图像增强网络[J]. 电子与信息学报, 2021, 43(12): 3513-3521. [28] DU R, LI W W, CHEN S D, et al. Unpaired underwater image enhancement based on CycleGAN[J]. Information, 2021, 13: 1. doi: 10.3390/info13010001
[29] CHOI Y, CHOI M, KIM M, et al. Stargan: unified generative adversarial networks for multi-domain image-to-image translation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 8789-8797.
[30] 王浩. 基于浑浊度分级的浑浊水体图像增强算法研究[D]. 武汉: 华中科技大学, 2021: 18-22. [31] WOO S, PARK J, LEE J Y, et al. Cbam: convolutional block attention module[C]//Proceedings of the European conference on computer vision (ECCV), 2018: 3-19.
[32] YANG M, SOWMYA A. An underwater color image quality evaluation metric[J]. IEEE Trans Image Process, 2015, 24(12): 6062-6071. doi: 10.1109/TIP.2015.2491020
[33] PANETTA K, GAO C, AGAIAN S. Human-visual-system-inspired underwater image quality measures[J]. IEEE J Oceanic Eng, 2015, 41(3): 541-551.
[34] CHEN X Q, ZHANG Q Y, LIN M H, et al. No-reference color image quality assessment: From entropy to perceptual quality[J]. EURASIP J Image Video Process, 2019, 2019: 77. doi: 10.1186/s13640-018-0395-2
[35] HAN J L, SHOEIBY M, MALTHUS T, et al. Underwater image restoration via contrastive learning and a real-world dataset[J]. Remote Sens, 2022, 14(17): 4297. doi: 10.3390/rs14174297
[36] PENG Y T, CHEN Y R, CHEN Z, et al. Underwater image enhancement based on histogram-equalization approximation using physics-based dichromatic modeling[J]. Sensors, 2022, 22(6): 2168. doi: 10.3390/s22062168