当前位置：主页 > 学术动态 >

用于遥感影像建筑物变化检测的多尺度交叉对偶注意力网络

点击数: 更新日期: 2023-12-20

中文题目：用于遥感影像建筑物变化检测的多尺度交叉对偶注意力网络

论文题目：The Multi-scale Cross Dual Attention Network for Remote Sensing Building Image Change Detection

录用期刊/会议：【地球信息科学学报】 (EI)

原文DOI：DOI:10.12082/dqxxkx.2023.230432

录用/见刊时间：2023年11月30日

封面摘要：用于遥感影像建筑物变化检测的多尺度交叉对偶注意力网络

作者列表：

1）张建兵中国石油大学（北京）信息科学与工程学院/人工智能学院计算机科学与技术系讲师

2）严泽枭中国石油大学（北京）信息科学与工程学院/人工智能学院计算机科学与技术系研21

3）马淑芳中国石油大学（北京）信息科学与工程学院/人工智能学院计算机科学与技术系研21

摘要:

本文提出了一种用于遥感影像变化检测的多尺度交叉对偶注意力网络MSCDAN（Multi-Scale Cross Dual Attention Network），该神经网络模型利用改进的ResNet18网络提取原始遥感影像中的多尺度低级特征，并通过结合交叉注意力和对偶注意力两种注意力机制的CDA（Cross Dual Attention）模块提取注意力特征信息。CDA模块可以加强输入数据中不同视角或特征图之间的关联、融合时空信息、捕捉地表变化的时间序列特征、识别周期性变化和持续性变化等时序相关的变化模式。MSCDAN模型通过全转置卷积上采样模块FTCUM（Fully Transposed Convolution Upsampling Module）对特征图中的每个点进行局部的特征融合，由神经网络判别变化边界，避免了像双线性插值等传统方法带来的模糊和锯齿等问题，且实现了端到端的训练和优化，从而能够更好地适应遥感影像变化检测任务需求。相较于现有主流方法DTCDSCN（Dual-Task Constrained Deep Siamese Convolutional Network），本文提出的方法在DSIFN数据集上的准确度提高了5.13%，在WHU-CD数据集上的准确度提高了1.3%。同时，本文方法在这两个数据集上的表现也优于现有方法ChangeNet以及LamboiseNet，在CDD数据集上的表现优于改进DeepLabv3+和SRCD-Net。这些结果表明本文方法在不同数据集上均具有良好的性能，对进一步研究遥感影像变化检测具有重要参考价值。

背景与动机:

现有的遥感影像变化检测方法在面对复杂应用场景时仍面临一些挑战，当遥感影像变化发生在大尺度范围内时，现有的变化检测方法会忽略一些细节信息，导致检测结果不准确，而当变化发生在小尺度范围内时，这些方法又会受到遥感影像噪声和伪变化的影响，使得结果产生偏差。本文通过引入多尺度注意力网络结构，使神经网络模型能在不同感受野下感知变化信息，检测不同尺度的变化范围。同时针对传统上采样过程中使用数值插值导致的边界锯齿和模糊问题，本文还研究了以神经网络的方式实现上采样，以局部特征和网络权重的融合计算边界，分步分级的完成上采样操作。

设计与实现:

本文细化了多尺度注意力网络的分支并将其扩展为交叉对偶结构，灵活的整合时域和空域信息，充分利用时空信息的相互作用，总体结构如图1所示。

图1 多尺度注意力网络模型

CDA注意力权重的计算公式为：

最终结果为：

使用的损失函数为：

（1）交叉对偶注意力模型

完整表示表示如下：

该部分的神经网络设计如下：

图2 交叉对偶注意力模型结构

（2）全转置卷积上采样模块

全转置卷积上采样模块通过逐层的操作将低分辨率的特征图上采样为与输入图像同分辨率的特征图。相比传统的通过重复像素值或插值的方式得到新像素的插值方法，FTCUM模块考虑了周边像素间的相互作用，对特征图中的每个点进行局部的特征融合，以揭示局部特征之间的细微联系，避免锯齿和模糊问题。其结构如图3所示。

图3 全转置卷积上采样模块（FTCUM）结构示意图

实验结果及分析:

（1）MSCDAN模型在LEVIR-CD、WHU-CD和DSIFN三个数据集上训练过程中各性能指标随epoch变化的情况。

图4 MSCDAN在不同数据验证集上的训练过程

从图4中可以看出，经训练后，模型最终达到了一个相对平稳的收敛状态。同时，快速的收敛速度也加快了实验进展。并且模型在LEVIR-CD数据集上表现最优，在WHU-CD数据集上表现也相对突出。

（2）本文方法与其他方法在不同数据集上的表现对比

ChangeNet、LamboiseNet、DTCTSCN模型以及本文所提MSCDAN模型在LEVIR-CD、WHU-CD和DSIFN三个数据集上的最佳推理表现。其结果如表1所示。

表1 不同方法在LEVIR-CD、WHU-CD和DSIFN数据集上的精确率、召回率、IoU、分数与准确率对比（%）

模型	LEVIR-CD	WHU-CD	DSIFN
模型	Pre. / Rec. / IoU / F1 / OA	Pre. / Rec. / IoU / F1 / OA	Pre. / Rec. / IoU / F1 / OA
ChangeNet	69.81 / 50.15 / 68.71 / 78.30 / 96.62	81.60 / 58.66 / 72.15 / 83.45 / 97.51	78.16 / 85.69 / 71.45 / 81.75 / 86.20
LamboiseNet	80.51 / 94.14 / 77.37 / 85.66 / 97.12	65.24 / 83.22 / 60.68 / 69.99 / 93.54	77.54 / 78.35 / 64.32 / 77.83 / 79.93
DTCDSCN	88.53 / 86.83 / 78.05 / 87.67 / 98.77	63.92 / 82.30 / 56.19 / 71.95 / 97.42	53.87 / 77.99 / 46.76 / 63.72 / 84.91
MSCDAN	89.68 / 84.49 / 86.17 / 89.30 / 98.81	88.82 / 81.41 / 77.52 / 84.95 / 98.69	85.61 / 84.37 / 78.66 / 84.99 / 89.27

为验证本文方法在非建筑的变化检测任务上的表现，本文还在通用变化检测数据集上与相关方法进行了对比，其结果如表2所示。

表2 不同方法在CDD数据集上的精确率、召回率、IoU、F1分数与准确率对比（%）

模型	Pre. / Rec. / IoU / F1 / OA
改进Deep Labv3+	87.30 / 90.20 / — / 88.40 / 96.40
SRCD-Net	92.55 / 93.34 / 86.81 / 92.94 / —
MSCDAN	93.68 / 92.80 / 88.74 / 93.18 / 97.92

（3）为验证多尺度CDA和FTCUM的有效性，本文设计了两个对比实验。

图5 多尺度CDA与单尺度CDA在F1分数上的对比

相对于单尺度的CDA模块，多尺度的CDA模块明显提升了模型的整体性能，将模型在分数上的收敛值从91.3%提高到了93.2%。

图6 FTCUM与双线性插值方法在精确率上的对比

图6表明了在使用FTCUM后，模型在保持召回率不下降的同时，提高了模型的精确率。

（4）遥感影像变化检测的直观效果

图7 MSCDAN模型等其他方法在LEVIR-CD、WHU-CD和DSIFN数据集上的遥感影像变化检测结果可视化效果

遥感影像变化检测的直观效果如图7所示。从图7中可见，MSCDAN模型在三个数据集上展现出了更加丰富和清晰的变化检测纹理和边缘细节，在小粒度、中等粒度和大粒度上都能有良好的表现，更加真实地反映遥感影像变化检测效果。这是由于MSCDAN模型的多尺度CDA模块增强了不同时相之间的关联性与差异性，关注更多层面上的粒度特征，捕捉到更细微的变化模式和特征，提高了变化检测精度；MSCDAN的多尺度特性也使得它能在不同的特征级别上根据实际的变化细节动态进行模型权重分配，减少了漏判的情况。

通讯作者简介:

张建兵，讲师，计算机技术专硕导师。研究方向：地理信息系统、数字地球、虚拟仿真、人工智能等。承担国家重点研发项目子课题、国家863项目子课题、中石化勘探开发研究院课题，中科院空天信息创新研究院课题，承担企业委托课题等科研项目10多项。通过软著进行成果转化2项。