这个论文核心思想认为:多源融合目标检测方法忽略了频率上的互补特征,如可见光图像中丰富的高频细节和红外图像中有价值的低频热信息,从而限制了检测性能。作者的思路是(如下图中的II所示),分别对可见光和红外图像提取高频、低频特征,将二者重新耦合。
为此,作者提出了Frequency-Driven Feature Decomposition Network (FD2Net),如下图所示,包括三个部分:特征分解编码器,多模态重建,多尺度检测头。
- Feature decomposition encoder:高频使用DCT变换提取,低频使用大核卷积来提取。然后交叉融合。
- Multimodal Reconstruction:在特征上进行互补的 mask,然后再分别重建回可见光与红外图像。
- Multi-Scale Detection Heads 就是FPN。
网络特点是,一方面要重建,另一方面要检测。二者同时训练。其它部分可以参考作者论文,这里不过多介绍。