文章目录
摘要
本文使用PromptIR框架中的PGM模块来改进YoloV10。PGM(Prompt Generation Module)模块是PromptIR框架中的一个重要组成部分,主要负责生成输入条件化的提示(prompts)。这些提示是一组可学习的参数,它们与输入特征相互作用,以嵌入有关各种类型图像退化的信息。
PGM模块的核心功能是动态地从输入特征中预测基于注意力的权重,并将这些权重应用于提示组件以产生输入条件化的提示P。具体来说,PGM首先对输入特征进行全局平均池化操作,以生成一个特征向量v。然后,这个特征向量通过一个通道降采样卷积层,获得一个紧凑的特征向量,接着执行softmax操作,得到提示组件的权重w。最后,使用这些权重来调整提示组件,并通过一个3×3的卷积层来输出最终的提示P。
此外,为了使提示组件能够在不同分辨率的输入图像上工作,PGM还会对提示组件进行上采样操作&