论文地址:https://arxiv.org/abs/2201.00520
代码地址:https://github.com/LeapLabTHU/DAT
Abstract
1. Introduction
2. Related Work
图 2. 可变形注意机制的图示。 (a) 呈现可变形注意力的信息流。在左侧部分,一组参考点均匀地放置在特征图上,其偏移量是通过偏移网络从查询中学习到的。然后根据变形点从采样的特征中投影出变形的键和值,如右图所示。相对位置偏差也由变形点计算,增强了输出变形特征的多头注意力。我们只展示了 4 个参考点以进行清晰的展示,实际实施中还有更多参考点。 (b) 揭示了偏移生成网络的详细结构,标有特征图的大小。
3. Deformable Attention Transformer
3.1. Preliminaries
3.2. Deformable Attention
图 3. DAT 架构图解。 N 1 到N 4 是堆叠的连续局部注意和移位窗口/可变形注意块的数量。 k 和 s 表示补丁嵌入中卷积层的内核大小和步幅。