一. 论文信息 标题: Contextual Transformer Networks for Visual Recognition论文链接: arXivGitHub链接: https://github.com/JDAI-CV/CoTNet 二. 创新点 上下文Transformer模块(CoT): 提出了CoT模块,能够有效利用输入键之间的上下文信息,指导动态注意力矩阵的学习,从而增强视觉表示能力。 静态与动态上下文结合: CoT模块通过3×3卷积生成静态上下文表示,并结合动态注意力机制,提升了模型的特征提取能力。 三. 方法 CoT模块的设计流程如下&#x