下面用PyTorch 代码把 CV(视频/时序视觉)里最常见的“时间注意力(Temporal Attention)模块”讲清楚:它们本质上都是在时间维 T上做加权/交互,让模型能建模跨帧依赖(动作、事件、时序一致性等)。
我统一用视频特征张量形状:
- 输入:
x形状为(B, T, C, H, W) - 常见做法:先把空间压缩(pool)成(B, T, C),再在时间维做 attention(更省显存)
0) 时间注意力的核心公式(时间维 Self-Attention)
把每一帧(或每个时间 token)当成一个 token,沿时间维做注意力:
Q=XWQ,K=XWK,V=XWVQ = XW_Q,\quad K = XW_K,\quad V = XW_VQ