作者机构:Rohan Choudhury, et al. Carnegie Mellon University, KAIST, General Robotics
论文地址:[https://arxiv.org/pdf/2510.18091v1](https://arxiv.org/pdf/2510.18091v1)
项目地址:Accelerating Vision Transformers with Adaptive Patch Sizes | Rohan Choudhury
论文贡献:
1) 引入自适应图像块 Transformer (APT),它通过内容感知图像块大小将视觉 Transformer 的速度提升了高达 40%,在更高分辨率和更大模型规模下获得更大的收益。
2) 展示了 APT 能够保持标准预训练模型在不同分辨率和规模下的准确性。
3) 证明了 APT 可以扩展到 ImageNet 之外,在密集预测和视觉语言任务上表现良好。
