论文链接:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
论文代码:https://github.com/google-research/vision_transformer
目录
1、Abstract and background
2、method
2.1、VISION TRANSFORMER (VIT)
2.2、FINE-TUNING AND HIGHER RESOLUTION
3、EXPERIMENTS
3.1、Setup
4、COMPARISON TO STATE OF THE ART(SOTA)
5、Pre-train data requirement
6、SCALING STUDY
7、INSPECTING VISION TRANSFORMER
8、SELF-SUPERVISION
9、conclusion
1、Abstract and background
Transformer架构已经成为自然语言处理中取得不错效果,但它在计算机视觉中的应用仍然有限。在计算机视觉领域,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构。本文摆脱了CNN的束缚,直接将图像分成块序列然后输入到Transformer中执行图像分类任务。
将一幅图像分割为多个patch(图像块),并将这些patch的线性嵌入序列作为Transformer的输入。图像块与NLP中的token(单词)的处理方式相同。然后采用有监督的方式对模型进行图像分类训练。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/36827.html