Transformer如何用于大规模图像识别？

科技前沿 • 2025-03-01 19:50 • 阅读 51

Transformer如何用于大规模图像识别？论文链接 AN IMAGE IS WORTH 16X16 WORDS TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 论文代码 https github com google research vision transformer 目录 1 Abstract and background 2

大家好，我是讯享网，很高兴认识大家。

论文链接：AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

论文代码：https://github.com/google-research/vision_transformer

目录

1、Abstract and background

2、method

2.1、VISION TRANSFORMER (VIT)

2.2、FINE-TUNING AND HIGHER RESOLUTION

3、EXPERIMENTS

3.1、Setup

4、COMPARISON TO STATE OF THE ART（SOTA）

5、Pre-train data requirement

6、SCALING STUDY

7、INSPECTING VISION TRANSFORMER

8、SELF-SUPERVISION

9、conclusion

1、Abstract and background

Transformer架构已经成为自然语言处理中取得不错效果，但它在计算机视觉中的应用仍然有限。在计算机视觉领域，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持其整体结构。本文摆脱了CNN的束缚，直接将图像分成块序列然后输入到Transformer中执行图像分类任务。

将一幅图像分割为多个patch（图像块），并将这些patch的线性嵌入序列作为Transformer的输入。图像块与NLP中的token（单词）的处理方式相同。然后采用有监督的方式对模型进行图像分类训练。

图1、总体流程图

小讯

如何成为一名FPGA工程师？需要掌握哪些知识？

上一篇 2025-02-17 17:02

2025年在NW.js里面使用node-printer

下一篇 2025-01-09 09:05

如何成为一名FPGA工程师？需要掌握哪些知识？ 1735992990
2025年目前最好用的百度网盘不限速，下载速度比超级会员还快！理论永久可用 1735992989
用一个故事来说OpenStack的架构 1735992989
设计模式实战(单例模式) 1735992988
2025年浅谈“智慧园区” 1735992987
什么是网络安全-网络安全包括哪几个方面- 1735992986
springboot整合elasticsearch7 1735992985
简单的了解一下MVC 1735992984
2025年android 最近任务多进程调度逻辑分析 1735992984
2025年在NW.js里面使用node-printer 1735992991
500 G JAVA视频网盘分享(JEECG开源社区)_1 1735992992
2025年R -- 用psych包做主成分分析 1735992992
2025年Shell编程语法 1735992993
找零问题的几种解决方式（递推）（持续更新） 1735992993
Matlab中inv函数的使用 1735992994
2025年打破企业内部“部门墙” 1735992994
苹果手机电池容量已经82%了，需要更换吗？ 1735992995
2025年在C中处理字符簇 1735992996

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们，一经查实，本站将立刻删除。
如需转载请保留出处：https://51itzy.com/kjqy/36827.html