Transformer如何用于大规模图像识别?

Transformer如何用于大规模图像识别?论文链接 AN IMAGE IS WORTH 16X16 WORDS TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 论文代码 https github com google research vision transformer 目录 1 Abstract and background 2

大家好,我是讯享网,很高兴认识大家。

论文链接:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

论文代码:https://github.com/google-research/vision_transformer


目录

1、Abstract and background

2、method

2.1、VISION TRANSFORMER (VIT)

2.2、FINE-TUNING AND HIGHER RESOLUTION

3、EXPERIMENTS

3.1、Setup


讯享网

4、COMPARISON TO STATE OF THE ART(SOTA)

5、Pre-train data requirement

6、SCALING STUDY

7、INSPECTING VISION TRANSFORMER

8、SELF-SUPERVISION

9、conclusion


1、Abstract and background

        Transformer架构已经成为自然语言处理中取得不错效果,但它在计算机视觉中的应用仍然有限。在计算机视觉领域,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构。本文摆脱了CNN的束缚,直接将图像分成块序列然后输入到Transformer中执行图像分类任务。

将一幅图像分割为多个patch(图像块),并将这些patch的线性嵌入序列作为Transformer的输入。图像块与NLP中的token(单词)的处理方式相同。然后采用有监督的方式对模型进行图像分类训练。

图1、总体流程图
小讯
上一篇 2025-02-17 17:02
下一篇 2025-01-09 09:05

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/36827.html