Swin-Transformer综合指南(用动画深入解释Swin-Transformer)
1. 介绍
Swin Transformer (Liu et al., 2021) 是一种基于Transformer的深度学习模型,在视觉任务中具有两眼的表现。与之前的 Vision Transformer (ViT) (Dosovitskiy et al., 2020) 不同,Swin Transformer 高效且精准,由于这些可人的特性,Swin Transformers 被用作当今许多视觉模型架构的主干。
尽管它已经被广泛采用,但我发现在这个主题中缺乏详细解释的文章。 因此,本文旨在使用插图和动画为 Swin Transformers 提供全面的指南,以帮助您更好地理解这些概念。
让我们开始吧!
2. Swin Transformer: ViT的升级版
近年来,Transformers (Vaswani et al., 2017) 已成为自然语言处理 (NLP) 任务中占主导地位的深度学习架构。 Transformer 在 NLP 中的巨大成功鼓舞着研究人员想方设法改进 Transformer,以使其适应计算机视觉任务。
2020 年,Vision Transformer (ViT) 获得了 AI 社区的广泛关注,它以纯粹的Transformer 架构而闻名,并在视觉任务中取得了可喜的成果。 尽管前景广阔,但 ViT 仍存在一些缺点:其中最为重要的是ViT 难以处理高分辨率图像,因为其计算复杂度为图像大小的平方; 此外,ViT 中的固定比例标记不适用于视觉元素具有可变比例的视觉任务。
研究人员追随着ViT的思想进行了一系列的研究,大多数的研究对标准的Transformer 架构进行了增强,以解决上文提到的缺点。 2021 年,微软研究人员发表了 Swin Transformer(Liu et al.,2021 ),可以说是继原始 ViT 之后最激动人心的研究之一。
3. Swin Transformer 的架构和关键概念
Swin Transformer 引入了两个关键的概念来解决原始 ViT 所面临的问题——分层特征图(hierarchical feature maps)和转移窗口注意力(shifted window attention)。 事实上,Swin Transformer 的名字来源于“Shifted window Transformer”。 Swin Transformer的整体架构如下所示。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/28128.html