2025年【深度学习】详解 BEiT

科技前沿 • 2025-04-08 11:54 • 阅读 54

大家好，我是讯享网，很高兴认识大家。

讯享网

摘要

一、引言

二、方法

2.1 图像表示

2.1.1 图像 patch

2.1.2 视觉 token

2.2 主干网络：图像 Transformer

2.3 预训练 BEiT：掩码图像建模

2.4 从变分自动编码器的角度来看

2.5 预训练设置

2.6 在下游视觉任务微调 BEiT

三、实验

3.1 图像分类

3.2 语义分割

3.3 消融实验

四、相关工作

五、总结

六、核心代码

Title：BEIT: BERT Pre-Training of Image Transformers

Paper：https://arxiv.org/abs/2106.08254

GitHub: unilm/beit at master · microsoft/unilm · GitHub

摘要

我们引入了一个自监督视觉表示模型 BEIT，它表示 Bidirectional Encoder representation from Image Transformers。在 NLP 领域开发的BERT 之后，我们提出了一个掩码图像建模 (MIM) 任务来预训练视觉 Transformer。具体来说，在我们的预训练中，每幅图像都有两个视图 (views)，即图像 patches (如 16×16 pixels) 和视觉 tokens (即离散 tokens)。我们首先将原始图像 “tokenize” 为视觉 token。然后，随机 mask 一些图像 patches，并将它们输入主干 Transformer。预训练的优化目标 (objective) 是基于损坏的图像 patches 恢复原始的视觉 tokens。在对 BEIT 进行预训练后，我们通过在经预训练的编码器上附加任务层，直接微调下游任务上的模型参数。对图像分类和语义分割的实验结果表明，我们的模型相比以往的预训练方法取得了具有竞争力的结果 (competitive results)。

一、引言

Transformer 在 CV 领域取得了良好的性能。然而，实证研究表明，视觉 Transformer 比 CNN 需要更多的训练数据。为了解决渴求数据 (data-hungry) 的问题，自监督预训练 是利用大规模图像数据的一个很有前途的解决方案。人们已经为视觉 Transformer 的探索了几种方法，如对比学习 和 自蒸馏。

与此同时，BERT 在 NLP 取得了巨大成功。其 掩码语言建模 (MLM) 任务首先随机 mask 文本中的部分 tokens，再根据已损坏 (corrupted) 文本的 Transformer 编码结果恢复 masked tokens。在 BERT 的激励下，我们转向 auto-encoding 的思想来预训练视觉 Transformer，这尚未被视觉社区很好地研究。对图像数据直接应用 BERT 风格的预训练具有挑战性。首先，没有现存的词表 (vocabulary) 可以用于视觉 Transformer 的输入单元，即图像 patches。因此，不能简单地使用一个 softmax 分类器来预测所有可能的候选 masked patches。相比之下，语言词表 (vocabulary)，如 words 和 BPE，都有良好地定义了 (well-defined)，缓解了 auto-encoding 预测。一个直接的替代方法是将任务视为一个回归问题，它预测 masked patches 的 raw pixels。然而，这种像素级恢复任务往往会浪费对预训练的短距离依赖关系和高频细节的建模能力。我们的目标是克服视觉 Transformer 预训练的上述问题。

2025年【深度学习】详解 BEiT

摘要

一、引言

相关推荐