2025年什么是 BERT？

科技前沿 • 2025-03-15 11:34 • 阅读 54

大家好，我是讯享网，很高兴认识大家。

BERT 是一种预训练语言表示的方法，这意味着我们在大型文本语料库（如维基百科）上训练一个通用的“语言理解”模型，然后将该模型用于我们关心的下游 NLP 任务（如问题回答）。BERT 优于以前的方法，因为它是第一个用于预训练 NLP的无监督、深度双向系统。

无监督意味着 BERT 仅使用纯文本语料库进行训练，这很重要，因为大量纯文本数据在网络上以多种语言公开可用。

预训练的表示也可以是无上下文的或上下文的，上下文表示还可以是单向的或双向的。上下文无关模型（例如 word2vec或 GloVe）为词汇表中的每个单词生成单个“词嵌入”表示，因此在和bank中具有相同的表示。相反，上下文模型会根据句子中的其他单词生成每个单词的表示。bank depositriver bank

讯享网

BERT 建立在最近在预训练上下文表示方面的工作之上——包括半监督序列学习、生成预训练、 ELMo和 ULMFit—— 但至关重要的是，这些模型都是单向或浅双向的。这意味着每个单词仅使用其左侧（或右侧）的单词进行上下文化。例如，在句子I made a bank deposit中，的单向表示bank仅基于I made a但不是 deposit。以前的一些工作确实结合了来自单独的左上下文和右上下文模型的表示，但只是以“浅”的方式。BERT 使用其左右上下文来表示“银行”——I made a ... deposit ——从深度神经网络的最底层开始，所以它是深度双向的。

BERT 为此使用了一种简单的方法：我们屏蔽掉输入中 15% 的单词，通过深度双向 Transformer编码器运行整个序列，然后仅预测被屏蔽的单词。例如：

<span style="color:#24292f"><span style="background-color:#ffffff"><span style="background-color:var(--color-canvas-subtle)"><code>Input: the man went to the [MASK1] . he bought a [MASK2] of milk. Labels: [MASK1] = store; [MASK2] = gallon </code></span></span></span>

讯享网

2025年什么是 BERT？

相关推荐