预训练语言模型的前世今生（预训练语言模型邵浩）

科技前沿 • 2025-04-22 10:35 • 阅读 52

大家好，我是讯享网，很高兴认识大家。

预训练语言模型邵浩电子书中文预训练语言模型_深度学习_02

预训练语言模型邵浩电子书中文预训练语言模型_预训练语言模型邵浩电子书_03

数据来自CommonCrawl，见https://commoncrawl.org/。预训练ChineseBERT的数据规模为约4B。并在全词掩码时使用LTP工具进行词语识别。
Masking Strategies
在ChineseBERT模型中，使用全词掩码（Whole WordMasking，WWM）和字符掩码（Char Masking，CM）两种策略。
字符掩码，即对单独的字符进行MASK；全词掩码，即对一个词语中所有的字符进行MASK。
Pretraining Details
ChineseBERT模型与原始BERT模型结构不同，因此，没有加载原始模型的参数，而是从头进行预训练的。为了解决长短依赖的问题，在训练过程中，采用packed input和single input交替训练，比例为9:1，其中single input为一个单句，packed input由总长度不超过512字符的多个单句拼接而成。并且90%的概率进行全字掩码，10%的概率进行字符掩码。词语或字符的mask概率为15%，80%的概率将mask的字符使用[MASK]替换，10%的概率将mask的字符使用随机字符替换，10%的概率将mask的字符保持不变。采用了动态掩码策略来避免数据的重复训练。
Base与Large模型的层数与原始BERT一致，分别是12层和24层，输入维度和头数分别为768/12和1024/16。Base模型训练了500K步，学习率为1e-4，warmup步数为20k，batch大小为3.2K。Base模型训练280K步，学习率为3e-4，warmup步数为90k，batch大小为8K。
Github中给了详细的代码，还是满良心的，可以直接调用，具体如下：

在预训练时候，该论文丢弃了SOP或NSP任务，有一些疑惑，在实验中也没有提到；并且模型是从头训练也比较奇怪，虽然说embedding层不一样，但是transformer-encoder层的参数还是可以用的吧！！！
不过增加字形和拼音特征的思路还是蛮正的，并且评测数据均为中文数据。
以后做模型融合时，又多了一个和而不同的模型，哈哈哈~~~~

预训练语言模型的前世今生（预训练语言模型 邵浩）

相关推荐

预训练语言模型的前世今生（预训练语言模型邵浩）