


数据来自CommonCrawl,见https://commoncrawl.org/。预训练ChineseBERT的数据规模为约4B。并在全词掩码时使用LTP工具进行词语识别。
Masking Strategies
在ChineseBERT模型中,使用全词掩码(Whole WordMasking,WWM)和字符掩码(Char Masking,CM)两种策略。
字符掩码,即对单独的字符进行MASK;全词掩码,即对一个词语中所有的字符进行MASK。
Pretraining Details
ChineseBERT模型与原始BERT模型结构不同,因此,没有加载原始模型的参数,而是从头进行预训练的。为了解决长短依赖的问题,在训练过程中,采用packed input和single input交替训练,比例为9:1,其中single input为一个单句,packed input由总长度不超过512字符的多个单句拼接而成。并且90%的概率进行全字掩码,10%的概率进行字符掩码。词语或字符的mask概率为15%,80%的概率将mask的字符使用[MASK]替换,10%的概率将mask的字符使用随机字符替换,10%的概率将mask的字符保持不变。采用了动态掩码策略来避免数据的重复训练。
Base与Large模型的层数与原始BERT一致,分别是12层和24层,输入维度和头数分别为768/12和1024/16。Base模型训练了500K步,学习率为1e-4,warmup步数为20k,batch大小为3.2K。Base模型训练280K步,学习率为3e-4,warmup步数为90k,batch大小为8K。
Github中给了详细的代码,还是满良心的,可以直接调用,具体如下:
在预训练时候,该论文丢弃了SOP或NSP任务,有一些疑惑,在实验中也没有提到;并且模型是从头训练也比较奇怪,虽然说embedding层不一样,但是transformer-encoder层的参数还是可以用的吧!!!
不过增加字形和拼音特征的思路还是蛮正的,并且评测数据均为中文数据。
以后做模型融合时,又多了一个和而不同的模型,哈哈哈~~~~

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/172277.html