哈工大讯飞联合实验室发布少数民族多语言预训练模型CINO

哈工大讯飞联合实验室发布少数民族多语言预训练模型CINO每天给你送来 NLP 技术干货 来自 哈工大讯飞联合实验室 在自然语言处理领域中 预训练语言模型已成为重要的基础技术和资源 在多语言理解相关的研究中 预训练模型的使用也愈加普遍 然而 由于国内少数民族语言语料稀缺 获取难度大等原因 相关技术研究相对匮乏

大家好,我是讯享网,很高兴认识大家。

每天给你送来NLP技术干货!


来自:哈工大讯飞联合实验室

为了促进中国少数民族语言信息处理的研究与发展,哈工大讯飞联合实验室(HFL)发布首个面向少数民族语言的多语言预训练模型CINO (Chinese mINOrity pre-trained language model,读音同sino),弥补相关资源的空白。目前相关预训练模型和任务数据已开源,欢迎各位读者下载使用。

d4dd1d03d94c05c98b316a7cbbeb7277.png
讯享网

项目地址:

  • https://cino.hfl-rc.com
  • https://github.com/ymcui/Chinese-Minority-PLM

CINO模型简介

CINO基于多语言预训练模型XLM-R开发,在多种少数民族语言语料上进行了二次预训练,提供了藏语、蒙语(回鹘体)、维吾尔语、哈萨克语(阿拉伯体)、朝鲜语、壮语、粤语等少数民族语言与方言的理解能力。

59472be88206998d5189bf7a7a2698f0.png

为了便于评价包括CINO在内的各个多语言预训练模型在少数民族语言任务上的性能,我们构建了基于维基百科的少数民族语言分类任务数据集Wiki-Chinese-Minority(WCM)。实验结果表明,CINO在WCM数据集以及其他少数民族语言数据集上获得了最好的效果。

本次推出的CINO模型是large版本(参数量:585M),包含24层Transformer,隐层大小为1024。在未来,我们将推出更多版本的预训练模型以适应不同需求。

性能效果

我们在新构建的WCM多语言分类数据集、KLUE推出的朝鲜语文本分类YNAT、复旦大学推出的藏语文本分类TNCC上验证了模型效果。CINO相比其他基线模型获得了显著的性能提升。

1、Wiki-Chinese-Minority(WCM)多语言分类

我们基于少数民族语言维基百科语料及其分类体系标签,构建了分类任务数据集Wiki-Chinese-Minority(WCM)。该数据集覆盖了蒙古语、藏语、维吾尔语、哈萨克语、朝鲜语、粤语、中文共七种语言和方言,包括艺术、地理、历史、自然、自然科学、人物、技术、教育、经济和健康十个类别。我们在中文训练集上训练,在其他语言上做zero-shot测试,评价指标为macro-F1。

表1 少数民族多语言分类数据集WCM效果

d8bca0ce2c9201af727ef5f63609f6b3.png

2、朝鲜语文本分类(YNAT)

该任务选用KLUE团队发布的朝鲜语新闻主题分类数据集YNAT。训练集包含45,678条样本,分为7个类别,评价指标为macro-F1。

c8b895fe3b51e242490f31065bea6e74.png

图2 朝鲜语文本分类YNAT效果

3、藏语文本分类(TNCC)

该任务选用由复旦大学自然语言处理实验室发布的藏语新闻数据集Tibetan News Classification Corpus (TNCC)。数据集包含9,203条样本,分为12个类别。我们按8:1:1的比例将其划分为训练、开发、测试集,评价指标为macro-F1。

49a8db693009678cdfb4524ac23d24e7.png

图3 藏语文本分类TNCC效果

快速加载

哈工大讯飞联合实验室发布的所有预训练语言模型均可通过🤗transformers库进行快速加载访问,目前已开源30多个预训练模型。请登录我们的模型库页面获取更多信息。

https://huggingface.co/HFL

57a3290e95ab64a267c883a703e3201a.png

未来展望

少数民族语言处理是中文信息处理中不可缺少的一环,也是中文信息处理多样性的一种体现。近年来,从国内外自然语言处理重要会议和期刊来看,关于国内少数民族语言的研究正稳步增多,说明越来越多的研究人员意识到少数民族语言处理的重要意义。

我们希望随着少数民族语言预训练模型CINO的推出,能够进一步促进少数民族语言相关的技术研究,推动少数民族语言相关技术的应用落地。例如,借助CINO的跨语言理解能力,将中文上的NLP能力直接迁移至少数民族语言而无需额外的训练数据,降低了开发成本。另一方面,CINO的多语言理解能力可以比较不同语言的语义,从而使得中文与少数民族语言之间的跨语言检索成为可能。未来我们将进一步优化CINO模型及配套数据和代码,为少数民族语言NLP研究提供更多基础资源。

其他相关资源

  • 中文BERT、RoBERTa:http://bert.hfl-rc.com
  • 中文XLNet:http://xlnet.hfl-rc.com
  • 中文ELECTRA:http://electra.hfl-rc.com
  • 中文MacBERT模型:http://macbert.hfl-rc.com
  • 知识蒸馏工具TextBrewer:http://textbrewer.hfl-rc.com

编辑:HFL编辑部


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

a0e10ff95df91f0d8f141f251ace4d88.png

记得备注呦

整理不易,还望给个在看!

讯享网
小讯
上一篇 2025-01-04 22:27
下一篇 2025-04-09 11:35

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/25380.html