2025年预训练语言模型英文(中文预训练模型)

预训练语言模型英文(中文预训练模型)在人工智能领域 构建强大的 AI 系统的关键步骤之一是大规模的语言模型预训练 为了实现这一目标 需要大量且多样化的训练数据 以下是对目前常用于训练大语言模型的数据集的整理与概述 大语言模型在训练上需要大量的训练数据 这些数据需要涵盖广泛的内容范围 多领域 多源化的训练数据可以帮助大模型更加全面地学习真实世界的语言与知识 从而提高其通用性和准确性

大家好,我是讯享网,很高兴认识大家。



大语言模型在训练上需要大量的训练数据,这些数据需要涵盖广泛的内容范围。多领域、多源化的训练数据可以帮助大模型更加全面地学习真实世界的语言与知识,从而提高其通用性和准确性。本节将介绍目前常用于训练大语言模型的代表性数据集合。根据其内容类型进行分类,这些语料库可以划分为:网页、书籍、维基百科、代码以及混合型数据集。

2) WanJuan 1.0 Text 该数据集是上海人工智能实验室发布的万卷 1.0 多模态语料库的一部分(除文本数据集外,还有图文数据集和视频数据集)。该文本数据集由多种不同来源的数据组成,包括网页、书籍等,数据总量约 500M 个文档,数据大小超过 1 TB。

3)WuDaoCorpora Text 该数据集是北京智源研究院构建的“悟道”项目数据集的一部分(除文本数据集外,还有多模态图文数据集和中文对话数据集)。其中还包含教育、科技等超过 50 个行业数据标签,经过清洗、隐私数据信息去除后剩余 5TB,而开源部分有 200GB。

维基百科(Wikipedia)是一个综合性的在线百科全书,由全球志愿者共同编写和维护,提供了高质量的知识信息文章,涵盖了历史、科学、文化艺术等多个领域。维基百科的数据具有以下几个特点:

为了增强模型的任务解决能力,大语言模型在预训练之后需要进行适应性微调,通常涉及两个主要步骤,即指令微调(有监督微调)和对齐微调。

1)HH-RLHF: 该数据集包含两类标注数据,分别关注于大语言模型的有用性和无害性。整个数据集共包含约169K个开放式对话,每个对话涉及一个众包工作者向智能信息助手寻求帮助、建议或请求完成等情景。信息助手将会为每个用户查询提供两个回答,一个回答被选择而另一个被拒绝。对于有用性相关的数据中,被认为更有用的回答将被选择;而对于有害性相关的数据中,被认为更有害的回答将被选择。
2)SHP:主要关注模型生成回复内容的有用性。涵盖了从烹饪到法律建议等各种主题的实例。每个数据实例都是基于一个寻求帮助的 Reddit 帖子构建的,包含该问题下帖子中的问题和帖子下两个排名较高的评论。这两个评论其中一个被 Reddit 用户认为更有用,另一个被认为不太有帮助。与HH-RLHF不同,SHP中的数据并非模型生成的回复,而是真人的回应贴子。
3)PKU-SafeRLHF : 该数据集侧重于对回复内容的有用性和无害性进行标注。该数据集囊括了330K个专家注释的实例,每一个实例都包含一个问题及其对应的两个回答。其中,每个回答都配备了安全性标签,用以明确指出该回答是否安全。
4)Stack Exchange Preferences: 该数据集专注于对答案的有用性进行标注,涵盖了来自知名编程问答社区 Stack Overflow 的约10M个问题和答案,每个数据实例均包含一个具体的问题以及两个或更多的候选答案。每个候选答案都附带一个根据投票数计算得出的分数,并配有一个是指示是否被选中的标签。
5)Sandbox Alignment Data: 致力于运用模型自身的反馈机制来进行数据标注,源于一个虚拟交互环境之中,在这个环境中,多个大语言模型根据问题给出回复然后互相“交流”,并根据彼此的反馈来不断修正和完善自己的回复,每个实例均包含一个查询、多个候选回复选项以及由其他模型给出的相应评分。
6)CValues (Chinese Values): 是一个面向中文的大模型对齐数据集,提出了安全性和责任性这两个评估标准。这个数据集包含了两种类型的提示:安全性提示(未开源)和责任性提示。













 <p>转载请注明:《AI大模型探索之路-训练篇4:大语言模型训练数据集概览》</p> 

讯享网
小讯
上一篇 2025-05-12 18:16
下一篇 2025-04-23 21:56

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/184427.html