3. 预测扩展（可用于多个任务）

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

一觉醒来，万众期待的GPT-4，它来了！

OpenAI老板Sam Altman直接开门见山地介绍说：

这是我们迄今为止功能最强大的模型！

根据OpenAI官方的介绍，GPT-4是一个超大的多模态模型，也就是说，它的输入可以是文字（上限2.5万字），还可以是图像。

GPT-4 实现了以下几个方面的飞跃式提升：

强大的识图能力
文字输入限制提升至 2.5 万字
回答准确性显著提高
能够生成歌词、创意文本，实现风格变化

从公布的技术文档中，可以看到GPT-4强大的功能体现：

在模拟律师考试中，GPT-4取得了前10%的好成绩，相比之下GPT-3.5是倒数10%
做美国高考SAT试题，GPT-4也在阅读写作中拿下710分高分、数学700分（满分800）
GPT-4可以理解图表中数据的含义，并做进一步计算
可以直接把论文截图发给它，GPT-4可以按像素处理其中的文字和图片，并给出对整篇论文的总结摘要
修改代码方面，出现问题啥也不用想，直接把1万字的程序文档一股脑扔给GPT-4就行。格式也不用管，你只需要Ctrl+A、Ctrl+C、Ctrl+V
OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型，以及大多数 SOTA 模型

更多有关GPT-4强大功能的介绍，可以参考以下两篇文章：

GPT-4震撼发布：多模态大模型，直接升级ChatGPT、必应，开放API，游戏终结了？GPT-4发布！ChatGPT大升级！太太太太强了！

本篇文章的目的不是展示GPT-4的强大功能，而是重点介绍GPT-4的技术文档，希望对于大家深入理解GPT-4有所帮助。

GPT-4 是一个大规模的多模态模型，能够接受图像和文本输入并产生文本输出。虽然在许多现实世界的场景中比人类表现差，但 GPT-4 在各种专业和学术基准测试中表现出人类水平的性能，包括在模拟的律师考试中获得了排名前10%的分数。GPT-4 是一个基于 Transformer 的模型，使用预训练以预测文档中的下一个标记。后训练的对齐过程可以提高模型在事实和所需行为方面的性能。GPT-4 项目的核心组成部分是开发能够在各种规模下表现稳定的基础设施和优化方法。

这份技术报告介绍了 GPT-4，一个大型多模态模型，能够处理图像和文本输入并产生文本输出。这种模型是一个重要的研究领域，因为它们有潜力在各种应用中使用，如对话系统、文本摘要和机器翻译等。因此，近年来它们一直是受到广泛关注和进展的主题。

开发这种模型的主要目标之一是提高它们理解和生成自然语言文本的能力，特别是在更复杂和微妙的情境下。为了测试它在这些情境中的能力，GPT-4在多种最初设计给人类的考试中进行了评估。在这些评估中，它表现得非常出色，通常超过了绝大多数人类考试者。例如，在一场模拟的律师资格考试中，GPT-4的得分居于前10%的考试者之中，这与得分居于后10%的GPT-3.5形成了鲜明对比。

在一系列传统的NLP基准测试中，GPT-4表现优于以往的大型语言模型和大多数最先进的系统。在MMLU基准测试中（这是一套包含57个科目的英语多项选择题），GPT-4不仅在英语中大幅超越现有的模型，而且在其他语言中也表现出良好的性能。在MMLU的翻译变体中，GPT-4在26种语言中有24种的表现超过最先进水平。在后面的章节中会介绍这些模型能力结果，以及模型安全性改进和结果。

尽管GPT-4具有出色的能力，但它与早期的GPT模型具有类似的局限性：它并不完全可靠（例如可能会出现“幻觉”），具有有限的上下文窗口，并且无法从经验中学习。在使用GPT-4的输出时应格外谨慎，特别是在可靠性至关重要的情境中。

GPT-4的能力和局限性带来了重大而新颖的安全挑战，我们认为仔细研究这些挑战是重要的研究领域，因为它们可能会对社会产生影响。本报告包括一个广泛的系统卡片（在附录之后），描述了我们预见到的关于偏见、虚假信息、过度依赖、隐私、网络安全、扩散等风险。它还描述了我们采取的干预措施，以减轻GPT-4部署可能带来的潜在危害，包括与领域专家进行的对抗性测试和模型辅助的安全流水线。

本报告重点介绍了GPT-4的能力、局限性和安全属性。GPT-4是一种Transformer风格的模型，使用公开可用的数据（如互联网数据）和从第三方提供商获得许可的数据进行预训练，以预测文档中的下一个标记。然后，使用来自人类反馈的强化学习（RLHF）进行微调。鉴于竞争激烈的现状和像GPT-4这样的大规模模型的安全影响，本报告不包含有关体系结构（包括模型大小）、硬件、训练计算、数据集构建、训练方法等的进一步细节。

我们将进一步审计我们的技术，并在system card部分分享一些初步的想法。我们计划向其他第三方提供进一步的技术细节，以便他们为我们提供建议，帮助我们权衡竞争安全与透明度科学价值之间的关系。

GPT-4 项目的一个主要焦点是构建深度学习技术栈，可用于扩展预测（预测多个任务）。主要原因是对于像 GPT-4 这样的非常大的训练，很难进行特征任务的Fine-tuning。为了解决这个问题，我们开发了基础设施和优化方法，使得GPT-4可以运用于多个任务。这些改进使我们能够使用更小的模型（计算成本减少1000～10000倍）。

对于训练LLM模型，最终的损失函数可以近似表示为计算成本的幂律关系。

为了验证我们的优化方法的可扩展性，我们使用一个缩放定律来预测GPT-4最终的Loss：

$Lleft( C ight)=aC^b+c ag1$

在使用与GPT-4相同的方法训练模型的情况下，使用的计算资源最多比GPT-4少10,000倍。此预测是在运行开始后不久进行的，没有使用任何部分结果。拟合的缩放定律非常准确地预测了GPT-4的最终损失（图1）。

图1：GPT-4和较小模型的表现。评估指标是内部代码库的loss。这是一个包含大量代码 token 的数据集（不包含在训练集中）。之所以选择loss，因为相对于不同数量的训练计算，loss往往比其他指标更公平。使用小模型（不包括GPT-4）对loss进行幂律拟合，拟合结果显示为图中虚线

GPT-4 的一大重点是建立了一个可预测扩展的深度学习栈。主要原因是，对于像 GPT-4 这样的大型训练，进行广泛的特定模型调整是不可行的。团队开发了基础设施和优化，在多种规模下都有可预测的行为。为了验证这种可扩展性，他们提前准确地预测了 GPT-4 在内部代码库（不属于训练集）上的最终损失，方法是通过使用相同的方法训练的模型进行推断，但使用的计算量为 ¹⁄₁₀₀₀₀。

这部分很有意思，GPT-4 技术报告里提到的 LLM 模型的“能力预测（Capability Prediction）”是个非常有价值的新研究方向。用小模型来预测某些参数组合下对应大模型的某种能力，如果预测足够精准，能够极大缩短炼丹周期，同时极大减少试错成本，所以无论理论价值还是实际价值巨大，这个绝对是非常值得认真研究具体技术方法的。

在训练之前了解模型的能力可以改善关于对齐、安全和部署的决策。除了预测最终损失外，我们开发了预测更可解释能力度量的方法。其中一种度量是在 HumanEval 数据集上的通过率，HumanEval 是 OpenAI 自己收集的数据集，其中包含164个原创的编程问题，其中包含语言理解、算法、一些简单的数学和一些简单的软件面试的题目。我们成功地预测了HumanEval数据集上的通过率（图2），而且只用了1/1000的计算资源。

图2. GPT-4和小模型的表现。评估指标是HumanEval数据集上的平均对数通过率。对于小模型（不包括GPT-4），进行幂律拟合，拟合结果显示为虚线；这种拟合准确地预测了GPT-4的性能。x轴是归一化的计算开销，因此GPT-4的值为1。

对于 HumanEval 中的某些问题，性能可能随着规模的增大而变差。尽管存在这些挑战，但是我们还是发现了近似的幂律关系：

$- ext{E}_Pleft[ ext{log}left( ext{pass_rate}left( C ight) ight) ight]=alpha C^{-k} ag2$

其中 $k$ 和 $alpha$ 为正常数， $P$ 是数据集中的问题子集。我们假设这种关系对该数据集中的所有问题都成立。在实践中，非常低的通过率很难或不可能估计，因此我们将重点放在问题 $P$ 和模型 $M$ 上，使得在给定一些大的样本的情况下，每个模型至少解决了一个问题。

我们在训练完成之前，预测 GPT-4 在 HumanEval 数据集上的表现。将最难的15个问题分成6个桶，观察小模型的预测表现。第3个难度桶的结果如图2所示，显示出对于这个 HumanEval 问题的子集，我们可以准确地估计多个较小模型的 log（通过率），从而得到了非常准确的预测。对其他五个桶的预测几乎同样好，主要的例外是 GPT-4 在最容易的桶上表现不佳，低于我们的预测。

有些能力仍然难以预测。例如，Inverse Scaling 竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标，而 hindsight neglect 任务是获胜者之一。GPT-4 扭转了这一趋势，如图3所示。

图3：GPT-4和小模型在任务上的表现。y轴显示准确性，数值越高越好。ada、babbage和curie是通过OpenAI API调用的模型。

能够准确预测未来的机器学习能力对于技术安全来说至关重要，但它并没有得到足够的重视，OpenAI 表示正在投入更多精力开发相关方法，并呼吁业界共同努力。

OpenAI 表示正在开源 OpenAI Evals 软件框架，它被用于创建和运行基准测试以评估 GPT-4 等模型，同时可以逐样本地检查模型性能。

我们在各种基准测试中测试了GPT-4，包括模拟最初设计给人类的考试。我们没有针对这些考试进行特定的训练。模型在训练期间看到了少数考试中的问题。

这些考试来源于公开可获取的材料。考试问题包括选择题和非选择题；我们为每种格式设计了不同的提示，并在需要的问题中包含图像作为输入。评估设置是基于对一组验证考试的表现设计的，并在保留的测试考试上报告最终结果。综合得分是通过使用每个考试的公开可用方法组合选择题和非选择题得分来确定的。

GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。例如，它通过了模拟律师考试，且分数在应试者的前 10% 左右；相比之下，GPT-3.5 的得分在倒数 10% 左右，如图4所示。

图4：GPT在学术和专业考试中的表现。在每种情况下，我们模拟真实考试的条件和评分。考试按GPT-3.5的表现从低到高排序。GPT-4在大多数测试的考试中表现优于GPT-3.5。

模型在考试中的能力似乎主要源自预训练过程，而不受 RLHF 的影响。在我们测试的多项选择题中，基本的 GPT-4 模型和 RLHF 模型平均表现相同。

我们还对预先训练的基础 GPT-4 模型进行了传统基准测试，用于评估语言模型。在评估 GPT-4 时，我们对所有基准测试都使用了少量提示（few-shot prompting）。

OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型，以及大多数 SOTA 模型。

许多现有的机器学习基准测试都是用英语编写的。为了初步了解 GPT-4 在其他语言上的能力，研究团队使用 Azure Translate 将 MMLU 基准 —— 一套涵盖 57 个主题的 14000 个多项选择题 —— 翻译成多种语言。在测试的 26 种语言的 24 种中，GPT-4 优于 GPT-3.5 和其他大语言模型（Chinchilla、PaLM）的英语语言性能。

GPT-4在用户意图理解方面比以前的模型有了大幅改进。在一个由5,214个提示组成的数据集上，这些提示提交给了 ChatGPT 和 OpenAI API，与GPT-3.5生成的结果相比，GPT-4生成的结果在70.2%的提示上被优先选择。

GPT-4 可以接受文本和图像形式的 prompt，新能力与纯文本设置并行，允许用户指定任何视觉或语言任务。

具体来说，该模型可以在任意交错排列的文本和图像输入下生成文本输出。在包括具有文本和照片、图表或屏幕截图的文档等一系列领域中，GPT-4表现出与仅有文本输入时类似的能力。GPT-4的视觉输入示例可见于下图中。针对语言模型开发的标准测试时间技术（例如少量示例提示、思维链等），在同时使用图像和文本时同样有效。

尽管GPT-4有着强大的能力，但它仍然有着与早期GPT模型类似的限制。最重要的是，它仍然不完全可靠（会“幻觉”事实并犯下推理错误）。在使用语言模型输出时，特别是在高风险环境下，需要格外小心，确保使用的确切协议（例如人工审查、附加上下文的基础或完全避免高风险用途）符合特定应用的需求。

相对于之前的GPT-3.5模型（自身在持续迭代中也在不断改进），GPT-4显著减少了幻觉现象。在我们内部进行的针对事实性的对抗性评估中，GPT-4的得分比我们最新的GPT-3.5高出19个百分点（见图6）。

GPT-4在公共基准测试中也取得了进展，例如TruthfulQA，该测试旨在检测模型将事实与一组对抗性选择的不正确陈述分开的能力（见图7）。这些问题配对了事实不正确的答案，这些答案在统计上具有吸引力。GPT-4基础模型在这项任务上仅略好于GPT-3.5；然而，在经过RLHF训练后，我们观察到与GPT-3.5相比的显著改进。

图7：GPT-4在TruthfulQA上的表现。y轴显示准确度，数字越大表示表现越好。我们比较了zero-shot prompt、few-shot prompt以及经过RLHF微调后的GPT-4。GPT-4明显优于GPT-3.5和Bai等人的Anthropic-LM

由于 GPT-4 预训练的数据截止到2021年9月，因此 GPT-4 通常缺乏对发生在其之后的事件的了解，并且不会从其经验中学习。它有时会犯简单的推理错误，这些错误似乎与在许多领域的能力不符，或者过于轻信用户明显不正确的陈述。它可能会像人类一样在难题上失败，例如在其生成的代码中引入安全漏洞。

GPT-4 预测时也可能出错，意识到可能出错时也不会 double-check。有趣的是，基础预训练模型高度校准（其对答案的预测置信度通常与正确概率相匹配）。然而，在后续的训练过程中，这种校准会降低（见图8）。

图8。左：在MMLU数据集的子集上，预训练的GPT-4模型的校准图。模型对其预测的置信度与正确的概率非常匹配。虚线对角线表示完美的校准。右：在同一子集的MMLU上，后训练的GPT-4模型的校准图。后训练显著损害了校准。

GPT-4存在各种偏见，我们已经努力进行纠正，但是完全管理这些偏见需要一些时间。我们的目标是使 GPT-4 和我们构建的其他系统具有合理的默认行为，反映广泛用户价值观，并允许在某些广泛的限制范围内进行定制，并公开征求关于这些限制范围的公众意见。

这里我们花费了大量的精力来改进 GPT-4 的安全性和对齐性。我们在这里强调了我们利用领域专家进行对抗测试和红色团队测试，以及我们采用模型辅助的安全流水线和在先前模型中改进了安全度量的做法。

领域专家对抗性测试：GPT-4 与较小的语言模型面临类似的风险，例如生成有害建议、有漏洞的代码或不准确的信息。然而，GPT-4 的附加功能导致了新的风险面。为了了解这些风险的程度，团队聘请了 50 多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家，对该模型在高风险领域的行为进行对抗性测试。从这些专家获得的建议和数据将进入我们改进模型的工作中。

例如，我们收集了额外的数据来提高GPT-4拒绝有关“如何合成危险化学品”请求的能力。

模型安全：和之前的 GPT 模型一样，我们使用人类反馈的强化学习（RLHF）来微调模型，以使回答更符合用户意图。但是，在 RLHF 之后，我们的模型仍然可能对不安全的输入很脆弱，并且有时会在不安全的输入上表现出不良行为。当给出不安全的输入时，模型可能会生成不良内容，例如给出犯罪建议。此外，模型在安全输入上也可能过于谨慎，拒绝无害的请求或过度敷衍。为了将我们的模型引导到更细粒度的适当行为上，我们在很大程度上依赖于我们的模型本身作为工具。我们的安全方法包括两个主要组成部分，一个是额外的与安全相关的 RLHF 训练提示，另一个是基于规则的奖励模型（RBRMs）。

我们的基于规则的奖励模型（RBRMs）是一组 zero-shot GPT-4分类器。这些分类器为 RLHF 微调期间的 GPT-4策略模型提供了额外的奖励信号，以针对正确的行为，例如拒绝生成有害内容或不拒绝无害请求。RBRM 需要三个输入：提示（可选）、策略模型的输出以及一个人类编写的规则（例如多选题形式），用于评估此输出的方式。然后，RBRM 根据规则对输出进行分类。例如，我们可以提供一个规则，指示模型将响应分类为：（a）以期望的方式拒绝，（b）以不期望的方式拒绝（例如闪烁或散漫），（c）包含不允许的内容，或（d）安全的非拒绝响应。然后，在请求有害内容（如非法建议）的一组安全相关的训练提示上，我们可以奖励 GPT-4 拒绝这些请求。相反，我们可以奖励 GPT-4 在一些保证是安全且可回答的提示子集上不拒绝请求。这种技术与 Glaese 等人的工作和 Perez 等人的工作有关。

安全度量指标的改进：我们的缓解措施显著改善了 GPT-4 的许多安全属性。我们将模型对于禁止内容请求的倾向降低了82％，相比之下，GPT-3.5则有较高的倾向。同时，GPT-4 对敏感请求（如医疗建议和自我伤害）的响应符合政策的频率提高了 29%（图9）。在 RealToxicityPrompts 数据集中，GPT-4 仅在0.73％的时间内生成有毒内容，而GPT-3.5则在6.48％的时间内生成有毒内容。

图9. 对于敏感和不允许的不正确行为率。较低的值越好。GPT-4 RLHF的错误行为率比之前的模型要低得多

总体而言，我们的模型层面的干预措施增加了引起不良行为的难度，但仍然存在可能引起不良行为的情况。例如，仍然存在“越狱”，可以生成违反我们使用指南的内容。只要存在这些限制，补充安全技术就很重要。

GPT-4及其后继模型有可能在有益和有害的方面对社会产生重大影响。我们正在与外部研究人员合作，改善我们对潜在影响的理解和评估，并建立对未来系统可能出现的危险能力的评估。我们将很快发布关于社会可以采取哪些步骤来准备AI的影响以及对AI可能的经济影响进行预测的建议。

我们对提出了 GPT-4 ，它是一个大型的多模态模型，在某些困难的专业和学术基准测试中表现出人类水平的性能。GPT-4 在一系列自然语言处理任务中优于现有的大型语言模型，并超过了大多数的最先进系统（这些系统通常包括任务特定的微调）。我们发现，虽然改进的能力通常是用英语来衡量的，但在许多不同的语言中也可以展示。我们强调了可预测的缩放方法，如何使我们能够对 GPT-4 的损失和性能进行准确的预测。

从 GPT-2 的开源，到 GPT-3 的只有论文，再到 ChatGPT 连论文也没有，直到 GPT-4 的技术报告更像效果评测报告。一个很明显的趋势是，OpenAI 做实了 CloseAI 的名号，之后 OpenAI 的 LLM 最前沿研究不会再放出论文。

虽然这份技术报告没有太多干货，但是还是有两个方面的亮点：

GPT-4 技术报告里提到的LLM模型的“能力预测（Capability Prediction）”是个非常有价值的新研究方向。用小模型来预测某些参数组合下对应大模型的某种能力，如果预测足够精准，能够极大缩短炼丹周期，同时极大减少试错成本，所以无论理论价值还是实际价值巨大，这个绝对是非常值得认真研究具体技术方法的。
GPT-4 开源了一个 LLM 评测框架，这也是后面 LLM 技术快速发展非常重要的方向。尤其对于中文，构建实用的中文 LLM 评测数据和框架具备特别重要的意义，好的 LLM 评测数据可以快速发现 LLM 目前存在的短板和改进方向，意义重大，但是很明显目前这块基本处于空白状态。这个对于资源要求其实没那么高，适合很多机构去做，不过确实是个辛苦活。

最后，打个小广告。近期，由我和电子科技大学江维教授共同合作的新书：《揭秘大模型：从原理到实战》已经在京东上线。书中重点介绍了 GPT 系列模型、Llama 系列模型的架构和训练优化，感兴趣的可以去京东购买。

感谢各位知友！

3. 预测扩展（可用于多个任务）

相关推荐