2026年什么是大语言模型？

科技前沿 • 2026-04-13 16:09 • 阅读 1

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

为避免一学就会、一用就废，这里做下笔记

Causal LM，也称为自回归语言模型，是一种只关注单向上下文的语言模型。在预测下一个词时，它只能看到前面的词，不能看到后面的词。

输入： “今天天气很” 预测下一个词时，只能看到： [今天][天气][很] 不能看到后面的任何信息 输出预测： “好”、”晴朗”、”糟糕”等

对于序列什么是大语言模型？_语言模型 )：
什么是大语言模型？_互斥_02
只依赖前面所有词的条件概率。

这是最直接、最核心的互斥概念。

示例对比：

# Causal LM（GPT风格） 输入： “今天天气很[MASK]” # 模型不知道后面有什么 训练： 预测”好”只能基于”今天天气很”

Masked LM（BERT风格）

输入： “今天天气很[MASK]，适合出去玩” 训练：预测”好”可以同时看到前面和后面的信息

# Causal LM的注意力掩码（下三角矩阵） [[1, 0, 0, 0], # 第一个词只能看自己 [1, 1, 0, 0], # 第二个词能看到前两个 [1, 1, 1, 0], # 第三个词能看到前三个 [1, 1, 1, 1]] # 第四个词能看到全部前面

[[1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 0, 1, 1], # MASK位置不能看自己，但能看其他所有 [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1]]

现代大模型趋向于多功能统一：

# 现代典型流程 预训练阶段：Causal LM（在大规模文本上） → 获得通用语言能力 微调阶段：指令微调/对齐 → 获得遵循指令和多任务能力

# 如GPT-4的技术报告暗示 训练时：可能使用多种训练目标混合 推理时：表现为纯Causal LM，但内部有复杂机制

大模型的现状：主流大语言模型（GPT, LLaMA, PaLM）都是基于Causal LM预训练的，然后通过指令微调获得通用能力，这已经成为行业标准范式。

简单说：Causal LM ≈ 生成模型，Masked LM ≈ 理解模型，两者在预训练阶段是互斥的设计选择，但在应用阶段可以通过技巧互相借鉴。