2026年什么是大语言模型?

什么是大语言模型?为避免一学就会 一用就废 这里做下笔记 核心定义 Causal LM 也称为自回归语言模型 是一种只关注单向上下文 的语言模型 在预测下一个词时 它只能看到前面的词 不能看到后面的词 技术特点 输入 今天天气很 预测下一个词时 只能看到 今天 天气 很 不能看到后面的任何信息 输出预测 好 amp rdquo

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



为避免一学就会、一用就废,这里做下笔记

核心定义

Causal LM,也称为自回归语言模型,是一种只关注单向上下文的语言模型。在预测下一个词时,它只能看到前面的词,不能看到后面的词

技术特点
输入: “今天天气很” 预测下一个词时,只能看到: [今天][天气][很] 不能看到后面的任何信息 输出预测: “好”、”晴朗”、”糟糕”等
数学表示

对于序列 什么是大语言模型?_语言模型):
什么是大语言模型?_互斥_02
只依赖前面所有词的条件概率。










1. Masked LM(掩码语言模型)

这是最直接、最核心的互斥概念。

示例对比

# Causal LM(GPT风格) 输入: “今天天气很[MASK]” # 模型不知道后面有什么 训练: 预测”好”只能基于”今天天气很”

Masked LM(BERT风格)

输入: “今天天气很[MASK],适合出去玩” 训练: 预测”好”可以同时看到前面和后面的信息

2. Seq2Seq LM(序列到序列语言模型)
注意力掩码的区别
# Causal LM的注意力掩码(下三角矩阵) [[1, 0, 0, 0], # 第一个词只能看自己 [1, 1, 0, 0], # 第二个词能看到前两个 [1, 1, 1, 0], # 第三个词能看到前三个 [1, 1, 1, 1]] # 第四个词能看到全部前面

Masked LM的注意力掩码(全连接,除了MASK位置)

[[1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 0, 1, 1], # MASK位置不能看自己,但能看其他所有 [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1]]

训练目标函数

适合Causal LM的任务 ✅
  1. 文本生成:故事创作、代码生成、对话生成
  2. 文本补全:IDE代码补全、邮件补全
  3. 开放式问答:需要连贯、创造性回答
  4. 语音识别后处理:语言模型重打分
不适合Causal LM的任务 ❌(更适合Masked LM或Seq2Seq)
  1. 文本分类:情感分析、主题分类(更适合BERT)
  2. 命名实体识别:需要全局上下文理解
  3. 文本相似度:需要双向编码
  4. 信息抽取:需要理解全文关系
1. 统一架构趋势

现代大模型趋向于多功能统一

  • GPT-34, LLaMA:纯Causal LM,但通过指令微调获得多种能力
  • T5:将所有任务转化为Seq2Seq格式
  • UniLM, GLM:混合架构,训练时支持多种注意力模式
2. 从预训练到微调
# 现代典型流程 预训练阶段:Causal LM(在大规模文本上) → 获得通用语言能力 微调阶段:指令微调/对齐 → 获得遵循指令和多任务能力
3. 前沿模型的混合策略
# 如GPT-4的技术报告暗示 训练时:可能使用多种训练目标混合 推理时:表现为纯Causal LM,但内部有复杂机制

  1. Causal LM的核心单向自回归,这是与Masked LM(双向) 最根本的互斥点
  2. 不是绝对的互斥:现代模型可以通过微调获得对方的一些能力
  3. 选择依据
  • 如果需要生成文本:选择Causal LM架构(GPT, LLaMA)
  • 如果需要理解/分类文本:选择Masked LM架构(BERT)
  • 如果需要翻译/摘要:选择Seq2Seq架构(T5, BART)
  1. 大模型的现状:主流大语言模型(GPT, LLaMA, PaLM)都是基于Causal LM预训练的,然后通过指令微调获得通用能力,这已经成为行业标准范式。

简单说:Causal LM ≈ 生成模型,Masked LM ≈ 理解模型,两者在预训练阶段是互斥的设计选择,但在应用阶段可以通过技巧互相借鉴。

小讯
上一篇 2026-04-13 16:10
下一篇 2026-04-13 16:08

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/259377.html