2026年从 N-gram 到 GPT:大语言模型是如何演进的?

从 N-gram 到 GPT:大语言模型是如何演进的?p 本文记录了我与 AI 导师一天的学习对话 从最基础的语言模型讲起 一路学到 Transformer 和 GPT 的核心原理 p 大家好 我是小王 一名计算机研究生 最近在学习 AI Agent 相关知识 在学习大语言模型 LLM

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

本文记录了我与 AI 导师一天的学习对话,从最基础的语言模型讲起,一路学到 Transformer 和 GPT 的核心原理。

大家好,我是小王,一名计算机研究生,最近在学习 AI Agent 相关知识。

在学习大语言模型(LLM)的时候,我遇到了一个困惑:网上的资料要么太简单只讲表面,要么太复杂全是公式,很难找到一个"从零开始、循序渐进"的讲解。

于是我和 AI 导师约了一天的学习,通过对话的方式一点点攻克这些概念。这篇文章就是我这一天的学习记录,我会把核心的知识点整理出来分享给大家。


1.1 什么是语言模型?

语言模型(Language Model,LM) 的根本任务是计算一个句子出现的概率。换句话说,语言模型能判断一句话有多"通顺"、多"自然"。

举个例子:

  • "今天天气很好" → 概率高(正常句子)
  • "天气今天很好" → 概率低(顺序不对)
  • "狗咬人" → 概率高(常见)
  • "人咬狗" → 概率低(罕见)

为什么这个能力很重要?因为语言模型是所有 NLP 任务的基础——输入法联想、语音识别、机器翻译、文本生成,都离不开它。


1.2 条件概率与链式法则

要计算句子的概率,我们需要用到条件概率

条件概率表示在某个事件已经发生的情况下,另一个事件发生的概率。记作 P(B|A),读作"在 A 发生的条件下 B 的概率"。

举个例子:P(咬|狗) = 看到"狗"后面出现"咬"的概率

链式法则:一个句子出现的概率,等于句子里每个词条件概率的连乘:

 P(S) = P(w₁) × P(w₂|w₁) × P(w₃|w₁,w₂) × ... × P(wₘ|w₁,...,wₘ₋₁)

问题:直接计算这个公式几乎不可能!因为" w₁,...,wₘ₋₁ "这个完整序列在语料库中可能从未出现。


1.3 马尔可夫假设

为了解决这个问题,研究者引入了马尔可夫假设——

一个词的出现概率只与它前面有限的 n-1 个词有关,不需要看全部历史。

核心思想:不往前看太远,只看就近的几个词。

举个例子:

  • 预测下一个词时,只看前一个词"天气",不看整句话
  • 就像记电话号码,不用记全部,只记最后几位

1.4 N-gram 模型

基于马尔可夫假设建立的语言模型,叫做 N-gram

类型 N值 看前面几个词 例子 Unigram 1 0个 只看当前词本身 Bigram 2 1个 看到前面1个词 Trigram 3 2个 看到前面2个词

最大似然估计:通过数数来估计概率——哪个组合出现最多,哪个概率就最高。

公式:P(wᵢ | wᵢ₋₁) = Count(wᵢ₋₁, wᵢ) / Count(wᵢ₋₁)

举个例子:语料库中"狗"出现100次,"狗咬"出现50次,那么 P(咬|狗) = 50/100 = 0.5


1.5 N-gram 的缺陷

N-gram 有两个致命缺陷:

缺陷一:数据稀疏

如果一个词序列在语料库中从未出现,它的概率就是 0,这显然不合理。

举个例子:

  • 训练数据有"agent learns"(出现很多次)
  • 测试数据"robot learns" → 概率=0(因为"robot"没学过)

缺陷二:泛化能力差

模型无法理解"语义相似"的词。agent 和 robot 在模型眼里是完全不同的符号,没有任何关系。

根本原因:N-gram 模型把词视为孤立、离散的符号,就像一本没有近义词、反义词汇典。


2.1 词嵌入(Word Embedding)

为了克服 N-gram 的缺陷,研究者提出了词嵌入——

把每个词变成一个连续的向量,语义相近的词,向量也相近。

核心思想:用向量表示词,让计算机理解词与词之间的关系。

举个例子:

 agent   → [0.9, 0.8, 0.3, ...] robot   → [0.9, 0.8, 0.3, ...] ← 和 agent 很接近! apple   → [0.1, 0.2, 0.9, ...] ← 和 agent 差很远

向量空间比喻:就像把词放在一个多维空间里,语义相似的词会聚在一起。"动物"词群(狗、猫、兔子)和"植物"词群(花、树、草)分属不同区域。


2.2 向量运算捕捉语义

词向量之间可以做数学运算,运算结果代表语义关系!

经典例子

 vector('King') - vector('Man') + vector('Woman') ≈ vector('Queen')

解释

  • 从"国王"减去"男性"加上"女性"
  • 结果向量在空间中与"女王"的位置非常接近!

比喻:就像语义坐标系的坐标平移——从"国王"出发,沿着"去掉男性特征、加上女性特征"的方向移动,就到达了"女王"的位置。


2.3 RNN(循环神经网络)

RNN 是一种具有"记忆能力"的神经网络,能处理序列数据。

核心:隐藏状态(hidden state)——相当于短期记忆,在时间步之间传递。

工作流程

 时间步1:输入"今天",结合初始记忆 → 输出"天气" 时间步2:输入"天气",结合上一步记忆 → 输出"很好" 时间步3:输入"很好",结合上一步记忆 → 输出"," ...

比喻:就像一个人读文章,读完上一页后会记住关键信息,带着这些信息读下一页。


2.4 长期依赖问题

RNN 有一个致命缺陷——长期依赖问题

当序列很长时,早期的信息很难传到后面的时间步,导致"忘记"了开头的内容。

原因:反向传播时,梯度经过多次连乘,会指数级衰减(梯度消失)或爆炸(梯度爆炸)。

比喻:就像一个记性很差的人,读完一本书后只记得最后几页的内容,开头完全忘了。


2.5 LSTM(长短时记忆网络)

LSTM 是 RNN 的改进版本,专门解决长期依赖问题。

核心创新:引入细胞状态门控机制

三个门

  1. 遗忘门:决定丢弃什么信息
  2. 输入门:决定存储什么新信息
  3. 输出门:决定输出什么信息

比喻:LSTM 就像有个"长期记忆本"(细胞状态),加上三扇"门"决定哪些记忆要保留、哪些要删除、当前要输出什么。


3.1 为什么需要 Transformer?

2017年,谷歌提出了 Transformer,完全抛弃循环结构,使用注意力机制来处理序列数据。

RNN 的问题:必须一个词一个词顺序处理(串行),效率低

Transformer 的突破:所有词同时处理(并行),速度快得多!

核心公式:Attention(Q, K, V) = softmax(QK^T / √d) × V


3.2 自注意力机制(Self-Attention)

自注意力让序列中的每个词都能看到所有其他词,并根据相关性分配不同的注意力权重。

例子: 句子:"The agent learns because it is intelligent"

  • 读到"it"时 → 重点关注"agent"(指代关系)
  • 读到"learns"时 → 重点关注"agent"(主谓关系)
  • 读到"because"时 → 关注"it is intelligent"(因果关系)

比喻:就像开会时,每个人都能同时听到所有人的发言,并根据重要性分配注意力。


3.3 Q、K、V 是什么?

注意力机制引入了三个核心向量:

角色 含义 比喻 Q (Query) 我想问的问题 我要查的单词 K (Key) 别人的标签/索引 字典的拼音索引 V (Value) 别人的内容 找到的解释

计算过程(简化):

  1. 用 Q 去和所有的 K 做匹配(计算相似度)
  2. 得到注意力分数,用 Softmax 归一化
  3. 用归一化的分数去加权 V
  4. 得到最终的注意力输出

比喻:就像在图书馆查书(Q),通过卡片索引(K)找到对应的书(V),然后借阅。


3.4 多头注意力(Multi-Head Attention)

多头注意力把注意力机制复制多份,每份关注不同类型的关系。

为什么需要多头:语言关系是复杂的——指代、时态、从属、因果...一个"头"不够。

例子

  • 头1:关注"指代关系"(it → agent)
  • 头2:关注"时态关系"(learns → 现在时)
  • 头3:关注"从属关系"(agent's → 所属)

比喻:就像多个"专家"同时审阅一份文档,每个专家关注不同方面,最后综合所有人的意见。


3.5 Encoder-Decoder 架构

Transformer 的整体结构包含两部分:

部分 功能 比喻 Encoder 理解输入 翻译员读原文,理解意思 Decoder 生成输出 翻译员根据理解,写译文

例子:机器翻译

  • 输入(英文):"Hello world"
  • Encoder 理解 → 输出内部表示
  • Decoder 生成 → 输出(中文):"你好世界"

3.6 Decoder-Only 架构

现在主流的 GPT 系列采用 Decoder-Only 架构——只保留 Decoder,不要 Encoder。

为什么这样设计

  • 语言任务的核心就是"预测下一个词"
  • 不需要"理解"和"生成"的分离
  • 一个 Decoder 就能完成所有任务

3.7 自回归(Autoregressive)

自回归是 Decoder-Only 的工作方式——自己生成的内容可以作为下一步的输入,不断循环。

流程

 输入:"今天" ↓ 生成:"天气" ↓ 输入变成:"今天天气" ↓ 生成:"很好" ↓ 输入变成:"今天天气很好" ↓ 生成:"," ↓ ...

比喻:就像玩"文字接龙"游戏,每次根据已经说的词,猜下一个最合适的词。


这一天的学习,让我从零开始理解了语言模型的演进历程:

 统计语言模型(N-gram)   ↓ 神经网络语言模型(RNN、LSTM)   ↓ Transformer(注意力机制)   ↓ Decoder-Only + 自回归(GPT)

核心收获

  1. 语言模型 = 计算句子概率,判断通顺程度
  2. 马尔可夫假设 = 只看近不看远,简化计算
  3. 词嵌入 = 把词变成向量,让语义相似则向量相似
  4. 注意力机制 = 每个词都能看到所有词,捕捉关系
  5. Decoder-Only = 一个模型搞定一切,自回归生成

明天将继续学习:

  • 提示工程(Prompt Engineering)
  • 温度、Top-p 等采样参数
  • Zero-shot、Few-shot、Chain-of-Thought

如果你也对 AI Agent 学习感兴趣,欢迎关注我的学习记录!

小讯
上一篇 2026-04-14 22:10
下一篇 2026-04-14 22:08

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/258488.html