2026年从 N-gram 到 GPT：大语言模型是如何演进的？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 本文记录了我与 AI 导师一天的学习对话，从最基础的语言模型讲起，一路学到 Transformer 和 GPT 的核心原理。

大家好，我是小王，一名计算机研究生，最近在学习 AI Agent 相关知识。

在学习大语言模型（LLM）的时候，我遇到了一个困惑：网上的资料要么太简单只讲表面，要么太复杂全是公式，很难找到一个"从零开始、循序渐进"的讲解。

于是我和 AI 导师约了一天的学习，通过对话的方式一点点攻克这些概念。这篇文章就是我这一天的学习记录，我会把核心的知识点整理出来分享给大家。

1.1 什么是语言模型？

语言模型（Language Model，LM） 的根本任务是计算一个句子出现的概率。换句话说，语言模型能判断一句话有多"通顺"、多"自然"。

举个例子：

"今天天气很好" → 概率高（正常句子）
"天气今天很好" → 概率低（顺序不对）
"狗咬人" → 概率高（常见）
"人咬狗" → 概率低（罕见）

为什么这个能力很重要？因为语言模型是所有 NLP 任务的基础——输入法联想、语音识别、机器翻译、文本生成，都离不开它。

1.2 条件概率与链式法则

要计算句子的概率，我们需要用到条件概率。

条件概率表示在某个事件已经发生的情况下，另一个事件发生的概率。记作 P(B|A)，读作"在 A 发生的条件下 B 的概率"。

举个例子：P(咬|狗) = 看到"狗"后面出现"咬"的概率

链式法则：一个句子出现的概率，等于句子里每个词条件概率的连乘：

 P(S) = P(w₁) × P(w₂|w₁) × P(w₃|w₁,w₂) × ... × P(wₘ|w₁,...,wₘ₋₁)

问题：直接计算这个公式几乎不可能！因为" w₁,...,wₘ₋₁ "这个完整序列在语料库中可能从未出现。

1.3 马尔可夫假设

为了解决这个问题，研究者引入了马尔可夫假设——

一个词的出现概率只与它前面有限的 n-1 个词有关，不需要看全部历史。

核心思想：不往前看太远，只看就近的几个词。

举个例子：

预测下一个词时，只看前一个词"天气"，不看整句话
就像记电话号码，不用记全部，只记最后几位

1.4 N-gram 模型

基于马尔可夫假设建立的语言模型，叫做 N-gram：

类型 N值看前面几个词例子 Unigram 1 0个只看当前词本身 Bigram 2 1个看到前面1个词 Trigram 3 2个看到前面2个词

最大似然估计：通过数数来估计概率——哪个组合出现最多，哪个概率就最高。

公式：P(wᵢ | wᵢ₋₁) = Count(wᵢ₋₁, wᵢ) / Count(wᵢ₋₁)

举个例子：语料库中"狗"出现100次，"狗咬"出现50次，那么 P(咬|狗) = 50/100 = 0.5

1.5 N-gram 的缺陷

N-gram 有两个致命缺陷：

缺陷一：数据稀疏

如果一个词序列在语料库中从未出现，它的概率就是 0，这显然不合理。

举个例子：

训练数据有"agent learns"（出现很多次）
测试数据"robot learns" → 概率=0（因为"robot"没学过）

缺陷二：泛化能力差

模型无法理解"语义相似"的词。agent 和 robot 在模型眼里是完全不同的符号，没有任何关系。

根本原因：N-gram 模型把词视为孤立、离散的符号，就像一本没有近义词、反义词汇典。

2.1 词嵌入（Word Embedding）

为了克服 N-gram 的缺陷，研究者提出了词嵌入——

把每个词变成一个连续的向量，语义相近的词，向量也相近。

核心思想：用向量表示词，让计算机理解词与词之间的关系。

举个例子：

 agent   → [0.9, 0.8, 0.3, ...] robot   → [0.9, 0.8, 0.3, ...] ← 和 agent 很接近！ apple   → [0.1, 0.2, 0.9, ...] ← 和 agent 差很远

向量空间比喻：就像把词放在一个多维空间里，语义相似的词会聚在一起。"动物"词群（狗、猫、兔子）和"植物"词群（花、树、草）分属不同区域。

2.2 向量运算捕捉语义

词向量之间可以做数学运算，运算结果代表语义关系！

经典例子：

 vector('King') - vector('Man') + vector('Woman') ≈ vector('Queen')

解释：

从"国王"减去"男性"加上"女性"
结果向量在空间中与"女王"的位置非常接近！

比喻：就像语义坐标系的坐标平移——从"国王"出发，沿着"去掉男性特征、加上女性特征"的方向移动，就到达了"女王"的位置。

2.3 RNN（循环神经网络）

RNN 是一种具有"记忆能力"的神经网络，能处理序列数据。

核心：隐藏状态（hidden state）——相当于短期记忆，在时间步之间传递。

工作流程：

 时间步1：输入"今天"，结合初始记忆 → 输出"天气" 时间步2：输入"天气"，结合上一步记忆 → 输出"很好" 时间步3：输入"很好"，结合上一步记忆 → 输出"，" ...

比喻：就像一个人读文章，读完上一页后会记住关键信息，带着这些信息读下一页。

2.4 长期依赖问题

RNN 有一个致命缺陷——长期依赖问题。

当序列很长时，早期的信息很难传到后面的时间步，导致"忘记"了开头的内容。

原因：反向传播时，梯度经过多次连乘，会指数级衰减（梯度消失）或爆炸（梯度爆炸）。

比喻：就像一个记性很差的人，读完一本书后只记得最后几页的内容，开头完全忘了。

2.5 LSTM（长短时记忆网络）

LSTM 是 RNN 的改进版本，专门解决长期依赖问题。

核心创新：引入细胞状态和门控机制

三个门：

遗忘门：决定丢弃什么信息
输入门：决定存储什么新信息
输出门：决定输出什么信息

比喻：LSTM 就像有个"长期记忆本"（细胞状态），加上三扇"门"决定哪些记忆要保留、哪些要删除、当前要输出什么。

3.1 为什么需要 Transformer？

2017年，谷歌提出了 Transformer，完全抛弃循环结构，使用注意力机制来处理序列数据。

RNN 的问题：必须一个词一个词顺序处理（串行），效率低

Transformer 的突破：所有词同时处理（并行），速度快得多！

核心公式：Attention(Q, K, V) = softmax(QK^T / √d) × V

3.2 自注意力机制（Self-Attention）

自注意力让序列中的每个词都能看到所有其他词，并根据相关性分配不同的注意力权重。

例子：句子："The agent learns because it is intelligent"

读到"it"时 → 重点关注"agent"（指代关系）
读到"learns"时 → 重点关注"agent"（主谓关系）
读到"because"时 → 关注"it is intelligent"（因果关系）

比喻：就像开会时，每个人都能同时听到所有人的发言，并根据重要性分配注意力。

3.3 Q、K、V 是什么？

注意力机制引入了三个核心向量：

角色含义比喻 Q (Query) 我想问的问题我要查的单词 K (Key) 别人的标签/索引字典的拼音索引 V (Value) 别人的内容找到的解释

计算过程（简化）：

用 Q 去和所有的 K 做匹配（计算相似度）
得到注意力分数，用 Softmax 归一化
用归一化的分数去加权 V
得到最终的注意力输出

比喻：就像在图书馆查书（Q），通过卡片索引（K）找到对应的书（V），然后借阅。

3.4 多头注意力（Multi-Head Attention）

多头注意力把注意力机制复制多份，每份关注不同类型的关系。

为什么需要多头：语言关系是复杂的——指代、时态、从属、因果...一个"头"不够。

例子：

头1：关注"指代关系"（it → agent）
头2：关注"时态关系"（learns → 现在时）
头3：关注"从属关系"（agent's → 所属）

比喻：就像多个"专家"同时审阅一份文档，每个专家关注不同方面，最后综合所有人的意见。

3.5 Encoder-Decoder 架构

Transformer 的整体结构包含两部分：

部分功能比喻 Encoder 理解输入翻译员读原文，理解意思 Decoder 生成输出翻译员根据理解，写译文

例子：机器翻译

输入（英文）："Hello world"
Encoder 理解 → 输出内部表示
Decoder 生成 → 输出（中文）："你好世界"

3.6 Decoder-Only 架构

现在主流的 GPT 系列采用 Decoder-Only 架构——只保留 Decoder，不要 Encoder。

为什么这样设计：

语言任务的核心就是"预测下一个词"
不需要"理解"和"生成"的分离
一个 Decoder 就能完成所有任务

3.7 自回归（Autoregressive）

自回归是 Decoder-Only 的工作方式——自己生成的内容可以作为下一步的输入，不断循环。

流程：

 输入："今天" ↓ 生成："天气" ↓ 输入变成："今天天气" ↓ 生成："很好" ↓ 输入变成："今天天气很好" ↓ 生成："，" ↓ ...

比喻：就像玩"文字接龙"游戏，每次根据已经说的词，猜下一个最合适的词。

这一天的学习，让我从零开始理解了语言模型的演进历程：

 统计语言模型（N-gram）   ↓ 神经网络语言模型（RNN、LSTM）   ↓ Transformer（注意力机制）   ↓ Decoder-Only + 自回归（GPT）

核心收获：

语言模型 = 计算句子概率，判断通顺程度
马尔可夫假设 = 只看近不看远，简化计算
词嵌入 = 把词变成向量，让语义相似则向量相似
注意力机制 = 每个词都能看到所有词，捕捉关系
Decoder-Only = 一个模型搞定一切，自回归生成

明天将继续学习：

提示工程（Prompt Engineering）
温度、Top-p 等采样参数
Zero-shot、Few-shot、Chain-of-Thought

如果你也对 AI Agent 学习感兴趣，欢迎关注我的学习记录！

2026年从 N-gram 到 GPT：大语言模型是如何演进的？

1.1 什么是语言模型？

1.2 条件概率与链式法则

1.3 马尔可夫假设

1.4 N-gram 模型

1.5 N-gram 的缺陷

2.1 词嵌入（Word Embedding）

2.2 向量运算捕捉语义

2.3 RNN（循环神经网络）

2.4 长期依赖问题

2.5 LSTM（长短时记忆网络）

3.1 为什么需要 Transformer？

3.2 自注意力机制（Self-Attention）

3.3 Q、K、V 是什么？

3.4 多头注意力（Multi-Head Attention）

3.5 Encoder-Decoder 架构

3.6 Decoder-Only 架构

3.7 自回归（Autoregressive）

相关推荐