本文记录了我与 AI 导师一天的学习对话,从最基础的语言模型讲起,一路学到 Transformer 和 GPT 的核心原理。
大家好,我是小王,一名计算机研究生,最近在学习 AI Agent 相关知识。
在学习大语言模型(LLM)的时候,我遇到了一个困惑:网上的资料要么太简单只讲表面,要么太复杂全是公式,很难找到一个"从零开始、循序渐进"的讲解。
于是我和 AI 导师约了一天的学习,通过对话的方式一点点攻克这些概念。这篇文章就是我这一天的学习记录,我会把核心的知识点整理出来分享给大家。
1.1 什么是语言模型?
语言模型(Language Model,LM) 的根本任务是计算一个句子出现的概率。换句话说,语言模型能判断一句话有多"通顺"、多"自然"。
举个例子:
- "今天天气很好" → 概率高(正常句子)
- "天气今天很好" → 概率低(顺序不对)
- "狗咬人" → 概率高(常见)
- "人咬狗" → 概率低(罕见)
为什么这个能力很重要?因为语言模型是所有 NLP 任务的基础——输入法联想、语音识别、机器翻译、文本生成,都离不开它。
1.2 条件概率与链式法则
要计算句子的概率,我们需要用到条件概率。
条件概率表示在某个事件已经发生的情况下,另一个事件发生的概率。记作 P(B|A),读作"在 A 发生的条件下 B 的概率"。
举个例子:P(咬|狗) = 看到"狗"后面出现"咬"的概率
链式法则:一个句子出现的概率,等于句子里每个词条件概率的连乘:
P(S) = P(w₁) × P(w₂|w₁) × P(w₃|w₁,w₂) × ... × P(wₘ|w₁,...,wₘ₋₁)
问题:直接计算这个公式几乎不可能!因为" w₁,...,wₘ₋₁ "这个完整序列在语料库中可能从未出现。
1.3 马尔可夫假设
为了解决这个问题,研究者引入了马尔可夫假设——
一个词的出现概率只与它前面有限的 n-1 个词有关,不需要看全部历史。
核心思想:不往前看太远,只看就近的几个词。
举个例子:
- 预测下一个词时,只看前一个词"天气",不看整句话
- 就像记电话号码,不用记全部,只记最后几位
1.4 N-gram 模型
基于马尔可夫假设建立的语言模型,叫做 N-gram:
最大似然估计:通过数数来估计概率——哪个组合出现最多,哪个概率就最高。
公式:P(wᵢ | wᵢ₋₁) = Count(wᵢ₋₁, wᵢ) / Count(wᵢ₋₁)
举个例子:语料库中"狗"出现100次,"狗咬"出现50次,那么 P(咬|狗) = 50/100 = 0.5
1.5 N-gram 的缺陷
N-gram 有两个致命缺陷:
缺陷一:数据稀疏
如果一个词序列在语料库中从未出现,它的概率就是 0,这显然不合理。
举个例子:
- 训练数据有"agent learns"(出现很多次)
- 测试数据"robot learns" → 概率=0(因为"robot"没学过)
缺陷二:泛化能力差
模型无法理解"语义相似"的词。agent 和 robot 在模型眼里是完全不同的符号,没有任何关系。
根本原因:N-gram 模型把词视为孤立、离散的符号,就像一本没有近义词、反义词汇典。
2.1 词嵌入(Word Embedding)
为了克服 N-gram 的缺陷,研究者提出了词嵌入——
把每个词变成一个连续的向量,语义相近的词,向量也相近。
核心思想:用向量表示词,让计算机理解词与词之间的关系。
举个例子:
agent → [0.9, 0.8, 0.3, ...] robot → [0.9, 0.8, 0.3, ...] ← 和 agent 很接近! apple → [0.1, 0.2, 0.9, ...] ← 和 agent 差很远
向量空间比喻:就像把词放在一个多维空间里,语义相似的词会聚在一起。"动物"词群(狗、猫、兔子)和"植物"词群(花、树、草)分属不同区域。
2.2 向量运算捕捉语义
词向量之间可以做数学运算,运算结果代表语义关系!
经典例子:
vector('King') - vector('Man') + vector('Woman') ≈ vector('Queen')
解释:
- 从"国王"减去"男性"加上"女性"
- 结果向量在空间中与"女王"的位置非常接近!
比喻:就像语义坐标系的坐标平移——从"国王"出发,沿着"去掉男性特征、加上女性特征"的方向移动,就到达了"女王"的位置。
2.3 RNN(循环神经网络)
RNN 是一种具有"记忆能力"的神经网络,能处理序列数据。
核心:隐藏状态(hidden state)——相当于短期记忆,在时间步之间传递。
工作流程:
时间步1:输入"今天",结合初始记忆 → 输出"天气" 时间步2:输入"天气",结合上一步记忆 → 输出"很好" 时间步3:输入"很好",结合上一步记忆 → 输出"," ...
比喻:就像一个人读文章,读完上一页后会记住关键信息,带着这些信息读下一页。
2.4 长期依赖问题
RNN 有一个致命缺陷——长期依赖问题。
当序列很长时,早期的信息很难传到后面的时间步,导致"忘记"了开头的内容。
原因:反向传播时,梯度经过多次连乘,会指数级衰减(梯度消失)或爆炸(梯度爆炸)。
比喻:就像一个记性很差的人,读完一本书后只记得最后几页的内容,开头完全忘了。
2.5 LSTM(长短时记忆网络)
LSTM 是 RNN 的改进版本,专门解决长期依赖问题。
核心创新:引入细胞状态和门控机制
三个门:
- 遗忘门:决定丢弃什么信息
- 输入门:决定存储什么新信息
- 输出门:决定输出什么信息
比喻:LSTM 就像有个"长期记忆本"(细胞状态),加上三扇"门"决定哪些记忆要保留、哪些要删除、当前要输出什么。
3.1 为什么需要 Transformer?
2017年,谷歌提出了 Transformer,完全抛弃循环结构,使用注意力机制来处理序列数据。
RNN 的问题:必须一个词一个词顺序处理(串行),效率低
Transformer 的突破:所有词同时处理(并行),速度快得多!
核心公式:Attention(Q, K, V) = softmax(QK^T / √d) × V
3.2 自注意力机制(Self-Attention)
自注意力让序列中的每个词都能看到所有其他词,并根据相关性分配不同的注意力权重。
例子: 句子:"The agent learns because it is intelligent"
- 读到"it"时 → 重点关注"agent"(指代关系)
- 读到"learns"时 → 重点关注"agent"(主谓关系)
- 读到"because"时 → 关注"it is intelligent"(因果关系)
比喻:就像开会时,每个人都能同时听到所有人的发言,并根据重要性分配注意力。
3.3 Q、K、V 是什么?
注意力机制引入了三个核心向量:
计算过程(简化):
- 用 Q 去和所有的 K 做匹配(计算相似度)
- 得到注意力分数,用 Softmax 归一化
- 用归一化的分数去加权 V
- 得到最终的注意力输出
比喻:就像在图书馆查书(Q),通过卡片索引(K)找到对应的书(V),然后借阅。
3.4 多头注意力(Multi-Head Attention)
多头注意力把注意力机制复制多份,每份关注不同类型的关系。
为什么需要多头:语言关系是复杂的——指代、时态、从属、因果...一个"头"不够。
例子:
- 头1:关注"指代关系"(it → agent)
- 头2:关注"时态关系"(learns → 现在时)
- 头3:关注"从属关系"(agent's → 所属)
比喻:就像多个"专家"同时审阅一份文档,每个专家关注不同方面,最后综合所有人的意见。
3.5 Encoder-Decoder 架构
Transformer 的整体结构包含两部分:
例子:机器翻译
- 输入(英文):"Hello world"
- Encoder 理解 → 输出内部表示
- Decoder 生成 → 输出(中文):"你好世界"
3.6 Decoder-Only 架构
现在主流的 GPT 系列采用 Decoder-Only 架构——只保留 Decoder,不要 Encoder。
为什么这样设计:
- 语言任务的核心就是"预测下一个词"
- 不需要"理解"和"生成"的分离
- 一个 Decoder 就能完成所有任务
3.7 自回归(Autoregressive)
自回归是 Decoder-Only 的工作方式——自己生成的内容可以作为下一步的输入,不断循环。
流程:
输入:"今天" ↓ 生成:"天气" ↓ 输入变成:"今天天气" ↓ 生成:"很好" ↓ 输入变成:"今天天气很好" ↓ 生成:"," ↓ ...
比喻:就像玩"文字接龙"游戏,每次根据已经说的词,猜下一个最合适的词。
这一天的学习,让我从零开始理解了语言模型的演进历程:
统计语言模型(N-gram) ↓ 神经网络语言模型(RNN、LSTM) ↓ Transformer(注意力机制) ↓ Decoder-Only + 自回归(GPT)
核心收获:
- 语言模型 = 计算句子概率,判断通顺程度
- 马尔可夫假设 = 只看近不看远,简化计算
- 词嵌入 = 把词变成向量,让语义相似则向量相似
- 注意力机制 = 每个词都能看到所有词,捕捉关系
- Decoder-Only = 一个模型搞定一切,自回归生成
明天将继续学习:
- 提示工程(Prompt Engineering)
- 温度、Top-p 等采样参数
- Zero-shot、Few-shot、Chain-of-Thought
如果你也对 AI Agent 学习感兴趣,欢迎关注我的学习记录!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/258488.html