4万字拆解 AI：用五层架构，搭建一张完整的 AI 知识地图

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

此文的目标，是用一个非常系统化、通俗但尽量准确的框架，尝试去讲清楚 AI 相关知识，建立一个理解 AI 产业与技术栈的核心框架。

本文档不是只讲“怎么用 ChatGPT”，也不是只讲“模型参数有多大”，而是从 AI 产业和技术栈的底层往上看：

能源层：AI 为什么需要大量电力？
芯片层：AI 为什么需要 GPU / NPU / TPU？算力到底是什么？
基建层：为什么一堆芯片不能简单堆在一起，而要变成数据中心和 AI Factory？
模型层：LLM、多模态、模型训练/蒸馏、MoE、Transformer/RWKV、世界模型、训练范式到底是什么？
应用层：Agent、小龙虾/Hermes、Skill、MCP、Harness、Vibe Coding等又是些什么？

AI 不是单独一个模型，而是一条从电力、芯片、数据中心、模型算法，到 Agent 应用和业务场景的完整技术与产业链。

很多人理解 AI，会直接想到：ChatGPT、DeepSeek、Claude、Gemini、Midjourney、Cursor、Codex、AI Agent、豆包等。

这些当然都是 AI，但它们只是 AI 体系最上层的产品形态。

真正的 AI 系统，背后至少有五层：

层级解决的问题简单比喻能源Energy 有没有足够便宜、稳定、持续的电粮食 / 汽油芯片Chip 有没有足够强的计算发动机发动机基建Infrastructure 能不能让大量芯片协同工作工厂 / 高速公路 / 冷却系统模型Model AI 的智能从哪里来大脑应用Application 怎么把智能变成真实生产力。常说的AI Agent是一种较高级的应用形态。员工 / 工具 / 工作流

如果只看模型，很容易产生误判，也有很多问题没法解释，例如

为什么 AI 公司疯狂建数据中心？
为什么英伟达NVIDIA 市值这么高？
为什么大模型训练要几千万甚至上亿美元？
为什么 DeepSeek 的效率优化会引起全球关注？
为什么同一个模型，在不同 Agent 工具里体验差别很大？
为什么Benchmark高，不代表产品一定好用？

这些问题无法只靠“模型层”解释，必须把五层连起来看。

这五层不是彼此独立的，而是互相制约：

没有便宜电，就没有低成本数据中心。
没有强芯片，就没有足够训练和推理能力。
没有基建调度，一堆芯片也跑不满。
没有好模型，算力只是烧电。
没有好应用，模型能力无法变成商业价值。
这五层，越底层的变化发生得越慢，但带来的影响会更大；越上层的变化发生得越快，很可能很快就被替代，例如模型层，现在SOTA模型的领先周期越来越短了，但对于底层的能源层，各国的能源格局没那么容易被改变。

可以用一个公式理解：

AI 价值 = 能源 × 芯片 × 基建 × 模型 × 数据 × 工具 × 场景

这里每个乘数都很重要。

如果其中任何一项接近 0，最终价值都会被拉低。

只有模型，没有业务场景：很难商业化。
只有芯片，没有软件生态：开发者不好用。
只有数据中心，没有调度能力：GPU 利用率低。
只有 Agent 概念，没有工具权限和执行环境：只能聊天，不能干活。

能源层回答的是：

AI 为什么越来越像能源密集型产业？为什么大模型公司、云厂商、芯片公司都开始关心电力、数据中心、核电和储能？

以前互联网主要关心服务器、带宽和软件。AI 时代，服务器变成了高功率 GPU 集群，电力和散热成为核心瓶颈。

AI 的耗电主要来自两件事：

第一是训练耗电

训练大模型，就是让模型在海量数据上反复学习。比如：

读大量网页、论文、书籍、代码、对话数据。
通过预测下一个 token 学语言规律。
用大量 GPU 同时进行矩阵计算。
持续训练数周甚至数月。

训练越大，通常需要更多芯片、更长时间、更多数据、更复杂的网络通信、更强冷却、更高电力稳定性。

第二是推理耗电

推理就是模型被用户调用时的计算。例如：

用户问 ChatGPT 一个问题。
AI 生成一张图片。
Agent 读代码、改文件、运行测试。
电商 AI 自动分析 10 万个 SKU。
客服机器人一天回答几百万次咨询。

训练偏向一次性大投入，而推理是长期持续消耗。

未来 AI 普及后，推理耗电可能比训练更重要，因为训练是少数大公司做，但推理可能每天发生数十亿次。

能源层有几个常见单位：

单位中文含义 直观理解 W 瓦功率单位一个小灯泡几十瓦 kW 千瓦 1000 W 一台空调约 1-3kW MW 兆瓦 1000 kW 大型楼宇 / 小型工厂级别 GW 吉瓦 1000 MW 城市级 / 大型能源项目级别 kWh 度电 1kW 设备运行 1 小时家庭电费计量单位 TWh 太瓦时 10 亿度电国家/大型行业级用电量

如果一个 AI 数据中心持续使用 1GW 功率：

1GW = 1,000,000 kW

一年小时数 = 24 × 365 = 8760 小时

年耗电量 = 1,000,000 × 8760 = 8,760,000,000 kWh

也就是 87.6 亿度电 = 8.76 TWh

1.3.1粗略电费测算

持续功率 年耗电量 电价按0.05美元/kWh 电价按0.08美元/kWh 电价按0.12美元/kWh 100MW 8.76 亿度 4380 万美元 7010 万美元 1.05 亿美元 1GW 87.6 亿度 4.38 亿美元 7.01 亿美元 10.51 亿美元

按照深圳市2025年全社会总用电约 1272.1 亿度来预估，1GW的数据中心跑一年，就要消耗掉深圳市25天的全社会用电量。

所以，一个 1GW 级 AI 数据中心，如果全年满负荷运行，耗电量已经相当于中国一线城市数周级别的全社会用电量。

这只是电费，还没算：土地、机房建设、芯片采购、网络设备、存储系统、冷却系统、运维人员、备用电源、折旧等费用。（单从模型训练和研发成本看，顶级的模型例如之前的GPT-4，就已经是上亿美金的系统工程了，再加上这些费用，就能理解为啥模型不是普通公司能研发的了）

未来 AI 公司之间的竞争，不只是模型能力竞争，也会变成能源资源竞争。

关键问题包括：

是否能拿到长期稳定的低价电？
是否能在电网允许的地区建设数据中心？
是否需要自建能源？
是否需要储能平滑电力波动？
是否能用核电、天然气、风电、太阳能等组合供电？
是否能降低单位 token 的能耗？

这也是为什么越来越多 AI 公司、云厂商和能源公司开始合作。

芯片层回答的是：

AI 为什么需要专门的芯片？GPU、TPU、NPU、ASIC 有什么区别？英伟达NVIDIA 为什么强？国产芯片替代到底难在哪里？

算力，本质上是机器做数学运算的能力。

大模型处理文本、图像、声音时，都会先把它们变成数字向量，然后进行大量矩阵计算。

例如一句话：

今天深圳天气很好。

模型不会直接理解汉字，也不会像人一样先“懂中文意思”再思考。它会先把文字切成 token，再把 token 映射成向量，然后通过模型参数做一层又一层的数学运算。

这也是理解大模型的一个关键：

模型本质上不是一个内置规则库，也不是一个天然会精确计算的计算器，而是一个通过大量数据训练出来的概率预测系统（但现代 reasoning model、tool use、verifier、test-time compute 会让行为不只是简单补全）。

它看到一个问题后，会根据上下文和参数，生成最可能的下一个 token，再继续生成下一个 token。它可以表现得像在理解、推理、计算，但底层仍然是在高维向量空间里做概率生成。

插个题外话，这也解释了为什么有些简单算术题，模型有时会算错。

普通的算数对计算器来说，这是一个精确符号运算问题。

但对语言模型来说，它看到的是一串 token，并根据训练中学到的模式生成答案。如果它没有调用计算器、代码执行器，或者没有经过足够可靠的推理过程，就可能把数字当成语言模式来“猜”，于是出现看起来很低级的算术错误。

能力 LLM自身 工具增强后 语言表达很强很强常识问答较强，但可能幻觉可通过检索增强简单算术可能会错调用计算器后稳定复杂数学需要推理训练和验证结合代码/验证器更强数据分析可能编造连接真实表格/数据库后更可靠

AI 算力常见指标：

指标含义 FLOPS 每秒浮点运算次数 TFLOPS 每秒万亿次浮点运算 PFLOPS 每秒千万亿次浮点运算 BF16 / FP16 / FP8 / FP4 不同计算精度，精度越低越省资源，但可能影响效果 HBM 高带宽显存，靠近 GPU 的高速内存 Memory Bandwidth 显存带宽，决定数据能不能快速送进芯片 Interconnect 芯片之间互联速度，例如 NVLink

类型全称 主要特点 适合任务 比喻 CPU Central Processing Unit中央处理器通用、灵活、少量强核心操作系统、业务逻辑、复杂控制一个全能经理 GPU Graphics Processing Unit图形处理器大规模并行计算矩阵乘法、深度学习训练和推理大量熟练工 TPU Tensor Processing Unit张量处理器 Google 自研 AI 加速器 Google 云和内部 AI 训练推理专用生产线 NPU Neural Processing Unit神经网络处理器神经网络处理器手机、边缘设备、国产 AI 芯片专项工人 ASIC Application-Specific Integrated Circuit专用集成电路专用集成电路特定场景极致优化只做一种菜的自动机器

AI 特别适合 GPU，是因为大模型里有大量相似的矩阵计算，可以并行执行。

CPU 像一个聪明经理，能处理复杂事情，但一次管不了几万个重复计算任务。

GPU 像成千上万个工人，可以同时做类似的计算。

TPU、部分 NPU 本身也可以被视为 ASIC 的一种实现，表格是按产业语境拆开讲。

英伟达NVIDIA的 H100 / H200 / B200 / GB200

这是目前全球 AI 训练和推理最重要的芯片和系统路线之一。

H100：
过去一轮大模型训练核心芯片。
H200：
提升显存容量和带宽，更适合大模型推理。
B200：
Blackwell 架构，面向更高性能训练和推理。
GB200NVL72：
机架级系统，把 72 块 Blackwell GPU 通过 NVLink 连接成一个大型计算域。

GB200 NVL72 不是单块芯片，而是一套机架级 AI 系统。

它的重要意义是：

AI 正在从“单服务器 GPU”走向“机架级超级计算节点”。

AMD MI300X

AMD MI300X 是 NVIDIA 之外的重要竞争产品，由超威半导体公司 (AMD, Advanced Micro Devices) 生产。

它的特点是大显存、高带宽，适合大模型推理和部分训练场景。

AMD 的挑战主要不在单点硬件，而在软件生态和开发者迁移成本。

Google TPU

TPU 是 Google 自研的 AI 加速器。

它主要服务于 Google 自己和 Google Cloud 生态。

TPU 的特点是软硬件一体设计，适合 Google 内部大规模训练和推理。

华为 Ascend（昇腾）

华为 Ascend，中文称为昇腾，是中国国产 AI 算力路线的核心之一。

它的重要性不仅是性能本身，更在于：

供应链自主
国产 AI 训练和推理平台
与 CANN 软件栈配套
支撑中国大模型企业在受限环境下继续发展

2026年4月DeepSeek V4 已针对华为 Ascend AI 芯片和 Ascend 超节点做了适配，可在华为昇腾算力集群上运行/推理；其中 V4-Flash 还被报道有 Ascend 集群参与训练。但这代表的是国产算力适配和生态替代能力增强，不等于 NVIDIA 生态依赖已经被完全消除。

基建层回答的是：

为什么买了很多 GPU，不代表就拥有强 AI 能力？为什么芯片之间怎么连接、怎么调度、怎么冷却、怎么供电，会决定模型训练和推理效率？

单块芯片是发动机。但 AI 需要的是成千上万台发动机协同工作。

基建层的核心就是：把大量芯片、电力、网络、存储、冷却和调度系统组织成稳定高效的 AI 工厂。

AI 基建可以分层理解：

层级说明单卡一块 GPU / NPU / TPU 单机一台服务器，通常 8 块或更多 GPU 机架多台服务器加交换机和供电冷却集群多个机架组成训练/推理集群数据中心电力、冷却、网络、安防、运维一体化 AI Factory 专门为 AI 训练和推理设计的工业级生产系统

AI Factory 这个说法很形象。传统工厂生产汽车、手机、衣服，而AI Factory 生产：token、embeddings（向量表示：把文本、图片、商品、用户行为等转成一串数字向量，用于检索、聚类、推荐和相似度计算）、图像、视频、代码、决策建议、Agent 执行动作等等。

数据中心不是简单的“放很多服务器的房间”。

AI 数据中心通常包括：

组成作用 AI 服务器放 GPU / NPU / TPU，执行训练和推理网络设备让芯片、服务器、机架之间高速通信存储系统存放训练数据、模型权重、日志、缓存供电系统高压接入、变电、配电、UPS、备用电源冷却系统风冷、液冷、冷却塔、冷冻水等运维系统监控功耗、温度、故障、任务调度安全系统防火、防水、物理安全、权限管理

AI 数据中心和传统互联网数据中心最大的区别是：

AI 数据中心的功率密度更高，网络通信更密集，冷却压力更大，任务中断成本更高。

数据中心有一个效率指标PUE，全称是Power Usage Effectiveness。

公式是：PUE = 数据中心总耗电 / IT 设备耗电

假设 GPU 服务器本身耗电 100MW：

如果 PUE = 1.1，总耗电约 110MW。
如果 PUE = 1.3，总耗电约 130MW。
如果 PUE = 1.5，总耗电约 150MW。

PUE 越接近 1，说明非计算耗电越少。

但注意：

PUE 不是唯一指标。一个数据中心 PUE 很低，不代表它整体成本一定最低，因为还要看电价、土地、冷却水、芯片利用率、网络效率、运维稳定性等。

大模型训练和推理通常要用并行计算。

常见并行方式包括：

并行方式解决的问题直观解释 Data Parallel 数据太多每个工人做一部分作业，最后对答案 Tensor Parallel 单层矩阵太大一道大菜切成几块，不同厨师一起炒 Pipeline Parallel 模型层数太多流水线生产，每组负责几道工序 Expert Parallel MoE 专家太多不同专家处理不同问题 Sequence Parallel 上下文太长长文章拆成片段协同处理

并行的目标是：

让模型装得下。
让数据吞吐上去。
让 GPU 不闲着。
让训练和推理成本下降。

很多人以为 AI 训练就是 GPU 在算。

但实际大模型训练中，很大一部分挑战来自通信。

GPU 之间要传：

参数：模型内部的权重，也就是模型学到的“经验刻度”。
梯度：训练时用来告诉参数应该往哪个方向调整的信号。
激活值：模型每一层处理输入后产生的中间结果，后续层还要继续使用。
KVcache：推理时缓存的 attention Key / Value，用来避免每生成一个 token 都重新计算前文。
路由信息：MoE 模型中，路由器决定某个 token 应该交给哪些专家处理的选择结果。
专家输出：MoE 中被选中的专家网络处理后的结果。
中间状态：训练或推理过程中需要跨芯片同步的临时计算结果、状态信息和控制信息。

如果通信慢，就会出现一个问题：

GPU 明明很贵，却在等数据。

这会直接降低芯片利用率。

芯片利用率可以理解为：

你花钱买的 GPU，到底有多少时间真的在做有效计算？

影响利用率的因素包括：

因素影响网络带宽决定 GPU 之间传数据快不快网络延迟决定等待时间长不长显存容量决定模型、batch、KV cache 能不能放下显存带宽决定数据喂给计算核心的速度存储吞吐决定训练数据加载速度 Batch size 太小吃不满 GPU，太大可能爆显存编译优化算子融合、内存调度会影响速度精度选择 FP16、BF16、FP8、FP4 影响速度和稳定性调度系统多任务如何排队、抢占、隔离故障恢复机器坏了能不能快速恢复散热能力过热会降频甚至宕机电力稳定性波动可能导致任务失败

就像是你请了 100 个工人，不代表 100 个人都在干活。

有的人在等材料，有的人在等上一道工序，有的人太热休息，有的人工具坏了。

AI 基建就是尽量让这些昂贵工人少等待、多干活。

AI 集群非常怕电力不稳定。原因是：

训练任务可能持续几周。
集群规模很大，任何单点故障都可能影响任务。
GPU 功耗高，瞬时负载变化大。
断电或波动可能导致 checkpoint 损坏、任务重启、数据丢失。

所以数据中心需要：

UPS（Uninterruptible Power Supply，不间断电源：主电源异常时，短时间继续供电，给系统争取切换或安全停机时间）
备用发电机
储能系统
冗余供电
电力监控
负载调度

GPU 高负载运行会产生大量热。如果散热不好：

芯片降频
性能下降
故障率上升
服务器寿命缩短
训练任务中断

传统数据中心很多用风冷。高密度 AI 数据中心越来越多使用液冷。

通俗点理解，AI 芯片像很多大火炉。火炉越多，屋子越热。因此不但要有电，还要有水管、风扇、空调和消防，不然火炉再贵也不能一直烧。

AI 基建的目标不是“堆更多 GPU”，而是：

用更低成本、更高稳定性、更高利用率，持续生产更多高质量 token 和智能服务。

衡量指标包括：单位 token 成本、GPU 利用率、集群故障率、训练吞吐、推理延迟、每瓦性能、每美元性能、部署效率、容灾能力。

模型层回答的是：

AI 的智能是怎么来的？LLM、Transformer架构、MoE、多模态、RAG、Memory、SFT、RLHF、DPO/GRPO、世界模型到底都是些什么？

这是整个文档最重要的一章，也是陌生名词层出不穷的一章。

模型层可以分成几大部分：

基础概念
LLM 演变
Transformer 架构
MoE、多模态与长上下文
非 Transformer 路线
训练与后训练
推理与 reasoning
Benchmark 与评测

LLM 全称 Large Language Model，大语言模型。

最基础的定义是：

LLM 是一个通过海量文本和代码训练出来的模型，它学会了根据上下文预测下一个 token。

例如输入：

今天天气很好，我们去……

模型可能预测：

公园 / 散步 / 海边 / 打球 等等

表面上，LLM 只是在预测下一个 token。

但当模型足够大、数据足够多、训练足够充分时，它会涌现出很多能力（涌现了智能），LLM会写作、翻译、总结、问答、推理、编程、规划、角色扮演、多轮对话、工具调用等等。

4.2.1 公司、产品、模型：先分清楚这些名词的对应关系

很多人容易把“公司名、产品名、模型名、工具名”混在一起。例如：

Anthropic是公司。
Claude是产品家族/ AI助手品牌。
Claude Code是编码Agent产品。
Claude Opus 4.7才是模型名。

再比如：

OpenAI是公司。
ChatGPT是用户使用的聊天产品。
Codex是OpenAI的编程Agent产品。
GPT-5.5是模型。

四类名词的区别

类型解释例子公司 / 机构研发模型、运营产品、提供 API 或云服务的主体 OpenAI、Anthropic、Google DeepMind、Meta、DeepSeek、xAI、阿里巴巴通义千问团队产品 / 应用用户直接使用的入口，可以是 App、网页、IDE、CLI 或企业服务 ChatGPT、Claude、Claude Code、Gemini App、Cursor、Codex、Grok、Qwen Studio 模型产品背后的“大脑”，负责生成、推理、理解和调用工具 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro、DeepSeek-V4-Pro、Llama 4 Maverick、Grok 4.20、Qwen3.6 工程框架 / Agent 运行时把模型、工具、记忆、权限和执行环境组织起来的系统 Claude Code runtime、Codex CLI、OpenClaw、Hermes Agent、LangGraph、MCP Server、企业自研 Agent Harness

4.2.1.1常见公司—产品—模型对应表

下面表格用于帮助建立概念，不是完整排名，也不是永远不变的清单。模型和产品名称更新很快，正式引用时应以官网和 API 文档为准。按“公司”聚合来看（国内的大家比较熟悉，举一些国外例子）：

公司 / 机构产品入口 / 应用模型家族 / 具体模型 Agent / 工程工具容易混淆点应该怎么理解 OpenAI ChatGPT、OpenAI API、Sora、ChatGPT Enterprise GPT-5.5、GPT-5.4、GPT-4o、o 系列 reasoning models、gpt-image 系列等 Codex、Codex CLI、Agents SDK、Responses API、Computer Use 等 ChatGPT、Codex、GPT 经常被混用 OpenAI 是公司；ChatGPT 是通用 AI 产品；Codex 是编程 Agent 产品 / 产品线；GPT / o 系列才是模型；API 是开发者调用模型和工具的平台 Anthropic Claude、Claude.ai、Claude API、Claude for Enterprise Claude Opus 4.7、Claude Sonnet 系列、Claude Haiku 系列等 Claude Code、Claude Agent SDK、MCP 生态相关工具 Claude、Claude Code、Claude Opus 经常混用 Anthropic 是公司；Claude 是产品家族 / AI 助手品牌；Claude Code 是编码 Agent 产品；Opus / Sonnet / Haiku 是不同定位的模型系列 Google / Google DeepMind Gemini App、Google AI Studio、Vertex AI、Google Workspace AI Gemini 3、Gemini 3.1 Pro / Flash、Imagen、Veo、Gemma 等 Jules、Vertex AI Agent Builder、Gemini CLI / 开发者工具等 Gemini 既像产品名，也像模型家族名 Google / DeepMind 是研发主体；Gemini App 是用户入口；Gemini Pro / Flash 是模型；Vertex AI 是企业和开发者部署平台；Gemma 是开放模型家族

4.2.1.2为什么一定要区分这几类？

因为很多讨论会混淆层级，导致判断错误。

例如：

“Claude Code 变差了”不一定等于“Claude Opus 模型变差了”。也可能是产品 prompt、默认 reasoning 配置、缓存、工具调用或 Harness 改了，就像前段时间大家都在讨论的Opus4.7降智，本质上是因为Harness的问题而非模型的问题。
“ChatGPT 很好用”不等于某个 GPT 模型裸能力一定最好，因为 ChatGPT 还包含系统提示词、工具、记忆、文件处理、UI 和产品策略。
“Cursor 写代码强”不等于 Cursor 自己训练了最强模型，它可能是 IDE 上下文、索引、编辑体验、模型选择和 workflow 做得好。
“Llama 很强”不等于 Meta AI 产品一定最好，因为开放权重模型被不同团队部署和调优后，体验会不同。
“某个 API 模型 benchmark 高”不代表某个应用产品一定好用，因为产品层还有 Harness、工具、记忆、权限、延迟和成本。

4.2.2 Token 是什么？

Token 是模型处理文本的基本单位，2026年3月24日中文官方翻译为“词元”。

它不完全等于一个字，也不完全等于一个词。例如：

“ChatGPT 很强”

可能会被切成：

Chat / GPT / 很 / 强

中文、英文、代码、标点都会被 tokenizer 切成模型可处理的小片段。

一个 token 大致有多长？

语言/内容粗略关系说明英文 1 token 约等于 4 个英文字符，或约 0.75 个英文单词例如 common words 可能 1 个 token，长单词可能拆成多个 token 中文 1 token 常常约等于 1 个汉字，也可能是 1-2 个汉字或更复杂组合取决于 tokenizer，不同模型不完全一样代码符号、缩进、变量名都会占 token 长变量名可能被拆成多个 token 数字不一定按完整数字理解这也是模型做精确算术时容易出错的原因之一

可参考OpenAI的tokenizer：

https://platform.openai.com/tokenizer?utm_source=chatgpt.com

所以，不能简单说“1 个 token = 1 个字”或“1 个 token = 1 个词”。更准确的说法是：

token 是模型自己的文本切片单位，不同模型、不同语言、不同 tokenizer 会有差异。

Token 重要，是因为：

计费通常按 token。
上下文窗口按 token 计算。
推理速度按 token/s 衡量。
模型训练数据量也按 token 衡量。

4.2.3 参数 B 是什么？

模型参数是模型内部可学习的权重。

B 是 Billion的缩写，十亿。

所以，像qwen/qwen3.5-9b这个模型，9b意味着这个模型的参数量级是90亿。例如：

写法含义 7B 约 70 亿参数 13B 约 130 亿参数 70B 约 700 亿参数 671B 约 6710 亿参数

参数不是知识本身，而是模型从数据中学到的统计规律。

可以把参数理解成模型脑子里的大量“小旋钮”。训练就是不断调整这些旋钮，让模型更会预测、更会回答。

4.3.1 Prompt

Prompt 是用户给模型的输入指令。例如：

帮我写一封英文离职邮件，语气真诚、低调、有感谢。

Prompt 决定了模型当前任务。

4.3.2 Context

Context 是模型当前能看到的上下文，包括：用户当前问题、前面的对话、上传文件内容、系统指令、工具返回结果、RAG 检索结果等等。

4.3.3 Context Window

Context Window 是模型一次能处理的最大上下文长度。

可以理解为 AI 桌子的大小。桌子越大，能摊开的资料越多。

4.3.4 Memory

Memory 是跨会话保存的信息。

它不是模型参数本身，而是外部记忆机制。例如：

用户偏好
项目信息
公司名称
常用写作风格
长期任务背景

总的来说，一开始LLM通过chatbot的方式，只能进行简单的单次对话，例如你发prompt问它：1+1等于多少？它回答是2之后，你再问“再加1呢？”，它可能就回答不了了，因为没有上下文信息。

接着有了context/memory之后，有了上下文和记忆，AI就能回答需要历史背景信息的对话问题了。

但是只有Context/Memory还不够，因为有很多信息是模型之外的，需要读取本地文件或者联网搜索的（这就是接下来章节要讲到的RAG等内容），甚至要调用外部工具，这些在后续章节都会介绍。

非常通俗地解释：Prompt 是你现在跟 AI 说的话，Context 是 AI 眼前桌子上摆着的资料，Memory 是 AI 另一本小笔记本，下次还能记得你的一些偏好。

RAG 全称 Retrieval-Augmented Generation，检索增强生成。

它的基本逻辑是：

先从外部知识库检索相关资料，再把资料交给模型回答（基于资料来生成答案）。

4.4.1为什么要RAG？

因为普通 LLM 只靠模型内部参数回答，无法访问很多私有数据，且很容易出现知识过期或幻觉。带着这种特性，所以RAG有很强的应用场景。

RAG 可以让模型回答基于公司文档、产品手册、法律条款、论文资料、数据库记录、客服知识库等。

看到这你可能会问，那我不能把所有文档先都丢给AI吗？

目前还真不行，核心原因有几个，一是当前LLM有上面提到的上下文窗口的数据限制，二是如果都把全部相关文档输入进去，不仅成本很大，且每次回答都得调用全部数据，响应效率也非常低。

所以解决思路是，当问题来了，用一个办法先找到文档中最相关的部分，再交给LLM去回答。

4.4.2 RAG 流程

用户问题 → 向量检索 / 关键词检索 → 找到相关资料 → 拼进上下文 → 模型生成答案

这里核心流程可以拆分成两个阶段。一个是前期的数据准备，一个是回答用户问题过程。

4.4.2.1数据准备

如果要基于文档资料来生成答案，那第一步就需要先处理原始文档。

第一步是文档切分：文档非常长，首先要做的是文档切分（Chunking），就是可以按照不同章节、段落、字数长度等各种维度去把文档切分成不同的块（Chunk），保证每块的语义相对完整。
第二步是Embedding向量化：这个词很高级，别慌，其实非常容易理解。因为计算机是不理解文字的，所以要把这些文字转成数字，向量化的本质是把每一段文字，映射到一个语义空间的坐标。
举个简化的例子，坐标轴大家都熟悉，有x轴y轴，坐标轴上可以有很多坐标（2，1）、（2，4）等，前面切分好的语义完整的块的内容。假设：

块Chunk A内容是“退换货的流程要先确认收货”，对应坐标a（2，1）；

块Chunk B内容是“退换货平均成本是2块钱”，对应坐标就会跟坐标a很近，因为内容都是“退换货”相关，假设是坐标b（2，2）；

块Chunk C的内容是“不正当竞争罚款”，因为跟块Chunk A和B都不太相关，块Chunk C的坐标就会相对远离，对应坐标c（-10，-21）。

所以，在语义坐标空间里，意思相近的内容，距离会更近，不相关的内容距离就会更远。实际embedding不是简单的二维xy轴坐标系，会更复杂很多，但做的事情是一样的。
第三步是向量数据库存储：前面两步把文档切好了不同的块，每一块都对应了一个向量坐标，接下来就是把这些内容存入向量数据库，有一个基本的对应关系：

文本内容对应向量文本（Chunk A）（2，1）文本（Chunk B）（2，2）文本（Chunk C）（-10，-21）文本（……） ……

4.4.2.2用户提问

假设此时用户问了一个问题“我要怎么申请退换货？”

对于具体的问题，文本也是要转化成向量的，假设这个问题转换成的向量坐标是（2.5，3.5）。如果遇到问题不清晰或者比较口语化，LLM在这一层中还要重写问题（Rewrite）。
接着计算相似度：接下来这个向量坐标（2.5，3.5）要跟向量数据库中的向量计算相似度，具体方法有余弦相似度、欧式距离等，衡量该向量坐标与向量数据中的向量的距离。实际应用场景中是通过混合检索（关键词检索和向量相似度检索）。
然后返回Top-k个Chunk块：例如计算完之后数据召回了5个块，完成初筛。但此时，这5个块并不能保证可以回答用户的问题。
接着做重排Rerank：这5个块的内容重新跟用户问题做匹配，找出最能回答用户问题的内容，例如精选了其中3个作为最终使用的Chunk。
然后整合：最后把用户的问题+最终检索到的资料（3个chunk）+程序Prompt（程序额外定义的，eg“要严格基于资料内容回答，不能胡乱编造”之类的）整合起来，变成一个新的Prompt喂给LLM。
最后大模型生成答案返回给用户。

讲到这里，你终于理解了RAG不属于LLM的一部分，（那可能会问，为什么放到LLM这一层？因为跟LLM紧密配合啊），RAG只是帮助LLM去高效查询资料，并基于资料的内容让LLM生成答案，但过程中也存在很多的挑战：

公司文档格式多种多样，解析难度不一样，数据清洗很难。
Chunk切块的颗粒度准确性，切块太大不精准，切块太小语义就容易断裂。因此要保证每一个块的语义都是完整的。例如上述的块ChunkB（退换货平均成本是2块钱），如果切成了两块“退换货”和“平均成本是2块钱”，那就不知道什么东西的“平均成本是2块钱”了。

幻觉是指模型输出看起来很自信，但实际上不准确或不存在的信息。原因包括：

模型本质是生成概率最高的回答，不是真正查证事实。
训练数据可能有错误。
问题超出模型知识范围。
上下文不足。
模型为了流畅性补全细节。
用户要求过于模糊。

降低幻觉的方法：

RAG：让模型先检索外部资料，再基于资料回答。
工具调用：让模型调用计算器、代码、搜索、数据库，而不是凭空生成。
引用来源：要求模型说明依据来自哪里。
让模型承认不确定：允许模型说“不知道”或“需要更多信息”。
结构化输出：用固定字段、JSON、表格等减少自由发挥空间。
人工审核：关键场景由人类复核。
用Eval做质量评估：Evaluation 是指建立一套测试题、真实业务样本和评分规则，持续评估模型的准确率、幻觉率、格式稳定性、工具调用成功率等。例如做电商选品 Agent，就可以准备 100 个历史商品案例，看模型是否能正确判断趋势、利润、风险和推荐理由。

语言建模方法的演变：模型如何学习语言。
模型架构的演变：模型内部结构如何变化。
训练范式的演变：模型怎么被训练和对齐。
能力边界的演变：模型从文本扩展到代码、多模态、长上下文、推理。

Agent 不属于 LLM 本身的演变阶段，而属于应用层。只是因为 LLM 具备了更强的工具调用、长上下文和推理能力，才让 Agent 应用成为可能。

4.6.1 按语言建模方法看

阶段代表核心变化统计语言模型 n-gram 根据前几个词预测下一个词神经语言模型 RNN / LSTM 用神经网络处理序列，但长距离依赖困难 Attention + Seq2Seq 早期机器翻译模型开始动态关注输入里的关键部分 Transformer （后面章节详细介绍） Attention Is All You Need 主要依靠 attention，可大规模并行训练预训练语言模型 BERT / GPT 先在海量数据上学通用语言能力大语言模型 GPT-3、Llama、Qwen 等参数、数据、算力扩大后出现通用能力

*BERT：Bidirectional Encoder Representations from Transformers（来自Transformer的双向编码器表示），在2018年由Google AI团队推出，其核心思想深刻影响了后续几乎所有的大型语言模型。

4.6.2 按模型架构看

架构路线代表说明 Encoder-only BERT 更偏理解、分类、检索 Decoder-only GPT、Llama、Qwen、DeepSeek 更偏生成、对话、代码、推理，是当前主流 LLM 路线 Encoder-Decoder T5 适合翻译、摘要、文本转换 Dense Transformer GPT-3 等每次推理基本激活全部参数 MoE Transformer （后面章节详细介绍） Switch、Mixtral、DeepSeek MoE 有很多专家，但每个 token 只激活一部分非 Transformer 探索 RWKV、Mamba / SSM 等试图提高长序列效率和推理效率

4.6.3 按训练范式看

阶段作用预训练学通用语言、知识和模式 SFT 学会按人类指令回答 RLHF / DPO 让回答更符合人类偏好 RL for Reasoning / GRPO 强化数学、代码、复杂推理能力蒸馏用大模型教小模型，降低部署成本量化 / 推理优化降低推理成本，提高速度

4.6.4 按能力边界看

能力扩展说明文本生成写作、翻译、总结、问答代码能力生成代码、解释代码、修 bug 长上下文读长文档、代码库、合同、历史对话多模态处理图像、音频、视频等非文本输入工具调用能力模型能按格式发起函数调用或 API 调用推理能力通过思考链、验证器、RL 等提升复杂问题表现

注意：

工具调用能力是模型能力的一部分，但 Agent 是应用系统。更统一的表达是：Agent = Model + Harness，其中 Harness 内部包含 Tools、Memory、Execution Environment、Policy / Permissions、Observability 等运行时能力。具体Harness内容会放到应用层再讲。

Transformer 是现代 LLM 的核心架构。

它来自 2017 年论文《Attention Is All You Need》。

Transformer 的核心机制是 Attention。

4.7.1 Attention 是什么？

人读一句话时，不会平均关注每个字。例如：

苹果今天发布了新手机。

这里的“苹果”不是水果，而是 Apple 公司。

模型要理解这一点，就要关注“发布”“新手机”等上下文。

Attention 的作用就是：

让模型在处理每个 token 时，动态判断上下文中哪些 token 更重要。

4.7.2 Transformer 的主要模块

模块作用 Token Embedding 把 token 转成向量 Positional Encoding / RoPE 告诉模型 token 的位置 Self-Attention 让每个 token 关注其他 token Multi-Head Attention 从多个角度看上下文 Feed Forward Network 对每个位置做非线性变换 Residual Connection 保留原信息，帮助深层训练 LayerNorm / RMSNorm 稳定训练 Softmax 把分数变成概率

你读文章时，会抓关键词，看前后文。

Attention 就是让 AI 学会：这句话里哪些词更重要，哪些词要连起来理解。

4.7.3 Transformer 的三种主流形态

架构代表模型适合任务 Encoder-only BERT 理解、分类、检索 Decoder-only GPT、Llama、Qwen、DeepSeek 生成、对话、代码、推理 Encoder-Decoder T5 翻译、摘要、转换任务

当前主流聊天大模型，多数是 Decoder-only 架构。

原因是它非常适合自回归生成：

根据前面的 token，一个一个生成后面的 token。

4.7.4 HC / FC / mHC / Attention Res 怎么理解（非技术人员可skip）？

这四个东西分别对应四篇论文，可以总结为“Residual Stream Architecture：大模型深度方向的信息路由革命”。

这四篇论文都在重新设计 Transformer/LLM 里非常基础的残差连接 Residual Connection：

Hyper-Connections提出“残差连接不该是固定加法，而应该是可学习的跨层连接矩阵”；Frac-Connections是它的轻量化版本；mHC是它的大规模稳定化版本；Attention Residuals则走另一条路线，把残差累加改成“对历史层输出做 attention 选择”。整体趋势是：模型结构创新开始从 Attention/MLP 内部，转向 residual stream / depth-wise topology 这种更底层的架构设计。

Hyper-Connections（2024年字节团队提出）：提出新范式，残差连接从“固定加法”变成“可学习连接矩阵”。
Frac-Connections：Fractional Extension of Hyper-Connections（2025年字节团队提出）：HC 的省内存版本，用 hidden state 分块/分数化替代复制扩宽。
mHC（Manifold-Constrained Hyper-Connections，带流形约束的超连接设计，2025.12.31 DeepSeek团队提出）：HC 的大规模稳定版本，用流形约束恢复 identity mapping 和传播稳定性。
Attention Residuals（2026.03 Kimi团队提出）：不走 HC 多流路线，而是让每层用 attention 选择历史层输出，解决残差累加导致的信息稀释。

好吧，别说你们了，我也看不懂。再来通俗易懂解释下：

4.7.4.1 通俗理解

一个关键点可以先抓住：

这些论文不是在改“注意力公式本身”，而是在改模型层与层之间“信息怎么传”。这相当于从改发动机，转向改整辆车的传动系统。

可以把大模型想象成一个有很多层的“加工流水线”。

每一层都会对信息加工一次，比如第 1 层理解词，第 10 层理解句子结构，第 30 层理解推理关系。

传统 Residual Connection 残差连接就像一条主干传送带：

上一层的信息 + 当前层加工出来的新信息 = 传给下一层

它的好处是：信息不容易丢，梯度也更容易传回去。

但问题是：它太“死板”了。每一层的信息都用差不多固定的方式往后加，模型不能很好地判断：哪一层的信息更重要？哪些层之间应该强连接？哪些层其实可以少传一点？

这四篇论文，本质上都在回答同一个问题：

大模型层与层之间的信息，能不能传得更聪明？

好了，小白们到这里就可以了。如果还想继续那就看完整版PDF吧。

此处省略4.7.4.2-4.7.4.5

4.7.4.6小结：四篇论文的关系，用一句话串起来

传统 Residual Connection：信息固定往后加。
Hyper-Connections：让层与层之间的连接强度可以学习。
Frac-Connections：把 Hyper-Connections 做得更省显存。
mHC：给 Hyper-Connections 加稳定约束，让它更适合大规模训练。
Attention Residuals：不用 HC 的多流连接方式，而是让每一层用 attention 主动选择历史层信息。

4.8.1 模型训练回答什么问题

模型训练回答的是：

模型为什么会变聪明？预训练、微调、对齐、强化学习、蒸馏、推理时扩展分别在做什么？

可以把模型训练分成：

预训练
后训练
对齐
强化学习
蒸馏
量化与部署优化
推理时计算扩展

4.8.2 预训练 Pre-training

预训练是大模型能力的基础。

模型在海量数据上学习通用规律。

常见训练目标：

目标说明 Next Token Prediction 根据前文预测下一个 token Masked Language Modeling 猜被遮住的词 Contrastive Learning 学会相似和不相似样本 Multimodal Alignment 对齐图像、文本、音频等模态

预训练学到的是基础能力：

语言规律
世界知识
代码结构
常识关系
概念关联
一定程度的推理模式

通俗理解，预训练像孩子先读很多书、看很多题、见很多例子。

他还没学会怎么当客服、程序员或运营，但已经有了基础知识。

4.8.3 Scaling Law

Scaling Law （规模定律）研究的是：

模型参数、训练数据、算力之间如何配比，才能更有效提升模型能力。

过去几年大模型能力提升，很大程度来自 scale：

更大模型
更多数据
更多算力
更长训练

但 scale 不是盲目做大。如果参数很大但数据不足，会训练不充分。如果数据很多但模型太小，吸收能力有限。如果算力不足，训练无法充分收敛。

4.8.3.1 Scaling Law 是什么？

在 AI 里，Scaling Law 指的是：模型能力会随着某些关键资源的扩大而呈现相对可预测的提升规律。

对大模型来说，最核心的三个变量是：

模型参数量 N：模型有多大。
训练数据量 D：模型看过多少 token / 样本。
训练算力 C：训练时投入了多少计算资源，通常用 FLOPs 衡量（每秒浮点运算次数，这个概念在芯片层有提到）。

早期2001年 OpenAI 的《Scaling Laws for Neural Language Models》发现，语言模型的交叉熵损失会随着模型大小、数据量和训练算力增加，呈现近似 power-law 幂律下降；也就是说，规模越大，loss 越低，但收益会逐渐递减。论文还指出，在一定范围内，宽度、深度等架构细节的影响，反而不如整体规模变量明显。

也就是说：只要数据、参数、算力按合理比例扩大，模型能力通常会变强，而且这种变强在训练 loss 上可以被****。

4.8.3.2 最核心的公式直觉

一个常见的简化表达是：

L(N,D) ≈ L∞+A / N^α+B / D^β

各个参数代表的意思是：

L：模型损失，越低通常代表模型预测下一个 token 的能力越强。
N：参数量。
D：训练 token 数。
L∞：理论上接近但难以突破的最低损失。
A / N^α：模型太小带来的误差。
B / D^β：数据太少带来的误差。

这说明两个关键点：

第一，模型太小不行。参数不够，表达能力不足。

第二，数据太少也不行。模型再大，如果训练 token 不够，就会“没吃饱”，也就是 undertrained。

4.8.3.3 为什么 Scaling Law 重要？

Scaling Law 的战略意义非常大，因为它让 AI 公司可以在真正花几十亿训练大模型之前，先用小模型实验来预测大模型表现。

它解决的是一个核心问题：

我到底应该把钱花在更大的模型、更大的数据，还是更多训练算力上？

如果没有 Scaling Law，训练大模型就像赌博。

有了 Scaling Law，训练大模型更像工程投资：先做小规模实验，拟合曲线，再推算大规模训练的预期收益。

这也是为什么过去几年大模型公司会疯狂投入 GPU、数据中心和训练数据，因为 Scaling Law 给了他们一个信念：继续扩大规模，大概率还能带来能力提升。

4.8.3.4 早期结论-Kaplan Scaling Law

2020 年 OpenAI 相关研究提出的 Scaling Law 可以理解为第一代经典版本。

它的核心观点是：

模型性能主要由参数量、数据量和训练算力决定。

论文发现，loss 和模型规模、数据规模、计算规模之间呈现幂律关系，而且这种趋势跨越了超过 7 个数量级。论文还提出，大模型通常更具样本效率，因此在固定算力下，训练一个更大的模型，并在还没完全收敛时停止，有时是更高效的选择。

这套结论推动了 GPT-3 时代的思路：更大模型 = 更强能力。

所以当时很多公司倾向于堆参数量，比如 100B、500B、1T 参数。

4.8.3.5 第二次重要修正-Chinchilla Scaling Law

后来 DeepMind 在 2022 年提出了著名的 Chinchilla Scaling Law，这篇论文对行业影响很大。

它指出，很多大模型其实不是“太小”，而是训练数据太少，也就是 undertrained。

DeepMind 训练了 400 多个不同规模的模型后发现，在固定训练算力下，模型参数量和训练 token 数应该大致同步增长：模型参数翻倍，训练 token 也应该翻倍。

这带来了一个非常重要的转变：

不是参数越大越好，而是参数量和数据量要匹配。

Chinchilla 本身只有 70B 参数，但用了比 Gopher 多 4 倍的数据，在相同计算预算下，表现超过了 Gopher 280B、GPT-3 175B、Jurassic-1 178B 和 Megatron-Turing NLG 530B 等更大的模型。

所以 Chinchilla 之后，行业共识变成：大模型不是单纯堆参数，而是要追求 compute-optimal：在给定算力下，参数量和数据量最优分配。

4.8.3.6 训练 Scaling Law vs 推理 Scaling Law

过去讲 Scaling Law，主要讲的是训练阶段：

更大模型 + 更多数据 + 更多训练算力。

但从 2024 到 2025 年以后，一个新的方向变得非常重要：test-time compute scaling，也就是推理阶段的 scaling。

意思是，模型训练完之后，在回答某个问题时，也可以投入更多计算：

多生成几个答案再选择；
多步推理；
self-consistency；
verifier / reward model 评分；
search；
tree-of-thought；
agent 多轮调用工具。

ICLR 2025 的一篇研究指出，在数学推理任务中，合理分配测试时计算资源，可以比简单 best-of-N 更高效；在 FLOPs 匹配的评估下，较小模型通过更多 test-time compute，有时可以超过 14 倍参数量的更大模型。

这意味着行业逻辑正在从：

训练一个巨大模型，一次回答。

变成：

训练一个足够强的模型，再让它在复杂问题上多思考、多搜索、多验证。

这也是 reasoning model、agent、deep research 类产品背后的重要逻辑。

4.8.3.7 Scaling Law 的6种类型

1）参数 Scaling

增加模型参数量，让模型表达能力更强。典型路径是从 1B、7B、13B、70B、175B、500B 甚至更大。

但问题是：参数越大，训练和推理成本越高；如果数据不够，模型会 undertrained。

2）数据 Scaling

增加训练 token 数。Chinchilla 之后，数据量的重要性大幅提升。

但今天的问题是：高质量互联网文本正在变得稀缺。所以后续的竞争不只是“更多数据”，而是：

更高质量数据；
专业领域数据；
合成数据；
多模态数据；
用户交互数据；
agent 执行轨迹数据。

3）算力 Scaling

增加训练 FLOPs。这对应 GPU 集群、数据中心、能源、网络互联、训练稳定性。

但算力不是无脑堆，核心是：同样的算力，应该分配给更大模型，还是更多数据，还是更长训练？

这就是 compute-optimal scaling 要解决的问题。

4）架构 Scaling

虽然早期 Scaling Law 认为架构细节在一定范围内不如规模重要，但架构创新仍然非常关键。比如：

Transformer；
MoE；
Mamba / State Space Model；
Hybrid architecture；
更高效 attention；
更好的 normalization；
更好的 residual / connection 设计。

这些技术的作用是：让同样的算力产生更好的性能。

5）后训练 Scaling

现在大模型不只是预训练，还需要：

SFT；
RLHF；
RLAIF；
DPO；
GRPO；
rejection sampling；
reward model；
process reward model。

这部分也有自己的 scaling 逻辑：更多高质量偏好数据、更强 reward model、更长 RL 训练，可能带来更好的对齐和推理能力。

但相比预训练，RL / post-training 的 scaling law 还没有像 Kaplan / Chinchilla 那样完全成熟。

6）推理 Scaling

这是近几年最重要的新方向之一。核心不是让模型本身更大，而是让模型在回答时投入更多计算。比如：

普通回答：直接输出答案。

推理扩展：生成多个思路 → 验证 → 反思 → 工具调用 → 搜索 → 再综合答案。

这对复杂任务特别重要，比如数学、代码、科研、策略分析、商业推演。

4.8.4 RLHF、SFT、DPO、PPO、GRPO、GDPO是什么？

先整体解释下这几个概念和之间的关系（都属于模型对齐/后训练语境）。

RLHF是基于人类反馈的强化学习（Reinforcement Learning from Human Feedback），是一套完整的训练流程，目的是让模型学会“偏好”人类喜欢的回答，而不仅仅是模仿。
SFT是监督微调（Supervised Fine-Tuning），是RLHF 的前置步骤，用人工标注的“输入-期望输出”数据对模型进行监督微调，得到一个基础对话模型。SFT让模型学会“模仿”人类提供的标准答案，是训练的第一步。
DPO、PPO、GRPO、GDPO是RLHF 流程中用来更新模型的具体优化算法，也可以作为独立的偏好对齐方法使用。

4.8.4.1 RLHF：基于人类反馈的强化学习

RLHF 全称 Reinforcement Learning from Human Feedback。基本流程：

模型对同一个问题生成多个答案。
人类标注哪个答案更好。
用偏好数据训练 Reward Model。
用强化学习让模型更倾向于输出高分答案。

RLHF 解决的是：

更符合人类偏好
更安全
更有帮助
更少冒犯
更会遵循指令

但 RLHF 也复杂：

需要训练奖励模型。
强化学习不稳定。
成本高。
可能 reward hacking。

标准 RLHF 通常分三步：

1）SFT：用人工标注的“输入-期望输出”数据对模型进行监督微调，得到一个基础对话模型。

2）训练奖励模型（Reward Model）：让人类对多个模型输出进行排序，训练一个打分模型。

3）用强化学习算法优化大模型：以奖励模型的分数作为信号，更新模型参数。

其中第三步的“强化学习算法”就可以是 PPO、DPO、GRPO、GDPO 等。

4.8.4.2 SFT：监督微调

SFT 全称 Supervised Fine-Tuning。

它是在预训练模型基础上，用高质量问答样本继续训练。例如：

用户问题标准回答帮我写一封商务邮件结构清楚、语气得体解释什么是 RAG 准确、通俗、有例子生成 SQL 可执行、符合表结构分析商品趋势有逻辑、有维度、有结论

SFT 的作用是让模型从“会续写”变成“会按指令回答”。

预训练是读书，而SFT 是老师拿标准答案教你：这个题应该这样答。

4.8.4.3 DPO：直接偏好优化

DPO 全称 Direct Preference Optimization。

它也使用偏好数据，但不显式训练奖励模型。

它直接告诉模型：

在同一个问题下，A 答案比 B 答案更好。

DPO 的优点：

比 RLHF 简化。
训练更稳定。
不需要单独 reward model。
工程实现相对容易。

RLHF 是先训练一个“评分老师”，再让学生按老师分数改。DPO 是直接告诉学生：这篇比那篇好，以后多学这篇。

4.8.4.4 PPO、GRPO、GDPO

PPO 是强化学习里的经典算法，全称 Proximal Policy Optimization。RLHF 中经常使用 PPO 来优化模型策略。

GRPO 全称 Group Relative Policy Optimization。它被 DeepSeekMath、DeepSeek-R1 等路线广泛讨论。

核心思想可以粗略理解为：

对一组生成结果进行相对比较，让模型学习这一组里哪些答案更好。

GRPO 的意义在于：

降低传统 PPO 中 reward model / value model 的部分复杂度。
适合数学、代码、推理这类可以比较答案质量的任务。
对 reasoning model 训练很重要。

其中，在这里也对比下DPO和GRPO，DPO是没有reward 模型，直接两个答案，A比B好；但GRPO引入群体标注，不是比较两个的好与坏，而是会给一个相对排名，A>B>C>D>E.

GDPO 全称 Group reward-Decoupled Normalization Policy Optimization，是面向多奖励场景改进 GRPO。

它解决的是 GRPO 在多奖励场景下的问题。比如训练一个模型时，不只看“答案对不对”，还同时看数学正确性、格式是否符合要求、长度是否合适、是否会调用工具、代码是否通过测试、是否安全等。

NVIDIA 的 GDPO 论文指出，直接把 GRPO 用到多奖励场景时，如果把不同 reward 混在一起做归一化，可能导致训练信号分辨率下降，甚至训练不稳定；GDPO 的方法是对不同 reward 维度做解耦归一化，以更好保留各个奖励之间的相对差异。

通俗理解：GRPO 像是只看总分；GDPO 像是把“正确性、格式、长度、工具调用”等科目分别看清楚，不让某一个维度把其他维度淹没。

4.8.5 模型蒸馏 Distillation

蒸馏是指：

用大模型的输出、推理过程或偏好，训练一个更小、更便宜的模型。

用途包括：

用途说明降低成本小模型推理便宜提高速度小模型响应快本地部署手机、电脑、边缘设备可运行垂直场景用大模型教客服、选品、代码小模型保留能力在特定任务上接近大模型表现

例如一个 100B 大模型可以生成大量高质量电商选品分析样本，再训练一个 7B 小模型专门做选品。

但不像网上各种自媒体说的，只要用模型A的输出作为模型B的输入，都叫蒸馏，这种说法太宽泛了。

“蒸馏”（Knowledge Distillation）是有明确的定义和特定条件的，不仅仅是“一个模型的输出作为另一个模型的输入”。

具体来说，需要同时满足以下几点才算蒸馏：

目的：
让学生模型（模型B）模仿教师模型（模型A）的行为或输出分布，从而获得比直接训练更好的泛化能力。
阶段：
发生在训练阶段，而不只是推理阶段。
迁移内容：
通常使用教师模型的软输出（如概率分布、logits、中间层特征），而不仅仅是硬标签（最终类别或生成文本）。

场景是否算蒸馏理由推理阶段：A输出文本 → B输入文本不算没有训练过程，没有知识迁移，只是级联调用训练阶段：A输出硬标签（如类别ID）→ B用该标签做分类训练不算这是普通的监督学习，A只提供标注，B没有模仿A的行为分布数据增强：A生成合成样本 → B用这些样本训练不算 A只是数据源，B没有学习A的“暗知识” 多模态：A提取图像特征 → B用该特征做分类不算这是特征提取器+分类器，B没有模仿A的完整输出

4.8.6 量化 Quantization

量化是大模型部署中非常重要、但也很容易被误解的概念。

最简单的定义是：

量化就是把模型里原本很精细的数字，用更粗略、更省空间的数字来表示，从而减少显存占用、降低推理成本、提升运行速度。

先理解一个背景：

大模型本质上是一堆参数。参数就是很多很多数字。

例如一个 70B 模型，大约有 700 亿个参数。每个参数都要存在显存或内存里。参数越多，模型越大，占用显存越多。

4.8.6.1 模型为什么会占很多显存？

假设一个模型有 70B 参数。

如果每个参数用 FP16 存储，也就是 16 bit = 2 byte。

那么仅参数本身大小大约是：

70B × 2 byte = 140GB

也就是说，一个 70B 模型如果用 FP16 权重，仅模型参数就大约需要 140GB 显存，还没有算 KV cache、运行时缓存、框架开销等。

这就是为什么大模型经常需要多张 GPU 才能跑起来。

4.8.6.2 FP32、FP16、INT8、INT4 是什么意思？

这些词表示数字的存储精度。

格式大概含义每个数字占用特点 FP32 32 位浮点数 4 byte 精度高，但占空间大、计算成本高 FP16 / BF16 16 位浮点数 2 byte 大模型训练和推理常用，精度和效率较平衡 FP8 8 位浮点数 1 byte 更省显存，适合新硬件优化 INT8 8 位整数 1 byte 推理常用，压缩明显 INT4 4 位整数 0.5 byte 极大压缩，但可能损失效果 INT2 / 更低更低位宽更小通常损失更明显，应用更受限

量化就是把原来 FP16 / FP32 这种“更精细的小数”，转换成 INT8 / INT4 这种“更粗略的数字”。

4.8.6.3 一个直观例子

假设模型中有一个参数：

0.

高精度保存时，它会尽量保留很多小数位。

量化后，可能变成类似：

0.73

或者进一步变成某个整数编号：

然后系统再通过比例系数把它映射回近似值。

所以量化不是随便砍掉数字，而是用一套映射规则，把大量连续小数压缩成有限个离散值。

4.8.6.4 为什么量化能省显存？

以 70B 模型为例：

精度每个参数占用 70B 参数大约占用 FP32 4 byte 280GB FP16 / BF16 2 byte 140GB INT8 1 byte 70GB INT4 0.5 byte 35GB

这就是为什么量化很重要。

一个原本需要多张高端 GPU 才能跑的模型，量化后可能可以：

用更少 GPU 跑。
在消费级显卡上跑。
在本地电脑上跑。
在手机、边缘设备上跑小模型。
降低云端推理成本。

4.8.6.5 量化为什么可能影响效果？

因为量化本质上是一种近似。

原本模型参数很精细，现在变粗了。

大多数情况下，适度量化影响不大；但在一些复杂推理、长上下文、多轮Agent任务场景里，损失会明显，特别是需要高精度判断的专业任务。

一个模型原来区分两个候选答案的差异很细微，量化后数字变粗，可能判断就不稳定了。

4.8.6.6 量化分几类？

常见分法：

类型说明适合场景 PTQ Post-Training Quantization，训练后量化；模型训练完再压缩最常见，成本低 QAT Quantization-Aware Training，量化感知训练；训练时就考虑量化误差效果更稳，但训练成本高 Weight-only Quantization 只量化权重参数 LLM 推理常用 Activation Quantization 激活值也量化更省资源，但难度更高 KV Cache Quantization 推理缓存也量化长上下文推理省显存

4.8.6.7 量化和压缩图片类比

原图可能是 20MB，很清晰。

压缩后变成 2MB，大多数时候看起来差不多。

但如果你放大看细节，可能会发现边缘模糊、颜色断层。

模型量化也是类似：

压缩轻一点：基本看不出损失。
压缩太狠：回答质量、推理能力、代码能力可能下降。

4.8.6.8 企业应该怎么看量化？

量化不是越低越好，而是要在三者之间平衡：

成本 ↓ 速度 ↑ 质量 ↓或稳定性风险 ↑

不同场景选择不同策略：

场景建议普通客服、摘要、分类 INT8 / INT4 可能足够简单内部工具可以尝试 INT4，重点看稳定性代码生成不宜过度量化，需要严格测试数学推理量化可能影响更明显，要谨慎金融、法律、医疗优先质量和可验证性，不要只追求低成本本地部署量化几乎是刚需

4.8.7 Thinking Time Scaling / Test-Time Compute

传统模型主要靠训练阶段变强。

推理模型开始强调：

回答问题时，多花一些计算，多想一会儿，再给最终答案。

这叫 test-time compute scaling，也可以理解为 thinking time scaling。常见方式：

方法说明 Chain-of-Thought 分步骤推理 Self-Consistency 多条思路投票 Tree Search 搜索多条解题路径 Verifier 用验证器判断答案 Tool Use 调用计算器、代码、检索工具 Long Thinking 难题分配更多思考 token

它的特点是：

难题效果提升。
推理成本增加。
延迟变高。
更适合数学、代码、复杂规划。

Thinking time scaling跟预训练pre-training scaling不一样。

假设有两个学生参加同一场考试。

Pre-training scaling的预训练同学在备考阶段投入巨资，请最好的老师，上最长的课程，刷最多的题，在上考场前就变得渊博，对应到AI就是增加训练时的投入，例如砸更多的钱、用更多的数据和算力，训练一个更大的模型，eg 从GPT3到GPT4，模型一旦训练完成，能力就固定了回答问题速度很快。

而Thinking time scaling的思维同学在上述考试类比中，则是在考试本身投入时间，例如允许在考场花更多时间审题、打草稿、反复推演，用更深的思考弥补知识储备的不足，对应到AI就是增加推理时的投入，不改变模型本身，但在让它处理每个问题时，允许它多想一会，比如让它分步骤推理（思维链CoT，Chain of Thought）、自我辩论、生成多个答案选最好的，这会显著增加每个回答的成本和时间。但最终得分差不多。

MoE 全称 Mixture of Experts，专家混合模型。

普通模型是所有参数都参与计算。但前面我们有聊到很多模型参数，都是按照多少B（十亿）量级来衡量，每个问题都调用所有参数来计算，过于庞大。

MoE 模型有很多专家，但每个 token 只激活其中一部分专家。例如：

数学问题，激活数学专家
代码问题，激活代码专家
翻译问题，激活语言专家
电商问题，激活商业/商品专家

MoE 的好处：

总参数可以很大。
每次计算只用一部分参数。
训练和推理成本相对可控。
有利于扩展模型能力。

MoE 的难点：

路由器怎么判断该找哪个专家。
专家负载是否均衡。
通信开销是否过大。
训练是否稳定。
推理部署是否复杂。

MoE 模型参数量级大，但激活很少，这样计算成本少，效率高，而且被验证真的有效。

如果要讲到技术一些，那就是Attention层不变，但全链接层会拆分多个专家，且会有路由层自动负责去找哪些专家。

通俗来讲，普通模型像一个全科医生。MoE 像一家大医院。问题来了，不是所有医生一起看，而是分诊台把病人送到相关科室。

多模态是指模型不只处理文本，还能处理图片、音频、视频、传感器数据、3D / 空间数据等。

多模态模型的关键难点是“对齐”。

一张猫的图片、一句“这是一只猫”、猫叫的声音，在人类看来是同一个对象的不同表达。模型要学会把不同模态放到同一个语义空间里。

4.10.1 多模态也是 LLM 吗？

严格来说，LLM 指 Large Language Model，也就是以语言为核心的大模型。

多模态模型不一定都叫 LLM，更准确的说法包括：

叫法含义 LLM 主要处理语言文本的大语言模型 VLM Vision-Language Model，视觉-语言模型，处理图像和文本 MLLM Multimodal Large Language Model，多模态大语言模型 Omni Model 更强调文本、图像、音频、视频等统一处理的全模态模型

如果一个模型以 LLM 作为核心，再接入视觉编码器、音频编码器、视频理解模块，并且仍然通过语言进行理解和生成，我们通常可以称它为 多模态大语言模型MLLM。

但如果一个模型主要用于图像生成、语音识别、视频生成，它未必适合直接叫 LLM。

所以更准确的表达是：

多模态不是 LLM 的同义词，而是大模型能力从语言扩展到图像、音频、视频等模态后的更大范畴。很多现代多模态模型是以 LLM 为核心扩展出来的。

场景多模态能力电商商品图分析看图识别风格、卖点、缺陷视频理解总结短视频内容、提取镜头信息医疗影像看 X 光、CT、病理图像教育看题目图片并解题工业质检看产品缺陷机器人看环境、听指令、执行动作

长上下文指模型一次能处理更多 token，如8K token、32K token、128K token、1M token。

长上下文的价值很多，读长文档、分析代码仓库、处理合同、多轮对话不丢信息、Agent 长任务执行、企业知识库问答等。

但长上下文也带来成本，显存占用增加、注意力计算复杂、推理变慢、需要更好的位置编码和记忆机制。

KV Cache 是推理时缓存过去 token 的 Key 和 Value。它的作用是：

不用每生成一个 token 都重新计算前面所有内容。

RWKV 是一种尝试结合 RNN 和 Transformer 优点的架构，层级上跟前面讨论的Transformer架构平级，是两种不同的架构。

它的全称是 Receptance Weighted Key Value，名字来源于其模型架构中的四个核心元素。

它的目标是：

像 Transformer 一样并行训练。
像 RNN 一样高效推理。
减少 attention 在长序列上的成本。

Transformer 的问题是长上下文成本高。

RWKV 试图通过 RNN 式状态传递，让推理时不需要每次都看完整上下文。

SSM 是 State Space Model，状态空间模型。

Mamba 是其中代表路线之一。

它试图解决 Transformer 在长序列上的成本问题。

Transformer 的 attention 在长文本上成本较高，而 Mamba 这类模型追求更接近线性复杂度的序列建模。适合关注长文本、音频、基因序列、时间序列、长视频、低延迟推理。

LLM 主要从语言中学习世界。

但人类智能不只是语言。

人还知道杯子推到桌边会掉下去，也知道球往上抛会落下来，车太快转弯会失控，人走路要避开障碍物。

世界模型试图让 AI 学会：

真实世界如何变化，以及自己的动作会造成什么后果。

世界模型特别重要的场景，如机器人、自动驾驶、工业控制、游戏智能体、物理仿真等。

4.14.1世界模型和 LLM 的区别

维度 LLM 世界模型主要学习对象语言、代码、文本中的知识物理世界、状态变化、因果关系、行动后果常见训练信号 token 预测状态预测、表示预测、未来变化预测擅长语言表达、知识组织、代码、文本推理空间、物理、动作、规划、环境变化典型应用聊天、写作、编程、知识问答机器人、自动驾驶、仿真、规划

当然，未来 LLM 和世界模型可能会融合。

因为一个更强的通用智能系统，可能既需要语言能力，也需要对物理世界和行动后果的理解。

4.14.2 JEPA 是什么？

JEPA 全称 Joint Embedding Predictive Architecture，联合嵌入预测架构。

它是 Yann LeCun（杨立昆）长期倡导的一类路线。

需要注意的是，“世界模型”本身是一个开放且正在发展的研究领域，存在多种不同的技术路线。JEPA路线（专注于抽象表征预测）只是其中之一。其他主流路线还包括：

生成式世界模型：以视频或多模态生成的方式模拟世界，常用于生成合成数据和策略训练。
空间世界模型：强调对三维空间的几何结构和持久场景进行显式建模和交互，以李飞飞创办的World Labs为代表。

4.15.1 模型评测回答什么问题

模型评测回答的是：

怎么判断一个模型强不强？Benchmark 分数意味着什么？为什么不能迷信排行榜？

Benchmark 就是模型考试。

但考试分数不能完全代表真实工作能力。

4.15.2 常见 Benchmark

Benchmark 可以按能力类型拆分，而不是混在一起看。不同 benchmark 的来源、题型和适用场景不同，不能简单把所有分数横向比较。这类Benchmark非常多，各个不同组织和机构推出的标准也不一样，跟手机跑分类似，知道是用来评估模型能力的就行。

Benchmark 来源/机构主要评估能力详细解释 MMLU Dan Hendrycks 等；UC Berkeley、Columbia、UChicago、UIUC 等学术团队多学科知识与基础问题解决覆盖 57 个学科，包括数学、美国历史、计算机科学、法律等。题型多为选择题，适合看模型是否有广泛世界知识和基础推理能力，但现在对前沿模型已有一定饱和。 GPQA New York University、Cohere、Anthropic 等研究生级科学问答由生物、物理、化学领域专家编写的高难度选择题，设计目标是“Google-proof”，即即使能搜索也不容易答对，适合评估科学专业知识和复杂推理。 SWE-bench Princeton NLP / SWE-bench 团队真实软件工程修复来自真实 GitHub issue。模型需要读代码库、理解 bug 或需求，并生成 patch。比普通代码生成更接近真实工程任务，是评估 coding agent 的重要 benchmark。

4.15.3 怎么读这些 Benchmark？

可以按用途分：

你想看什么能力优先看哪些 benchmark 通识知识 MMLU、MMLU-Pro 科学高难题 GPQA 数学文字题 GSM8K 高难数学 MATH 基础代码生成 HumanEval、MBPP 真实代码修复 SWE-bench 抗污染代码能力 LiveCodeBench 图文多模态推理 MMMU 综合透明评测 HELM 用户主观体验 Chatbot Arena

不要用一个 benchmark 判断模型强弱。

例如：

一个模型 HumanEval 高，不代表能修真实项目 bug。
一个模型 MMLU 高，不代表 Agent 任务稳定。
一个模型 Arena 排名高，不代表你的企业场景最好用。
一个模型 MMMU 高，不代表能稳定做电商商品图分析。

企业真正要做的是：

通用 benchmark 只做初筛，最终必须建立自己的业务 eval。

4.15.4 Benchmark 的问题

Benchmark 有价值，但有几个常见问题：

第一，数据污染

模型训练数据里可能包含测试题。这就像学生提前见过考卷。

第二，刷榜

模型可能被专门优化某个榜单。榜单高，不代表真实业务好用。

第三，任务失真

真实工作往往不是单轮选择题，而是多轮沟通、读文件、调工具、做取舍、处理异常、接受反馈、长期执行等，很多 benchmark 测不到这些。

第四，产品体验不等于模型裸分

一个 AI 产品好不好用，还取决于：prompt 设计、RAG、工具调用、UI、延迟成本、稳定性、权限设计、安全策略、工作流集成等等。

可以把 AI 模型的开源/闭源理解成一句话：

开源不是“能不能免费用”，而是“你能不能拿到模型的关键资产，并且被法律允许使用、研究、修改、再发布”。

更准确地说，AI 模型不是像传统软件那样只有“源代码”。它至少有代码、结构、权重、数据、训练流程、许可证这几层，所以 AI 的“开源”其实是一个光谱。

4.16.1. 先建立一个核心判断：开源不是二分法，而是开放程度

可以分成 5 档：

类型 你能拿到什么 典型理解 完全闭源 / API-only 只能通过 API 或网页调用你用的是服务，不拥有模型开放接口 API、插件、函数调用、微调接口可集成，但看不到核心模型开放权重 / Open-weight 模型权重可下载，本地可部署能运行和微调，但不一定是真开源宽松开源权重权重 + 推理代码 + 宽松许可证可商用、可改造，接近开发者意义上的开源严格意义开源 AI 权重、代码、训练/数据信息、修改与分发自由更接近 OSI 所定义的 Open Source AI

Open Source Initiative 在 Open Source AI Definition 1.0 里把 AI 系统的开放重点放在：能够使用、研究、修改、分享，并且 AI 模型由架构、参数/权重、推理代码等部分组成。它还特别区分了 “Open Source models” 和 “Open Source weights”，因为只开放权重并不等于完整开源。

4.16.2. AI 模型“开源”具体开放的是什么？

最核心不是“开放模型名字”，而是开放下面这些东西。

4.16.2.1第一层：模型权重，也就是 weights

这是大家最常说的“开源模型”里的关键资产。

权重是什么？

可以理解为模型训练后学到的一大堆数字参数。模型会不会写代码、懂不懂中文、推理强不强，很大程度上都凝结在这些权重里。

如果开放权重，你通常可以：运行模型、本地部署模型、做微调、量化压缩、蒸馏、改成企业内部版本。

但注意：开放权重 ≠ 完全开源。因为你虽然拿到了“训练后的成品”，但不一定知道它是怎么训练出来的、用了什么数据、能不能自由商用。

4.16.2.2第二层：模型结构，也就是 architecture

比如：Transformer 结构、层数、hidden size、attention 形式、MoE 专家数量、上下文长度、tokenizer 设计等。

4.16.2.3第三层：推理代码，也就是 inference code

这是让模型真正跑起来的代码。比如：

如何加载权重、如何分词、如何生成 token、如何做 KV Cache、如何支持 batch inference、如何支持 GPU 推理。

很多所谓“开源模型”至少会开放这一层，因为否则开发者很难使用。

4.16.2.4第四层：训练代码，也就是 training code

这一层更关键，但很多模型不会开放。它包括：

预训练代码、SFT 代码、RLHF/DPO 代码、优化器设置、学习率策略、数据混合比例、训练超参数、checkpoint 处理方式等。

如果没有训练代码，开发者可以使用模型，但很难复现模型。所以从研究角度看：

4.16.2.5第五层：训练数据或数据说明

这是 AI 开源里争议最大的部分。

所以训练数据非常关键。

但现实中，很多公司不会开放完整训练数据，原因包括版权、安全、隐私、商业竞争。OSI 的定义更强调需要提供足够的数据相关信息，使别人能够理解训练数据如何构成、如何处理，而不是只给一个模糊说法。

4.16.2.6第六层：评测、安全与对齐资料

比如：模型卡、训练报告、benchmark、红队测试、安全策略、已知限制、适用场景、不适用场景。

这一层不一定决定“是否开源”，但决定你能不能负责任地使用模型。

尤其企业部署时，这些信息非常重要。

4.16.2.7第七层：许可证，也就是 license

这是最容易被忽略、但商业上最关键的一层。

你要看许可证允许什么：

是否允许商用？
是否允许微调？
是否允许再分发？
是否允许把它做成 SaaS？
是否有用户规模限制？
是否要求署名？
是否有特定行业限制？
是否要求衍生模型也开放？

4.16.3. 最重要的区分：Open-source vs Open-weight

这两个词一定要分清。

4.16.3.1 Open-weight：开放权重

意思是模型参数可以下载，你可以本地运行，通常也可以微调。

但它可能没有开放：完整训练数据、完整训练代码、完整数据处理流程、无条件商用权利。

所以很多行业里说的“开源大模型”，严格说其实是开放权重大模型。

4.16.3.2 Open-source AI：严格意义的开源 AI

更高标准是：不仅能拿到权重，还要有足够的信息和权限，让你能够使用、研究、修改、分享，最好还包括训练和运行系统所需的完整代码、数据说明、参数等。OSI 的定义正是在尝试给“AI 开源”建立更严格的边界，避免把只是开放权重的模型都包装成“开源”。

4.16.4. 闭源模型到底闭的是什么？

闭源模型通常关闭这些东西：

模型权重不开放。
训练数据不开放。
训练代码不开放。
模型结构细节不完整公开。
对齐方法不完整公开。
推理系统不开放。
只能通过 API、网页或企业服务访问。

例如你使用一个闭源模型时，本质上是在调用一个云端能力：

所以闭源模型开放的通常是：API、上下文窗口、函数调用能力、微调接口、RAG 接口、控制台、企业权限、日志管理、计费系统、SLA。

它开放的是产品能力，不是模型资产。

4.16.5. 可以用一个“模型开放度金字塔”来理解

从浅到深：

第 1 层：开放使用，你可以在网页或 API 上用。

第 2 层：开放接口，你可以把它接进自己的产品。

第 3 层：开放权重，你可以下载、部署、微调。

第 4 层：开放代码，你能理解它如何训练、如何推理。

第 5 层：开放数据信息，你能理解模型知识来源、偏差来源、风险来源。

第 6 层：开放许可证权利，你被法律允许自由使用、修改、商用、再分发。

真正判断一个模型开放不开放，要看它到了第几层。

应用层回答的是：

怎么把模型能力变成真实产品、真实工作流和真实商业价值？

模型只是大脑。

应用层要给大脑配上了工具、数据、权限、记忆、工作流、UI、执行环境、反馈机制。

形态特点例子 Chatbot 主要回答问题普通聊天机器人 Copilot 人主导，AI 辅助 GitHub Copilot、Cursor Agent AI 可规划、调用工具、执行任务 Codex、Claude Code Multi-Agent 多个 Agent 分工研究 Agent、代码 Agent、测试 Agent Workflow Agent 嵌入业务流程自动选品、自动投放、自动客服

Chatbot 是“会说”，Copilot 是“帮你做”，Agent 是“能自己推进任务”。

Agent 可以简单定义为：

Agent = Model + Harness

但这里的 Harness 不是一个狭义外壳，而是包含工具、记忆、执行环境、任务循环、权限控制、日志审计等能力的 Agent 运行时框架。

更完整地展开是：

Agent = Model + Harness

Harness = Agent Loop + Tools + Memory + Execution Environment + Policy / Permissions + Observability

一个典型 Agent loop：

理解目标 → 制定计划 → 选择工具 → 执行动作 → 观察结果 → 反思修正 → 继续执行 → 输出结果

Agent 不只是生成文字。

它可以：搜索网页、读取文件、写代码、修改表格、调用 API、运行命令、创建日程、发邮件草稿、分析数据库、自动执行测试。Agent就像是给模型大脑赋予了手，能帮我们做很多事情。

这些概念很容易混。

LLM 本身只是“会推理和生成”的大脑；Tool / Function Calling / MCP / Plugin / Skill / Harness，都是为了让这个大脑能接入外部知识、外部系统和可执行流程。

但它们不在同一层级。

Tool 是能力；Function Calling 是调用动作；MCP 是连接协议；Plugin / Action 是产品化集成形态；Skill 是任务方法包；Harness 是运行时外壳；Agent 是最终应用。

随着AI Agent（智能体）技术的发展，不同公司和框架（OpenAI、Anthropic、LangChain、AutoGPT等）对类似功能起了不同的名字，造成了概念的交叉。

要理解它们，关键在于区分能力类型、调用方式、协议标准和执行环境。可以按照如下四层框架去理解：

可以把AI Agent调用外部世界的能力想象成“厨师做菜”：

能力层（有什么原料？）：具备某种功能的单元 → Tool（工具）
调用层（怎么按菜单点菜？）：让模型声明需要哪个功能 → Function Calling（函数调用）
集成层（厨房怎么连接不同供应商？）：标准化工具与客户端的连接协议 → Plugin（插件）、MCP（模型上下文协议）
编排层（整个烹饪流程如何管理？）：封装好的任务流程或执行环境 → Skill（技能）、Harness（框架/ harness）

1）能力层：最原子的单元-Tool（工具）

本质是一个可以被调用的函数、API或脚本。它有明确的输入、输出和功能边界。
例子：get_weather(城市)、search_web(关键词)、send_email(收件人, 内容)。
属于基础能力单元，是所有上层概念最终都要封装和执行的东西。

2）调用层：模型如何请求使用工具-Function Calling（函数调用）

本质是一种技术机制。大语言模型在生成回复时，不是直接输出文本，而是输出一个结构化的JSON，声明“我需要调用某个函数，参数是什么”。
关键：模型本身不执行函数，只是输出调用请求。由外部系统（你的代码）去执行。
属于模型与外部世界的交互协议。它是让Tool能够被LLM“理解”和“请求”的接口标准。OpenAI、Anthropic、Google都有各自实现的类似功能，常统称为Function Calling或Tool Use。

3）集成层：如何标准化连接和管理工具-Plugin（插件）

本质是一种集成方式。通常指将第三方服务（Tool）打包成符合特定平台（如ChatGPT）规则的一个安装包。用户安装后，模型就能自动调用。
与Tool的关系：Plugin是Tool的包装和分发形式。一个Plugin内部可以包含一个或多个Tool。
特点是由平台主导（ChatGPT Plugin生态），侧重于方便用户安装和使用。
属于平台特定的集成分发单元。

4）集成层：如何标准化连接和管理工具-MCP (Model Context Protocol，模型上下文协议)

本质是一个开放标准协议。由Anthropic提出，旨在解决“多个LLM客户端如何统一连接多个工具/数据源服务器”的问题。
关键：它定义了MCP Client（如Claude Desktop、IDE插件）和MCP Server（提供Tool或数据的独立进程）之间的通信规范。有点像USB-C接口，任何电脑（客户端）都能插任何U盘（服务器）。
与Plugin的区别：Plugin是中心化、平台绑定的（每个平台一套规则）。MCP是去中心化、标准通用的（一个服务器可服务任何MCP客户端）。
属于工具/数据源的通用连接协议，属于集成层的底层标准。

5）编排层：如何组合与管理执行-Skill（技能）

本质是一个高级封装。它通常不是单一函数调用，而是针对特定任务（如“写一篇博客”、“分析财报”）的多步工作流，可能包含多个Tool的调用顺序、特定的Prompt（提示词）模板、甚至代码逻辑。
与Tool的关系：Tool是原子操作，Skill是微操作或宏。一个Skill可以调用多个Tool。
属于任务导向的自动化单元，在编排层，面向最终用户任务。

6）编排层：如何组合与管理执行-Harness

这个词不太统一，但在AI Agent工程中，常指执行环境、测试框架或编排内核。
分类归属：运行与管理的底层框架/沙盒。它不像Tool或Skill那样直接面向功能，而是提供运行这些功能的骨架、安全约束和生命周期管理。

术语 核心本质 层级比喻 (以餐厅为例) 是否可选/替代 Tool 原子功能实现能力层具体的厨具（烤箱、炉灶、冰箱）必须有，否则无能力 Function Calling 模型请求调用工具的方式调用层服务员在点菜单上写“使用烤箱，200度” 必须有，否则模型不知道要什么 Plugin 平台特定的打包和分发形式集成层 (平台侧) 餐厅的“会员卡系统”（只能在自家用）可选，是商业化/生态化的产物 MCP 通用的工具连接协议集成层 (标准侧) 通用的“电源插座标准”（各家设备通用）可选，是解决互操作性问题的 Skill 多步骤的任务流程封装编排层 (任务级) “制作一份套餐”（包含烤牛排、煮意面、做沙拉）可选，用于简化复杂任务 Harness 执行环境/测试/循环管理框架编排层 (系统级) 厨房的管理系统（排烟、电力、调度、质检）必须，但通常框架自带

放到整体流程中：

举个例子，你问AI：“帮我查一下明天北京天气，如果下雨就发邮件提醒我。”

Harness (比如LangChain的AgentExecutor) 开始运行，管理整个循环。
LLM 通过 Function Calling 输出： }
Harness 接收这个调用请求，去执行对应的 Tool (get_weather 函数)。
get_weather 返回“明天北京有雨”。
LLM 再次输出调用：{ “tool”: “send_email”, “params”: {“to”: “”, “body”: “明天下雨，记得带伞”}}
Harness 执行 send_email Tool。
如果“发送邮件”这个动作不是单个Tool，而是一个包含了“生成标题、选择收件人、调用邮件API”的标准化流程，那它可能被打包成一个 Skill。
如果 get_weather 和 send_email 是通过 MCP 协议连接的通用服务器，或者是以 Plugin 形式安装在ChatGPT里的，那只是接入方式不同，不影响上述逻辑。

5.4.1 Function Calling / Tool Calling 是什么？

Function Calling，也常被称为 Tool Calling。

它的核心作用是：

让模型不要只用自然语言回答，而是能用结构化格式告诉系统：我想调用哪个函数、需要传什么参数。

它是从“模型会说话”走向“模型会做事”的关键机制之一。

5.4.1.1为什么需要 Function Calling？

普通 LLM 直接回答问题时，容易遇到几个问题：

问题例子不知道实时信息今天深圳天气怎么样？不擅长精确计算 379 × 86 等于多少？不能访问私有系统帮我查一下 ERP 里的库存不能执行动作帮我发一封邮件、创建一个日程输出不稳定有时输出文字，有时输出表格，有时格式乱

Function Calling 的思路是：

模型负责判断“该调用什么工具”；程序负责真正执行工具；工具执行完以后，再把结果交回模型组织成答案。

5.4.1.2 Function Calling 的基本流程

用户提出问题，然后模型判断是否需要工具，接着模型生成结构化工具调用请求，由应用程序执行对应函数 / API，之后函数返回结果，模型再基于结果生成最终回答。

例如用户问：

帮我查一下今天深圳天气，然后判断适不适合户外拍摄。

模型不应该凭空编天气，而应该生成类似这样的工具调用请求：

}

应用程序接收到这个请求后，真正去调用天气 API。拿到结果后，再交给模型总结。

5.4.1.3关键点：模型通常不是自己执行函数

很多初学者会误以为：模型真的在自己执行代码。

更准确地说：

模型通常只是生成“调用意图”和“参数”；真正执行函数的是外部应用程序、服务器、沙盒环境或工具运行时。

模型说：我要调用 get_weather(city=“深圳”)。
应用程序看到这个请求。
应用程序调用真实天气 API。
天气 API 返回数据。
应用程序把数据交回模型。
模型再生成自然语言答案。

5.4.2 Skill 是什么？“式神”怎么理解？

Skill 可以理解为一个可复用的专项能力包，本质上我觉得是升级的结构化的带有行为指引和部分Asset的prompt。

它通常包括：操作说明+流程步骤+示例+脚本+模板+参考文件+输出格式要求。

你可以把 Skill 比喻为“式神”或“技能卡”。

主 Agent 遇到特定任务时，调用对应 Skill。

但要注意：

Skill 本身通常不是完整独立智能体，而是一组可加载的操作能力和知识。

而且个人觉得，skill很强大的两点特征是：

大语言模型LLM本身是非常发散的，当有一些任务是需要follow某些既定成熟流程或者SOP，用Skill来约束LLM的行为就非常重要。
Token很贵，skill的特性是渐进式披露，按需加载，能在一定程度上节省很多token。
-Level1元数据-: SKILL.md 文件开头的 name 和 description，消耗token是极小的（~100 tokens），启动时，对所有可用 Skill 加载。

-Level2核心指令-：SKILL.md 文件的正文（Markdown 部分），消耗token是中等的（~几百到几千 tokens），但只有当 LLM 根据元数据判断“这个 Skill 可能有用”时才加载。

-Level3详细资源-：scripts/， references/， assets/ 等目录中的文件，消耗token是很大的（可达几十万 tokens）。这部分内容不会主动加载，仅在 LLM 执行 Level 2 指令时，根据具体需求按需调用。

5.4.3 Harness 是什么？

Harness 属于应用层下面的 Agent 工程层 / 运行时层。它不是模型层，也不是底层数据中心基建层，而是把模型组织成可执行 Agent 的工程框架。

也就是说，应用层可以再拆成三层：

用户应用层：ChatGPT、Cursor、Claude Code、Codex、企业客服 Agent

Agent 工程层：Harness、Tool Router、Memory、Skill、MCP、权限、安全、日志

基础服务层：模型 API、向量数据库、搜索、文件系统、浏览器、代码沙箱

Harness 位于中间的 Agent工程层。

它不是用户直接感知的产品界面，但决定了 Agent 能不能稳定工作。

5.4.3.1 Harness 的定义

Harness 可以理解为：

包住模型的执行框架，负责让模型安全、稳定、可控地使用工具、读写上下文、执行动作、记录过程并处理异常。

它负责管理上下文、工具、权限、记忆、文件系统、沙盒环境、多轮任务、错误重试、日志和审计、成本和限流、人类确认节点等。可以用公式理解：

Agent = Model + Harness

Harness = Agent Loop + Tools + Memory + Execution Environment + Policy / Permissions + Observability

模型负责思考和生成。Harness 负责把工具、记忆、执行环境、权限、安全、日志、错误重试等能力组织起来，让模型安全、稳定、可控地执行任务。

5.4.4 MCP 是什么？

MCP 全称 Model Context Protocol。

它的目标是让 AI 应用更标准地连接外部工具和数据源。

传统方式下：

每个模型要单独接每个工具。
每个工具要单独适配每个模型。
集成成本很高。

MCP 希望变成统一标准。常见对象包括：

对象作用 Resources 提供上下文数据，例如文件、数据库 schema Prompts 提供可复用提示词模板 Tools 提供模型可调用函数 Client AI 应用内的 MCP 客户端 Server 外部工具或数据源的 MCP 服务端

为了更好理解这三者是啥意思，可以打开Codex的官网，能看到非常形象的理解。

用户可以选择安装CLI，是指在命令行界面中安装codex，后续的应用也是在命令行界面中进行，例如mac的terminal 命令行终端。
也可以选择安装codex的桌面版官方应用。
还可以用IDE扩展程序来配置和使用Codex（如Visual Studio Code、Cursor、Xcode等）。

所以AI Agent 工具常见三种使用形态：

5.5.1 CLI（Command-Line Interface，命令行界面）

例如：

Codex CLI
Claude Code CLI
Gemini CLI

特点是在终端运行，适合工程师。

5.5.2 客户端

例如：

ChatGPT 桌面端 / Web
Claude Desktop
Codex App

特点是更适合普通用户，UI 页更加友好。

5.5.3 IDE 插件（Integrated Development Environment，集成开发环境）

例如：

Cursor
VS Code 插件
JetBrains 插件
Xcode 集成

特点是直接嵌入开发环境，适合代码补全、重构、调试、文件修改，对人类开发者来说也更容易审查 diff。

工具更像什么特点 Claude Code 终端/IDE 中的 agentic coding tool 强调读代码库、改文件、运行命令、长任务 Codex OpenAI 的 coding agent 可在 CLI、IDE、Web、App 等形态中工作 Cursor AI 原生 IDE 更强调编辑器内协作、代码补全、上下文问答 GitHub Copilot IDE 内编码助手代码补全、问答、代码建议、工作流集成

不要简单问“谁更强”。

更应该看：

你是在终端工作还是 IDE 工作？
任务是补全代码，还是跨文件改造？
是否需要运行测试？
是否需要连接 GitHub？
是否需要团队协作？
是否需要权限控制？
是否需要长任务执行？

Vibe Coding 氛围编程，是一种新的开发方式。它的核心是：

人用自然语言描述目标，AI 负责生成、修改、运行、调试代码，人负责方向、判断和验收。

传统开发：人写每一行代码，而Vibe Coding：人描述目标 → AI 生成方案 → AI 写代码 → AI 跑测试 → 人审查和调整方向。

5.7.1 Vibe Coding 的风险

架构可能变乱。
代码质量不稳定。
安全漏洞难发现。
依赖版本可能错误。
AI 可能误删文件。
需求不清会导致反复返工。

Vibe Coding是Karpathy在2025年2月提出，在2026年2月Karpathy又提出了升级版的概念Agentic Engineering。

Agentic Engineering 并非简单地改名，它在核心理念上几乎是 Vibe Coding 的颠覆：

核心模式：Vibe Coding 侧重于通过自然语言提示引导 AI 编写代码；Agentic Engineering 则是由人类定义目标和把关，AI Agent 主导规划、执行与测试。
AI使用方式：Vibe Coding 通常使用单个 AI 模型，依赖单次交互；Agentic Engineering 则是人类编排、协调多个 AI Agent 分工协作。
人类角色：Vibe Coding 中人类是直接编写提示词的“提问者”；Agentic Engineering 中人类是定义目标和约束的 “架构师”和监督者，大部分时间不直接写代码。
项目类型：Vibe Coding 更适合实验性、一次性或原型项目；Agentic Engineering 适用于需要长期维护与迭代的专业、企业级项目。

这两个是 2026 年 Agent 圈里非常火的社区称呼。

名称更正式的名字本质一句话理解小龙虾 Agent OpenClaw 开源个人 AI 助理 / Agent 框架更像一个可运行在你设备和渠道里的个人 AI 助手系统爱马仕 Agent Hermes Agent Nous Research 推出的开源自主 Agent 更强调长期记忆、自我学习、自动生成 Skill，越用越懂你

注意：

这两个都不是单纯的 LLM 模型，而是 Agent 应用 / Agent 工程框架。

它们通常会调用外部 LLM 作为大脑，再通过工具、记忆、技能和运行时环境完成任务。

5.8.1 小龙虾 Agent：OpenClaw

OpenClaw 被社区称为“小龙虾”，主要来自 Claw 这个词带来的龙虾/钳子意象。

OpenClaw 的定位是：

一个你可以运行在自己设备上的开源个人 AI 助理。

它的关键特征包括：

可以作为个人 AI assistant 使用。
支持不同操作系统和平台。
可以接入你常用的聊天渠道或设备。
通过 Gateway / 控制平面连接模型、工具和交互入口。
强调“assistant”而不是单纯“chatbot”。
社区里衍生出很多教程、模板、SOUL.md、人设和技能玩法。

它和普通聊天机器人的区别是：普通 Chatbot 主要回答问题。

OpenClaw 这类 Agent 更强调：

能接管一些工具。
能执行动作。
能跨应用工作。
能长期在线。
能形成个人助理式体验。

5.8.2 SOUL.md 是什么？

在 OpenClaw 相关社区中，常见一个说法叫 SOUL.md。

可以把它理解为：

Agent 的人格、行为风格、身份设定和长期原则文件。

它类似于一个固定加载的系统提示词。

例如 SOUL.md 可能定义：

你是谁。
你如何称呼用户。
你说话风格如何。
你做事原则是什么。
你在不确定时怎么处理。
你如何记住和协助用户。

这也是为什么社区会说某些小龙虾“有灵魂”。

5.8.3 爱马仕 Hermes Agent

Hermes Agent 是 Nous Research 推出的开源 Agent 项目。

它的 slogan 是类似：

The agent that grows with you. 也就是“与你一起成长的 Agent”。

Hermes Agent 的核心特点不是单纯会调用工具，而是强调：

持久记忆
自我学习
自动生成 Skill
从过往任务中沉淀经验
能跨会话检索过去对话
可以长期运行在服务器上
不一定绑定某个 IDE 或本地电脑

5.8.3.1 Hermes Agent 的关键机制

机制说明 Persistent Memory 持久记忆，不是一次会话结束就忘掉 Skill Creation 从完成过的任务中自动总结操作步骤，生成可复用 Skill Skill Improvement 后续执行中如果发现更好路径，会改进已有 Skill Conversation Search 能搜索过去的对话和任务记录 User Model 逐渐形成对用户偏好、项目和工作方式的理解 Always-on Deployment 可以运行在 VPS、服务器或云环境中，而不是只在本地打开一次

Hermes Agent 的重要点在于：

它把 Agent 从“每次重新开始的工具调用器”，推进到“会积累经验的长期个人系统”。

5.8.4 Hermes Agent 和 OpenClaw 的区别

维度 OpenClaw / 小龙虾 Hermes Agent / 爱马仕核心定位个人 AI 助理，多渠道、多平台使用自我成长型 Agent，强调长期记忆和自学习运行形态更偏个人设备、Gateway、渠道连接更偏服务器常驻、长期运行记忆机制可通过配置和社区玩法实现个性化记忆记忆是核心卖点之一 Skill 社区 Skill / SOUL.md / 手动配置较多强调自动从经验生成和改进 Skill 用户体验像一个能动手的个人助理像一个越用越懂你的长期数字伙伴风险权限配置、误操作、数据泄露长期记忆、安全边界、自动学习质量控制

5.8.5 它们和 Claude Code / Codex / Cursor 有什么关系？

它们都属于 Agent 生态，但侧重点不同。

工具重点 Cursor IDE 内 AI 编程协作 Claude Code 终端 / 代码库 Agent Codex OpenAI 的 coding agent，可跨 CLI、IDE、云端等形态 OpenClaw 个人 AI 助理框架，强调个人渠道和设备 Hermes Agent 自成长型长期 Agent，强调记忆和 Skill 自我沉淀

5.8.6 它们为什么突然火？

原因有几个：

LLM 工具调用能力增强。
长上下文和记忆机制进步。
Claude Code、Codex、Cursor 等让用户看到 Agent 能真的干活。
开源社区开始把 Agent 做成可部署、可改造、可分享的系统。
个人用户希望拥有“自己的 AI 助理”，而不是每次打开一个空白聊天框。

5.8.7 也要看到风险

这类 Agent 越强，风险越明显：

误删文件。
误发信息。
误操作账户。
泄露 API key。
长期记忆记录敏感信息。
工具权限过大。
被 prompt injection 攻击。
自生成 Skill 质量不可控。

所以，真正可用的 Agent 必须有：

权限分级
沙盒隔离
人类确认节点
日志审计
敏感信息保护
可撤销操作
失败回滚
Skill 审核机制

Markdown 是一种轻量级标记语言*，是一种文件格式，后缀名是.md。*

它的核心价值是：

用普通文本里的简单符号，表达标题、列表、表格、引用、代码块等结构。

Markdown 不像 Word 那样依赖复杂排版按钮，也不像 HTML 那样需要写很多标签。它既适合人阅读，也适合机器解析。

5.9.1 为什么 AI 经常用 Markdown？

因为 AI 输出通常需要同时满足两件事：

*1）*人类要读得舒服。

*2）*内容要有结构，方便复制、编辑、转文档、转网页、转 PPT。

Markdown 很适合这种场景，固定的格式渲染后就会变成有层级、有列表、有表格的内容。

5.9.2Markdown 常用语法

功能写法效果一级标题 # 标题大标题二级标题标题小一层标题三级标题标题更细的小节加粗重要内容重要内容加粗斜体 *强调* 斜体强调无序列表 - 条目项目符号列表有序列表 1. 条目编号列表引用 > 引用内容引用块行内代码 token 代码样式代码块三个反引号包裹多行代码链接文字可点击链接表格用和 —

5.9.3Markdown 在 AI 场景里的作用

场景作用写报告输出结构化章节、标题、表格。写 PRD 用标题、列表、表格组织需求。写代码说明用代码块展示命令和代码。写提示词用分隔符和小标题区分任务、背景、约束、输出格式。写知识库方便上传到 Notion、Obsidian、GitHub、文档系统。 Agent 输出让执行计划、结果、风险、下一步更清楚。

5.9.4在 Prompt 里怎么用 Markdown？

好的 prompt 也可以用 Markdown 组织。例如：

# 任务

帮我分析一个跨境电商选品机会。

# 背景

目标市场：东南亚

平台：Shopee

品类：家居用品

# 输出要求

请按以下结构输出：

1. 市场趋势

2. 目标用户

3. 竞争分析

4. 利润测算

5. 风险点

6. 结论建议

# 格式要求

用表格总结关键指标。

这样的 prompt 比一整段话更清楚，模型也更容易按结构回答。

5.9.5Markdown 的注意事项

不同平台对 Markdown 支持不完全一样。表格、脚注、任务列表属于扩展语法，不是所有环境都支持。Markdown 也不适合复杂排版，例如多栏、精细字体、复杂图文混排。

写给 AI 的 Markdown 要结构清晰，不要过度嵌套。

如果要程序稳定解析，不要只依赖 Markdown，最好用 JSON schema。

5.10.1 企业应用落地要回答什么问题

企业真正落地 AI，不能只买一个模型 API。要回答：

AI 怎么进入业务流程？怎么接数据？怎么控制成本？怎么评估效果？怎么保证安全？

省略5.10.2-5.10.4，细节请参考完整版PDF。

6.1.1能源影响芯片

电力越便宜，芯片运行成本越低。电力越稳定，训练越不容易中断。

6.1.2芯片影响基建

芯片功耗、显存、互联方式，会决定数据中心设计，例如高功率 GPU 会推动液冷普及。

6.1.3基建影响模型

基建越强，模型能训练得越大、越快、越稳定。高效基建还能降低推理成本，让更多复杂模型商业化。

6.1.4模型影响应用

模型能力决定应用上限，例如：

长上下文让 AI 能读完整合同。
多模态让 AI 能看商品图。
reasoning model 让 AI 能做复杂规划。
tool use 让 AI 能真正执行任务。

6.1.5应用反过来影响模型和基建

应用需求会反推模型优化，例如：

代码 Agent 需要更强工具调用和长上下文。
电商选品需要结构化数据理解和多模态商品理解。
客服需要低成本低延迟。
金融/医疗需要高准确性和可审计。

坚持看到此，以下问题应该很容易就有答案了。遇到网上的咨询和自媒体文章/视频，应该也很好判断具体的讨论落在哪一层了。

问题主要对应层级为什么 AI 会耗电？能源层为什么 NVIDIA 重要？芯片层 + 软件生态为什么国产替代难？芯片层 + 基建层 + 软件栈为什么 GPU 利用率低？基建层为什么模型会幻觉？模型层为什么 RAG 能减少胡说？模型层 + 应用层为什么 Agent 不稳定？模型层 + Harness + 工具权限为什么 Vibe Coding 火？模型代码能力 + IDE/CLI 应用成熟为什么 benchmark 高但不好用？模型评测与真实应用不一致为什么 AI 应用难商业化？应用层 + 成本结构 + 场景深度

第一，AI的竞争表面是模型，底层是能源、芯片和基建。

大模型不是凭空运行的。它背后是海量电力、高端芯片、高速网络和复杂数据中心。

第二，NVIDIA 的强，不只是芯片强，而是生态强。

CUDA、NVLink、软件库、服务器系统、开发者生态共同构成壁垒。

第三，国产 AI 算力替代是系统工程。

不是换一块芯片就结束。

它需要硬件、编译器、算子库、框架、通信、调度、开发者生态一起成熟。

第四，LLM的本质是预测token，但能力已经从续写演变到推理、工具调用和Agent。

它从语言模型发展为通用任务接口。

第五，Transformer仍是主流，但RWKV、Mamba、JEPA、世界模型等方向都在探索新的效率和智能边界。

未来不是单一路线，而是多种架构并存。

第六，训练范式正在从单纯预训练扩展到后训练、偏好对齐、强化学习、蒸馏和test-time compute。

模型变强不只是“参数更大”，也包括“训练更聪明”和“推理时更会思考”。

第七，应用层的未来是Agent化、工具化、工作流化。

AI 不再只是聊天工具，而会成为能使用工具、读写文件、调用系统、推进任务的数字员工。

第八，企业真正的AI护城河，是数据、场景、流程、评测、成本和组织能力。

模型越来越容易获得，但把模型变成稳定生产力仍然很难。

这是我一直在用的AI理解框架，基本能辅助你理解网上大部份关于AI的讨论。

里面的内容有借助AI生成，特别是技术的部分，也有加入部分个人不成熟的理解。

因此一定会有纰漏。

所以该文档我会持续更新（会发表在公众号“GenFanTech”），毕竟AI每天发展都很快，SOTA模型也领先不了多长周期，说不定短时间又会有新的AI scaling 范式，应用层面就不用说了，每天都铺天盖地更新。

在AI浪潮，学习好AI我理解就两个重点就够了：

掌握学习框架，然后碎片化学习（AI发展太快也只能如此）；

实际动手，多用，多体验AI产品（条件允许，就付费用好的）。

聊到英伟达，那就不能只讲芯片层的事情了。因为NVIDIA 的优势不只是 GPU 性能。

真正强的是完整生态：

组成作用 GPU 硬件 H100、H200、B200、GB200 等 CUDA 开发者调用 GPU 的软件平台 cuDNN / TensorRT 深度学习和推理优化库 NVLink GPU 之间高速互联 NVSwitch 让更多 GPU 高速互联 DGX / HGX / NVL 系统服务器和机架级方案开发者生态 PyTorch、TensorFlow、JAX 等深度适配运维生态集群管理、监控、调优、合作伙伴体系

这意味着 NVIDIA 卖的不是一块芯片，而是一个完整 AI 工厂方案。

8.1.1整体结构：NVIDIA 不是只卖 GPU

NVIDIA 的 AI 生态可以分成 8 层。

这就是为什么 NVIDIA 不是单纯硬件公司，而是 AI 基础设施平台公司。

8.1.2 GPU 硬件：H100、H200、B200、GB200

8.1.2.1. GPU 硬件解决什么问题？

GPU 是 AI 计算的核心发动机。

大模型训练和推理本质上是大量矩阵运算。GPU 擅长并行计算，所以比 CPU 更适合训练和运行大模型。可以理解为CPU 像一个很聪明的经理，适合处理复杂逻辑；GPU 像成千上万个熟练工，适合同时做大量相似计算。

8.1.3、CUDA：开发者调用 GPU 的软件平台

8.1.3.1. CUDA 是什么？

CUDA ，Compute Unified Device Architecture（统一计算设备架构），是 NVIDIA 的并行计算平台和编程模型。

简单说：CUDA 让开发者可以写程序，把原本跑在 CPU 上的计算任务，交给 NVIDIA GPU 并行执行。

NVIDIA 官方 CUDA Programming Guide 把 CUDA 定义为一种由 NVIDIA 开发的并行计算平台和编程模型，可以通过利用 GPU 显著提升计算性能。

CUDA Toolkit 还包括：

编译器
GPU 加速库
调试工具
性能分析工具
runtime library
头文件和开发资源

NVIDIA 官方 CUDA Toolkit 页面也说明，它提供用于创建高性能 GPU 加速应用的开发环境，包括库、调试和优化工具、C/C++ 编译器和运行时库。

8.1.3.2. CUDA 为什么重要？

CUDA 是 NVIDIA 生态最核心的护城河之一。

因为很多 AI 框架、算子库、训练系统、推理引擎都围绕 CUDA 优化。例如：

PyTorch 支持 CUDA。
TensorFlow 支持 CUDA。
JAX 可以在 NVIDIA GPU 上加速。
大量开源项目默认优先适配 CUDA。
很多工程师已经熟悉 CUDA 生态。

这导致一个现象：

不是只要有一块性能接近 NVIDIA 的芯片就够了，还要有和 CUDA 类似成熟的软件生态。

8.1.3.3. CUDA 和 GPU 的关系

概念含义 GPU 硬件，负责实际计算 CUDA 软件平台，让程序能调用 NVIDIA GPU CUDA Toolkit 开发工具包，包括编译器、库、调试工具 CUDA Kernel 在 GPU 上执行的小计算程序 CUDA Driver / Runtime 管理 GPU 程序运行的底层组件

8.1.4、cuDNN / TensorRT：深度学习和推理优化库

8.1.4.1. cuDNN 是什么？

cuDNN 全称 CUDA Deep Neural Network library。

它是 NVIDIA 为深度学习准备的底层加速库。

cuDNN 的作用是把深度学习常见计算模式做成高度优化的底层库，让框架不用从零实现 GPU 加速。

NVIDIA cuDNN 文档介绍 cuDNN Graph API 可以表达深度学习中的常见计算模式，并把操作表示为节点、张量表示为边，类似深度学习框架中的数据流图。

8.1.4.2. TensorRT 是什么？

TensorRT 是 NVIDIA 的高性能深度学习推理 SDK。

注意：cuDNN 更偏训练和深度学习通用算子加速；TensorRT 更偏模型部署和推理优化。

NVIDIA 官方介绍 TensorRT 基于 CUDA，并能优化主流框架训练出来的神经网络模型，通过量化、层融合、张量融合、kernel tuning 等技术优化推理。

8.1.4.3. cuDNN 和 TensorRT 的区别

对比项 cuDNN TensorRT 主要定位深度学习底层算子库推理优化和部署引擎主要场景训练 + 推理中的基础算子加速生产环境推理部署作用对象卷积、attention、norm 等计算操作完整模型或推理计算图优化重点单个或一组深度学习操作高效执行端到端低延迟、高吞吐推理类比高级厨具和标准做菜动作把整套出菜流程重排优化

8.1.5、NVLink：GPU 之间高速互联

8.1.5.1. 为什么需要 NVLink？

单个 GPU 再强，也很难独立完成大模型训练和推理。原因包括：

模型太大，单卡放不下。
batch 太大，需要多卡并行。
长上下文 KV cache 占显存。
MoE 模型需要跨专家通信。
多机训练需要频繁同步梯度和参数。

所以 GPU 之间必须高速通信。

如果通信慢，就会出现：GPU 在等数据，而不是在算。

这会直接降低 GPU 利用率。

8.1.5.2. NVLink 是什么？

NVLink 是 NVIDIA 的高速 GPU 互联技术。

它的作用是是让 GPU 与 GPU、GPU 与 CPU 之间以更高带宽、更低延迟交换数据。

在 GB200 NVL72 中，NVIDIA 称第五代 NVLink 提供 1.8TB/s GPU-to-GPU interconnect，并和 InfiniBand、Magnum IO 等一起支撑大规模训练。

2.5.5.3. NVLink 解决什么问题？

问题 NVLink 的作用 单卡显存不够多张 GPU 可以协同放模型多卡训练同步慢提高梯度、参数、激活值传输速度 MoE 通信复杂加快专家路由和专家输出交换推理吞吐低减少 GPU 间等待长上下文成本高加快 KV cache 相关传输

8.1.6、NVSwitch：让更多 GPU 高速互联

8.1.6.1. NVLink 和 NVSwitch 的区别

这两个概念很容易混。

概念作用类比 NVLink GPU 与 GPU 之间的高速连接线两个厨房之间的高速传菜通道 NVSwitch 把很多 NVLink 连接组织成大规模交换网络中央传菜枢纽 / 高速交换站

如果只有 NVLink，你可以让几张 GPU 快速互联。

但当 GPU 数量变多时，就需要一个“交换中心”，让更多 GPU 之间形成高效通信网络，这就是 NVSwitch。

8.1.6.2. NVSwitch 解决什么问题？

大模型训练需要很多 GPU 之间做 all-to-all 或 all-reduce 通信。

如果 GPU 数量从 8 张扩展到 72 张、几百张、几千张，通信拓扑就变得非常复杂。

NVSwitch 的意义是：把很多 GPU 组织成更大的高速互联域，让它们更像一个统一的大计算资源。

NVIDIA 官方介绍，NVLink Switch 可以把 NVLink 连接扩展到节点之间，形成无缝、高带宽、多节点 GPU 集群，效果上接近“数据中心级 GPU”。

8.1.6.3. 为什么它对大模型关键？

大模型训练和推理越来越依赖：

Tensor Parallel
Expert Parallel
Pipeline Parallel
MoE all-to-all
长上下文 KV cache 通信
多机多卡梯度同步

这些都高度依赖 GPU 之间通信。

因此，在大模型时代：通信能力本身就是算力的一部分。

8.1.7、DGX / HGX / NVL 系统：服务器和机架级方案

8.1.7.1. 为什么要有系统方案？

很多人以为买 GPU 就行。

但 AI 数据中心真正需要的是完整系统：GPU、CPU、内存、高速互联、网络、存储、电源、散热、机箱、管理软件、驱动和工具链。

所以 NVIDIA 不只是卖芯片，还卖系统方案。

如果用“房子”来理解这三者的区别：

DGX 就像精装交付的整体房产。你买到的是一套可以直接拎包入住的完整住宅，包含了所有基础设施和内部装修。

HGX 就像是高品质的标准化建材和户型图。它本身不直接出售给最终用户，而是提供给Dell、HPE等服务器厂商，让他们能快速搭建自己品牌的AI住宅。

NVL 可以看作是由多个房产连接在一起的超大型社区。例如 GB200 NVL72，就是用高速光纤（NVLink）将多个算力单元（GB200 Superchip）连成一个庞大的系统。

8.1.8、开发者生态：PyTorch、TensorFlow、JAX 等深度适配

8.1.8.1. 开发者生态为什么是护城河？

AI 生态里最重要的不只是芯片性能，还有：开发者愿不愿意用，框架支不支持，代码能不能稳定跑，调试和部署是否方便。

NVIDIA 的开发者生态强在：

CUDA 历史久。
AI 框架默认优先支持 CUDA。
大量开源项目先适配 NVIDIA。
工程师熟悉 CUDA 调试和优化。
云厂商和服务器厂商普遍支持 NVIDIA。
各种工具链、教程、社区经验非常丰富。

8.1.8.2. PyTorch、TensorFlow、JAX 和 NVIDIA 的关系

框架作用 和 NVIDIA 的关系 PyTorch 深度学习训练和研究框架大量训练代码默认使用 CUDA 加速 TensorFlow 深度学习训练和部署框架长期支持 NVIDIA GPU JAX 高性能数值计算和 AI 研究框架可通过 GPU 后端在 NVIDIA GPU 上运行 NCCL 多 GPU / 多节点通信库大规模训练中常用于 GPU 通信 Triton GPU kernel 编程和优化工具常用于写高性能算子，很多场景运行在 NVIDIA GPU 上

开发者生态的结果是：当研究员、工程师、开源社区、云厂商都优先围绕 NVIDIA 优化时，NVIDIA 的优势会被不断放大。

8.1.8.3. 为什么其他芯片追赶难？

不是只要硬件性能接近就够了，还要解决：

PyTorch 是否完整支持？
算子库是否够全？
编译器是否稳定？
模型迁移是否容易？
调试工具是否成熟？
多卡训练是否稳定？
社区有没有足够教程？
出问题时有没有足够工程经验？

8.1.9、运维生态：集群管理、监控、调优、合作伙伴体系

8.1.9.1. 为什么运维生态重要？

当你只有 8 张 GPU 时，问题还比较简单。但当你有：

1000 张 GPU
10000 张 GPU
多个数据中心
多个训练任务
多个团队共用资源
复杂权限和成本分摊

你真正需要的不只是 GPU，而是如何把 GPU 集群长期稳定、高利用率、低故障地运行起来。

8.1.11、为什么这构成护城河？

NVIDIA 的护城河可以拆成 5 个层次：

1）硬件护城河：GPU 性能强，迭代快，HBM、Tensor Core、Transformer Engine、低精度计算能力强。

2）软件护城河：CUDA、cuDNN、TensorRT、NCCL、Triton、profiling 工具等生态成熟。

3）互联护城河：NVLink / NVSwitch 让多 GPU 协作更高效，这对大模型训练和推理极其关键。

4）系统护城河：DGX、HGX、NVL、SuperPOD 等让客户不只是买芯片，而是买经过验证的系统。

5）生态护城河：开发者、云厂商、服务器厂商、框架、科研社区、企业客户都围绕 NVIDIA 优化，形成正反馈。

最终结果是：

NVIDIA 的优势不是“我有一块快芯片”，而是“从单卡到机架，从训练到推理，从软件到运维，从开发者到数据中心建设，我都有成熟方案”。

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述