本文以一个用户请求AI助手查天气并写邮件的例子,带领读者走完AI应用的全链路。涵盖了LLM(大语言模型)、Token(词元)、Prompt(提示词)、Context(上下文窗口)、Tool(工具调用)、MCP(模型上下文协议)、Agent(智能体)、Agent Skills(智能体技能)和Harness Engineering(驾驭工程)等核心概念。文章详细解释了每个环节的作用和解决的问题,展示了AI应用技术栈的演进过程,帮助读者对AI应用的底层逻辑有清晰的全景认知。
从一个请求出发,走完 AI 应用的全链路,彻底搞懂 Token、Prompt、Context、Tool、MCP、Agent、Agent Skills 和 Harness Engineering。
想象你对一个 AI 助手说了这样一句话:
“帮我查一下杭州明天的天气,然后写一封邮件告诉我老板明天需要带伞。”
短短一句话,背后却触发了一场精密的连锁反应——你的文字被拆成碎片、装进信封、送入一个读过万亿文字的“大脑”、这个大脑思考后决定上网查天气、拿到结果后又动笔写邮件、最后把邮件发出去。
这篇文章,就是跟着这句话走完它的全部旅程。每经过一个站点,我们就认识一个核心概念。走完全程,你会对 AI 应用的整个技术栈有一个清晰的全景认知。
LLM 就像一个读过整个图书馆的语言天才——它没有真正"理解"世界,但它见过太多文字,以至于能极其流畅地"接话"。
概念介绍
LLM,全称 Large Language Model(大语言模型),是整个 AI 应用的核心引擎。GPT、Claude、Gemini、千问大模型——这些都是 LLM。
它的工作原理,其实很简单,本质上只做一件事:预测下一个词。
当你说"今天天气真",LLM 会根据它在训练中见过的海量文本,计算出下一个词最可能是"好"(而不是"桌子"或"紫色")。把这个过程不断重复——预测下一个词、再预测下一个词——就能生成一整段流畅的文字。

LLM 预测下一个 Token
但别被"预测下一个词"这个简单描述骗了。现代 LLM 拥有数千亿个参数(可以理解为"神经连接"),在万亿级别的文本上训练。这种规模带来了涌现能力——它不仅能接话,还能推理、总结、翻译、写代码,甚至表现出一定的"常识"。
在 LLM 出现之前,让机器理解人类语言需要大量的规则编写和特征工程。你想做一个聊天机器人?得手写几百条 if-else。想做翻译?得雇语言学家标注语法树。
LLM 一次性解决了这个问题:你只需要用自然语言告诉它你想要什么,它就能理解并回应。这是从"编程控制机器"到"对话驱动机器"的范式转变。
回到我们的旅程:你说的那句"帮我查一下杭州明天的天气……",最终就是要告诉LLM来处理。但在送进去之前,它需要先经过一道翻译工序。
Token 就像乐高积木块——LLM 不认识"文字",它只认识一块块标准化的小积木。你说的每句话,都要先被拆成这些小积木,才能送进大脑。
概念介绍
你说的那句话——“帮我查一下杭州明天的天气,然后写一封邮件告诉我老板明天需要带伞”——在 LLM 眼里,并不是一个个汉字或单词,而是一串 Token。
Token 是 LLM 处理文本的最小单位。它可能是一个完整的词,也可能是词的一部分,甚至是一个标点符号。不同的 LLM 使用不同的分词器(Tokenizer),拆法也不同。

Token 化过程
以英文为例,"Hello, world!" 会被拆成 ["Hello", ",", " world", "!"] 共 4 个 Token。中文的拆分更有趣——现代 LLM 使用的 BPE(Byte Pair Encoding)分词器并不是按"语义"来分词的,而是基于统计频率来合并字节对。常见的中文词会被合并成一个 Token,不常见的字可能被拆成更小的字节片段。
你可以在 OpenAI 的 Tokenizer 工具 中实际体验分词效果,亲眼看看你的文字是怎么被"拆积木"的。
为什么要关心 Token? 因为它直接关系到两件事:
- 成本:LLM 的 API 按 Token 数量计费。GPT-4.1 的价格是每百万输入 Token 2 美元,每百万输出 Token 8 美元。你的每一句话、每一个回复,都在"烧 Token"。
- 容量限制:每个 LLM 都有一个 Token 上限(后面会详细讲),超过了就装不下了。
回到旅程:你的那句话被拆成了大约 20 多个 Token,像一串编了号的积木块,准备送入下一个环节。
解决什么问题
计算机本质上只能处理数字,不能直接处理文字。Token 是人类语言和机器数字之间的桥梁。每个 Token 都对应一个数字编号(Token ID),LLM 实际上是在对这些数字做数学运算。
没有 Token 化这一步,LLM 就无法"阅读"你的任何输入。
Prompt 就是你给天才下达的工作指令——同一个天才,给他不同的指令,产出天差地别。Prompt 的质量,直接决定了 AI 回答的质量。
概念介绍
你以为你只是说了一句"帮我查一下杭州明天的天气……“?实际上,在这句话到达 LLM 之前,系统已经在它前面拼接了大量的"隐藏指令”。最终送进 LLM 的完整 Prompt 可能长这样:
【系统指令 - 用户看不到】你是一个智能助手,能够帮助用户完成各种任务。你可以调用以下工具:天气查询、邮件发送。请用中文回复,语气友好专业。当需要查询信息时,先调用工具获取数据,再基于数据回复用户。【用户消息】帮我查一下杭州明天的天气,然后写一封邮件告诉我老板明天需要带伞。
一个完整的 Prompt 通常由三部分组成:

Prompt 三层结构
Prompt Engineering(提示词工程) 就是研究如何写出更好的 Prompt 的学问。一个经典的例子:
❌ 差的 Prompt: "写一首诗"✅ 好的 Prompt: "请用五言绝句的格式,写一首描写西湖春天景色的诗, 要求意境清新,最后一句要有转折。"
同样的 LLM,前者可能给你一首平庸的打油诗,后者则可能产出一首让你眼前一亮的作品。Prompt 是你和 LLM 之间最重要的沟通界面。
回到旅程:你的那句话被包装成了一个结构化的 Prompt,带上了系统指令和工具说明,准备送入 LLM 的"工作台"。
解决什么问题
LLM 虽然强大,但它是一个"通才"——什么都能聊,但不一定聊到点上。Prompt 解决的是精确控制的问题:让 LLM 在正确的角色、正确的约束下,产出符合预期的结果。
没有好的 Prompt,LLM 就像一个没有任务说明书的天才——能力很强,但不知道该往哪使劲。
Context 就是天才的工作桌面大小——桌面越大,能同时摊开的资料越多;但桌面总有边界,超出的部分就会掉到地上,被"遗忘"。
概念介绍
Context Window(上下文窗口)是 LLM 一次能"看到"的全部信息量,用 Token 数量来衡量。你可以把它想象成 LLM 的"短期记忆"。
Context 里装了什么? 所有东西:

Context Window 内部结构
关键问题:Context 满了怎么办?
当对话越来越长,历史消息越来越多,Context Window 就会被塞满。这时候系统必须做出取舍——通常是丢弃最早的对话记录,或者对历史内容做摘要压缩。这就是为什么你和 AI 聊了很久之后,它可能会"忘记"你们最开始聊的内容。
回到旅程:你的 Prompt(系统指令 + 工具定义 + 你的请求)被装进了 Context Window。LLM 扫视整个"工作台"上的所有资料,开始思考该怎么回应你。
解决什么问题
Context 解决的是 LLM 的"视野"问题。没有足够大的 Context,LLM 就像一个只能看到眼前一行字的人——无法理解上下文,无法保持对话连贯,无法处理长文档。
Context Window 的扩大,是 LLM 从"一问一答的玩具"进化为"能处理复杂任务的助手"的关键因素之一。
Tool 就是给天才配上了电话和电脑——光靠"想"是查不到真实天气的,得拿起电话打给气象局。Tool 让 AI 从"只会说"变成"能做事"。
概念介绍
LLM 读完你的请求后,它意识到一个问题:"杭州明天的天气"这个信息,我脑子里没有。 LLM 的知识截止于训练数据,它不知道"明天"的天气。
这时候,Tool(工具调用)登场了。
Tool 是预先定义好的、LLM 可以"调用"的外部功能。开发者会告诉 LLM:“你有以下工具可以使用”,并描述每个工具的功能和参数格式。
}, { "name": "send_email", "description": "发送电子邮件", "parameters": { "to": "收件人邮箱", "subject": "邮件主题", "body": "邮件正文" } } ]}
LLM 分析你的请求后,决定先调用天气工具:
// LLM 的输出(不是给你看的,是给系统执行的)}
注意:LLM 并不是自己去查天气。 它只是输出了一段结构化的"指令",告诉外部系统:“请帮我调用天气 API”。外部系统执行后,把结果返回给 LLM:
{ "result": { "city": "杭州", "date": "2026-04-20", "weather": "小雨", "temperature": "18-23°C", "suggestion": "建议携带雨具" }}
LLM 拿到这个结果,再继续处理你的第二个请求——写邮件。
完整的 Tool 调用流程:

Tool 调用流程
回到旅程:LLM 通过 Tool 查到了杭州明天有小雨,现在它有了写邮件所需的信息。但这里有一个问题——如果每个 AI 应用都要自己写一套工具接入代码,那岂不是重复造轮子?
解决什么问题
LLM 的训练数据是静态的、有截止日期的。它不知道今天的股价、明天的天气、你的日程安排。Tool 解决的是 LLM 与真实世界的连接问题——让 AI 能够获取实时信息、操作外部系统、执行真实动作。
没有 Tool,LLM 就是一个"关在房间里的天才"——博学但与世隔绝。
一句话理解
MCP 就像 USB-C 统一充电口——以前每个手机品牌都有自己的充电线,现在一根 USB-C 走天下。MCP 让所有 AI 应用和所有工具之间有了统一的"接口标准"。
概念介绍
在 MCP 出现之前,Tool 的接入是碎片化的。假设你有 3 个 AI 应用(ChatGPT、Claude、千问)和 5 个工具(天气、邮件、日历、数据库、文件系统),你需要写 3 × 5 = 15 套集成代码。每个 AI 应用都有自己的工具调用格式,每个工具都要为每个平台单独适配。

MCP:从 M×N 到 M+N
MCP(Model Context Protocol,模型上下文协议) 是 Anthropic 在 2024 年底推出的开源协议,它定义了一套标准化的通信方式,让任何 AI 应用都能通过同一个协议连接任何工具。如上图所示,MCP 将原本 M×N 的集成复杂度降低为 M+N。
MCP 采用 Client-Server 架构,并提供三种核心能力:
- Tools(工具):可执行的操作,如查天气、发邮件、读写数据库
- Resources(资源):可读取的数据源,如文件内容、数据库记录、API 数据
- Prompts(提示模板):预定义的提示词模板,帮助用户更好地与 AI 交互
架构上的两个角色:
- MCP Client(客户端):嵌入在 AI 应用中,负责发起请求
- MCP Server(服务端):包装了具体的能力(Tools / Resources / Prompts),负责执行并返回结果

MCP Client-Server 架构
一个 MCP Server 的定义非常简洁:
, "date": { "type": "string", "description": "日期" } }, "required": ["city"] } } ]}
回到旅程:在我们的故事里,AI 助手通过 MCP 协议连接到天气服务的 MCP Server,用标准化的方式查询了杭州的天气。同样的协议,它还能连接邮件服务的 MCP Server 来发送邮件。一个协议,连接一切。
解决什么问题
MCP 解决的是 AI 工具生态的碎片化问题。就像 USB-C 终结了充电线的混乱,MCP 让工具开发者只需要写一次 Server,就能被所有支持 MCP 的 AI 应用使用;AI 应用开发者只需要实现一次 Client,就能接入所有 MCP 工具。
这是 AI 应用从"各自为战"走向"生态互通"的关键一步。
一句话理解
Agent 就像一个项目经理——它不只是回答问题,而是能自主拆解任务、制定计划、调配资源、执行行动,直到把整个项目交付。
概念介绍
让我们回顾一下你的请求:“帮我查一下杭州明天的天气,然后写一封邮件告诉我老板明天需要带伞。”
一个普通的 LLM 聊天机器人可能只会回复一段文字。但一个 Agent 会这样做:

Agent 执行任务的完整过程
Agent 和普通 LLM 对话的核心区别是什么?

Agent vs 普通 LLM 对话
Agent 的核心能力可以用一个循环来概括:

Agent 核心循环
这个 感知-思考-行动-观察 的循环,就是 Agent 的灵魂。它会不断循环,直到任务完成或者判断无法继续。
回到旅程:在我们的故事里,Agent 就是那个把"查天气"和"发邮件"串联起来的指挥官。它分析了你的请求,拆解成多个步骤,依次调用工具,最终完成了整个任务链。
解决什么问题
Agent 解决的是 复杂任务的自动化编排问题。在 Agent 出现之前,即使 LLM 能理解你的意图,也需要人类来手动拆解任务、依次调用工具、处理中间结果。
Agent 让 AI 从"被动回答者"进化为"主动执行者"——你只需要说出目标,它来搞定过程。
Agent Skills 就像项目经理的专业认证——一个项目经理可以管理任何项目,但有了 PMP 认证、Scrum Master 认证,他在特定领域就更专业、更高效。
概念介绍
一个通用的 Agent 什么都能做一点,但什么都不够精。Agent Skills 是预定义的、针对特定任务领域的专业能力包。
以我们正在使用的 AI 编程助手为例,它可能拥有这些 Skills:

Agent的技能树
每个 Skill 本质上是一份结构化的指令文档,它告诉 Agent:
- 什么时候激活:遇到什么类型的任务时使用这个技能
- 怎么执行:具体的工作流程、步骤、检查清单
- 质量标准:什么样的结果算"做好了"
Skill 和 Tool 的区别是什么?

Skill 与 Tool 对比
Skill 是更高层次的抽象——它不是一个工具,而是使用多个工具完成复杂任务的策略和流程。
回到旅程:在我们的故事里,如果 Agent 拥有一个"邮件写作"的 Skill,它就不会只是干巴巴地写一封邮件,而是会考虑邮件的语气、格式、称呼,甚至根据"告诉老板"这个上下文,自动使用更正式的措辞。
解决什么问题
Agent Skills 解决的是 Agent 在特定领域的专业度问题。通用 Agent 像一个什么都会一点的实习生,而配备了 Skills 的 Agent 像一个在特定领域有深厚经验的专家。
Skills 让 Agent 的能力从"广而浅"变成"广而深"。
一句话理解
Harness Engineering 就像城市规划师——Agent 是在路上跑的车,而 Harness Engineer 是设计道路、红绿灯、护栏和交通规则的人。没有好的道路系统,再好的车也会翻车。
概念介绍
Birgitta Böckeler(Thoughtworks 杰出工程师)在 2026 年发表于 Martin Fowler 网站的文章中,给出了一个精辟的公式:
Agent = Model + Harness
Harness(驾驭系统) 是 Agent 中除了模型本身以外的一切——系统提示、工具定义、约束规则、反馈循环、错误处理、安全护栏……所有这些"包裹"在模型外面的东西,统称为 Harness。
Harness Engineering(驾驭工程) 就是设计、构建和维护这套 Harness 的工程学科。OpenAI 在 2025 年也发表了同名文章,描述他们如何围绕 Codex 构建 Harness,让 Agent 在实际工程中可靠运转。可以说,这个概念已经成为 AI 工程领域的共识。
为什么需要它?因为 LLM 是非确定性的——同样的输入,可能产生不同的输出。它可能犯错、幻觉、跑偏。Harness 的作用就是:
- 提高首次正确率(Feedforward / 前馈控制):在 Agent 行动之前,通过指令、规则、示例来引导它走正确的路
- 自动纠错(Feedback / 反馈控制):在 Agent 行动之后,通过检查、测试、验证来发现并修正错误

Harness 双重控制机制
一个具体的例子:
假设你让 Agent 帮你写一个 React 组件。没有 Harness 的情况下:
❌ Agent 可能: - 使用了项目中没有的依赖 - 不符合团队的代码规范 - 没有写测试 - 破坏了现有的模块边界
有了良好的 Harness:
✅ Harness 会: 前馈:AGENTS.md 告诉 Agent "使用 TypeScript + Fusion 组件库" 前馈:Skills 告诉 Agent "先写测试再写实现" 反馈:Linter 自动检查代码规范 反馈:测试运行验证功能正确性 反馈:架构测试确保没有违反模块边界
Harness Engineering 的核心理念是"转向循环"(Steering Loop):
当 Agent 反复犯同一个错误时,不是每次手动纠正,而是改进 Harness——添加新的规则、更好的示例、更严格的检查——让这个错误在未来不再发生。

Harness Engineering 转向循环
回到旅程:回看我们的整个故事——从你说出那句话,到 Agent 查天气、写邮件、发送邮件——这条路之所以能走通,是因为有人精心设计了每一个环节:系统提示怎么写、工具怎么定义、错误怎么处理、结果怎么验证。这个"设计道路的人",就是 Harness Engineer。
解决什么问题
Harness Engineering 解决的是 AI Agent 的可靠性和可控性问题。LLM 是非确定性的,Agent 是自主行动的——这两个特性叠加在一起,意味着如果没有良好的"驾驭系统",Agent 随时可能跑偏、犯错、甚至造成损害。
Harness Engineering 是让 Agent 从"实验室玩具"变成"生产级工具"的关键学科。

一个请求的旅程:核心概念全景流程图
上面的全景流程图完整展示了这句话走过的每一个站点。下面用一张表格来总结九个概念,一条链路:
从 LLM 到 Harness Engineering,我们见证了 AI 应用技术栈的完整演进:
- LLM 给了机器"思考"的能力
- Token 和 Prompt 解决了"怎么和机器沟通"
- Context 决定了机器能"记住"多少
- Tool 和 MCP 让机器能"动手做事"
- Agent 让机器能"自主完成任务"
- Skills 让 Agent 在特定领域"更专业"
- Harness Engineering 确保这一切"可靠运转"
每一层都在解决上一层留下的问题,每一层都让 AI 离"真正有用"更近一步。
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?
答案只有一个:人工智能(尤其是大模型方向)
当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右。
再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。


对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。
如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!
下面是我整理的大模型学习资源,希望能帮到你。

扫码免费领取全部内容


从入门到进阶这里都有,跟着老师学习事半功倍。


2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。


【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】


适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
👇👇扫码免费领取全部内容👇👇

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/282913.html