2026年,Agent智能体成为AI领域最热门的方向。文章回顾了大模型从ChatGPT以来的演进,介绍了Prompt Engineering、Context Engineering和Harness Engineering三大工程化改造,以及ReAct、Plan-and-Execute和Reflection三种主流Agent运行模式。通过这些技术,大模型不再局限于回答问题,而是能够持续完成任务,标志着AI从“回答问题”时代进入“完成任务”新时代。对于想要进入AI领域的程序员和开发者来说,掌握Agent技术至关重要。
从图灵机开始,人类便从未停止对构建"智能"的探索。而最能让普罗大众感受到人工智能震撼的,无疑是 2022 年 11 月 30 日ChatGPT 发布时的"ChatGPT 时刻"。从此便开启了"人间一天,LLM 一年"的光速变迁。
回头看,从 ChatGPT 到今天不过短短三年多,但我们已经为大模型进行了一系列深刻的工程化改造:

演进图解:人类驾驭大模型的工程化演进
这三者并不是替代关系,而是每一层"往上叠"的能力增强。
Prompt Engineering(提示工程)— 更好地"跟模型说话"
最初,大模型就像一个只有"大脑"但没有"手脚"的天才——它"听不懂"人类模糊的指令,或者无法按照特定的格式输出。这并不是模型能力不足,而是输入的不确定性被放大了。
人们开始意识到:如果你不给模型一个明确的角色,它就会在多个可能的分布之间游走;如果你不给它示例,它就不知道你期望的输出结构;如果你不约束格式,它就不会稳定地产出结构化结果。于是,“You are a senior engineer”、“请用 JSON 输出”、“下面是几个示例”——这些技巧逐渐成为共识。
于是 Prompt Engineering 出现了。从工程视角来看,这一阶段其实是在做一件很有意思的事情:
用自然语言,去约束一个概率模型的输出空间。
它确实有效,但上限也很明显——因为要让一个 AI 真正进入工作流,单纯把发送给模型的 Prompt 优化好远远不够。一个任务往往包含大量隐含的上下文,如公司的内部文档、企业的风格规约,甚至行业黑话等。
很多时候,模型不是不会,而是"信息不够"。
于是,演进进入了下一阶段。
Context Engineering(上下文工程)— 让模型"感知世界"
你问一个和你代码库相关的问题,如果不把代码贴进去,它永远答不对;你问一个企业内部知识的问题,如果不提供数据,它只能胡编。于是,Context Engineering 成为第二阶段的核心。
RAG(检索增强生成) 是最典型的一种实现方式:通过向量检索,把最相关的知识片段动态注入模型上下文。但在真实系统中,Context Engineering 很快超越了"检索"本身,演化成一个完整的运行时信息系统:
- • RAG(检索增强生成):通过向量数据库存储企业知识,在推理时动态检索最相关的片段注入上下文,使模型具备访问私有知识的能力。
- • Agent Skills(技能加载):也是典型的一种 Context Engineering 实现。它通过渐进式披露的方式,仅给模型提供工具能力的最基础元信息(如工具名称和简要描述),在真正需要调用某个工具时再加载完整的 Skills 文档,从而极大地降低了工具描述对模型上下文窗口的占用。
- • 多源信息融合:从数据库、API、文件系统等不同数据源中获取信息,并判断哪些信息真正相关。
- • 上下文压缩与管理:在有限的上下文窗口中组织和压缩信息,在多轮交互中管理对话历史与记忆。
当这些能力逐渐成熟时,模型第一次获得了一种近似"感知世界"的能力:它不再只依赖训练数据,而是可以基于你当前系统中的真实信息来思考。
这也是为什么这一阶段带来的提升是质变级的:
模型开始"看起来真的懂你"。
但做好 Context Engineering 也不意味着万事大吉。即便模型拥有了正确的信息,也不一定能稳定正确地执行。在复杂任务中,模型的持续执行需要一个完善且有效的方式来监督、约束和纠偏,否则就有可能越走越远。这个时候,Harness Engineering 便应运而生。
Harness Engineering(约束工程)— 让模型"守法实干"
Prompt 解决了"意图表达",Context 解决了"上下文供给",而 Harness Engineering 解决的则是“执行稳定性”的问题。
这个问题在复杂场景中尤为明显:多步推理、工具调用、持续执行——这些都会将模型的不稳定性持续放大。可能第一步是对的,第二步开始偏离;也可能中间已经出错,却没有任何机制能够发现;甚至在长链路任务中,模型开始对多次尝试失败的问题"自圆其说"——比如修不好测试,就说测试没必要,最后把测试给删除了。
这正是 Harness Engineering 要解决的核心:当模型持续执行时,需要对其进行约束、监督,并在偏离时及时纠正。 你可以把它理解为:
给一匹强大但不可控的野马,装上缰绳、马鞍和导航系统。
模型本身依然是那个模型,但系统开始具备了工程上的"可控性"。
这一阶段关注的是整个运行过程本身。模型不再被当作一次性的函数调用,而是被放进一个持续运行的系统中——这个系统会为它提供工具能力、维护任务状态、记录中间结果,并在关键节点进行校验与纠偏。
正如我们在 [Claude Code 源码泄漏:一鲸落,万物生] 中所归纳的 Harness Engineering 实践:动态拼接的系统提示词、严格的工具权限控制、独立的安全分类器、记忆与上下文管理、以及失败后的恢复机制——本质上从提升模型"有多聪明",转移到了对可控性的系统工程:
如何把一个本质上不可控的概率模型,变成一个可以稳定交付的工程系统。
这也是为什么 Anthropic 会给出一个很有代表性的判断:用户体验大约 60% 来自模型,40% 来自 Harness。 这个比例本身也许不精确,但它揭示了一个关键事实:
模型决定上限,而 Harness 兜底下限。
回望整个演进过程,逻辑是连贯的:Prompt Engineering 解决的是表达问题,Context Engineering 解决的是上下文信息问题,而 Harness Engineering 解决的是执行问题。
也正是在这里,Agent 才真正成立。因为只有当模型被放进这样一个可观测、可约束、可恢复的系统中时,它才不再只是"回答问题",而是开始持续地完成任务。
Agent(智能体) 是一个将“大模型”与各类“工具”组装起来,让大模型拓展出感官和四肢的程序。它让大模型具备了感知和改变外部世界的能力。
模型再强大,本质上还是一个数学概率模型,无法与外部世界交互。你可以让大模型给你写一个 App,但再强大的模型都没办法帮你将生成的代码写入到文件中、进行打包以及发布。
为解除这些限制,我们将大模型与各种工具(Tools)组装起来,让大模型拓展出感官和四肢,使其能够感知环境(如读取文件列表)和改变环境(如写入代码、运行终端命令)。

Agent 概念图
热门 Agent 案例:
- • OpenClaw(俗称“龙虾”):开源通用 Agent。将大模型转化为能真正“干活”的数字员工,通过自然语言指令操作用户的电脑,执行文件管理、邮件收发、定时任务等。
- • Claude Code:编程 Agent。你只需要说“写一个贪吃蛇游戏”,它就能自动创建文件、写入代码、运行程序,整个过程你只需要点“确定”。
- • Manus:通用 Agent。你让它“分析 xxx 公司的市值走势”,它会自己生成计划、搜索财报,最终整理成报告。
Agent 的核心在于其运行模式(Pattern),这也是最值得我们学习的内容。如互联网时代的MVC、微服务,智能体也演进出了多种各具特色的架构。目前最主流的架构是 ReAct,以及在此基础上演进的 Plan-and-Execute,还有一种经典模式是 Reflection。
1. ReAct 模式 —— 思考与行动的循环
ReAct 模式是目前使用最广泛的 Agent 运行模式,由 2022 年的一篇论文(ReAct: Synergizing Reasoning and Acting in Language Models)提出。其核心逻辑是 “思考(Thought)→ 行动(Action)→ 观察(Observation)” 的循环。

ReAct 流程图
详细步骤说明:
-
- 思考(Thought):模型接收到任务和历史记录后,不会直接回答用户的问题,而是先思考"我接下来该做什么?",然后决定是否需要调用工具。
-
- 行动(Action):如果需要调用工具,模型会给出一个明确的 Action,请求系统去执行某个工具(如
write_file),并传入参数。
- 行动(Action):如果需要调用工具,模型会给出一个明确的 Action,请求系统去执行某个工具(如
-
- 观察(Observation):工具执行完成后,结果返回给模型(例如"文件写入成功"),这个结果将作为下一轮推理的输入。
-
- 循环:模型将"观察"结果作为新的上下文,再次进入"思考"阶段。思考 → 行动 → 观察会不断循环,直到模型认为"信息已经足够"。
-
- 结束:当模型认为任务完成,输出最终答案(Final Answer)。
这里有一个非常能体现 Prompt Engineering 重要性的点:ReAct 并不是模型能力,而是 Prompt 的产物。 模型之所以会按照 Thought/Action/Observation 这样的结构输出,是因为我们在系统提示词(System Prompt)中强行规定了它的输出结构。换句话说,你实际上是在给模型写一个"执行剧本",而模型只是严格地按照这个剧本去演。
从工程角度来看,这个模式可以被简化成一个非常朴素的循环:不断调用模型 → 解析它的意图 → 如果需要工具就执行工具 → 再把结果喂回去。你在代码中看到的那些 Thought、Action,本质上只是这个循环中的中间状态。
正因为如此,ReAct 非常通用,也非常强大。但代价也随之而来:没有全局规划。 模型在很多时候只是"走一步看一步",这在简单任务中问题不大,但在复杂任务中,ReAct 可能会陷入局部最优、反复试错,甚至进入死循环。
2. Plan-and-Execute 模式 —— 先规划,后执行
为了解决 ReAct 没有全局规划的问题,便引入了 Plan-and-Execute 模式,带来了"先规划,后执行"的机制,让模型在一开始就先把事情"想清楚",并加入了动态调整规划的能力。
在这种模式下,系统会先调用一个规划模型(Planner)生成完整的执行计划,把一个复杂任务拆解成多个步骤。随后,再由执行模块逐步完成这些步骤。在执行过程中,如果环境信息发生变化,或者某一步的结果与预期不符,还可以引入 Replan 机制,对原有计划进行动态调整。

Plan-and-Execute 流程图
详细步骤说明:
-
- 规划(Plan):规划模型根据任务和上下文生成一个待办列表(To-do List)。例如:“1. 计算财年起止时间 → 2. 查财报 → 3. 查股价走势”。
-
- 执行(Execute):执行 Agent(通常是一个 ReAct Agent)去执行计划中的当前步骤。
-
- 观察与重规划(Replan):根据当前步骤的执行结果,Replan 模型会动态调整剩余计划。例如,计算出某公司的本财年起止日期是 2025 年 6 月至 2026 年 6 月后,原计划中的"查财报"就变成了"查某公司 2025 年 6 月至 2026 年 6 月的财报",甚至可能被优化为"查某公司 2025 年 6 月至今的财报"。
-
- 循环:重复执行和重规划,直到所有步骤完成。
从直觉上看,这种方式更接近人类专家的工作方式:先列出 Todo List,再逐步完成,而不是一边想一边试。
它的优势在于稳定性和可控性,尤其适合复杂任务,比如多步骤搜索、代码生成、数据分析等。但代价同样明显:系统更复杂、调用链更长、延迟也更高。
3. Reflection 模式 —— 自我审视与持续改进
Reflection(反思)模式采用了另一种思路,它并不是改变执行方式,而是引入一个"自我纠错"的过程。
在这种模式下,模型先给出一个初始答案,然后再对自己的答案进行审视和评估,指出其中的问题并尝试改进。这个过程可以重复多轮,直到结果达到某种"足够好"的标准。

Reflection 流程图
详细步骤说明:
-
- 生成(Generate):模型根据任务生成一个初始回答或解决方案。
-
- 反思(Reflect):模型(或另一个专门的评审模型)对初始回答进行评估,指出其中的错误、遗漏或可以改进的地方。例如:“这段代码没有处理边界情况”、“这个分析缺少了对竞争对手的比较”。
-
- 改进(Refine):模型根据反思结果修正答案,生成一个改进版本。
-
- 循环:重复反思和改进,直到满足预设的质量标准,或达到最大迭代次数。
如果说 ReAct 解决的是"怎么做",Plan-and-Execute 解决的是"先做什么",那么 Reflection 解决的则是:做完之后,如何变得更好。
它在代码生成、复杂推理、文本写作等场景中尤其有效,因为这些任务往往允许"反复打磨"。在实践中,Reflection 通常不会单独使用,而是作为一个增强模块嵌入到 ReAct 或 Plan-and-Execute 流程中——在关键步骤完成后,加一轮"自检",从而显著提升最终输出的质量。
正如蓝星上的万千生命一样,AIGC 的浪潮也在不断进化——不仅模型在进化,围绕模型的工程实践也在演进。
模型通过不断增加的数据、算力、参数让自己变成一个更聪明的"大脑";而围绕模型的工程实践,则通过提示工程、上下文工程、约束工程和各种运行模式,把大模型嵌入进了一个可以持续运转的系统。
也正是在这个意义上,Agent 的出现并不是一个"模型升级",而是一次工程范式的跃迁。当你把工具、上下文和循环连接起来之后,一个原本只能在聊天框里输出文本的模型,就变成了一个可以读代码、写文件、执行命令、持续推进任务的执行体。
Agent 的演进让这一轮的人工智能从"回答问题"进化到了"完成任务"。但正所谓"纸上得来终觉浅",如果你还在聊天框里和大模型斗智斗勇,那我强烈建议你赶快找几个 Agent 用起来——时不我待!
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2026 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》,下方扫码获取~

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。


最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!


这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。



版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/251272.html