文章探讨了从“惊叹模型聪明”到“如何让大模型稳定可控落地”的行业转变,介绍了三大核心工程范式:1)Prompt Engineering:通过优化提示词与指令结构激发模型潜能,解决“有效沟通”问题;2)Context Engineering:通过组织上下文信息(如RAG检索、工具接入、记忆系统),解决“模型知识获取与执行”问题;3)Harness Engineering:构建约束、能力、反馈与记忆的闭环系统,解决“模型在真实环境稳定运行”问题。强调后两者在复杂场景中的重要性,并指出未来软件工程将是人类与智能体协同的新纪元。

Prompt决定你如何发出任务Context决定模型在关键时刻能看到什么Harness决定模型在什么运行机制里完成任务
它们的外延其实是越来越大的。
当我们的目标从“答对一道题”变成“稳定完成一段工作流”,系统重心就会自然外移。我们会先发现优化prompt 不够,再发现只补上下文也不够,最后不得不处理运行环境、反馈回路、权限边界和记录系统这些更工程化的问题。
在第一阶段,几乎所有的探索都聚焦在一件事上:如何与大模型建立“有效沟通”。人们逐渐意识到,大模型内部虽然蕴含着海量知识与强大的推理能力,但这些能力并不会自动释放,必须通过特定的指令结构加以触发。于是,开发者开始通过精心设计输入、引导思维链(CoT)等方式,尽可能激发模型的原生潜能。
大多数人第一次接触 LLM,也正是从 Prompt 开始的:打开 ChatGPT、DeepSeek 或豆包,在输入框里输入一句话,模型返回一段回答。比如输入“ 中国的首都是哪里 ”,得到“ 北京 ”。这种简单直接的交互方式催生了大量 ChatBot,本质上是将模型能力封装为一个更高效的知识库、数据库或搜索引擎产品。在这一阶段,AI 的核心仍然是“问答”——如何更准确地输出用户想要的答案。
围绕这一目标,主流方法本质上都在解决同一个问题:让模型更好地理解用户意图。因此,Prompt Engineering 成为研究重点,主要包括:
- 通过角色设定、背景补充与行为约束,构建结构化提示
- 使用 one-shot / few-shot 示例对模型进行引导
- 引入思维链(Chain-of-Thought)以增强推理过程的可控性
- 借助 ReAct 框架,让模型具备“推理—行动—观察”的基本能力(也标志着向 Agent 形态的初步演进)

更严格地说,Prompt Engineering 并不只是“写一句更有效的话”,而是一个包含设计、测试、评估与迭代的系统性过程,本质是在持续优化“输入表达”。
从方法论上看,这一阶段可以被视为一种“输入调优”:我们将大模型当作一位极具潜力但缺乏业务上下文的高智商员工——指令越清晰、边界越明确,输出就越接近期望结果。

然而,这种高度依赖模型原生能力的交互范式也存在天然上限:
- 受制于上下文长度,难以承载复杂任务;
- 无法接入外部知识与实时信息;
- 更无法从根本上消除“幻觉”带来的不确定性与业务风险。
因此,仅靠 Prompt,并不足以支撑更复杂、可靠的应用形态。
模型是通过上下文窗口来工作的,prompt是其中的一部分。当任务从问答变成执行,问题的重心就从“如何提问”迁移成“如何组织上下文”。
这里的上下文,不只是 system prompt。凡是会进入模型视野、影响其下一步决策的信息,都可以算上下文,例如:
- 提示词
- 用户输入
- 工具定义
- 工具返回结果
- 历史对话
- 检索出的知识片段
- 长短期记忆
- 当前任务状态
那么如何才能有效的组织这些信息呢?还是机械的将它们填充进来吗?肯定不是。

2.1 RAG:解决“模型不知道的私有知识”
私域知识(如产品文档、内部规范、历史记录)通常远超上下文窗口,无法一次性输入模型,因此需要“先检索,再生成”。
RAG 的核心价值在于:让检索结果贴合任务语义,而不仅是字面匹配。
例如搜索“苹果”,既可能命中“5块钱一斤的水果”,也可能命中“8000块的手机”,但真正有用的信息取决于当前任务语境。

一个经典玩笑是:女朋友说“我要买苹果,给我转点钱”,你转了100块,觉得买20斤水果绰绰有余——但她其实想买的是手机。
RAG 的发展也经历了明显的阶段波动:
- 一度流行:“RAG for everything”
- 随着上下文窗口变大、微调能力增强,又出现:“RAG is dead”
但在实际应用中:
- 企业知识问答 / 内部文档检索 / 规范辅助 → RAG 仍然非常关键
- 代码仓库导航 / 精确定位问题 → Grep、Glob、日志、Git 等方式更直接有效
一个典型踩坑案例是调试 Agent:
最初尝试对代码仓库做向量索引,用语义检索定位问题代码,结果召回率很低。原因在于:
- 调试依赖的是:
- 符号名
- 文件路径
- 调用链
- 日志关键词
- 历史改动
- 而不是“语义相似性”
后来改为直接使用 grep + 日志 + Git 记录(甚至接入代码工具链),准确率显著提升。
结论:结构化问题 ≠ 语义检索问题
2.2 Tools:解决“模型无法感知世界与执行动作”
没有工具的 LLM,本质上是一个“缸中之脑”:
- 不知道时间
- 不知道最新信息
- 无法执行任何操作
因此,需要通过工具扩展其能力边界:
- 获取时间 → 时间工具
- 获取外部信息 → 搜索 / API
- 执行操作 → 代码、系统、日志工具
工具机制也在不断演进:
- 正则解析输出 → 调用函数(早期方案,不稳定)
- Function Calling → 更结构化、更可靠
- MCP 等协议 → 将工具能力从模型/客户端中解耦
但工具一多,也会带来新问题:
- 工具描述占用上下文
- 工具选择错误带来执行成本
- 推理复杂度上升
因此新的优化方向是:
按需加载能力(Skills)
将工具与经验封装,在需要时再暴露给模型,而不是一次性提供全部能力。
2.3 Memory:解决“模型没有持续状态”
LLM 天然是“无状态”的,每一轮对话默认都是新的开始,但现实交互并非如此。
但随着对话增长,会带来两个关键问题:
- 哪些信息应该保留?
- 哪些信息需要压缩或外置?
因此逐渐演化出:
- 短期记忆:支持连续对话
- 长期记忆:存储偏好、约束、历史决策
到这个阶段,问题已经不再是简单“拼上下文”,而是:
信息编排(Context Engineering)
2.4 为什么“只补上下文”做不好 Agent?
即使解决了“模型看到什么”,Agent 依然可能不稳定,因为还缺少运行层能力:
- 是否会误用高风险工具(例如误操作导致系统不可用)
- 修改代码后如何验证正确性
- 失败后如何重试或回滚
- 何时停止并汇报(避免过度执行或提前结束)
- 如何记录可追溯的执行过程
如何理解 Harness?
可以用一个非常直观的类比:
一个新入职、经验丰富的工程师,为什么有的人能稳定产出,有的人却很快失控?
影响他的,往往不是“会不会写代码”,而是他的工作环境。
我们通常会为这个工程师提供:
- 一台配置好的电脑(运行环境)
- 明确的规则与权限(边界与约束)
- 必要的软件和工具(能力入口)
- 本领域的知识与经验(隐性规则)
如果把一个能力不错的 Agent 看作“新入职工程师”,那么:
- Prompt → 任务说明
- Context → 你递给他的材料
- Harness → 他所处的工作环境
真正决定 Agent 能否稳定交付的,往往不是模型能力,而是这些“工程条件”:
- 有没有清晰的目标、边界和停止条件
- 有没有合适的权限和运行环境
- 有没有可用的工具与知识入口
- 有没有可观测的反馈信号
- 有没有可追溯的记录系统
Harness Engineering,本质是在构建一个“能持续做事的闭环系统”
3.1 明确目标与停止条件
很多 Agent 的失控,不是因为“听不懂”,而是因为:
系统没有定义清楚什么叫“完成”,以及什么是“禁止动作”
例如在代码任务中,至少需要明确:
- 什么算任务完成(测试通过?功能上线?)
- 哪些目录 / 分支 / 环境禁止修改
- 失败后是继续尝试、回退,还是请求确认
- 哪些步骤必须先汇报再执行
这些约束看起来不像 AI 技术,但实际上:
它们直接决定了多步执行的稳定性
没有约束的 Agent,会天然倾向于“过度行动”。
3.2 显式化隐性知识
实践中,Agent 最常见的错误来源不是能力不足,而是:
不知道那些“人类默认但未写下”的规则
例如“做一个新功能”,在团队里往往隐含:
- 必须补齐哪些埋点
- 埋点字段的兼容要求
- UI 改动需要同步哪些内容
- 哪个目录才是正式发布链路
问题的本质在于:
- 人类沟通高度依赖多模态(语气、上下文、经验)
- 信息密度极高,但没有被结构化表达
这时,Agent 就会用“幻觉”去补全缺失信息。
更好的方式是:
不要只给需求,而要给“新人第一周会被口头交代的那些东西”
3.3 工具:少而通用,按需暴露
工具并不是越多越好,过多工具会带来:
- 选择成本上升
- 工具描述占用上下文
更合理的设计是:
少量通用工具 + 按需扩展
典型最小工具集:
- Read
- Write
- Grep
- Glob
- Bash
这类设计的核心思想是:
- 用少量原子能力覆盖大多数操作
- 将复杂能力下沉到 CLI、脚本和现有工作流中
隐含逻辑是:相信 Agent 足够智能,可以组合工具解决问题而不是为每个动作设计专用接口。
3.4 提供可观测的反馈回路
没有反馈,Agent 就无法形成稳定行为。 它执行了一步操作,但不知道结果对不对,下一步只能继续“猜”。
在工程场景中,关键反馈包括:
- 测试结果
- lint / 类型检查(LSP)
- 运行日志
- 接口或页面真实输出
- 调试信息(浏览器、硬件、串口等)
很多人遇到 Agent 效果不好,第一反应是:
- 改 prompt
但如果系统没有暴露这些反馈:
- 再好的 prompt,也无法替代观测能力
换句话说:
- 一个不会“看结果”的 Agent,不可能稳定迭代
这也是一个重要判断:
- 越依赖真实世界反馈的领域 → 越难被替代(如嵌入式)
- 越纯信息处理的领域 → 越容易被自动化(如部分前端开发)
3.5 构建可检索的记录系统(外部记忆)
上下文窗口是稀缺资源,但长任务天然需要大量信息。
人类不会把所有细节记在脑子里,而是:
把信息外化到文档、代码、日志和版本系统中
Agent 也必须这样。
一个好的记录系统应该是“结构化 + 可检索”的,而不是:把所有知识塞进一个无限增长的 Prompt
更合理的分层方式:
- AGENTS.md → 规则、入口、知识地图
- docs/ → 领域文档、流程说明、排障记录
- git → 代码变化与历史决策
这样带来的好处是:
- 上下文只保留当前最相关信息
- 历史信息可以随时回溯与检索
从这个角度看:
Git 本身就是一种非常适合 Agent 的长期记忆系统
一个关键实践经验
在长任务中,如果不强制 Agent 记录关键决策:
系统一定会逐渐“漂移”
一个有效的机制是:
- 实现前必须先产出设计文档
- 实现过程中如有变更,必须同步更新文档
- 后续任务开始前,必须先回看并引用该文档
这看起来是“文档习惯”,但本质上是:
Harness 的一部分(记忆稳定机制)
最终结论
在长期、多阶段任务中:
- 上下文窗口 → 只负责“当前思考”
- 真正的长期记忆 → 必须外置到系统中
Harness Engineering 的本质
约束 + 能力 + 反馈 + 记忆 的闭环

Prompt Engineering 解决的是如何把任务说明白,Context Engineering 解决的是如何把关键信息摆到模型眼前,Harness Engineering 解决的是如何让模型在真实环境里稳定做事。
三者并不是谁取代谁,而是抽象层次一层层向外扩展。任务越接近真实生产,后两者的重要性就越高。
模型能力越来越强,它所需要更多可能是“给他一个自由发挥的舞台”,人类需要来协助它搭建舞台。而不是反过来,人类强烈的干预它的行为,却不给予它帮助。
如果你用了顶级模型,但 vibe coding 效果不好,大概率不是模型不够聪明,而是还没有给模型提供足够好的运行环境,从而充分发挥它的能力。
纵观这三次范式跃迁,其底层逻辑是一场人类对AI控制权“收放自如”的演进。从最初小心翼翼地推敲对话提示词,到系统性地投喂结构化上下文,再到现在搭建底层框架让多智能体去自主规划与执行,每一次迭代都在进一步将大模型的黑盒能力转化为工程上的确定性。
对于身处这场技术洪流中的开发者而言,单纯探索对话技巧已经远远不够。真正的价值在于拥抱最新的驾驭工程理念,深入研究智能体架构与业务工作流的融合方式,并在日常的开发分支与项目迭代中,将这些前沿理念落地为稳定可靠的系统架构。未来的软件工程,必将是人类开发者与通用智能体深度协同的全新纪元。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2026 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》,下方扫码获取~

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。


最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!


这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。



版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/272827.html