ChatGPT将其拆解为“Chat”和“GPT”,“Chat”就是用来对话的网页或者APP,“GPT”就是“Generative Pre-Trained Transformers”,常被称之为“大语言模型-LLM(Large Language Model)”。
其实我们已经接触了很多大模型了,典型代表:
这些模型会经常更新,越来越聪明,发个请求过去,就能帮你生成文本、图片和视频等,但它们的能力仅限于“生成”。
拿写邮件举例,你可以让它写邮件标题和内容,也可以让它帮你写回复,内容可能比你还专业,但他不会真正把这封邮件发送出去;写代码也是一样的,它会给你生成很专业的代码,但它不会真正把代码自己跑一遍。
也就是说,大模型不会帮你执行,只会帮你生成你需要的内容,就像一个只会口嗨的高级助手,它的能力永远被困在了对话框里。
易 GPT 阶段:本质是统一认知能力的觉醒(“会想”)
- 只能“说”不能“做”
- 不会读你的项目/改文件/执行命令/跑测试等
- 没有外部世界交互能力
- 无法调用工具 / API
在 GPT 和 Agent 之间,其实存在一个非常关键的过渡阶段:Tool Use(工具调用)
这一阶段的大模型,不再仅仅是“躲在对话框里”的文本生成器,而是演变成了具备“接口意识”的调度中枢。模型开始理解:当自身参数内的知识无法解决问题时,可以向外部系统“求助” 。
✅ 核心机制:Function Calling(函数调用)
大模型不再只输出自然语言,而是能够输出结构化指令(如 JSON)。它会根据用户意图,自主判断是否需要调用工具、调用哪一个工具、以及提取哪些参数。
典型场景:
- 用户问: “帮我查一下现在英伟达的股价,并换算成人民币。”
- 纯 GPT: 可能会告诉你一个 2023 年的老数据,或者因无法联网而拒绝。
- Tool Use 模型: 1. 识别意图 -> 2. 调用
get_stock_price(ticker="NVDA")-> 3. 调用currency_convert(amount, to="CNY")-> 4. 汇总结果回答。
Tool Use 阶段:从 “纯生成” 到 “可连接外部能力“ (“会用”)
- 不再完全依赖参数内知识,开始具备环境感知的雏形
- 能够调用确定性系统(API)来弥补不确定性生成
- 被动触发:是否调用工具,依然依赖用户输入,没有长期目标
- 缺乏规划:只能“用工具”,不会“规划一系列工具怎么用”,面对“帮我写个调研报告并同步到飞书”这种多步骤任务,它无法自发拆解执行链条
- 状态断层:每次调用都是孤立的。它不记得上一次调用工具的反馈对下一步有什么影响,缺乏长期的任务记忆和状态管理
经常关注AI领域的人应该了解到了很多Agent了,典型代表:
✅ Agent = LLM + 工具调用能力 + 任务流程
如果说 GPT 是“大脑”,那么 Agent 就是给大脑接上了“五官”与“肢体”。它不再仅仅是生成一段话,而是通过工具调用(Tool Use) 尝试去改变外部世界。
这一阶段,AI 跳出了“你问我答”的一阶逻辑,进入了 “规划-执行-反馈-调整” 的闭环。
拿写邮件举例:GPT 只能写好草稿等你复制;而 Agent 可以调用 Gmail API,根据你的一句话指令,自动查询日程、撰写内容并真正点击发送。
烙 Agent阶段:具备目标驱动的自主执行能力(会“做事”)
- 实现了 “自主决策”
- 目标导向: 你不再需要告诉它每一步怎么做,你只需要给它一个目标
- 不稳定:容易陷入“无效循环”,一旦一步出错,后续步骤会迅速发散
- 成本高:复杂的规划会消耗大量 Token,且成功率并不总是令人满意
- 缺乏工程约束:它虽然有工具,但不懂工程规范(比如直接在生产环境删库跑路)
这是目前 AI 发展的最前沿,它将 Agent 的能力直接扎根于生产环境,典型代表:
从“单次任务”到“工程闭环”:拿写代码举例,普通 Agent 会简单地根据任务目标改一个代码文件并运行;工程化 Agent 会克隆仓库、创建分支、运行测试、根据报错反复Debug、最后提交PR。它不再只是一个插件,而是一个拥有独立工作位的工程师。
烙 工程 Agent 阶段:进入生产环境(真的“干活”)
- 环境原生: AI 运行在沙盒中,拥有真正的文件系统、编译器和浏览器权限。
- 状态感知: 它能感知整个项目的上下文,知道改动 A 文件会对 B 文件产生什么连锁反应。
- 自我纠错: 不再盲目输出,而是通过运行结果来验证并修正自己的行为。
- AI IDE: 是 Agent 的 “物理载体” 或 “工位”(如 Cursor、Trae、Windsurf、Kiro等)
- Engineering Agent: 是在工位里操作的 “熟练工”
✅AI IDE 本质是:IDE + 内置 Agent + LLM
✅ 一句话总结:没有 Agent 的,是帮你写代码;有 Agent 的,是替你写代码
✅ 没有 Agent 的 AI,是“助手”;有 Agent 的 AI,是“替身”
看透 AI IDE、Agent 与 LLM 之间的层级依赖。它们之间是一个单向赋能的逻辑链条:
易 LLM ➡ 烙 Agent ➡ ️ AI IDE
(大脑) ➡ (手脚) ➡ (工作环境)
很多人会误以为这三者是捆绑的,但实际上 “向下兼容,向上不保证”:
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/249608.html