本文是「从零 build agent」系列教程的第一篇,旨在帮助你理清 Agent 开发中的核心概念。如果你对这个系列感兴趣,欢迎关注 https://github.com/KieSun/how-to-build-agent 获取完整教程和代码示例。
如果你关注 AI 领域,肯定被这些术语轰炸过:Agent、Tool、Function Calling、ReAct、Memory、RAG、MCP、Skill 等等。
单独看每个词,大概能理解个意思,但真要动手搭一个 Agent 系统时,你会发现这些概念之间边界模糊、关系复杂,很容易陷入好像懂了但又没完全懂的状态。
更现实的问题是,现在越来越多公司招人时要求”熟悉 AI 工具使用”,面试里关于 Agent 的概念问题也变多了。不少人确实用过 ChatGPT、Claude 或各种 Agent 产品,但被问到”Agent 和普通 LLM 调用有什么区别”、”什么是 Tool Calling”、”ReAct 是什么”时,往往答得模棱两可。用过是一回事,说清楚原理和边界是另一回事——这种理解偏差在面试中很容易暴露。
因此在从零开始搭一个完整的 Agent 系统前,我们得先把这些核心概念理清楚:它们到底是什么、解决什么问题、在整个系统里扮演什么角色。
就算你暂时不打算动手搭 Agent,这些概念也值得认真了解。无论是用现成的 Agent 框架、读相关论文、还是评估 AI 产品的能力边界,理解这些术语的准确含义都会让你少走很多弯路。更重要的是,当你看到一堆术语宣传时,能判断出它到底在说什么,而不是被术语唬住。
下面是你在搭或使用 Agent 过程中会反复遇到的关键概念。我会用最直白的方式解释它们,并标出容易混淆的地方。
1)LLM(大语言模型)
接收文本,生成文本的程序。你给它一段话,它接着往下写或者回答你的问题。在我们使用 AI 的过程中,它就是负责"思考"和"决策"的核心,但是也仅限于此。
2)Token
模型处理文本的最小单位,也是计费单位,一个 token 大概是 0.75 个英文单词。你调用模型时,输入和输出都按 token 数量收费,每个模型的收费各不相同,比如 Claude Opus 就很贵。
3)Context(上下文)
模型这次调用实际看到的所有内容——对话历史、你提供的文件、检索到的资料、工具返回的结果等。
3)Context window(上下文窗口)
模型一次能看见多少内容的上限,超过这个量,前面的内容就会被截掉从而导致丢失信息。
4)Prompt(提示词)
你给模型的输入,包括指令、问题、示例、背景资料等。可以理解为这次你想让它干什么。
5)System prompt(系统指令)
比普通 prompt 更高优先级的规则,用来设定模型的全局行为、回答风格、安全边界等。通常在对话开始前就设置好,整个会话都生效。
6)AGENTS.md
放在代码仓库里的"项目说明书",告诉 coding agent 这个项目怎么跑、怎么测、代码风格是什么等等。
7)Tools(工具)
让模型能操作真实外部世界的功能:读写文件、执行命令、查数据库、调接口等。有了工具,模型才能从只会说变成能做事。
8)Function Calling
让模型按格式(一般是 JSON Schema)决定调用哪个函数并生成符合要求的参数,然后让程序执行对应函数,再把结果返回给模型继续思考。
9)Structured Output / Schema(结构化输出)
让模型按你要求的格式输出结果(比如 JSON)。这样你就能稳定地解析它的回答,不用担心格式乱七八糟。
10)Agent(智能体)
模型 + 工具 + 记住当前进度 + 反复执行的循环。它不是一次性给答案,而是会多轮思考、调用工具、根据结果调整计划,直到完成任务。
11)Agentic loop(执行闭环)
Agent 的工作方式:想下一步该干什么 → 调工具去做 → 看结果 → 根据结果决定下一步,一直循环到任务完成或达到终止条件。
12)ReAct
ReAct(Reasoning and Acting)是当前智能体最主流的设计模式,核心是 Thought → Action → Observation 的循环:
这种循环让模型能用外部信息纠正自己的想法,而不是一次性瞎猜到底。
13)Memory(记忆)
目前主流 Agent 系统里,通常会维护三类信息层:
14)RAG(检索增强生成)
先从外部知识库里找相关资料,再让模型基于这些资料生成答案。模型本身不可能记住所有东西,因为 context window 是有限的,RAG 让它能查相关资料再回答。
15)Embeddings(向量表示)
把文本/代码转成一串数字,方便计算机判断哪些内容意思相近。RAG 主要就是靠这个来按相关性找资料。
16)Vector Store(向量库)
支持向量相似度检索的存储/索引层,负责执行快速的最近邻搜索。
17)SKILL(技能包)
把可复用的流程/规范打包成一个目录(必选的说明文档 SKILL.md + 可选的脚本/资料)。支持按需加载:先注入元信息,真要用时再把完整内容加载进来,省 token。
18)SubAgent(子智能体)
把子任务交给专门的 agent 去做,隔离上下文,避免主对话被污染。Claude Code 支持自定义 subagents 来做任务分工。
19)Multi-agent(多智能体)
多个 agent 并行干活(比如一个探索代码库、一个写实现、一个写测试),最后把结果汇总。
20)MCP(模型上下文协议)
Anthropic 提出的开放协议标准,是 LLM 应用(client)和外部系统(server)之间的协议标准。解决了工具集成碎片化的问题,不用再为每个工具写专门的适配代码,只要实现 MCP 协议就能让任何 Agent 调用,类似 USB 接口统一了硬件连接标准。
21)Sandbox(沙盒)
给 agent 的可控执行环境,把它能接触的资源圈在一个安全边界里(比如只能读写某个工作目录、网络访问受限、命令白名单等),避免模型一时冲动就把系统文件删了或把密钥发出去。
很多人误以为 LLM 就是 Agent,这是最核心的误解:
类比:LLM 像一个博学的顾问,只能给建议;Agent 像一个数字牛马,能实际干活。
这两个都是给模型的输入,但优先级和作用范围完全不同:
类比:System Prompt 是员工的"岗位职责说明书",Prompt 是你每次交给他的"具体任务单"。
这三个概念在 RAG 系统中紧密协作,但各司其职:
关系链:RAG 是目标 → Embeddings 是实现手段 → Vector Store 是承载工具
类比:RAG 像"图书馆问答系统",Embeddings 是"图书编码系统",Vector Store 是"智能书架"。
类比:Context 是你桌上摊开的所有文件,Context Window 是你桌子的大小。
关系:Function Calling 是”调用标准”,Tools 是”被调用的东西”。
类比:Function Calling 是”遥控器的按键协议”,Tools 是”被遥控的各种家电”。
原文链接:https://mp.weixin..com/s/nosF5wDa7yCr8kiC3NKbNg
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/256936.html