LLM大模型中AI-Agent智能体应用开发相关知识介绍

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

LLM大模型和Agent应用开发相关文章合集：

https://github.com/jiujuan/llm-agent-notebook

AI Agent（人工智能代理或智能体）应用是当前人（2026）工智能领域最有前景的发展方向之一。简单的说，AI Agent 是一种能够自主感知环境、进行决策、执行动作的智能系统。与传统的静态 AI 模型不同，AI Agent 具备主动性、反应性和适应性，能够在复杂环境中完成多步骤任务。

在 2024-2025 年的大模型时代，AI Agent 成为了LLM（大型语言模型）落地应用的核心载体。大模型虽然具备强大的语言理解和生成能力，但本身只是被动响应查询的工具。而 AI Agent 则赋予了大模型"行动能力"，它不仅具备语言理解与生成能力，还能通过多轮对话和语义推理，实现动态响应，它能够调用工具、访问外部信息、规划任务执行流程，并在执行过程中不断调整策略。

这种从被动回答到主动行动的转变，使得 AI Agent 能够真正成为人类的智能助手，在编程、数据分析、研究辅助、智能客服、个人助手等众多场景中发挥价值。

AI Agent 的特征包括：

决策能力：基于信息推理规划，选择行动策略
感知能力：从环境中获取必要信息，如传感器、摄像头、API等数据源
行动能力：执行具体任务或操作
协作能力：与其它 Agent 或人类协作
学习能力：通过与环境的交互不断改进策略

这些特征使得 AI Agent 不仅仅是简单的问答工具，而是能够真正参与工作流程的智能实体。

在 AI Agent 开发中，对 LLM 大模型知识的深入理解是为 AI Agent 应用开发打下良好的基础。

首先需要掌握 Transformer 架构的原理，这是现代大语言模型的核心基础。Transformer 通过自注意力机制（Self-Attention）实现了对序列数据的长距离依赖建模，理解其工作原理对于后续的 Agent 开发有很大的帮助。

其次是提示工程（Prompt Engineering）技术。提示工程是调用大模型能力的核心技能，包括如何设计有效的系统提示（System Prompt）、用户提示（User Prompt）和上下文提示（Context Prompt）。在 Agent 开发中，提示工程直接影响模型的推理能力和任务完成质量。需要掌握的技术包括：思维链提示（Chain of Thought）、few-shot 学习、角色扮演提示、以及结构化输出提示等高级提示技术。

第三是模型能力与限制的理解。不同的大模型在推理能力、长上下文处理、多模态理解、代码生成等方面表现的差异。Agent 开发者需要了解如何根据任务需求选择合适的模型，也就是大模型的选型能力，以及如何通过技术手段弥补特定模型的不足。例如，了解模型的幻觉问题并设计相应的验证机制，了解模型的上下文窗口限制并设计合理的记忆管理策略等等。

第四是模型部署与服务化相关的知识。虽然不是每个 Agent 开发者都需要训练模型，但理解模型推理的性能特征、资源消耗、以及如何通过 API 或本地部署方式调用模型是必要的基础知识。

下面这张图是 OpenAI 应用研究主管翁丽莲(Lilian Weng)写的一篇 blog 文章里的: LLM Powered Autonomous Agents，将 Agent 定义为LLM + memory + planning + Tools + Action，即大语言模型、记忆、任务规划、工具使用的集合。

Agent的基本组件组成

（图来自 Lilian Weng 的 blog， Agent 结构组成图）

上面的图定义了 Agent 由 4 个组件组成：

Planning 规划模块：负责信息决策，任务规划，分解为子任务。里面还有 4 个子类
- Subgoal decomposition 目标分解，分解为子目标
- Chain of thoughts 思维链，连续学习思考
- Reflection & Self-critics 反思和自我修正，如何对过去的行为进行自我批评和反省，并指导接下来的行动
Memory：记忆模块。长期记忆和短期记忆
Tools：调用工具执行任务。比如日历、计算器、代码解释器和搜索功能等等工具，或者其它工具，这些扩展了 Agent 的能力。
Action：执行动作。根据规划和记忆来执行具体行动。

还有的将 Agent 的基本组成结构分为以下四个核心组件：

感知模块（Perception）：负责收集环境信息。把收集的信息转换为对自然语言输入的理解，如句法分析、关键词提取。实现多轮对话的上下文理解等等。
推理引擎（Reasoning Engine）：负责分析信息和做出决策，一般是调用 LLM 做推理。比如确定请求类型是查询、生成还是操作等。任务分解与规划，将复杂任务划分为多个子步骤等。
工具库（Tools）、行动模块：将决策结果转换为具体执行动作。比如工具的调用、对 API 接口调用或外部系统控制，是实际完成任务的系统。
记忆模块（Memory）：负责存储和检索信息。存储 Agent 智能体运行过程中的短期与长期记忆的信息，包括用户历史对话信息、中间状态信息、上下文摘要等，是支持多轮交互与状态保持的记忆系统。

这四个组件相互作用组成复杂 Agent 系统的基础。

Agent的四个组件

规划与推理能力是 Agent 区别于普通 AI 应用的关键技术。

这包括任务分解（Task Decomposition）将复杂任务拆分为可执行的子任务、目标重构（Goal Rewriting）根据执行反馈调整目标、思维链推理（Chain of Thought）展示推理过程提高可解释性、以及反思机制（Reflection）让 Agent 评估自身行为的有效性。

工具调用（Tool Calling）是 Agent 与外部世界交互的重要能力。

这涉及如何定义工具规范、构建工具描述、实现工具调用接口、以及处理工具返回结果。需要了解工具调用的错误处理、权限控制、以及多个工具的协同调用等高级主题内容。

记忆管理是构建长期交互 Agent 的关键技术。

这包括短期记忆（当前会话上下文）、长期记忆（持久化存储的知识和经验）、以及如何实现记忆的检索和遗忘机制。常用的技术包括向量数据库、知识图谱、以及基于规则的记忆管理策略。

Agentic AI 技术栈分层图

Agent-Stack-技术栈分8层图

（图来自：Aakash Gupta）

基础设施层 (Infrastructure Layer)：这是整个系统的物理和底层网络支撑。

计算资源： GPU/TPU、云端数据中心。
存储与数据：数据湖/仓库、S3/GCS 存储。
通信与调度： REST/GraphQL API、Airflow/Prefect 任务调度。

智能体互联网层 (Agent Internet Layer)：专注于智能体之间的连接与状态管理。

核心功能：自主智能体系统、智能体 action 、长短记忆、工具使用。
状态维护：嵌入向量数据库（Pinecone, Weaviate）、运行环境、网格网络。

协议层 (Protocol Layer)：定义了智能体之间及与外部通信的标准。

通信协议： A2A（智能体对智能体）、MCP（模型上下文协议）。
协作规范：协商协议、网关协议、函数调用协议（FCP）。

工具层 (Tooling Layer)：赋予智能体“手”和“眼”，让其能与现实世界交互。

能力增强： RAG（检索增强生成）、代码执行沙箱、浏览模块。
外部集成：函数调用（OpenAI Tools）、计算器、插件集成系统。

认知层 (Cognition Layer)：这是智能体的“大脑”核心，负责思考与逻辑。

决策机制：推理引擎、规划（Planning）、自我改进。
反馈控制：错误处理、伦理护栏、反馈循环。

记忆层 (Memory Layer)：管理智能体的知识储备和历史经验。

存储类型：工作记忆（WM）、长期记忆（LM）。
个性化：用户画像、对话历史、偏好引擎。

应用层 (Application Layer)：针对具体行业或场景的落地形态。

个人助手：创作工具、娱乐、日程自动化。
企业应用：电商智能体、研发助手、安全监控、协作文档。

治理层 (Governance Layer)：负责系统的安全性、合规性和可控性。

管理工具：部署流水线、成本优化（CO）、监控工具。
合规与信任：数据隐私强制执行、审计日志、信任框架、预算管理。

letta的技术Agent Stack

下面的 AI Agent Stack 图来来自 letta blog:

AI-Agent技术栈

（AI Agent技术栈图来自 letta.com）

详细的解释可以看这里：https://www.letta.com/blog/ai-agents-stack

构建AI Agent应用涉及多个技术层次的协同工作，下面用图展示完整的技术分层架构：

AI-Agent应用技术分层架构

AI Agent 的架构设计通常遵循“感知-规划-行动”的经典范式，各模块各司其职，形成一个完整的认知闭环。

模块核心职责关键技术/实现 1. 感知模块 作为 Agent 的“五官”，负责接收、理解并融合来自用户或环境的输入信息（文本、图像、语音等）。大语言模型、多模态模型、语音识别 2. 记忆模块 作为 Agent 的数据库与经验库，负责存储和管理信息。 - 短期记忆：当前会话上下文 - 长期记忆：向量数据库、知识图谱 3. 规划模块 作为Agent的“大脑”，负责拆解复杂任务、制定执行计划，并在执行后反思优化。思维链、ReAct、任务分解、自我反思 4. 行动模块 作为Agent的“手脚”，负责执行规划好的具体动作，并调用外部工具完成任务。函数调用、代码解释器、API集成 5. 工具集 Agent的外部能力，让Agent突破自身局限，获取实时信息或执行实际操作。搜索引擎、计算器、数据库查询、第三方API

Agent 整个系统的工作流程如下：

感知与输入：用户输入任务后，感知模块进行预处理。
记忆检索：系统立即检索长期记忆中的相关知识，并结合短期记忆，将上下文注入给规划模块。
规划与决策：规划模块对任务进行拆解，制定出包含一系列步骤的初始计划，并决定每一步需要调用哪些工具。
循环执行（核心）：这是最关键的环节。Agent 进入“思考-行动-观察” 的循环：
- 思考：根据当前状态决定下一步行动。
- 行动：行动模块调用相应工具，传入参数并执行。
- 观察：获取工具执行后的反馈结果。

此循环将持续进行，直到任务完成或达到终止条件。

记忆更新：整个过程中的关键信息、中间结果和最终答案，都会被编码并存储到长期记忆中，以供未来复用。

下图是 AI Agent（基于ReAct模式）内部执行流程图，展示了从用户输入到最终输出的完整闭环。

上面流程图逻辑说明：

蓝色节点：流程的起止与核心决策点。
橙色节点：核心的处理模块（感知、规划、行动）。
绿色节点：记忆相关模块（短期与长期记忆），其中更新长期记忆用虚线连接，表示这是一个异步的后台过程。
紫色节点：工具集，代表 Agent 可调用的外部能力。

上图中的关键循环：从 规划模块 到 行动模块，再到 工具集，最后反馈回规划模块，形成“思考-行动-观察”的闭环，这是 Agent 智能化的核心体现。

1. Python生态框架

Python 是目前 AI Agent 开发的主导语言，拥有最丰富的框架选择。

框架开发方核心定位主要特性 LangGraph/LangChain LangChain 链式、状态驱动的工作流引擎图状态管理、循环控制、检查点持久化、人工干预接口 AutoGen 微软对话驱动的多智能体协作群聊模式、代码执行沙箱、动态任务委派 CrewAI 社区角色编排框架角色定义、任务依赖链、层级流程管理 AgentScope 阿里巴巴分布式多智能体平台 Actor 模型、低代码开发、可视化 WebUI Youtu-Agent 腾讯优图零闭源依赖框架 YAML 配置、DeepSeek-V3 优化、成本可控 Phidata 社区数据处理专家向量分析、金融/客服数据场景

2. TypeScript生态框架

框架开发方核心定位主要特性 Vercel AI SDK Vercel（官方） TypeScript 优先的全栈 AI 应用与 Agent 开发工具包，提供统一的模型接口、流式响应、工具调用和多步 Agent 编排能力 • 统一的 LLM 提供商接口（OpenAI、Anthropic、Google、Mistral 等）• 内置 Agent 抽象层（Experimental_Agent / ToolLoopAgent）• 类型安全的工具定义（Zod schema 验证）• 一流的流式响应支持（SSE）• React/Vue/Svelte 前端 Hooks• 多步 Agent 循环控制（stopWhen + stepCountIs） Copilotz 社区（Deno 生态）全栈 AI 应用框架 • 支持 15+ LLM 提供商统一接口 • 多智能体协作（@mention 语法） • 内置 15+ 原生工具 • OpenAPI 自动工具化 • MCP 协议支持 • 内置 RAG 知识库 TSAgent 社区企业级 Agent 平台 • YAML 配置驱动（提示词、规则、参考文档） • 多提供商支持（OpenAI、Anthropic、Bedrock 等） • 完整 MCP 客户端实现 • 会话管理与持久化 • 流式响应、A2A 协议支持 VoltAgent 社区（Volt 团队）模块化 AI Agent 框架 • 模块化设计（core + voice 等扩展包） • 多智能体系统（Supervisor 协调 Sub-Agent） • 内置 VoltOps LLM 可观测性平台 • MCP 协议支持 • 工具钩子、取消支持、可配置记忆 Storyframe 社区（Project65）类型安全的 Agent 框架 • TypeScript 优先，完整类型定义 • Zod 定义自定义响应格式（强制结构化输出） • 流式响应支持 • 可插拔存储（InMemory、Supabase） • 回调系统（工具执行生命周期钩子） • 动态系统提示词模板 @clo/agents alphaXiv 团队极简实用 Agent 库 • 数据库友好（扁平输出） • .cli() 方法一键转为命令行工具 • 工具可返回多值 • 自动重试提供商错误（含流式） • 屏蔽不同提供商的约束差异 Agent Forge 社区 Agent 配置与编排框架 • 专注于 Agent 的创建、配置和编排 • 连接 LLM 的标准化接口 • 轻量级设计，适合快速上手

3. Java生态框架

Java 生态以企业级稳定性著称，适合与现有业务系统集成。

框架开发方核心定位主要特性 Spring AI Alibaba 阿里云 Java 智能体开发框架 Spring 生态集成、百炼平台对接、MCP 协议支持 Semantic Kernel 微软企业级AI集成框架多语言支持 (C#/Java/Python)、插件重用、企业安全管控

4. Go生态框架

Go 语言在高并发和微服务场景具有天然优势。

框架开发方核心定位主要特性 Eino 字节跳动 Go LLM 应用框架编排优先设计、组件化架构、类型安全的流式处理

1. 代码优先框架

适合需要精细控制、复杂业务逻辑的工程化项目。

LangGraph：将 Agent 建模为有向图，通过节点和边管理复杂循环和自我纠错，支持断点恢复和人类参与循环。适用场景：需要状态跟踪的长周期任务（如客服工单系统、RAG 结果优化）。

AutoGen：采用对话式编程模式，Agent 通过自然语言对话进行任务委派和协作。支持群聊、代码执行沙箱和实时调试。适用场景：自主代码助手、研究助理、事件响应系统。

Pydantic-AI：专注结构化输出，通过 Pydantic 模型强制约束LLM输出格式，自动处理验证错误重试。适用场景：需要稳定JSON输出的数据抽取、报告生成。

2. 多智能体协作框架

适合需要多个角色分工协作的复杂场景。

CrewAI：以”角色扮演”为核心，通过明确的Agent角色、目标和任务依赖链实现协作，支持顺序和层级两种流程模式。适用场景：内容生产团队、竞品分析自动化、营销运营工作流。

MetaGPT：用软件公司组织架构管理Agent团队，包含产品经理、架构师、工程师等角色，遵循SOP标准流程。适用场景：软件开发、科研论文、商业分析。

AutoGen（也归属此类）：多智能体群聊模式，Agent之间可以辩论、审查和迭代改进。适用场景：代码审查、测试用例生成、多角色协商。

3. 低代码/可视化框架

适合快速原型验证、非技术团队使用。

框架特点适用场景 Dify 拖拽式流程编排、模板市场企业快速验证场景 Coze 零代码拖拽式构建 AI 应用，1 万+ 插件生态，无缝集成抖音、飞书、微信等，开源版本提供开发、评测、编排三件套 • 快速搭建抖音/微信聊天机器人• 营销活动助手、客服智能体• 创意项目原型验证• 运营人员主导的对话式 AI 应用 n8n • 开源自托管优先，Apache 2.0 协议 • 400+ 应用集成节点（数据库、SaaS、API）• 可视化工作流编排，支持条件分支与循环• 内置 AI 节点，可调用 OpenAI 等模型 • 跨系统数据同步（如 CRM→数据库→通知）• ETL 管道与业务流程自动化 • 内部审批流、监控告警<• 技术团队主导的灵活自动化集成 Lindy 无需编码、运营友好非技术人员构建Agent AgentScope 低代码+可视化WebUI 复杂多智能体快速开发

上面使用 AI 总结的部分 AI Agent 框架，还有很多 Agent 框架未列出，读者请自行搜索。

https://lilianweng.github.io/posts/2023-06-23-agent/ LLM Powered Autonomous Agents 大语言模型驱动的智能体作者：Lilian Weng
https://www.zhihu.com/question/ 如何最简单、通俗地理解Transformer
https://www.letta.com/blog/ai-agents-stack AI Agent技术栈 letta.com
https://aakashgupta.medium.com/the-8-architectural-layers-of-agentic-ai-a-complete-guide-for-product-managers-6794d75ac988 AI Agent的技术栈8个分层图：产品经理完整指南
https://cloud.tencent.com.cn/developer/article/?policyId=1004 Agent开发框架对比分析报告