2026年【Datawhale2604】Hello-agents task01 智能体经典范式构建

科技前沿 • 2026-04-16 21:20 • 阅读 0

【Datawhale2604】Hello-agents task01 智能体经典范式构建task01 智能体经典范式构建文章目录系列文章目录前言一 ReAct 二 Plan and Solve 三 Reflection 总结 Datawhale Hello Agents 教程 ReAct 本质是一个闭环控制系统 LLM 是控制器 tool 是执行器环境是被控对象 Observation 是传感器反馈环节控制论对应作用教材代码体现 Thought

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

task01 智能体经典范式构建

文章目录

系列文章目录
前言
一、ReAct
二、Plan-and-Solve
三、 Reflection
总结

Datawhale Hello-Agents 教程

ReAct 本质是一个闭环控制系统。

LLM 是控制器，tool 是执行器，环境是被控对象，Observation 是传感器反馈。

环节控制论对应作用教材代码体现 Thought 状态估计+策略计算基于历史观测，决定下一步动作 response_text 中的思考段落 Action 控制指令下发调用具体工具（Search/Calculator等） Action: Search[…] Observation 传感器反馈返回环境真实状态，修正模型认知 tool_function(tool_input) 返回值 History 状态记忆寄存器累积 (a, o) 对，维持上下文连续性 self.history.append(…)

用 Mermaid 看清数据及状态如何在循环中累积：

Reflection 不是"多调一次 LLM"，而是认知范式的根本切换。

范式认知模式人类类比核心缺陷 Reflection 生成-评审-重构闭环 写论文→导师批注→修改二稿→终稿成本高，但产出质量呈阶梯式跃升

角色解耦：LLM 不擅长"自己检查自己"。Reflection 强制将模型拆分为 Generator 创作者 和 Critic 评审员，利用不同 Prompt 激活不同的参数子空间。
质量驱动 vs 进度驱动：前两种范式追求"完成任务"，Reflection 追求"达到质量标准"。它把任务从开环控制（Open-loop）升级为带监督的闭环控制（Closed-loop with Supervisor）。
收敛思维：人类会判断什么时候该停止再修改了。Reflection 必须内置收敛判定逻辑，否则会变成无限内耗。

小讯

2026年GLM-4.1V-9B-Bate与MySQL深度整合：海量图像特征向量存储与检索方案

上一篇 2026-04-16 21:21

Skill知识库搭建教程[源码]

下一篇 2026-04-16 21:19

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们，一经查实，本站将立刻删除。
如需转载请保留出处：https://51itzy.com/kjqy/267188.html