2026年【Datawhale2604】Hello-agents task01 智能体经典范式构建

【Datawhale2604】Hello-agents task01 智能体经典范式构建task01 智能体经典范式构建 文章目录 系列文章目录 前言 一 ReAct 二 Plan and Solve 三 Reflection 总结 Datawhale Hello Agents 教程 ReAct 本质是一个闭环控制系统 LLM 是控制器 tool 是执行器 环境是被控对象 Observation 是传感器反馈 环节 控制论对应 作用 教材代码体现 Thought

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



  • task01 智能体经典范式构建

文章目录

  • 系列文章目录
  • 前言
  • 一、ReAct
  • 二、Plan-and-Solve
  • 三、 Reflection
  • 总结

  • Datawhale Hello-Agents 教程

ReAct 本质是一个闭环控制系统

  • LLM 是控制器,tool 是执行器,环境是被控对象,Observation 是传感器反馈。
环节 控制论对应 作用 教材代码体现 Thought 状态估计+策略计算 基于历史观测,决定下一步动作 response_text 中的思考段落 Action 控制指令下发 调用具体工具(Search/Calculator等) Action: Search[…] Observation 传感器反馈 返回环境真实状态,修正模型认知 tool_function(tool_input) 返回值 History 状态记忆寄存器 累积 (a, o) 对,维持上下文连续性 self.history.append(…)
  • 用 Mermaid 看清数据及状态如何在循环中累积:


  • Reflection 不是"多调一次 LLM",而是认知范式的根本切换
范式 认知模式 人类类比 核心缺陷 Reflection 生成-评审-重构闭环 写论文→导师批注→修改二稿→终稿 成本高,但产出质量呈阶梯式跃升
  1. 角色解耦:LLM 不擅长"自己检查自己"。Reflection 强制将模型拆分为 Generator 创作者Critic 评审员,利用不同 Prompt 激活不同的参数子空间。
  2. 质量驱动 vs 进度驱动:前两种范式追求"完成任务",Reflection 追求"达到质量标准"。它把任务从开环控制(Open-loop)升级为带监督的闭环控制(Closed-loop with Supervisor)。
  3. 收敛思维:人类会判断什么时候该停止再修改了。Reflection 必须内置收敛判定逻辑,否则会变成无限内耗。

小讯
上一篇 2026-04-16 21:21
下一篇 2026-04-16 21:19

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/267188.html