2026年可沉淀复用Skill!中科大开源人机协同智能体系统CastClaw,让时序预测可反思可进化

可沉淀复用Skill!中科大开源人机协同智能体系统CastClaw,让时序预测可反思可进化4 月 22 日 CLI Anything Nanobot 团队负责人黄超老师 HiClaw 项目发起人 阿里云智能高级解决方案架构师付宇轩 中科大副研究员程明月 Zilliz 工程总监陈彪 趋境科技副总裁关嘉伟 ThesisAgent 创始人刘思源 6 位嘉宾将在 OpenClaw 技术研讨会带来主题报告 智猩猩 AI 整理 编辑 没方 时间序列预测贯穿了许多关键决策场景 从电力负荷调度 工业运行监测

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



4月22日,CLI-Anything/Nanobot团队负责人黄超老师,HiClaw项目发起人、阿里云智能高级解决方案架构师付宇轩,中科大副研究员程明月,Zilliz工程总监陈彪,趋境科技副总裁关嘉伟,ThesisAgent创始人刘思源6位嘉宾将在OpenClaw技术研讨会带来主题报告。

智猩猩AI整理
编辑: 没方

时间序列预测贯穿了许多关键决策场景。从电力负荷调度、工业运行监测,到金融风控、供应链管理,预测结果都会直接影响资源配置与业务判断。


但在真实场景里,预测从来不只是“给一段历史数据,再等模型出结果”。研究者和工程师真正面对的,是分布漂移、周期变化、异常冲击、领域约束、算力预算,以及繁琐的实验管理。


正是在这样的背景下,中科大研究团队研发的 。它不是简单包装训练脚本的自动化工具,而是一套面向时间序列预测的人机协同智能体系统。CastClaw 以多智能体协作为组织方式,以为关键机制,以 Skill 沉淀为长期能力来源,希望把预测从一次性模型调用,推进为一个可分析、可审查、可迭代、可积累的协同决策过程。


图片

01

背景介绍


图片


过去几年,时间序列预测方法发展很快。统计模型、深度学习模型以及基础预训练模型不断刷新基准数据集上的指标,但一个问题也越来越明显:benchmark 上的提升,并不自动等价于真实场景中的可靠表现。


现实中的时间序列问题远比标准数据集复杂。它们常常具有更强的非平稳性,更频繁的异常扰动,更具体的行业语义,也更依赖领域知识的参与。例如,在能源场景中,季节变化、节假日效应、极端天气、区域政策都可能影响负荷走势;在工业场景中,设备检修、工况切换、采集噪声和异常停机会改变数据规律;在金融场景中,市场事件与政策信号往往带来突发性的结构变化。


这意味着,预测任务不应被理解为一次静态推理,而更像一个包含观察、分析、决策、验证、反思和修正的动态过程。


然而,传统预测流程通常存在三个共性问题:


因此,下一阶段的时序预测系统,不能只比拼“单个模型是否更强”,还需要重新组织整个预测工作流,让系统具备更强的自主决策能力,也让人类真正参与到关键节点中。


CastClaw 正是在这样的认识下设计出来的。它想回答的,不只是“哪个模型更好”,而是“如何让预测系统像研究者一样,更系统地分析问题、更透明地推进实验,并在与人的协作中持续进化”。


02

CastClaw 介绍


图片


CastClaw 是一个面向时间序列预测的自主交互式智能体框架。整个系统围绕三个专职智能体展开:


  • Planner:负责任务定义、数据诊断、预测前分析与技能草案生成
  • Forecaster:负责基于确认后的技能文件进行迭代实验、模型训练、评估与反思
  • Critic:负责聚合实验结果、生成对比分析、可视化脚本与最终报告


这三个智能体并不是简单串行调用,而是围绕完整的 协同工作。一个典型任务通常包含五个阶段:


初始化任务:明确数据集路径、目标列、时间列、预测步长、回看长度、数据划分方式、评估指标与模型范围。


预测前分析:并发开展定量数据诊断与定性领域调研,形成预测前报告。


技能审核:由 Planner 基于分析结果生成结构化 Skill 文件,并由人类审核确认。


预测迭代:Forecaster 按技能文件驱动实验循环,跟踪预算、记录失败历史、触发反思,并在必要时暂停等待人工反馈。


后置报告:Critic 汇总最优结果、特征分解、可视化与结论,生成最终 Markdown 报告。


在工程实现上,CastClaw 并不把这些能力隐藏在“黑盒”内部,而是通过清晰的工作目录协议组织过程产物。任务状态、实验记录、报告文件和技能文件都保存在 .forecast/ 目录下,让整个流程可见、可追溯、可复现。


在底层运行时上,CastClaw 也兼顾了开放性与工程性:


  • 上层使用 Bun 驱动 CLI/TUI 交互与多智能体编排
  • LLM 层通过 Vercel AI SDK 接入多家模型提供商
  • Python 后端负责时间序列模型训练与评估,使用 uv 管理依赖环境
  • 系统支持统计模型、深度学习模型、基础模型与时序推理模型等多类能力


这也让 CastClaw 不只是一个演示性质的研究原型,而是朝着“可实际运行的预测工作台”去构建。


03

关键特色


1. 先规划,再执行


CastClaw 不会在用户输入一句需求后就立刻跑模型。相反,它会先由 Planner 生成任务规划与预测前分析,让研究者先看清问题定义、数据特征和实验方向,再决定是否进入下一阶段。这样的设计能减少“任务一开始就设错”的连锁误差。


2. 多智能体协同,而非单智能体包打天下


很多系统试图让一个通用智能体同时完成规划、训练、分析和总结,但这往往会造成上下文混乱、职责不清。CastClaw 将流程拆分给三个角色明确的智能体,让每个阶段边界更清晰,也更容易审查和扩展。


3.


CastClaw 在正式实验前,会同时开展两类工作:


这种“双轨融合”的设计,旨在弥补纯数据驱动与纯经验判断各自的局限,让模型选择与实验设计建立在更完整的证据基础上。


4. 人在回路,不把研究者排除在外


CastClaw 并不追求“把人完全拿掉”。相反,它保留了几个关键的人类确认节点,包括任务设定、技能审核、实验停滞处理和关键结果判断。研究者可以在这些节点插入领域知识,对策略进行修正,让自动化真正服务于专业判断,而不是替代它。


5. Skill 机制支持经验沉淀与长期演化


CastClaw 的一个重要设计是 Skill。Planner 会根据当前任务生成结构化技能文件,其中包含模型选择策略、参数搜索空间、适用条件和风险提示。经过人类审核后,这些 Skill 可以沉淀下来,在后续任务中复用。


换句话说,CastClaw 关注的不只是“这一轮实验跑得如何”,也关注“这次任务结束后,系统学到了什么”。


6. 覆盖完整实验生命周期


从数据分析、实验执行、预算管理、失败归因,到最终报告与可视化,CastClaw 覆盖了预测任务的完整链路,而不是只负责其中一个局部环节。这让它更像一个面向研究者的预测工作台,而不是单点模型接口。


7. 开放接入,兼容多类模型与运行环境


CastClaw 支持 20+ LLM 提供商接入,并可结合不同算力环境灵活部署。对于时间序列模型,它支持经典统计方法、深度学习架构以及基础预训练模型,兼顾研究探索与工程落地的多样需求。


04

使用指南


CastClaw 当前已经提供了比较直接的安装与体验路径。如果想快速上手,可以按下面的方式开始。


(1)环境依赖


建议准备以下环境:

  • Bun >= 1.3.11
  • Python >= 3.10
  • uv
  • 可用的 LLM API Key,例如 Anthropic、OpenAI、Google 或 OpenRouter


如果需要运行更重的深度学习模型,可以按实际情况准备 GPU 环境;部分国产算力适配也在持续推进中。


(2)安装


# 安装 CastClaw CLInpm install -g castclaw# 验证基础运行时castclaw –versionpython –versionuv –version# 同步 Python 后端依赖cd python && uv sync

如果以上命令可以正常执行,说明 CLI 与 Python 后端都已基本就绪。

(3)配置 LLM

在环境变量中设置你的模型密钥,例如:

export ANTHROPIC_API_KEY=sk-ant-…export OPENAI_API_KEY=sk-…export GOOGLE_GENERATIVE_AI_API_KEY=…


然后在项目根目录创建 castclaw.json

{  "model": "anthropic/claude-sonnet-4-6",  "light_model": "anthropic/claude-haiku-4-5",  "max_experiments": 20,  "no_improve_threshold": 5}

CastClaw 支持使用 provider/model-id 形式指定模型,因此可以根据成本、合规和性能要求灵活切换。


(4)启动方式


进入你的数据集目录后,直接运行:

castclaw

也可以显式指定模型:

castclaw –model anthropic/claude-sonnet-4-6

TUI 启动后,可以通过 Ctrl+1Ctrl+2Ctrl+3 在 Planner、Forecaster 和 Critic 之间切换。


(5)一个最小使用示例


在 Planner 中,你可以直接用自然语言定义任务。例如:

请为 ./load.csv 初始化一个时间序列预测任务。目标列是 LOAD,时间列是 TIMESTAMP,数据频率为 1 小时。预测步长为 96,回看长度为 336。训练集、验证集、测试集按 7:2:1 划分。评估指标使用 MSE 和 MAE。希望优先考虑 statistical、deep_learning 与 foundation 三类模型。


随后,CastClaw 会进入预测前分析、技能生成、技能审核与实验循环阶段。用户可以在关键节点查看结果、补充约束,也可以使用 CAST.md 提前写入实验规则与偏好。


如果你只是想快速体验,项目主页还提供了样例数据集 load.csv 和演示视频,可以直接作为入门材料。


完整步骤请参考:

https://ustc-time-series.github.io/cast-claw/docs/


05

总结


CastClaw 想做的,并不是再包装一个“更自动化一点”的预测工具,而是探索一种新的系统范式:把预测看作一个可交互、可审查、可反思、可演化的人机协同过程。在这个方向上,今天的 CastClaw 仍然只是第一步,也还有很多值得打磨、修正和重新设计的地方。


真正重要的并不是“一开始就做到完美”,而是先把方向走通,把可验证的系统做出来,把问题公开出来,再和更多研究者、开发者与领域专家一起迭代。


如果 CastClaw 能为读者的研究、项目或思考带来一点启发,那么这套框架就已经体现出了它的价值。对于时间序列预测来说,CastClaw 不是终点,它只是一个起点。


参考文献:

- Cheng M, Tao X, Liu Q, et al. Position: Beyond Model-Centric Prediction–Agentic Time Series Forecasting[J]. arXiv preprint arXiv:2602.01776, 2026.

- Zhang X, Gao T, Cheng M, et al. AlphaCast: A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting[J]. arXiv preprint arXiv:2511.08947, 2025.

- Tao X, Cheng M, Jiang C, et al. Cast-R1: Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting[J]. arXiv preprint arXiv:2602.13802, 2026.

小讯
上一篇 2026-04-13 21:18
下一篇 2026-04-13 21:16

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/258807.html