2026年可沉淀复用Skill！中科大开源人机协同智能体系统CastClaw，让时序预测可反思可进化

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

4月22日，CLI-Anything/Nanobot团队负责人黄超老师，HiClaw项目发起人、阿里云智能高级解决方案架构师付宇轩，中科大副研究员程明月，Zilliz工程总监陈彪，趋境科技副总裁关嘉伟，ThesisAgent创始人刘思源6位嘉宾将在OpenClaw技术研讨会带来主题报告。

智猩猩AI整理

编辑：没方

时间序列预测贯穿了许多关键决策场景。从电力负荷调度、工业运行监测，到金融风控、供应链管理，预测结果都会直接影响资源配置与业务判断。

但在真实场景里，预测从来不只是“给一段历史数据，再等模型出结果”。研究者和工程师真正面对的，是分布漂移、周期变化、异常冲击、领域约束、算力预算，以及繁琐的实验管理。

正是在这样的背景下，中科大研究团队研发的。它不是简单包装训练脚本的自动化工具，而是一套面向时间序列预测的人机协同智能体系统。CastClaw 以多智能体协作为组织方式，以为关键机制，以 Skill 沉淀为长期能力来源，希望把预测从一次性模型调用，推进为一个可分析、可审查、可迭代、可积累的协同决策过程。

背景介绍

过去几年，时间序列预测方法发展很快。统计模型、深度学习模型以及基础预训练模型不断刷新基准数据集上的指标，但一个问题也越来越明显：benchmark 上的提升，并不自动等价于真实场景中的可靠表现。

现实中的时间序列问题远比标准数据集复杂。它们常常具有更强的非平稳性，更频繁的异常扰动，更具体的行业语义，也更依赖领域知识的参与。例如，在能源场景中，季节变化、节假日效应、极端天气、区域政策都可能影响负荷走势；在工业场景中，设备检修、工况切换、采集噪声和异常停机会改变数据规律；在金融场景中，市场事件与政策信号往往带来突发性的结构变化。

这意味着，预测任务不应被理解为一次静态推理，而更像一个包含观察、分析、决策、验证、反思和修正的动态过程。

然而，传统预测流程通常存在三个共性问题：

因此，下一阶段的时序预测系统，不能只比拼“单个模型是否更强”，还需要重新组织整个预测工作流，让系统具备更强的自主决策能力，也让人类真正参与到关键节点中。

CastClaw 正是在这样的认识下设计出来的。它想回答的，不只是“哪个模型更好”，而是“如何让预测系统像研究者一样，更系统地分析问题、更透明地推进实验，并在与人的协作中持续进化”。

CastClaw 介绍

CastClaw 是一个面向时间序列预测的自主交互式智能体框架。整个系统围绕三个专职智能体展开：

Planner：负责任务定义、数据诊断、预测前分析与技能草案生成
Forecaster：负责基于确认后的技能文件进行迭代实验、模型训练、评估与反思
Critic：负责聚合实验结果、生成对比分析、可视化脚本与最终报告

这三个智能体并不是简单串行调用，而是围绕完整的协同工作。一个典型任务通常包含五个阶段：

①初始化任务：明确数据集路径、目标列、时间列、预测步长、回看长度、数据划分方式、评估指标与模型范围。

②预测前分析：并发开展定量数据诊断与定性领域调研，形成预测前报告。

③技能审核：由 Planner 基于分析结果生成结构化 Skill 文件，并由人类审核确认。

④预测迭代：Forecaster 按技能文件驱动实验循环，跟踪预算、记录失败历史、触发反思，并在必要时暂停等待人工反馈。

⑤后置报告：Critic 汇总最优结果、特征分解、可视化与结论，生成最终 Markdown 报告。

在工程实现上，CastClaw 并不把这些能力隐藏在“黑盒”内部，而是通过清晰的工作目录协议组织过程产物。任务状态、实验记录、报告文件和技能文件都保存在 .forecast/ 目录下，让整个流程可见、可追溯、可复现。

在底层运行时上，CastClaw 也兼顾了开放性与工程性：

上层使用 Bun 驱动 CLI/TUI 交互与多智能体编排
LLM 层通过 Vercel AI SDK 接入多家模型提供商
Python 后端负责时间序列模型训练与评估，使用 uv 管理依赖环境
系统支持统计模型、深度学习模型、基础模型与时序推理模型等多类能力

这也让 CastClaw 不只是一个演示性质的研究原型，而是朝着“可实际运行的预测工作台”去构建。

关键特色

1. 先规划，再执行

CastClaw 不会在用户输入一句需求后就立刻跑模型。相反，它会先由 Planner 生成任务规划与预测前分析，让研究者先看清问题定义、数据特征和实验方向，再决定是否进入下一阶段。这样的设计能减少“任务一开始就设错”的连锁误差。

2. 多智能体协同，而非单智能体包打天下

很多系统试图让一个通用智能体同时完成规划、训练、分析和总结，但这往往会造成上下文混乱、职责不清。CastClaw 将流程拆分给三个角色明确的智能体，让每个阶段边界更清晰，也更容易审查和扩展。

3.

CastClaw 在正式实验前，会同时开展两类工作：

这种“双轨融合”的设计，旨在弥补纯数据驱动与纯经验判断各自的局限，让模型选择与实验设计建立在更完整的证据基础上。

4. 人在回路，不把研究者排除在外

CastClaw 并不追求“把人完全拿掉”。相反，它保留了几个关键的人类确认节点，包括任务设定、技能审核、实验停滞处理和关键结果判断。研究者可以在这些节点插入领域知识，对策略进行修正，让自动化真正服务于专业判断，而不是替代它。

5. Skill 机制支持经验沉淀与长期演化

CastClaw 的一个重要设计是 Skill。Planner 会根据当前任务生成结构化技能文件，其中包含模型选择策略、参数搜索空间、适用条件和风险提示。经过人类审核后，这些 Skill 可以沉淀下来，在后续任务中复用。

换句话说，CastClaw 关注的不只是“这一轮实验跑得如何”，也关注“这次任务结束后，系统学到了什么”。

6. 覆盖完整实验生命周期

从数据分析、实验执行、预算管理、失败归因，到最终报告与可视化，CastClaw 覆盖了预测任务的完整链路，而不是只负责其中一个局部环节。这让它更像一个面向研究者的预测工作台，而不是单点模型接口。

7. 开放接入，兼容多类模型与运行环境

CastClaw 支持 20+ LLM 提供商接入，并可结合不同算力环境灵活部署。对于时间序列模型，它支持经典统计方法、深度学习架构以及基础预训练模型，兼顾研究探索与工程落地的多样需求。

使用指南

CastClaw 当前已经提供了比较直接的安装与体验路径。如果想快速上手，可以按下面的方式开始。

（1）环境依赖

建议准备以下环境：

Bun >= 1.3.11
Python >= 3.10
uv
可用的 LLM API Key，例如 Anthropic、OpenAI、Google 或 OpenRouter

如果需要运行更重的深度学习模型，可以按实际情况准备 GPU 环境；部分国产算力适配也在持续推进中。

（2）安装

# 安装 CastClaw CLInpm install -g castclaw# 验证基础运行时castclaw –versionpython –versionuv –version# 同步 Python 后端依赖cd python && uv sync

如果以上命令可以正常执行，说明 CLI 与 Python 后端都已基本就绪。

（3）配置 LLM

在环境变量中设置你的模型密钥，例如：

export ANTHROPIC_API_KEY=sk-ant-…export OPENAI_API_KEY=sk-…export GOOGLE_GENERATIVE_AI_API_KEY=…

然后在项目根目录创建 castclaw.json：

{  "model": "anthropic/claude-sonnet-4-6",  "light_model": "anthropic/claude-haiku-4-5",  "max_experiments": 20,  "no_improve_threshold": 5}

CastClaw 支持使用 provider/model-id 形式指定模型，因此可以根据成本、合规和性能要求灵活切换。

（4）启动方式

进入你的数据集目录后，直接运行：

castclaw

也可以显式指定模型：

castclaw –model anthropic/claude-sonnet-4-6

TUI 启动后，可以通过 Ctrl+1、Ctrl+2、Ctrl+3 在 Planner、Forecaster 和 Critic 之间切换。

（5）一个最小使用示例

在 Planner 中，你可以直接用自然语言定义任务。例如：

请为 ./load.csv 初始化一个时间序列预测任务。目标列是 LOAD，时间列是 TIMESTAMP，数据频率为 1 小时。预测步长为 96，回看长度为 336。训练集、验证集、测试集按 7:2:1 划分。评估指标使用 MSE 和 MAE。希望优先考虑 statistical、deep_learning 与 foundation 三类模型。

随后，CastClaw 会进入预测前分析、技能生成、技能审核与实验循环阶段。用户可以在关键节点查看结果、补充约束，也可以使用 CAST.md 提前写入实验规则与偏好。

如果你只是想快速体验，项目主页还提供了样例数据集 load.csv 和演示视频，可以直接作为入门材料。

完整步骤请参考：

https://ustc-time-series.github.io/cast-claw/docs/

总结

CastClaw 想做的，并不是再包装一个“更自动化一点”的预测工具，而是探索一种新的系统范式：把预测看作一个可交互、可审查、可反思、可演化的人机协同过程。在这个方向上，今天的 CastClaw 仍然只是第一步，也还有很多值得打磨、修正和重新设计的地方。

真正重要的并不是“一开始就做到完美”，而是先把方向走通，把可验证的系统做出来，把问题公开出来，再和更多研究者、开发者与领域专家一起迭代。

如果 CastClaw 能为读者的研究、项目或思考带来一点启发，那么这套框架就已经体现出了它的价值。对于时间序列预测来说，CastClaw 不是终点，它只是一个起点。

参考文献：

- Cheng M, Tao X, Liu Q, et al. Position: Beyond Model-Centric Prediction–Agentic Time Series Forecasting[J]. arXiv preprint arXiv:2602.01776, 2026.

- Zhang X, Gao T, Cheng M, et al. AlphaCast: A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting[J]. arXiv preprint arXiv:2511.08947, 2025.

- Tao X, Cheng M, Jiang C, et al. Cast-R1: Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting[J]. arXiv preprint arXiv:2602.13802, 2026.