月之暗面发布Kimi Researcher AI Agent，采用端到端强化学习实现万字可溯源深度研究报告

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

月之暗面（Moonshot AI）推出其首个AI Agent——Kimi Researcher（深度研究），现已开启内测。该产品定位并非简单搜索工具，而是能生成带引用来源、超万字的深度研究报告的自主研究型Agent。技术博客披露，其单次运行平均检索超200个URL，执行约70次搜索查询。在Humanity’s Last Exam（HLE）高难度多学科闭合问答基准测试中，Kimi Researcher得分达26.9%，创该测试当前最高纪录；pass@4指标为40.17%。

2024年以来，AI Agent发展呈现两大趋势：由“外挂式”向“内化式”演进，即强化模型自身能力而非依赖外部工具调用；由规则驱动转向学习驱动，使AI通过大规模训练自主发现解题策略。Kimi Researcher正是这一转向的典型实践。

当前主流Agent构建方法多采用“工作流（Workflow）”模式，如Devin与Manus，其架构包含Planner制定多阶段计划、Executor调用工具分步执行并依反馈调整。该方式依托提示词工程与模块化设计，将大语言模型与外部工具链接，具备流程清晰、可控性强优势。但其依赖人类预设流程，在开放复杂任务中存在灵活性不足、泛化能力弱等局限。

Kimi Researcher选择另一技术路径：端到端强化学习（End-to-End Reinforcement Learning, E2E RL）。该方法让模型在模拟环境中通过海量自主探索与试错学习，目标是使其自行“领悟”完成任务的策略，而非遵循人为编写的固定步骤。此路径强调将能力内化于模型本体，与工作流模式中模型仅作为“调用者”的角色形成根本区别。

端到端强化学习应用于研究型Agent面临三重挑战：一是网络搜索环境动态不稳，结果随时间变化；二是长序列决策问题突出，单个研究任务常需上百步操作；三是计算资源消耗巨大，每次训练迭代均需大量试错。月之暗面通过部分展开（Partial Rollout）等技术创新，将训练效率提升1.5倍。

将E2E RL用于研究型Agent的探索并非孤例。OpenAI官方Deep Research系统亦学习了浏览、Python计算分析及大规模网站信息整合能力，其训练方法与o1模型所用强化学习一脉相承。据OpenAI团队成员Isa Fulford与Josh Tobin在红杉资本播客中的分享，Deep Research未采用人工拼接workflow，而是在浏览+推理任务上实施端到端强化学习，使模型自主规划、回退与策略调整。因相关任务常无标准答案提供奖励信号，其可能采用LLM as Judge（大型语言模型作为评判者）机制——由语言模型评估Agent行为并给予反馈，以支撑强化学习过程。

不同团队选择相似技术方向时，其既有技术基础构成差异化关键。月之暗面以长上下文（Long Context）技术为底座，OpenAI则依托通用推理能力见长的模型系列，二者技术侧重或影响各自Agent在任务处理中的具体表现与能力边界。

在产品层面，Kimi Researcher以“双报告系统”呈现成果：一份为含详细文字与可溯源引用的深度报告；另一份为动态可视化网页报告，通过思维导图与图表提升信息获取效率。交互设计上，产品主动澄清用户模糊需求，辅助定义清晰问题。

Kimi Researcher核心研发人员冯一尘指出，该Agent是月之暗面用端到端强化学习从零打磨出的首个大模型Agent产品，在HLE测试中达SOTA（State-Of-The-Art）26.9%，可生成万字可追溯报告。项目自2023年上半年立项，至10月发布探索版，经历认知转变，确立两大关键变量：构建“能长思考”的Agent，以及坚持端到端RL路线。

传统Agent方案存在明显局限：Workflow拼装方式依赖OpenAI/Claude等API搭建多Agent+规划器+子任务架构，需手动Prompt与条件规则拆分任务，底层模型更换即导致workflow重构，且在国内存在可用性限制；SFT（监督微调/模仿学习）依赖人工标注完整任务轨迹，人力成本高、难以规模化。两类方案均受限于“人能设计/人能标注”的上限，不符合规模化演进逻辑。

端到端强化学习的优势在于：其一，挣脱固定流程束缚，行为依任务动态生成，提升面对未知复杂问题的创造性解决能力，模型升级亦无需重构Agent体系；其二，能力上限由数据与算力决定，而非人类智慧，当模型在某类问题上表现不佳时，只需将问题加入训练集并增加算力，即可驱动模型自主习得解法；其三，具备强可扩展性，相较SFT依赖人工标注，RL可通过环境自主探索生成高质量on-policy训练数据，持续支持模型自我迭代。

强化学习带来显著效果提升与智能“涌现”现象：HLE得分由初期8.6%跃升至26.9%，pass@4达40.17%；模型在获初步答案后主动开展多轮交叉验证；甚至出现未预设的自主行为，如针对极度专业问题拟向论文作者发邮件求解（该动作因安全策略被拦截）。此类行为均非人工设计，而是模型在追求任务完成目标过程中自发习得的有效策略。

Kimi Researcher已验证多项实际应用场景：其一为尽调与搜索，如调研“前沿大模型SOTA分数低于20%的文本类评测基准”，成功识别AGI-2、HLE、OlympiadBench、FrontierMath及新发布的Seal QA等未被团队关注的基准；其二为知识体系梳理，如按时间线解析金本位、布雷顿森林体系与浮动汇率制度三大货币体系的演变逻辑；其三为领域快速入门（Make a 101），如为中国机器人公司法务人员梳理东南亚十国数据隐私法律框架，生成结构清晰、含对比分析的万字报告；其四为虚拟世界分析，如基于《灌篮高手》漫画数据生成主力球员球探技术报告；其五为参数复杂商品决策支持，如在百元预算内分析便携榨汁杯价格差异成因、实用功能与噱头辨析，并推荐可靠型号。

毛绍光指出，Kimi-Researcher是完全依靠强化学习训练的Agent模型。其技术信念源于对Agent本质的重新定义：Agent应是模型本身，而非Model + Workflow的拼接体。Workflow虽可拓展模型边界，但随任务复杂度上升，其定义复杂度呈指数增长，且难以泛化至未见任务，易沦为“打补丁”式开发。团队面临两种路径选择：其一，等待基础模型更强后基于API搭Workflow；其二，将Agent能力内化进模型本体，实现从Reasoner到Agent的跃迁。月之暗面坚定选择后者。

训练Agent Model面临独特挑战：真实环境动态性高，同一工具调用结果可能波动；任务具有long-horizon特性，需数十至数百步推理与决策，对模型上下文管理、rollout效率及训练稳定性提出严苛要求；成功轨迹（Trajectory）极长，有效学习机制尚待突破。相关技术细节已发布于月之暗面技术博客，后续将有technical report详述。

Kimi-Researcher自2024年6月20日起逐步开放，因服务稳定性考量，正分阶段扩大用户覆盖范围。该产品验证了通过强化学习将Agent能力内化至模型本体的技术可行性。未来将持续增加任务类型与工具支持，推动模型在探索中泛化，迈向General Agent目标。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

月之暗面发布Kimi Researcher AI Agent，采用端到端强化学习实现万字可溯源深度研究报告

相关推荐