月之暗面发布Kimi Researcher AI Agent,采用端到端强化学习实现万字可溯源深度研究报告

月之暗面发布Kimi Researcher AI Agent,采用端到端强化学习实现万字可溯源深度研究报告月之暗面 Moonshot AI 推出其首个 AI Agent Kimi Researcher 深度研究 现已开启内测 该产品定位并非简单搜索工具 而是能生成带引用来源 超万字的深度研究报告的自主研究型 Agent 技术博客披露 其单次运行平均检索超 200 个 URL 执行约 70 次搜索查询 在 Humanity s Last Exam HLE 高难度多学科闭合问答基准测试中 Kimi

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



月之暗面(Moonshot AI)推出其首个AI Agent——Kimi Researcher(深度研究),现已开启内测。该产品定位并非简单搜索工具,而是能生成带引用来源、超万字的深度研究报告的自主研究型Agent。技术博客披露,其单次运行平均检索超200个URL,执行约70次搜索查询。在Humanity’s Last Exam(HLE)高难度多学科闭合问答基准测试中,Kimi Researcher得分达26.9%,创该测试当前最高纪录;pass@4指标为40.17%。

2024年以来,AI Agent发展呈现两大趋势:由“外挂式”向“内化式”演进,即强化模型自身能力而非依赖外部工具调用;由规则驱动转向学习驱动,使AI通过大规模训练自主发现解题策略。Kimi Researcher正是这一转向的典型实践。

当前主流Agent构建方法多采用“工作流(Workflow)”模式,如Devin与Manus,其架构包含Planner制定多阶段计划、Executor调用工具分步执行并依反馈调整。该方式依托提示词工程与模块化设计,将大语言模型与外部工具链接,具备流程清晰、可控性强优势。但其依赖人类预设流程,在开放复杂任务中存在灵活性不足、泛化能力弱等局限。

Kimi Researcher选择另一技术路径:端到端强化学习(End-to-End Reinforcement Learning, E2E RL)。该方法让模型在模拟环境中通过海量自主探索与试错学习,目标是使其自行“领悟”完成任务的策略,而非遵循人为编写的固定步骤。此路径强调将能力内化于模型本体,与工作流模式中模型仅作为“调用者”的角色形成根本区别。

端到端强化学习应用于研究型Agent面临三重挑战:一是网络搜索环境动态不稳,结果随时间变化;二是长序列决策问题突出,单个研究任务常需上百步操作;三是计算资源消耗巨大,每次训练迭代均需大量试错。月之暗面通过部分展开(Partial Rollout)等技术创新,将训练效率提升1.5倍。

将E2E RL用于研究型Agent的探索并非孤例。OpenAI官方Deep Research系统亦学习了浏览、Python计算分析及大规模网站信息整合能力,其训练方法与o1模型所用强化学习一脉相承。据OpenAI团队成员Isa Fulford与Josh Tobin在红杉资本播客中的分享,Deep Research未采用人工拼接workflow,而是在浏览+推理任务上实施端到端强化学习,使模型自主规划、回退与策略调整。因相关任务常无标准答案提供奖励信号,其可能采用LLM as Judge(大型语言模型作为评判者)机制——由语言模型评估Agent行为并给予反馈,以支撑强化学习过程。

不同团队选择相似技术方向时,其既有技术基础构成差异化关键。月之暗面以长上下文(Long Context)技术为底座,OpenAI则依托通用推理能力见长的模型系列,二者技术侧重或影响各自Agent在任务处理中的具体表现与能力边界。

在产品层面,Kimi Researcher以“双报告系统”呈现成果:一份为含详细文字与可溯源引用的深度报告;另一份为动态可视化网页报告,通过思维导图与图表提升信息获取效率。交互设计上,产品主动澄清用户模糊需求,辅助定义清晰问题。

Kimi Researcher核心研发人员冯一尘指出,该Agent是月之暗面用端到端强化学习从零打磨出的首个大模型Agent产品,在HLE测试中达SOTA(State-Of-The-Art)26.9%,可生成万字可追溯报告。项目自2023年上半年立项,至10月发布探索版,经历认知转变,确立两大关键变量:构建“能长思考”的Agent,以及坚持端到端RL路线。

传统Agent方案存在明显局限:Workflow拼装方式依赖OpenAI/Claude等API搭建多Agent+规划器+子任务架构,需手动Prompt与条件规则拆分任务,底层模型更换即导致workflow重构,且在国内存在可用性限制;SFT(监督微调/模仿学习)依赖人工标注完整任务轨迹,人力成本高、难以规模化。两类方案均受限于“人能设计/人能标注”的上限,不符合规模化演进逻辑。

端到端强化学习的优势在于:其一,挣脱固定流程束缚,行为依任务动态生成,提升面对未知复杂问题的创造性解决能力,模型升级亦无需重构Agent体系;其二,能力上限由数据与算力决定,而非人类智慧,当模型在某类问题上表现不佳时,只需将问题加入训练集并增加算力,即可驱动模型自主习得解法;其三,具备强可扩展性,相较SFT依赖人工标注,RL可通过环境自主探索生成高质量on-policy训练数据,持续支持模型自我迭代。

强化学习带来显著效果提升与智能“涌现”现象:HLE得分由初期8.6%跃升至26.9%,pass@4达40.17%;模型在获初步答案后主动开展多轮交叉验证;甚至出现未预设的自主行为,如针对极度专业问题拟向论文作者发邮件求解(该动作因安全策略被拦截)。此类行为均非人工设计,而是模型在追求任务完成目标过程中自发习得的有效策略。

Kimi Researcher已验证多项实际应用场景:其一为尽调与搜索,如调研“前沿大模型SOTA分数低于20%的文本类评测基准”,成功识别AGI-2、HLE、OlympiadBench、FrontierMath及新发布的Seal QA等未被团队关注的基准;其二为知识体系梳理,如按时间线解析金本位、布雷顿森林体系与浮动汇率制度三大货币体系的演变逻辑;其三为领域快速入门(Make a 101),如为中国机器人公司法务人员梳理东南亚十国数据隐私法律框架,生成结构清晰、含对比分析的万字报告;其四为虚拟世界分析,如基于《灌篮高手》漫画数据生成主力球员球探技术报告;其五为参数复杂商品决策支持,如在百元预算内分析便携榨汁杯价格差异成因、实用功能与噱头辨析,并推荐可靠型号。

毛绍光指出,Kimi-Researcher是完全依靠强化学习训练的Agent模型。其技术信念源于对Agent本质的重新定义:Agent应是模型本身,而非Model + Workflow的拼接体。Workflow虽可拓展模型边界,但随任务复杂度上升,其定义复杂度呈指数增长,且难以泛化至未见任务,易沦为“打补丁”式开发。团队面临两种路径选择:其一,等待基础模型更强后基于API搭Workflow;其二,将Agent能力内化进模型本体,实现从Reasoner到Agent的跃迁。月之暗面坚定选择后者。

训练Agent Model面临独特挑战:真实环境动态性高,同一工具调用结果可能波动;任务具有long-horizon特性,需数十至数百步推理与决策,对模型上下文管理、rollout效率及训练稳定性提出严苛要求;成功轨迹(Trajectory)极长,有效学习机制尚待突破。相关技术细节已发布于月之暗面技术博客,后续将有technical report详述。

Kimi-Researcher自2024年6月20日起逐步开放,因服务稳定性考量,正分阶段扩大用户覆盖范围。该产品验证了通过强化学习将Agent能力内化至模型本体的技术可行性。未来将持续增加任务类型与工具支持,推动模型在探索中泛化,迈向General Agent目标。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

小讯
上一篇 2026-04-23 19:07
下一篇 2026-04-23 19:05

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/276445.html