2026年我几乎没看题目,用 20 个 Claude 代理就干成了Paradigm 黑客马拉松第一名

我几乎没看题目,用 20 个 Claude 代理就干成了Paradigm 黑客马拉松第一名原文翻译 完整中文版 我赢得了 paradigm 举办的黑客马拉松 但我根本不知道获胜策略是什么 我甚至几乎没读过题目描述 解决方案的每一步都是由 AI 完成的 paradigm 的 自动研究黑客马拉松 是一次完美机会 让我彻底拥抱 Rich Sutton 的 Bitter Lesson 让计算力击败人类的专业领域知识 结果 Paradigm Optimization

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



原文翻译(完整中文版)

@paradigm 的“自动研究黑客马拉松”是一次完美机会,让我彻底拥抱 Rich Sutton 的“Bitter Lesson”——让计算力击败人类的专业领域知识。

结果:
Paradigm Optimization Arena 预测市场挑战赛(2026 年 4 月 9 日黑客马拉松)第一名。

挑战内容
Optimization Arena 预测市场挑战要求你为一个模拟的二元预测市场编写做市策略。该市场包含:

  • FIFO 限价订单簿,你只能挂被动限价单
  • 一个套利者(知情交易者),会在零售订单到来前扫掉错价报价
  • 零售交易者(不知情),发送随机市价单——这是你的盈利来源
  • 一个静态竞争对手,隐藏梯度并不断补单
  • 每次评估 200 次模拟,每次价格路径和市场机制随机
    你的优势得分计算方式为:买入时 qty × (真实概率 - 价格),卖出时 qty × (价格 - 真实概率)。排行榜按 200 次模拟的平均优势排序。

30 秒看懂获胜策略
我们的策略是一个在模拟二元预测市场订单簿上的做市商。每一步,它都会取消所有旧订单,然后挂新的买单和卖单。核心思路:

  1. 别在会亏钱的时候交易——完全跳过最窄价差机制(cs=1),套利者总会吃掉你。
  2. 估计真实价格——信息论中间价估计法,分别跟踪 bid/ask 差值来推断真实价格,这是所有决策的基础。
  3. 根据套利风险调整仓位——每侧使用高斯套利概率模型:size = k × retail_mult × (1 - arb_prob × damping)。在套利者不太可能打到你的时候(极端价格、宽价差)挂大单,在危险时挂小单。
  4. 检测并规避跳跃——跟踪价格跳跃频率和方向,一旦检测到跳跃,就在危险一侧暂时压制订单。
  5. 利用 5% 地板价——价格低于 5% 时,零售卖单数量被地板限制在名义金额的 5%,这在 ask 侧创造了巨大盈利机会。
  6. 订单簿为空时继续报价——当竞争对手的订单被吃光(bid 或 ask 为 None)时,不要取消,而是以 tick 199 挂单,这是最高优势时刻。
  7. 早期谨慎、后期激进——时间可变仓位系数(早期 0.9×,后期 1.15×),在学习机制的同时降低套利暴露。

方法:用并行 Claude Code 代理进行自动研究
受 @karpathy “autoresearch”启发,我把 Claude Code 当成一支并行研究代理团队——每个代理同时探索不同的优化方向。

循环流程:

  • 同时生成 8–20 个并行代理,每个代理分配一个特定假设或搜索空间
  • 每个代理独立:读取当前**策略 → 生成变体 → 运行评估 → 汇报结果
  • 收集结果,找出改进点,更新**策略
  • 根据已验证的成败生成新假设,重复

峰值时我同时运行 20 个代理,每个都在扫不同参数空间或测试结构变化。这把原本需要几周的手动实验压缩到了几小时。

评估:三层评分体系
理解并避免过拟合不同评估层是关键:

  • 本地评估:多组种子起始点(0、500、1000、2000…)各 200 次模拟,快速迭代。
  • 排行榜评估:固定未知种子 200 次模拟(黑客马拉松期间实时排名)。
  • 最终评估:3 次全新随机种子运行的中位数(真正决定名次的评估)。

这就是为什么中途我把“多种子稳健性”当成核心。早期只在 seed=0 上优化,本地能到 +44,但换种子后波动极大(+34 到 +70)。我后来强制要求至少 4 个种子、经常 8–16 个,并优化平均值。最终策略在提交前已通过 16 个不同种子起始点(共 3200 次模拟)验证,16 种子平均 +52.08,单个种子范围 +34 到 +70。

最终评分(3 次全新种子中位数)奖励了这种做法。黑客马拉松期间排行榜我曾第二(52.03),前两名因利用漏洞被取消。最终新鲜种子评估中,我们的策略比别人更稳健,最终以 42.32 拿下第一——所有人分数都下滑,但我们下滑最少,因为我们优化的是多种子一致性,而不是追逐单一幸运种子。

旅程:五个范式转变
阶段 1:基础(-15.83 → +8.95)
关键洞察:在竞争对手里面报价,并跳过有毒机制。竞争对手价差(cs)决定盈利能力。cs=1 时套利者必吃你;cs=4 时空间充足。在 comp_bid+1 / comp_ask-1 挂单获得 FIFO 优先权,完全跳过 cs=1(gap≤2)。




阶段 2:极端价格利用(+8.95 → +14.61)
零售数量在极端价格不对称。价格 <5% 时零售卖单被固定为名义金额 5%,创造巨大 ask 侧机会。

阶段 3:None 处理突破(+14.61 → +25.39)
当竞争对手订单簿为空时,不要停止报价!这是零售刚吃掉对手、最富有的交易时刻。在 tick 199 挂单,单笔优势最大,套利风险近零。单这一改动就增加了 +10。

阶段 4:从零开始的套利风险分解(+25 → +44)
一个完全忽略现有代码的“从零代理”发现了更优架构:size = base_size × retail_mult × (1 - arb_risk × damping),其中 arb_risk 用高斯函数建模。结合信息论中间价和跳跃压制,一次跳到 +44。

阶段 5:边际收益叠加(+44 → +52)
锁定架构后,专注防过拟合。每项改进都必须在多种子下验证。

什么没用(已彻底验证)
多层报价、贝叶斯/Kalman 中间价、零售数量上限、cs=1 极端定价、激进 cs=4 仓位、arb 侧价差拉宽等全部被否定。

技术架构
最终 strategy_3610.py(900 行)包含:机制检测、中间价估计、跳过/门控、价格选择、基础仓位、5% 地板利用、高价不对称、50% 附近节流、套利概率调整、时间缩放、现金约束、库存偏度、跳跃压制、None 处理等。

代理蜂群
每个代理用 Agent() 工具调用,带明确假设、基础策略、评估协议、目标。代理独立工作、自动写扫参数脚本、生成新策略文件。我还保存学习文档,避免重复踩坑。

最大突破:从零开始逃离局部最优
当卡在 +25 时,我让一个代理完全忽略所有已有代码重新开始,结果一次发现套利风险加权公式,跳跃到 +44。

多模型协作
Claude Code 主力优化,卡住时并行 Codex 代理产生不同架构,再交叉授粉。

核心教训
并行探索远胜顺序优化。Bitter Lesson 再次应验:扩大搜索规模 + 偶尔重置,胜过一切巧妙的手工思路。获胜策略不是“设计”出来的,而是通过 1039 次实验、20 个并行代理、在卡住时敢于全部推倒重来“发现”出来的。

复现方式
完整代码、获胜策略、评估脚本已在 GitHub:github.com/ryanli-me/paradigm-pm-challenge


内容观点与结论归纳总结

主要观点:

  1. Bitter Lesson 的实践验证:在复杂优化问题上,纯计算力(大规模并行 AI 代理搜索)远胜人类领域专家知识。作者几乎不读题目,全靠 AI 完成每一步,却拿下第一。
  2. 自动研究(Autoresearch)的威力:并行 Claude Code 代理 + 从零重置机制,能在几小时内完成人类数周工作,实现指数级探索。
  3. 稳健性优于运气:多种子评估、避免单一种子过拟合,是最终取胜的关键。排行榜高分可能只是“幸运种子”,最终新鲜种子中位数才反映真实实力。
  4. “别在会亏的时候交易”:策略核心不是追求最高收益,而是严格规避有毒场景(cs=1、跳跃危险侧、高套利风险),这才是可持续优势来源。
  5. 迭代 vs 重置: incremental 改进容易陷入局部最优,从零开始的新代理往往带来最大突破。
  6. AI 代理协作范式:多代理并行 + 多模型交叉授粉 + 自动保存学习文档,形成“代理蜂群”式超级智能,远超单一模型或人工编码。

核心结论:

  • 未来软件开发、量化交易、复杂决策等领域,人类将越来越像“AI 研究总监”:设定目标、监督流程、偶尔介入重置,而不是亲手写每一行代码。
  • 真正的 alpha 来自“扩大搜索规模 + 敢于推倒重来”。
  • 获胜策略不是天才灵感,而是系统性、鲁棒的计算搜索结果——这正是 Bitter Lesson 在 2026 年的最新注脚。

生成文章:《AI 自研革命:用 20 个并行 Claude 代理赢得预测市场黑客马拉松的完整复盘》

2026 年 4 月 9 日,一场由 Paradigm 主办的“Optimization Arena 预测市场挑战”黑客马拉松落下帷幕。参赛者需要为一个高度仿真的二元预测市场编写做市策略:面对 FIFO 订单簿、时刻准备扫单的套利者、随机下单的零售交易者,以及一个永不疲倦的静态竞争对手,谁能稳定赚取正向优势,谁就胜出。

最终,第一名属于一位几乎没读题目的选手——@ryanli。他坦言:“我赢了,但我根本不知道获胜策略是什么。每一步都是 AI 完成的。” 这句话听起来像玩笑,却道出了人工智能时代最残酷也最激动人心的真相:计算力正在系统性地取代人类领域专长

这场胜利不是运气,而是对 Rich Sutton “Bitter Lesson”的彻底拥抱。Sutton 早在 2019 年就预言:通用方法 + 足够多的计算,最终会击败所有精心设计的领域特定技巧。Ryan 用 20 个并行 Claude Code 代理、在短短几小时内生成了 1039 个策略变体、运行 2000+ 次模拟,最终以 42.32 美元平均优势(3 次全新随机种子中位数)登顶,而排行榜期间一度达到 52.03 美元。

策略的灵魂:不交易才是最好的交易
获胜策略 strategy_3610.py 只有约 900 行,却浓缩了五个阶段的范式演进。最核心的哲学只有一句话:“Don’t trade when you’ll lose.” 它严格跳过 cs=1(1-tick 价差)机制,因为套利者必然吃掉你;在竞争对手订单簿为空的黄金时刻,以 tick 199 挂单,抓住零售刚扫完对手的最高边缘;利用 5% 地板价在低价区激进挂 ask;在价格跳跃时暂时压制危险侧……每一处决策都建立在“信息论中间价估计 + 高斯套利概率模型”之上,把仓位分解为“零售捕获”与“套利规避”两个维度。

更重要的是,作者把“稳健性”当成第一优先级。早期只优化单一种子时,成绩一度高达 +44,但换种子后波动剧烈。后来强制要求至少 16 个种子起始点(3200 次模拟)验证,才确保最终提交的策略在新鲜种子下依然领先。这也解释了为什么很多人排行榜高分最终被反超——他们优化的是“幸运种子”,而 Ryan 优化的是“一致性”。

自动研究范式的工业级实践
Ryan 没有亲手写代码,而是搭建了一支“代理蜂群”。每个代理都被赋予明确假设、当前**策略、评估协议和超越目标。它们独立修改代码、自动生成参数扫描脚本、运行多种子评估、汇报结果。卡住时,他会让一个代理“完全忽略现有代码,从零开始”,结果一次就发现了套利风险加权公式,把成绩从 +25 直接拉到 +44——这比之前所有增量改进的总和还大。

他还引入 Codex 代理进行交叉授粉,形成多模型协作。每次突破后,他都会把学到的知识(包括死胡同)保存成 Markdown 文档,避免后续代理重复踩坑。这种“并行探索 + 周期性重置 + 知识沉淀”的闭环,正是 autoresearch 从概念走向生产力的关键。

被彻底证伪的“伪洞察”
文章最珍贵的地方在于,它不仅分享了什么有效,更系统记录了什么无效:多层报价会给套利者更多可乘之机;贝叶斯中间价估计不如简单启发式;零售数量上限反而损失更多真实成交……这些通过 1000+ 次实验得出的结论,比任何理论都更有说服力。它证明:在 AI 时代,验证的成本大幅降低,唯一稀缺的是敢于大规模试错的勇气。

给所有建造者的启示

  1. 把 AI 当成团队,而不是工具。20 个代理同时工作,相当于把一个人的思考速度提升了 20 倍。
  2. 重置比迭代更重要。当陷入局部最优时,敢于全部推倒、让新代理从零出发,往往带来指数级跃迁。
  3. 稳健性是真正的护城河。在真实世界里,没有“固定种子”。多场景验证才是长期生存之道。
  4. Bitter Lesson 正在发生。未来,顶级量化研究员、产品经理、策略设计师的核心能力,将从“自己想出答案”变成“设计出让 AI 高效发现答案的搜索流程”。

Ryan 的胜利不是孤例,而是 AI 自研时代到来的强烈信号。当计算成本持续下降、代理能力持续提升时,任何一个复杂优化问题——无论是交易策略、产品迭代,还是科研突破——都将迎来同样的范式转变:人类设定目标,AI 负责发现,计算力决定上限

这场黑客马拉松的真正奖品,不是 9000 美元奖金,而是向所有人证明:只要你敢把问题彻底交给 AI,并用正确的方法组织它们工作,机器就能在你最擅长的领域击败你——然后帮你赢得世界

完整代码已开源在 GitHub,任何人都可以复现、改进,甚至用同样的 autoresearch 范式去攻克下一个不可能的任务。

小讯
上一篇 2026-04-13 10:07
下一篇 2026-04-13 10:05

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/260046.html