2026年我几乎没看题目，用 20 个 Claude 代理就干成了Paradigm 黑客马拉松第一名

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

原文翻译（完整中文版）

@paradigm 的“自动研究黑客马拉松”是一次完美机会，让我彻底拥抱 Rich Sutton 的“Bitter Lesson”——让计算力击败人类的专业领域知识。

结果：
Paradigm Optimization Arena 预测市场挑战赛（2026 年 4 月 9 日黑客马拉松）第一名。

挑战内容
Optimization Arena 预测市场挑战要求你为一个模拟的二元预测市场编写做市策略。该市场包含：

FIFO 限价订单簿，你只能挂被动限价单
一个套利者（知情交易者），会在零售订单到来前扫掉错价报价
零售交易者（不知情），发送随机市价单——这是你的盈利来源
一个静态竞争对手，隐藏梯度并不断补单
每次评估 200 次模拟，每次价格路径和市场机制随机
你的优势得分计算方式为：买入时 qty × (真实概率 - 价格)，卖出时 qty × (价格 - 真实概率)。排行榜按 200 次模拟的平均优势排序。

30 秒看懂获胜策略
我们的策略是一个在模拟二元预测市场订单簿上的做市商。每一步，它都会取消所有旧订单，然后挂新的买单和卖单。核心思路：

别在会亏钱的时候交易——完全跳过最窄价差机制（cs=1），套利者总会吃掉你。
估计真实价格——信息论中间价估计法，分别跟踪 bid/ask 差值来推断真实价格，这是所有决策的基础。
根据套利风险调整仓位——每侧使用高斯套利概率模型：size = k × retail_mult × (1 - arb_prob × damping)。在套利者不太可能打到你的时候（极端价格、宽价差）挂大单，在危险时挂小单。
检测并规避跳跃——跟踪价格跳跃频率和方向，一旦检测到跳跃，就在危险一侧暂时压制订单。
利用 5% 地板价——价格低于 5% 时，零售卖单数量被地板限制在名义金额的 5%，这在 ask 侧创造了巨大盈利机会。
订单簿为空时继续报价——当竞争对手的订单被吃光（bid 或 ask 为 None）时，不要取消，而是以 tick ¹⁄₉₉ 挂单，这是最高优势时刻。
早期谨慎、后期激进——时间可变仓位系数（早期 0.9×，后期 1.15×），在学习机制的同时降低套利暴露。

方法：用并行 Claude Code 代理进行自动研究
受 @karpathy “autoresearch”启发，我把 Claude Code 当成一支并行研究代理团队——每个代理同时探索不同的优化方向。

循环流程：

同时生成 8–20 个并行代理，每个代理分配一个特定假设或搜索空间
每个代理独立：读取当前**策略 → 生成变体 → 运行评估 → 汇报结果
收集结果，找出改进点，更新**策略
根据已验证的成败生成新假设，重复

峰值时我同时运行 20 个代理，每个都在扫不同参数空间或测试结构变化。这把原本需要几周的手动实验压缩到了几小时。

评估：三层评分体系
理解并避免过拟合不同评估层是关键：

本地评估：多组种子起始点（0、500、1000、2000…）各 200 次模拟，快速迭代。
排行榜评估：固定未知种子 200 次模拟（黑客马拉松期间实时排名）。
最终评估：3 次全新随机种子运行的中位数（真正决定名次的评估）。

这就是为什么中途我把“多种子稳健性”当成核心。早期只在 seed=0 上优化，本地能到 +44，但换种子后波动极大（+34 到 +70）。我后来强制要求至少 4 个种子、经常 8–16 个，并优化平均值。最终策略在提交前已通过 16 个不同种子起始点（共 3200 次模拟）验证，16 种子平均 +52.08，单个种子范围 +34 到 +70。

最终评分（3 次全新种子中位数）奖励了这种做法。黑客马拉松期间排行榜我曾第二（52.03），前两名因利用漏洞被取消。最终新鲜种子评估中，我们的策略比别人更稳健，最终以 42.32 拿下第一——所有人分数都下滑，但我们下滑最少，因为我们优化的是多种子一致性，而不是追逐单一幸运种子。

旅程：五个范式转变
阶段 1：基础（-15.83 → +8.95）
关键洞察：在竞争对手里面报价，并跳过有毒机制。竞争对手价差（cs）决定盈利能力。cs=1 时套利者必吃你；cs=4 时空间充足。在 comp_bid+1 / comp_ask-1 挂单获得 FIFO 优先权，完全跳过 cs=1（gap≤2）。

阶段 2：极端价格利用（+8.95 → +14.61）
零售数量在极端价格不对称。价格 <5% 时零售卖单被固定为名义金额 5%，创造巨大 ask 侧机会。

阶段 3：None 处理突破（+14.61 → +25.39）
当竞争对手订单簿为空时，不要停止报价！这是零售刚吃掉对手、最富有的交易时刻。在 tick ¹⁄₉₉ 挂单，单笔优势最大，套利风险近零。单这一改动就增加了 +10。

阶段 4：从零开始的套利风险分解（+25 → +44）
一个完全忽略现有代码的“从零代理”发现了更优架构：size = base_size × retail_mult × (1 - arb_risk × damping)，其中 arb_risk 用高斯函数建模。结合信息论中间价和跳跃压制，一次跳到 +44。

阶段 5：边际收益叠加（+44 → +52）
锁定架构后，专注防过拟合。每项改进都必须在多种子下验证。

什么没用（已彻底验证）
多层报价、贝叶斯/Kalman 中间价、零售数量上限、cs=1 极端定价、激进 cs=4 仓位、arb 侧价差拉宽等全部被否定。

技术架构
最终 strategy_3610.py（900 行）包含：机制检测、中间价估计、跳过/门控、价格选择、基础仓位、5% 地板利用、高价不对称、50% 附近节流、套利概率调整、时间缩放、现金约束、库存偏度、跳跃压制、None 处理等。

代理蜂群
每个代理用 Agent() 工具调用，带明确假设、基础策略、评估协议、目标。代理独立工作、自动写扫参数脚本、生成新策略文件。我还保存学习文档，避免重复踩坑。

最大突破：从零开始逃离局部最优
当卡在 +25 时，我让一个代理完全忽略所有已有代码重新开始，结果一次发现套利风险加权公式，跳跃到 +44。

多模型协作
Claude Code 主力优化，卡住时并行 Codex 代理产生不同架构，再交叉授粉。

核心教训
并行探索远胜顺序优化。Bitter Lesson 再次应验：扩大搜索规模 + 偶尔重置，胜过一切巧妙的手工思路。获胜策略不是“设计”出来的，而是通过 1039 次实验、20 个并行代理、在卡住时敢于全部推倒重来“发现”出来的。

复现方式
完整代码、获胜策略、评估脚本已在 GitHub：github.com/ryanli-me/paradigm-pm-challenge

内容观点与结论归纳总结

主要观点：

Bitter Lesson 的实践验证：在复杂优化问题上，纯计算力（大规模并行 AI 代理搜索）远胜人类领域专家知识。作者几乎不读题目，全靠 AI 完成每一步，却拿下第一。
自动研究（Autoresearch）的威力：并行 Claude Code 代理 + 从零重置机制，能在几小时内完成人类数周工作，实现指数级探索。
稳健性优于运气：多种子评估、避免单一种子过拟合，是最终取胜的关键。排行榜高分可能只是“幸运种子”，最终新鲜种子中位数才反映真实实力。
“别在会亏的时候交易”：策略核心不是追求最高收益，而是严格规避有毒场景（cs=1、跳跃危险侧、高套利风险），这才是可持续优势来源。
迭代 vs 重置： incremental 改进容易陷入局部最优，从零开始的新代理往往带来最大突破。
AI 代理协作范式：多代理并行 + 多模型交叉授粉 + 自动保存学习文档，形成“代理蜂群”式超级智能，远超单一模型或人工编码。

核心结论：

未来软件开发、量化交易、复杂决策等领域，人类将越来越像“AI 研究总监”：设定目标、监督流程、偶尔介入重置，而不是亲手写每一行代码。
真正的 alpha 来自“扩大搜索规模 + 敢于推倒重来”。
获胜策略不是天才灵感，而是系统性、鲁棒的计算搜索结果——这正是 Bitter Lesson 在 2026 年的最新注脚。

生成文章：《AI 自研革命：用 20 个并行 Claude 代理赢得预测市场黑客马拉松的完整复盘》

2026 年 4 月 9 日，一场由 Paradigm 主办的“Optimization Arena 预测市场挑战”黑客马拉松落下帷幕。参赛者需要为一个高度仿真的二元预测市场编写做市策略：面对 FIFO 订单簿、时刻准备扫单的套利者、随机下单的零售交易者，以及一个永不疲倦的静态竞争对手，谁能稳定赚取正向优势，谁就胜出。

最终，第一名属于一位几乎没读题目的选手——@ryanli。他坦言：“我赢了，但我根本不知道获胜策略是什么。每一步都是 AI 完成的。” 这句话听起来像玩笑，却道出了人工智能时代最残酷也最激动人心的真相：计算力正在系统性地取代人类领域专长。

这场胜利不是运气，而是对 Rich Sutton “Bitter Lesson”的彻底拥抱。Sutton 早在 2019 年就预言：通用方法 + 足够多的计算，最终会击败所有精心设计的领域特定技巧。Ryan 用 20 个并行 Claude Code 代理、在短短几小时内生成了 1039 个策略变体、运行 2000+ 次模拟，最终以 42.32 美元平均优势（3 次全新随机种子中位数）登顶，而排行榜期间一度达到 52.03 美元。

策略的灵魂：不交易才是最好的交易
获胜策略 strategy_3610.py 只有约 900 行，却浓缩了五个阶段的范式演进。最核心的哲学只有一句话：“Don’t trade when you’ll lose.” 它严格跳过 cs=1（1-tick 价差）机制，因为套利者必然吃掉你；在竞争对手订单簿为空的黄金时刻，以 tick ¹⁄₉₉ 挂单，抓住零售刚扫完对手的最高边缘；利用 5% 地板价在低价区激进挂 ask；在价格跳跃时暂时压制危险侧……每一处决策都建立在“信息论中间价估计 + 高斯套利概率模型”之上，把仓位分解为“零售捕获”与“套利规避”两个维度。

更重要的是，作者把“稳健性”当成第一优先级。早期只优化单一种子时，成绩一度高达 +44，但换种子后波动剧烈。后来强制要求至少 16 个种子起始点（3200 次模拟）验证，才确保最终提交的策略在新鲜种子下依然领先。这也解释了为什么很多人排行榜高分最终被反超——他们优化的是“幸运种子”，而 Ryan 优化的是“一致性”。

自动研究范式的工业级实践
Ryan 没有亲手写代码，而是搭建了一支“代理蜂群”。每个代理都被赋予明确假设、当前**策略、评估协议和超越目标。它们独立修改代码、自动生成参数扫描脚本、运行多种子评估、汇报结果。卡住时，他会让一个代理“完全忽略现有代码，从零开始”，结果一次就发现了套利风险加权公式，把成绩从 +25 直接拉到 +44——这比之前所有增量改进的总和还大。

他还引入 Codex 代理进行交叉授粉，形成多模型协作。每次突破后，他都会把学到的知识（包括死胡同）保存成 Markdown 文档，避免后续代理重复踩坑。这种“并行探索 + 周期性重置 + 知识沉淀”的闭环，正是 autoresearch 从概念走向生产力的关键。

被彻底证伪的“伪洞察”
文章最珍贵的地方在于，它不仅分享了什么有效，更系统记录了什么无效：多层报价会给套利者更多可乘之机；贝叶斯中间价估计不如简单启发式；零售数量上限反而损失更多真实成交……这些通过 1000+ 次实验得出的结论，比任何理论都更有说服力。它证明：在 AI 时代，验证的成本大幅降低，唯一稀缺的是敢于大规模试错的勇气。

给所有建造者的启示

把 AI 当成团队，而不是工具。20 个代理同时工作，相当于把一个人的思考速度提升了 20 倍。
重置比迭代更重要。当陷入局部最优时，敢于全部推倒、让新代理从零出发，往往带来指数级跃迁。
稳健性是真正的护城河。在真实世界里，没有“固定种子”。多场景验证才是长期生存之道。
Bitter Lesson 正在发生。未来，顶级量化研究员、产品经理、策略设计师的核心能力，将从“自己想出答案”变成“设计出让 AI 高效发现答案的搜索流程”。

Ryan 的胜利不是孤例，而是 AI 自研时代到来的强烈信号。当计算成本持续下降、代理能力持续提升时，任何一个复杂优化问题——无论是交易策略、产品迭代，还是科研突破——都将迎来同样的范式转变：人类设定目标，AI 负责发现，计算力决定上限。

这场黑客马拉松的真正奖品，不是 9000 美元奖金，而是向所有人证明：只要你敢把问题彻底交给 AI，并用正确的方法组织它们工作，机器就能在你最擅长的领域击败你——然后帮你赢得世界。

完整代码已开源在 GitHub，任何人都可以复现、改进，甚至用同样的 autoresearch 范式去攻克下一个不可能的任务。

2026年我几乎没看题目，用 20 个 Claude 代理就干成了Paradigm 黑客马拉松第一名

相关推荐