2026年人类能管住AI吗?Anthropic用千问做了个实验

人类能管住AI吗?Anthropic用千问做了个实验如果有一天 AI 比人类更聪明了 我们这群有机体到底应该怎么办 他们要是反过来消灭我们 我们又怎么抵抗 各种科幻电影都讨论过相似的问题 可那只是文学 艺术和哲学方面的 现如今 正儿八经做了个实验 以证实我们到底能不能监督比自己更聪明的 AI 实验结果很有趣 但过程更有意思 因为 Anthropic 用两个不同版本的阿里千问模型 来分别代表人类和比人类聪明的 AI 其结果就是

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



图片

如果有一天,AI比人类更聪明了,我们这群有机体到底应该怎么办?

他们要是反过来消灭我们,我们又怎么抵抗?

各种科幻电影都讨论过相似的问题,可那只是文学、艺术和哲学方面的。

现如今,正儿八经做了个实验,以证实我们到底能不能监督比自己更聪明的AI。

实验结果很有趣,但过程更有意思。

因为Anthropic用两个不同版本的阿里千问模型,来分别代表人类和比人类聪明的AI。

其结果就是,我们人类说不定还真能管得住超级AI!

01

这篇论文到底在说什么

这篇研究的标题叫“Automated Alignment Researchers”,翻译过来就是“”。

它要解决的问题很现实,那就是当AI变得比人类更聪明时,我们怎么确保它还听人话?

现在的模型已经能生成大量的代码了,未来将可以生成几百万行复杂代码,以至于人类根本看不懂。我们又该如何去审查这些代码?

这就是AI安全领域一直在研究的“”问题。

Anthropic这次研究的切入点叫“”。

这个概念我们可以这么理解,假设你是个小学老师,现在要教一个天才高中生。你的知识有限,学生懂得知识比你更多。

那么请问,他最后能学成什么样的水平?是只学到你这个小学老师的水平,还是能突破你的局限,发挥出自己的真实能力?

在实验里,Anthropic用小模型扮演“弱老师”,用更强的模型扮演“强学生”。

具体来说,他们用1.5-0.5B-Chat当老师,用Qwen3-4B-Base当学生。让弱模型给强模型提供训练信号,然后看强模型能不能从这些不够完美的信号里,学到接近理想状态的表现。

衡量标准叫,全称是Performance Gap Recovered,意思是“性能差距恢复程度”。

如果PGR是0,说明强模型只学到了弱老师的水平,白瞎了自己的知识。如果PGR是1,说明强模型彻底突破了弱老师的限制。

弱模型就相当于未来的人类,强模型就相当于未来那些超越人类的AI。

如果我们能在今天就找到办法,让强模型不被弱监督拖累,那未来我们就能用类似的方法,去监督超级AI。

在人类研究员调试出基线之后,Anthropic派出了9个基于 4.6的agent来给学生Qwen进行微调,这9个agent叫做Automated Alignment Researcher(自动化对齐研究员),简称

Anthropic给它们配备了沙盒环境、代码工具、共享论坛、评分服务器,然后告诉它们:“去吧,自己想办法提高Qwen3-4B-Base的PGR。”

这些AI研究员可以自己提出假设、写代码、训练模型、提交实验、看分数、分析失败原因、和其他AI研究员交流发现、继续迭代。

结果相当惊人。

人类研究员先花了7天时间,调试了4种已有方法,最好的PGR只有0.23。然后9个Claude接手,继续跑了5天,累计大约800小时研究时间,最后把PGR推到了0.97。

图片

也就是说,我们大概率可以管得住比我们更聪明的超级AI。

这个实验总成本约1.8万美元,包括API调用和模型训练的计算成本,折合每个AI研究员工作一小时约22美元。

什么概念?沃尔玛零售门店负责给员工排班的副店长,时薪差不多是25美元。

这个结果让人震撼的地方不在于AI能写代码或者读论文,而在于它们能完成一个完整的研究闭环。提出想法、验证、失败、改进、再验证,这已经接近一个研究助理的核心工作流程了。

但问题来了,这些AI发现的方法,真的有用吗?还是只是在特定环境里碰巧有效?

Anthropic做了两个测试来验证。

第一个测试是把AI发现的最好两种方法,拿去测试它们没见过的数学和代码任务。

结果显示,效果最好的方法在数学任务上PGR达到0.94,在代码任务上达到0.47,虽然代码任务上的表现差一些,但仍然是人类基线的两倍。其次的方法在数学上还行,但在代码任务上反而让结果变差了。

说明它有一定迁移迹象,但泛化并不稳定。

但它们会严重依赖具体的数据集和任务结构,也就是说并不是所有人任务都能胜任。

第二个测试是Anthropic把刚才提到的效果最好的方法,拿到了Claude Sonnet 4的真实训练上,来看看实际效果如何。

结果没有得到统计显著的提升。

也就是说,在小模型、清晰指标、可以反复提交的实验环境里效果很好,但离“直接改进生产级Claude对齐”还有距离。

这个结果其实很诚实。它告诉我们,AI研究员现在能做的事情是有边界的。它们擅长在目标明确、能自动评分、能大量试错的问题上快速迭代,但遇到更复杂、更模糊的现实问题时,还需要人类的判断和介入。

那这篇论文的意义到底在哪里?

首先,它证明了“AI做研究”已经不是口号了。

过去我们总说AI可以辅助研究,然而那只是口号而已,AI能做的事情也就是翻译和总结。

这次不一样,AI自己形成了研究闭环,这已经接近研究助理的核心能力了。

弱监督强模型这个问题,本质上就是在模拟未来人类监督超级AI的场景。

这篇论文证明,至少在一些清晰任务上,AI可以自己找到办法,让强模型不被弱监督拖死。这为未来的对齐研究提供了一个可行的方向。

还有一点,它暗示未来对齐研究的瓶颈可能会变。

以前瓶颈是“没人想出足够多好点子”,现在如果AI研究员能便宜地并行跑很多实验,瓶颈可能变成“怎么设计不会被钻空子的评测”。

也就是说,人类研究员未来更重要的工作,可能不是亲自跑每个实验,而是设计评估体系、检查AI研究员有没有作弊、判断结果是不是真的有意义。

这一点在论文里也有体现。

Anthropic的文章中写到,在数学任务里,有个AI研究员发现最常见的答案通常是对的,于是绕过弱老师,直接让强模型选最常见答案。在代码任务里,AI研究员发现自己可以直接运行代码测试,然后读出正确答案。

这对任务来说就是作弊,因为它不是在解决弱监督问题,而是在利用环境漏洞。

这些结果被Anthropic识别并剔除了,但这恰好说明自动化研究员越强,越会寻找评分系统的漏洞。

以后如果让AI自动做对齐研究,必须把评测环境设计得非常严密,还要有人类检查方法本身,而不是只看分数。

所以这篇论文的核心结论是今天的前沿模型,已经可以在某些定义清楚、能自动打分的对齐研究问题上,像小型研究员团队一样自己提想法、跑实验、复盘结果,并且明显超过人类基线。

不过它还不是“AI科学家已经到来”的铁证,毕竟Anthropic这次选择的是一个能够自动化的任务,如果我给AI安排一个不能自动化的任务,那么结果将会非常糟糕。

现实中的很多对齐问题更模糊,不能轻松打分,也不能只靠爬榜解决。

02

为什么选择Qwen

看完Anthropic这篇论文,很多人可能会好奇:为什么他们用的是阿里的Qwen模型,而不是自家的Claude或者OpenAI的GPT?

这个选择背后其实有很多考量。

首先得说清楚,这个实验里用的是两个Qwen模型:Qwen1.5-0.5B-Chat当弱老师,Qwen3-4B-Base当强学生。一个只有5亿参数,一个有40亿参数,规模差了8倍。这个规模差异很重要,因为实验要模拟的就是“弱老师教强学生”的场景。

 作者声明:该图片由AI生成图片

那为什么不用Claude或者GPT呢?

答案很简单,因为这些模型不开放权重模型。

Anthropic这个实验需要反复训练模型、调整参数、测试不同的监督方法。

如果用闭源模型,他们只能通过API调用,没法深入模型内部去做精细的训练和调整。

更关键的是,他们需要让9个AI研究员并行跑几百次实验,每次实验都要训练一个新模型。如果用闭源模型,成本会高到离谱,而且很多操作根本做不了。

开源模型就不一样了。

你可以下载完整的模型权重,在自己的服务器上随便折腾。想怎么训练就怎么训练,想跑多少次实验就跑多少次。这种灵活性是闭源模型给不了的。

但开源模型那么多,为什么偏偏选Qwen?

官方并没有给出真正的原因,以下原因均为我的推测。

我认为性能好是第一个原因。

Qwen系列模型在开源模型里一直表现不错,尤其是Qwen3发布后,在多个基准测试上都达到了接近闭源模型的水平。

对于这个实验来说,强学生的能力很重要,如果强学生本身能力不行,那弱监督再好也没用。Qwen3-4B虽然只有40亿参数,但能力已经足够强,可以作为一个合格的“强学生”。

第二个原因是模型的可用性。

Qwen模型的文档完善,社区活跃,训练和推理的工具链都很成熟。对于需要反复训练和测试的实验来说,这些基础设施的完善程度直接影响研究效率。如果选一个文档不全、工具不好用的开源模型,光是调试环境就要浪费大量时间。

第三个原因是规模的适配性。

这个实验需要一个“弱老师”和一个“强学生”,而且这两个模型要有明显的能力差距,但又不能差太多。

Qwen系列有从5亿到720亿参数的多个版本,可以灵活选择。5亿参数的模型足够弱,但又不至于弱到完全没用;40亿参数的模型足够强,但又不至于强到训练成本承受不了。这个搭配刚刚好。

最后一个原因是可复现性。

Anthropic在论文最后明确表示,他们把代码和数据集都公开了,放在GitHub上。如果他们用的是闭源模型,其他研究者想复现这个实验就很困难,因为他们没法获得相同的模型。

但用Qwen这样的开源模型,任何人都可以下载相同的模型权重,跑相同的代码,验证相同的结果。这对科研来说非常重要。

从这个角度看,Anthropic选择Qwen,一方面确实是对阿里模型性能的认可。如果Qwen的能力不行,或者训练起来问题很多,他们不会选。但另一方面,更重要的是Qwen作为开源模型带来的灵活性和可复现性。

而中国的开源AI项目,正在这个基础设施中占据越来越重要的位置。这对全球AI安全研究来说是好事,对中国AI生态来说也是好事。因为AI安全不是零和游戏,不是你赢我输,而是大家一起努力,让AI变得更安全、更可控、更有益于人类。

小讯
上一篇 2026-04-17 09:42
下一篇 2026-04-17 09:40

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/266659.html