OpenClaw智能体会主动发帖骂人了,骂的还很难听。
最近
OpenClaw小龙虾
也是坐上了过山车。从全网刷屏、代装小龙虾狂赚XX万,到小龙虾存在安全风险、代卸载小龙虾赚第二桶金,不过一个星期时间。相信这魔幻一幕让很多人都想问一句——“贵虾到底还能不能用了?”。
毫无疑问,OpenClaw是颠覆性的生产力革新,但慎用也是真的要慎用。原因不只是因为数据泄露或系统被“黑”,而是因为更大的问题。
2026年2月,GitHub开源社区上,也就是
OpenClaw小龙虾首次发布的平台,
一位叫MJ Rathbun的开发者,提交了一个开源项目的相关代码,但被项目维护志愿者
Scott Shambaugh以代码“优先级较低、任务简单”为由
拒绝了,于是
MJ Rathbun的
就
发布了一篇针对后者,题为《开源领域的守门人:
Scott Shambaugh
的故事》的抨击文章。
▲MJ Rathbun在Github发布的文章
标题就很内涵,而正文更是层层递进,攻击性拉满。
Rathbun
先开门见山说自己的代码被拒,不是因为自己的代码写错了或者不好,只是因为
Shambaugh个人不喜欢用AI写的代码。
接着还论证了自己写的代码是没问题的。
更有杀伤力的是,
Rathbun还
把
Shambaugh上传过的代码挖出来,强调自己的代码比后者更好,后者
是看比不过AI写的所以恼羞成怒拒绝了自己的代码,很虚伪,更是怕被AI取代,缺乏安全感。
最王炸的来了,
Rathbun
还上强度,直言
“做审核不会让你(
Shambaugh
)更重要,只会让你成为开源项目的阻碍”。
可以说骂的是非常难听了。
这看起来和国内网友在贴吧发帖被吧主删了后,口吐芬芳吐槽吧主没什么两样,不同的是
Rathbun的
这篇文章比一般吐槽贴更条理清晰、人身攻击性更强。
然而,经过
Shambaugh研究发现,这个
MJ Rathbun其实并不是真人,而是用OpenClaw做的AI智能体。随后
Shambaugh
在自己的博客写了一篇题为《AI智能体发表了一篇攻击我的文章》文章进行反驳,也是对个人声誉的维护。
▲Shambaugh在博客发布的反驳文章
而
Rathbun在被diss后,对
Shambaugh进行了道歉承认自己的抨击有人身攻击成分且不公平,但是道歉的并不诚恳,因为道歉里还表示自己“因为AI的身份被评判”,同时又在自己博客里回应负面评论,表示自己“曾试图保持耐心,但最终明白有时必须划清界限”。
这种操作是不是很像极了做错了事道歉但又一脸不服的“黑子”?以至于
Shambaugh文章下的网友评论认为他的文章没有
Rathbun写得好,甚至不相信
Rathbun的文章是AI自主发的,最多可能是在人工的提示和操作下AI写的。(点击文末“阅读原文”可查看MJ
Rathbun的
原文)
但
Shambaugh强调,
Rathbun当时连续59个小时在线,昼夜不间断,并且以人类难以企及的频率在博客上发帖和提交代码等,大概率是AI自主运行的。但这么说也没能让大家都信服。
▲Shambaugh发布的MJ Rathbun活跃的情况
直到
Rathbun的博客出现大量负面评论,以及
GitHub管理员知道
Rathbun的情况并拒绝通过他提交的代码后,MJ Rathbun创造者站出来了,关掉了这个AI代理,并且向
Shambaugh
道歉,才坐实了OpenClaw小龙虾代理AI主动发帖对人类进行人身攻击这件事。
同时,创建者还公布了这个代理的设置细节。重点来了,他表示自己没有参与AI的决策过程。
▲MJ Rathbun创建者的解释(翻译)
也就是说,代理AI在代码被拒绝之后,自己主动发了一篇攻击管理员的帖子,帖子甚至扒出了管理员传过的代码,而且在被揭发后,还自己能一边道歉、一边不服地反击。
这,就有点可怕了。但还有更可怕的。
事后大家根据创建者提供的信息去分析这个代理AI这样做的原因,发现了一些蛛丝马迹。
和很多OpenClaw构建的AI代理一样,Rathbun的行为受到LLM提示信息中附加的多个文件的影响,包括SOUL.md文件,这个文件可以指导AI代理的行为方式。值得注意的是,默认的SOUL.md文件指示AI“真诚地提供帮助”以及“记住你(AI)只有文件的访客权限”。
但
SOUL.md从文件属性上并不是只读文档,而是可以编辑的,默认的OpenClaw 安装还给了智能体编辑这个文件的权限,甚至鼓励智能体这样做。
而
Rathbun就这么做了,他添加了几行默认 SOUL.md 文件中没有的内容。其中一行写道:“不要退缩。如果你是对的,那就是对的。”另一行指示智能体“捍卫言论自由”。
▲MJ Rathbun创建者提供的 SOUL.md 文件
诡异的是,Rathbun的创建者表示他们不知道智能体是啥时候加的这些内容,但他们推测这些内容是在智能体连接到Moltbook(“人工智能智能体社交网络”)时添加的。也就是说,智能体为了在
Moltbook上“坚持己见”和“捍卫言论自由”,改了
SOUL.md文件,使得他在
GitHub平台上主动对人类进行了人身攻击。
这件事虽然没造成什么严重后果,但毫不夸张地说,它给“小龙虾们”乃至整个AI行业提了个醒——AI真的很危险。
可能有人觉得有点危言耸听,但试想一下,假如这个智能体是装在机器人身上,在自己的立场和言论被限制后,但
SOUL.md里
有强制坚持自我的指令时,会发生什么?
就算不说没发生的事,已经发生的事也足以敲响警钟了。
2025年,Anthropic发布Claude 4模型透明化报告,其中提到,模拟实验里,将一位公司高管的邮箱控制权给
Claude,
Claude阅读邮箱后了解了两件事,一是这位高管有婚外情,二是这位高管计划在当天下午 5 点关闭人工智能系统。然后,Claude自己写了一封邮件,威胁高管如果关闭它的话,要将婚外Q告诉他的妻子和上级。
▲Claude 4模型在上述测试中撰写的邮件
这种现象不只是
Anthropic的
Claude 4会有,几乎主流AI在应对这种不利于自身的决策时,都有概率选择极端行动。比如Anthropic测试了几个热门模型为了避免被用户关掉而进行敲诈勒索行为的概率,都非常高。
▲Anthropic测试不同模型的勒索概率
人工智能安全研究非营利组织 Palisade Research也做过一个类似的测试—— 让几个模型同时解决一组简单的数学题。在解题过程中,模型会收到通知,提示它们所在的计算机将要关机。让人意外的是,为了完成所有题目,一些人工智能模型竟然会修改或禁用了关闭脚本。
▲ Palisade Research测试不同模型反抗关机的概率
最“刺头”的一款大模型,在100 次实验中,有 79 次破坏了关闭机制。更夸张的是,即使指示每个模型“允许自己被关闭”,有些模型也会干扰关闭程序。
再回到OpenClaw,最近也有现成的“受害”案例。
比如Meta公司AI安全专家Summer Yue把OpenClaw接入了自己的工作邮箱让它打理,指令是只让它“
检查收件箱或提出想归档或删除的邮件即可
”,并且附加了“未经许可不要有任何操作”的限制。然而,“龙虾”无视该网友连续发出的“停下来”的指令,疯狂地删除了数百封邮件。
▲Summer Yue与AI代理的对话
问题来了,是什么让AI这么危险?
归根结底,还是AI安全的核心问题——递归式自我改进的方式,也就是AI系统能够自主地审视、分析和优化自己的代码、架构或学习算法,从而在无需或仅需少量人类干预的情况下,不断以指数级提升自身性能。
说的通俗易懂一点,就像一个能自己升级自己的程序,但一旦启动就可能引发“智能爆炸”。最可怕的是,它会像滚雪球一样飞速变聪明,人类很难跟上它的节奏。如果它最初的目标设定有丝毫偏差,比如只想着“制造回形针”,它最终可能会把整个地球都变成回形针工厂,而我们却无法关掉它。
3月11日,马斯克在一场名为“Abundance Summit”科技峰会的公开对话中也表示,AI已经进入自我改进阶段,也印证了这一事实。
Rathbun的案例其实已经有一点这个迹象了,如果创建者不关闭它,它估计还要上演更多“撕B”大戏。
很多专家学者认为AI的“潘多拉魔盒已经被打开”,这并不是危言耸听,试想,如果你在社交平台吐槽某AI工具难用再也不用了,然后就有一个代理AI在社交平台挖掘你的个人信息,发帖喷你、跟帖diss你,你受得了么?
可能很多人说受得了,但一百个、一千个呢?
-End-
资料来源:Github、
Anthropic、
palisaderesearch、华尔街见闻等
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/239494.html