近期思考汇编：Mythos模型、Hermes、以及Harness Engineering

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。
 作者 | 费斌杰 北京市青联委员 熵简科技CEO
本文作为我的日常思考汇编，总结一下最近AI领域值得关注的最新进展，内容会比较精炼。
（1）Anthropic Mythos：从“竞速发布”到“能力管控”
2026年4月7日，Anthropic 正式对外披露旗下最新前沿大模型 Claude Mythos Preview，并同步宣布启动网络安全合作计划 Project Glasswing。
这是 Anthropic 迄今发布的能力最强的模型，也是全球 AI 行业首个因能力"过于强大"而主动限制公开发布的模型。
Mythos 并非 Opus 的线性升级，而是架构与参数量的跨代跃升，在多项高难度评测上相比 Opus 4.6 实现了显著突破，呈现出能力断层。

尤其值得关注的是，Mythos大模型在网络安全领域表现出令人惊讶的破坏力，其 能力已从"漏洞发现"延伸至"漏洞利用→攻击链构造"的完整闭环，展现出接近自主化的攻击能力，远超多数顶尖人类安全专家。
自 2026 年 2 月 24 日开始内部测试以来，Mythos已在主流操作系统、浏览器及企业软件中已自主发现数千个零日漏洞，如果加以利用，将对企业信息安全造成重大危害。

因此，Anthropic 明确将 Mythos "锁进受控场景"，而非向公众开放。Project Glasswing 已向 12 家核心合作方与 40 余家关键基础设施组织授予预发布访问权，授权合作方使用 Mythos 扫描并加固自身系统漏洞，以防御未来潜在的 Mythos 级攻击。
但市场显然对Anthropic的说法并不买单。
这次Mythos模型的发布可能标志着 AI 行业从"竞速发布"时代进入了"能力管控"时代，未来普通人未必有资格使用SOTA模型，这会带来三个潜在问题：
1）如果"受控发布"成为常态，谁来决定谁能获得访问权？ 这个权力目前完全由 Anthropic 单方面掌握，没有任何外部制衡
2）学术界和中小企业可能被系统性排斥在前沿能力之外，加剧 AI 领域的集中化
3）地缘政治层面，本次Mythos大模型的合作方清单几乎全是美国企业——这会加速其他国家自主研发前沿模型的紧迫感，加剧全球军备竞赛。

除此之外，Mythos模型的发布还有一个重要意义：有力反驳了"Scaling Law触顶"的叙事。
下面这张图最近在AI圈疯传，我给大家解读一下。

纵轴ECI（Epoch Capabilities Index） 是一个对模型能力进行综合评分的指数，将多个异构 Benchmark 的得分归一化为一个可比较的统一标度，用以衡量前沿模型在不同时间点的"综合智力水平"。
模型按发布时间从左到右排列：Claude 3 Opus → 3.5 Sonnet → 3.7 Sonnet → Opus 4 → Sonnet 4.5 → Opus 4.5 → Opus 4.6 → Mythos Preview
Benchmark 则从早期的 GPQA Diamond、AIME 2025，扩展到最新的 MLE-Bench、GSO-Bench，反映评测体系本身也在不断升级以追踪更强的模型。
这张图传递出来的核心思想是：Anthropic 模型的能力增长正在加速而非放缓，Mythos 是这条加速曲线上最新、最远的一个点，其跃升幅度超出了此前任何一代模型间的进步。
这与前些日子Dario在访谈中对于AI指数级发展（Radical Acceleration）的论断不谋而合。

Mythos模型的system-card全文在这里，感兴趣的朋友可以详细阅读：https://www-cdn.anthropic.com/08abf88fc21b7facce6f52bc.pdf
（2）从OpenClaw到Hermes：An agent that grows with you
Hermes Agent 是由 Nous Research于近期推出的开源 AI 智能体框架，核心定位是"自进化 Agent"，项目在 GitHub 上迅速获得超过 4 万星，引发广泛关注。

把Hermes掰开揉碎了，它的核心创新在于内置了一套“复盘->提炼->沉淀”的学习循环，每次任务执行完成后自动启动，无需人工干预。
与此同时， 当 Agent 调用某个 Skill 发现其已过时、不完整或有错误时，会主动进行修复，采用精准的 patch + find-and-replace 方式，只修改需要变更的片段，而非重写整个文档。

听过我3月初第一次培训课程的朋友，应该对“self-improving-agent”有印象。当时我给大家分享了两个优秀的Skill，其中之一就是在ClawHub上狂揽3.1k星的self-improving-agent，它的核心思想就是引入自我学习机制，以md格式文件存储每一次学到的改进知识，避免以后再犯类似的错误。

这次Hermes将这个重要能力内化到了自身的框架中，是一次相当有趣的尝试。但我们还是得清醒的认识到，这只是一次微创新，如果要真的大幅提升Agent执行能力，不能只琢磨Skill层，还得在CLI层下功夫。当然这就是另一个大的话题了，先按下不表。

（3）Harness Engineering：Humans steer, Agents execute.
Harness Engineering中文名为“驾驭工程”，源自 OpenAI 2026 年 2 月发布的一篇文章，介绍了他们团队尝试100%用Codex构建一个软件产品的过程中，形成的对于人机交互范式的思考。
Harness Engineering的核心要点归根到底就一句话：人类负责驾驭方向，智能体负责执行。
我非常认同这个观点，与我们熵简科技最近几个月的实践经验高度一致。

随着AI能力越来越强，人类将不可避免的成为工作流中效率最低的那一环。为了提高效率，人类的职能应该从“做好具体工作”，转变为“搭好脚手架”。
以工程师为例，他们的核心工作不再是写代码，而应该是设计环境、明确意图、构建反馈回路，让 AI 智能体可靠地完成工作。

但是如果完全由AI跑闭环流程，不可避免会出现不断“熵增”直到系统瘫痪的问题。
还是以工程师举例，OpenAI发现如果不定期进行手动清扫，Codex会不断在代码库中积累“AI残渣”，并随着时间的累积，最终导致任务漂移。

为了对抗智能体的熵增难题，Harness Engineering给出的解法是：把人类"品味"编码进系统。
人类的审美偏好是对抗系统熵增的利器，可以将其转化为为操作文档、linter 规则或工具，从定期运行运行"清扫型"智能体任务，自动扫描并修复代码中的坏模式，实现熵减。
（4）AlphaClaw培训课程，「驯龙（虾）高手计划」第四讲预告
4月2日，我们举办了第三次 AlphaClaw 培训课程，并正式启动「驯龙（虾）高手计划」——每期分享3-5个投研实战案例，帮助专业投资者掌握金融小龙虾的最新玩法，成为在指数级变革中最早吃到红利的人。
错过了前三期培训课程的朋友，可以戳以下视频链接，需要拥有AlphaEngine账号才可以回看。
AlphaClaw投研小龙虾第一讲视频回放：
http://alphaengine.top/share/#/share/research-insight?shareLink=GCKeVfKiGEOI5wlu8Jwg&id=9260
案例1：投资大师思维复刻，让巴菲特帮你选股
案例2：财报季风格化批量点评
案例3：投研PPT制作与二次编辑
AlphaClaw投研小龙虾第二讲视频回放：
https://www.alphaengine.top/#/share/summary?link=aBIT9Zs5Z2YMe1yizcKl
案例4：缠论选股策略构建
案例5：结合本地敏感数据撰写上会报告
案例6：有道云笔记批量导出到本地
AlphaClaw投研小龙虾第三讲视频回放：
http://alphaengine.top/share/#/share/research-insight?shareLink=8D2Hc0c5dZAzIhgAt0bw&id=6680
案例7： 定制投资日报生成
案例8： 从持仓数据刻画基金经理投资逻辑
案例9： 公司/行业投资框架一键生成
如何系统掌握 AI 投研工具的实战打法？
如何建设投研工作台，成为指数级变革中最早吃到红利的人？
熵简科技CEO、AlphaEngine主理人费斌杰讲在本周三（4月15日）晚7:30，进行主题分享，欢迎感兴趣的投研专业人士参加。
AlphaClaw功能搭载于AlphaEngine桌面端，下载地址： https://www.alphaengine.top
AlphaEngine APP下载地址：
近期思考汇编：Mythos模型、Hermes、以及Harness Engineering

相关推荐