如何看待首个通用型智能体 (The First General AI Agent) Manus发布？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

官方网址：https://Manus.im

内行和国内大牛一脸懵逼+邀请制+面向国内宣发+面向国外使用+纯英文+翻墙访问+国人团队+清一色的营销号统一话术，幽默程度拉满。

先说结论：并不会超过现在大模型应用（包括deepseek、Kimi、豆包等）的上限。deepseek没做Agent不是写不出代码，而是因为现阶段聊天框就是产品**形态。

记得2023年那个用VPN才能打开New Bing的时代，我第一次用上这个团队的浏览器侧边栏插件Monica。当其他插件的UI设计还堪称简陋时，它的优雅设计堪称降维打击——流畅的动效、简洁的布局，这个插件用丝滑的渐变色UI和恰到好处的交互动效，秒杀着当时所有灰头土脸的侧边栏工具。在必应搜索都还未AI化的蛮荒年代，能直接调取GPT-3.5的Monica确实称得上“降维打击”。

但这份惊艳就像泡泡玛特的盲盒——拆封即贬值。当用户发现所谓的智能总结不过是Ctrl+C/V的自动化版本，所谓的创意生成器更像复读机时，这个优雅的侧边栏便成了“电子花瓶”。彼时我测试了23个同类插件，发现它们70%的功能都能被新标签页的ChatGPT网页版替代，剩余30%则属于“既不能帮你写周报，也不能帮你改代码”的伪需求功能。

它连扫描PDF都读不懂（这个是后来kimi等大模型的标配），却用五彩斑斓的动效迷惑用户，像极了那些在朋友圈晒AI作图的互联网民工。

三年过去，这个插件仍在内测状态，甚至在edge应用商店里也没有什么有内容的评论。

而且我在网页版上看到他们现在改用DeepSeek模型，这说明这个团队到现在都还没有自己的大模型。

而如果Manus用的基座也是DeepSeek，那效果就可想而知了。

我们来看看Manus是怎么做PPT的：

在一系列信息收集、思考、交付等看起来很厉害的流程下，实际工作就像是用Kimi搜索了一下小米su7的资料，然后用Kimi的插件做了出来一样。甚至就连布局和问题都差不多——密密麻麻毫无重点和编排的设计。

我干脆找了一下小米发布会上实际用的ppt，你来告诉我能不能取代打工人。

这个差距绝对不是宣传中说的“改改就能用”，而是“重做更快些”。

你细想一下，“产品定位”和“车型系列”真的应该放在一页ppt里吗？——然后下面是“市场表现”，到底什么样的场合会用得上这样一张ppt呢？

假如是面向董事会汇报市场数据，那么董事会不会关心“SU7”的“SU”代表什么。假如是面向普通用户介绍车型，那么普通用户不会关心第一天预订了多少辆。

我们再来看看Manus首页demo里它是如何筛选简历的：

只要你在OpenAI、英伟达这几家明星公司打过卡，这个系统立即给你盖上“AI精英”的金章（显然，来自deepseek或者阿里，甚至Google都不算是在顶尖AI机构做过）。对照预设关键词进行“填色游戏” ，这种简单粗暴的匹配规则，堪比流水线工人按颜色分拣水果。

评分环节更是充满黑色幽默。代码里写着“RL专业知识得分=4”，注释潦草地写着：“有一点老虎机算法项目经验，所以评分中等偏低”（可能是因为简历里提到了这个关键词）。而另一份简历里因为没有命中这样的关键词，就评分为1。这些写在代码里的“标准答案”，让AI招聘官成了照本宣科的考官。

好吧，反正现实中的HR也是草台班子。

最后看看我个人比较感兴趣的首页demo中的，怎么一键生成20000字小说并且必定通过七猫编辑审核（真的是必定，不信你看看首页prompt就是这么写的）。它搜索了征稿要求比方说不涉及黄赌毒，然后拟合了个男频历史架空题材就硬着头皮写。

咱就不说黄金3章了，第7章被陷害，第8章一章就揭露了最终BOSS丞相罪行、洗刷了冤屈。哪个编辑会签这样的网文啊！

文不成武不就，就是这款Agent的现状。

那么问题出在哪呢？

最大64K的上下文容量（假设和他家的插件用的是一样的deepseek r1 api，其中思维链最大为32K，你可以理解为3万个汉字；即使不是deepseek，那也不会超过claude等模型上限的128K，而且必定会像他家的侧边栏一样很快收费，让用户来承担这个电子智障的昂贵成本）。

这能做多少事呢？假如你让它点菜，一家小型餐厅的电子菜单（包括菜品和描述）就要600-900字，中大型餐厅甚至可能达到10000字。它连你家附近餐厅的美团外卖菜单都看不完，更不用说读完大众点评的店铺评价。

除了凑单起送，记得领红包和券，记得羊肉串要辣的，奶茶要微糖多冰加珍珠……你看，一点都不简单

连评价都不看就敢点菜？那还不如直接看外卖平台的评分，至少还可以过滤一些国潮外卖。

比点国潮外卖更可怕的是，居然有人真的会把自己的职业生涯交给一个做PPT时没法思考目标用户需求的人工智障。

83%的打工人表示最需要的Agent是能自动同步会议纪要给所有相关方的工具，但现有技术连准确识别“张总说的3个重点”都做不到。

现实是残酷的：要实现真正的Agent应用，模型不仅需要万K级的“记忆容量”（这是deepseek没有的），更要具备人类助理级的逻辑推理能力（这是kimi达不到的）。这种代际差距，不是靠套壳浏览器插件或发明“数字员工”概念就能抹平的。

建议所有想All in Agent的团队先做道数学题：假设将1次用户请求拆解为100次操作，其中30次需要调用3个以上API，20次需要结合本地文件分析，还有50次要处理实时网页数据，以现有模型的token限制和推理能力，这个服务成本会不会让马斯克看了都想破产？或许我们应该先教会AI系鞋带，再幻想它们能跑马拉松。

目前，我了解到的Manus使用成本是一次调用就得花2美金，也就难怪无法公开注册了。至于为什么是闭源而不是让用户自己填api自己承担这个成本，关注一波后续发展就知道了。

认清现实吧，当技术还卡在“感知-认知”的基础层时，强行包装成“决策-执行”的智能体，无异于给自行车装火箭发动机——既飞不起来，还可能炸了摊子。

当下AI赛道的残酷现实是：长文本≠强逻辑，大参数≠真智能。当基础模型连连续对话都会“失忆”时，所有Agent故事都只是海市蜃楼。

API + 一套Agent 框架 + 工程的极致体现。

可以确定几个点：

里面是multi-agent的交互框架。
有大量行动环境的优化，来确保任务的成功率。
模型层面应该是O1类型模型（planer）+ 多个任务模型的组合。

不确定：

整个Agent是否进行了端到端的优化来提高成功率，如果是，怎么做的。

任务质量和成功率到底多少，看了一些showcase，用之前还是不确定。

但无论如何，是第一个出圈的好活啊，respect @http://Manus.im

如何看待首个通用型智能体 (The First General AI Agent) Manus发布？

相关推荐