如何看待首个通用型智能体 (The First General AI Agent) Manus发布?

如何看待首个通用型智能体 (The First General AI Agent) Manus发布?官方网址 https Manus im 内行和国内大牛一脸懵逼 邀请制 面向国内宣发 面向国外使用 纯英文 翻墙访问 国人团队 清一色的营销号统一话术 幽默程度拉满 先说结论 并不会超过现在大模型应用 包括 deepseek Kimi 豆包等 的上限 deepseek 没做 Agent 不是写不出代码 而是因为现阶段聊天框就是产品**形态 画了个草图 大概是这么个情况

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



官方网址:Manus.im

内行和国内大牛一脸懵逼+邀请制+面向国内宣发+面向国外使用+纯英文+翻墙访问+国人团队+清一色的营销号统一话术,幽默程度拉满。

先说结论:并不会超过现在大模型应用(包括deepseek、Kimi、豆包等)的上限。deepseek没做Agent不是写不出代码,而是因为现阶段聊天框就是产品**形态。

画了个草图,大概是这么个情况

记得2023年那个用VPN才能打开New Bing的时代,我第一次用上这个团队的浏览器侧边栏插件Monica。当其他插件的UI设计还堪称简陋时,它的优雅设计堪称降维打击——流畅的动效、简洁的布局,这个插件用丝滑的渐变色UI和恰到好处的交互动效,秒杀着当时所有灰头土脸的侧边栏工具。在必应搜索都还未AI化的蛮荒年代,能直接调取GPT-3.5的Monica确实称得上“降维打击”。

但这份惊艳就像泡泡玛特的盲盒——拆封即贬值。当用户发现所谓的智能总结不过是Ctrl+C/V的自动化版本,所谓的创意生成器更像复读机时,这个优雅的侧边栏便成了“电子花瓶”。彼时我测试了23个同类插件,发现它们70%的功能都能被新标签页的ChatGPT网页版替代,剩余30%则属于“既不能帮你写周报,也不能帮你改代码”的伪需求功能。

它连扫描PDF都读不懂(这个是后来kimi等大模型的标配),却用五彩斑斓的动效迷惑用户,像极了那些在朋友圈晒AI作图的互联网民工。

三年过去,这个插件仍在内测状态,甚至在edge应用商店里也没有什么有内容的评论。

而且我在网页版上看到他们现在改用DeepSeek模型,这说明这个团队到现在都还没有自己的大模型。

而如果Manus用的基座也是DeepSeek,那效果就可想而知了。

我们来看看Manus是怎么做PPT的:

Manus做的ppt

在一系列信息收集、思考、交付等看起来很厉害的流程下,实际工作就像是用Kimi搜索了一下小米su7的资料,然后用Kimi的插件做了出来一样。甚至就连布局和问题都差不多——密密麻麻毫无重点和编排的设计。

小米发布会上的ppt

我干脆找了一下小米发布会上实际用的ppt,你来告诉我能不能取代打工人。

这个差距绝对不是宣传中说的“改改就能用”,而是“重做更快些”。

你细想一下,“产品定位”和“车型系列”真的应该放在一页ppt里吗?——然后下面是“市场表现”,到底什么样的场合会用得上这样一张ppt呢?

假如是面向董事会汇报市场数据,那么董事会不会关心“SU7”的“SU”代表什么。假如是面向普通用户介绍车型,那么普通用户不会关心第一天预订了多少辆。

我们再来看看Manus首页demo里它是如何筛选简历的:

只要你在OpenAI、英伟达这几家明星公司打过卡,这个系统立即给你盖上“AI精英”的金章(显然,来自deepseek或者阿里,甚至Google都不算是在顶尖AI机构做过)。对照预设关键词进行“填色游戏” ,这种简单粗暴的匹配规则,堪比流水线工人按颜色分拣水果。

评分环节更是充满黑色幽默。代码里写着“RL专业知识得分=4”,注释潦草地写着:“有一点老虎机算法项目经验,所以评分中等偏低”(可能是因为简历里提到了这个关键词)。而另一份简历里因为没有命中这样的关键词,就评分为1。这些写在代码里的“标准答案”,让AI招聘官成了照本宣科的考官。

好吧,反正现实中的HR也是草台班子。

最后看看我个人比较感兴趣的首页demo中的,怎么一键生成20000字小说并且必定通过七猫编辑审核(真的是必定,不信你看看首页prompt就是这么写的)。它搜索了征稿要求比方说不涉及黄赌毒,然后拟合了个男频历史架空题材就硬着头皮写。

咱就不说黄金3章了,第7章被陷害,第8章一章就揭露了最终BOSS丞相罪行、洗刷了冤屈。哪个编辑会签这样的网文啊!

文不成武不就,就是这款Agent的现状。

那么问题出在哪呢?

最大64K的上下文容量(假设和他家的插件用的是一样的deepseek r1 api,其中思维链最大为32K,你可以理解为3万个汉字;即使不是deepseek,那也不会超过claude等模型上限的128K,而且必定会像他家的侧边栏一样很快收费,让用户来承担这个电子智障的昂贵成本)。

这能做多少事呢?假如你让它点菜,一家小型餐厅的电子菜单(包括菜品和描述)就要600-900字,中大型餐厅甚至可能达到10000字。它连你家附近餐厅的美团外卖菜单都看不完,更不用说读完大众点评的店铺评价。

除了凑单起送,记得领红包和券,记得羊肉串要辣的,奶茶要微糖多冰加珍珠……你看,一点都不简单

连评价都不看就敢点菜?那还不如直接看外卖平台的评分,至少还可以过滤一些国潮外卖。

比点国潮外卖更可怕的是,居然有人真的会把自己的职业生涯交给一个做PPT时没法思考目标用户需求的人工智障。

83%的打工人表示最需要的Agent是能自动同步会议纪要给所有相关方的工具,但现有技术连准确识别“张总说的3个重点”都做不到。

现实是残酷的:要实现真正的Agent应用,模型不仅需要万K级的“记忆容量”(这是deepseek没有的),更要具备人类助理级的逻辑推理能力(这是kimi达不到的)。这种代际差距,不是靠套壳浏览器插件或发明“数字员工”概念就能抹平的。

建议所有想All in Agent的团队先做道数学题:假设将1次用户请求拆解为100次操作,其中30次需要调用3个以上API,20次需要结合本地文件分析,还有50次要处理实时网页数据,以现有模型的token限制和推理能力,这个服务成本会不会让马斯克看了都想破产?或许我们应该先教会AI系鞋带,再幻想它们能跑马拉松。

目前,我了解到的Manus使用成本是一次调用就得花2美金,也就难怪无法公开注册了。至于为什么是闭源而不是让用户自己填api自己承担这个成本,关注一波后续发展就知道了。

认清现实吧,当技术还卡在“感知-认知”的基础层时,强行包装成“决策-执行”的智能体,无异于给自行车装火箭发动机——既飞不起来,还可能炸了摊子。

当下AI赛道的残酷现实是:长文本≠强逻辑,大参数≠真智能。当基础模型连连续对话都会“失忆”时,所有Agent故事都只是海市蜃楼。

API + 一套Agent 框架 + 工程的极致体现。

可以确定几个点:

  1. 里面是multi-agent的交互框架。
  2. 有大量行动环境的优化,来确保任务的成功率。
  3. 模型层面应该是O1类型模型(planer)+ 多个任务模型的组合。

不确定:

整个Agent是否进行了端到端的优化来提高成功率,如果是,怎么做的。

任务质量和成功率到底多少,看了一些showcase,用之前还是不确定。

但无论如何,是第一个出圈的好活啊,respect @Manus.im

小讯
上一篇 2026-03-29 13:51
下一篇 2026-03-29 13:49

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/232045.html