❖ 什么是通用Agent智能体?目前有哪几家?

❖ 什么是通用Agent智能体?目前有哪几家?听说了 manus 和实在 Agent 但是不知道通用智能体到底是什么意思 有人解释一下吗 大家好哦 我是卡尔的 AI 沃茨 爱折腾各种 AI 的非正经码农 努力做你们的 AI 界手替 没有难学的 AI 螺旋镖还是回到通用 Agent 了 100 天里 我们一起见证了创作 设计 搜索 编程 旅游 办公 播客等垂直领域 Agent 们的诞生 也迎来了通用 Agent 一次完整的能力升级 MiniMax

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



听说了manus和实在Agent,但是不知道通用智能体到底是什么意思,有人解释一下吗

大家好哦,我是卡尔的AI沃茨,爱折腾各种AI的非正经码农,努力做你们的AI界手替,没有难学的AI~

螺旋镖还是回到通用 Agent 了,

100天里,我们一起见证了创作、设计、搜索、编程、旅游、办公、播客等垂直领域 Agent 们的诞生,

也迎来了通用 Agent 一次完整的能力升级 ——

MiniMax Agent

不需要邀请码,也不搞限额,这几天已经在海外火起来了,

几周前我就拿到了这款 Agent 的测试资格,现在可算是蹲到了MiniMax 开源周,可以好好说说,通用 Agent 2.0(我单方面起的名字) 具体升级了什么:

  • PPT:有多套模版,还可以包含Smartart元素和可视化图表
  • 编程:能模拟实际场景下的真实操作,减少网页类代码的Bug
  • 多模态理解:既可以输入音频、视频、图像,又能生成图像、视频和视频
  • Deep ReSearch(深度研究):内置API、基础搜索、Browser use等信息检索工具
  • 支持MCP:内置地图、github/gitlab、slack、figma等 MCP Servers,后续还可以自定义

那我就按照群里收集到的Agent使用场景和频率,给增强后的能力们安排上测试案例,从对话交互、思考过程、交付结果来直观展示这次通用 Agent 的升级变化,Here we go!

agent.minimax.io(⬅️使用去这里)

我现在已经习惯把搜索或者对话记录打包好做成可视化网页了,

这用来自己重温或者是分享给别人都是方便到离谱,之前的缺点就是文字对应的图片找不到,或者是找不准。如果是喜欢自驾的朋友,这段时间新疆独库公路开放了,直接用MiniMax Agent给大家做一个带音频解说的旅游网站。

https://www.zhihu.com/video/1918743796151203381

提示语长度预告~

我要制作一个以“新疆独库公路 · 四季穿越”为主题的沉浸式滚动网页,每一屏聚焦一个沿线景点,比如独山子大峡谷、那拉提草原、巴音布鲁克、库车大峡谷等等。页面采用全屏滚动翻页的形式,让浏览者随着页面的推进,像是亲自沿着这条561公里的传奇公路穿行一样。
每一屏都包含:
一张全屏的景点照片(Hero image)
一段由 MiniMax 生成的中文音频讲解(配合静音播放控制)
一个 Google Maps 地图,定位该景点的位置与路线
一张基于 Apache ECharts 绘制的简洁数据图表,例如海拔变化、开放月份、日照强度等

色彩风格(参考新疆自然地貌)

为了更贴合新疆的自然气质,我希望页面整体颜色风格参考“高原自然色” 排版与视觉比例 中文大标题使用黑体粗字,英文作为注释点缀,字号小一阶 核心数字(如公里数、海拔等)使用超大字号,形成视觉锚点 整体遵循 8pt 栅格排版,保持对齐、留白有节奏感 滚动结构使用 scroll-snap,用户每次滚动都跳到一整屏,不混乱

数据可视化

每个景点配一张简洁的折线图,基于 Apache ECharts 5(CDN 引入)渲染,不要复杂交互,仅做信息补充

地图与语音

地图用 Google Maps iframe 嵌入,每一屏都要准确标注当前景点位置,并允许拖动浏览 MiniMax TTS 生成的音频讲解,页面打开时延迟加载,首次播放需要用户交互触发(保证自动播放策略合规) 所有地图与音频组件都使用懒加载方式,减少页面初始加载压力

技术架构要求

使用 HTML5 + Tailwind CSS 3(JIT 模式)+ 原生 JavaScript 开发 动画库统一用 anime.js,通过 CDN 引入 页面内不超过 6 个并行请求(含图表、地图、音频),保持加载体验流畅 页面可直接部署在静态页面平台(如 Vercel、GitHub Pages)

输出格式

单页响应式页面,支持大屏(1920px)浏览体验 向下滚动时自动加载下一屏 页面内容以模块形式组织,每一屏保持信息一致性:景点图、地图、音频、图表 页面整体视觉统一、干净、现代、具有新疆地域识别度与沉浸感

MiniMax Agent 只需要半小时就完成了,

直接把生成的结果和我给的提示语对照一下,可以看到我给出的要求基本都做出来了,每一屏需要的景色背景图、数据表、地图、语音播放全都完成,

而且图片质量很高,有点子国家地理那味儿了,网页设计审美也很绝,这个极简风又高级又好看,我直接幻视苹果组件。

在执行过程里,Minimax Agent会结合自己的代码优势,创建数据收集脚本、可视化数据分析脚本、

还会主动创建一个源文件跟踪记录,记录所有使用的资源和验证过程,

因为有多模态能力,在验证的过程中,它还可以自己体验看一遍确保质量。而且上面展示效果里所有的图片和音频都是直接生成。现在很多通用 Agent 会用图片搜索来匹配合适的图片,结果不是因为分辨率低,就是因为图片尺寸不一,有些时候图片本身跟文字内容就配不上。

而且我还发现一个有趣的设定,MiniMax Agent 能自己选择合适的中文音色,

换句话说任务执行前我是不是还可以主动指定音色偏好。

更6的来了,

它在构建好网页后还可以主动模拟浏览器操作,

确保输出的网页不会有打不开这类低级错误。

还有还有,

minimax agent支持批量打包下载中间生成的所有文件,

这一点是很多Agent都没有的。

对话记录 agent.minimax.io/share/

作为第一个case,我们再上点强度,

跟隔壁 Manus 对比一下效果吧,

https://www.zhihu.com/video/1918744054855862186

如果没看minimax之前,我确实还觉得很不错。

但现在可以看到背景图确实很糊很糊,一下子拉低了整个页面的质量,

而且 manus 没有内置音频能力,对话过程中也无法调用对应api或者代码实现,这个音频组件就是小摆设实际上是不能直接使用的,体验-1。

再来做个PPT吧,

既然买不到 Labubu,那我做几个 Labubu 养养眼总可以了吧。

幸好四月份还囤了一个,

这可能是我上半年唯一一只了。

https://www.zhihu.com/video/1918744160887899835

提示语长度预告~

制作一个 “LABUBU 现象” 网页,类似可滑动的 PPT 展示,从角色起源、彩色变体、市场热度、文化影响到未来趋势进行全方位剖析。
每屏内容包括:
Hero 图(Labubu 角色)
简洁数据图(ECharts 折线/条形)
深色按钮 & 关键句强调
字幕式英文小注

动效设计

引入 anime.js(CDN),实现模块级 scroll-triggered 动画,如 Zoom-In、Parallax 移动、淡入淡出 动画节奏由缓动函数 cubic-bezier(.33,.01,.68,1) 控制,提供轻松 yet 有张力的切换体验 增设 “减少动画” 模式,符合可访问性需求

数据可视化

使用 Apache ECharts 5(CDN)生成折线图/条形图,展示如:色彩变体数、年度发售数量、盲盒获得率 图表线条通过特殊点缀色(薄荷青)呈现,透明渐变只在此**域展开 线条样式简洁,无填充背景色,提升信息识别度;图层支持 mix-blend-mode: multiply 与背景融合

技术栈 & 资源

HTML5 + Tailwind CSS 3(JIT + Purge 模式,下发 < 25 KB CSS) 引入 Google Fonts(中:思源黑体,英:Outfit 或 Nunito) 动画库:anime.js(JsDelivr CDN) 图表库:Apache ECharts 5(CDN) 图标:Font Awesome 6 / Material Symbols(SVG/CDN) 图片 & SVG 使用 SVGO 优化,CLS < 0.1;页面请求 ≤6 并行,保障首屏渲染性能

输出格式

单页响应式布局,模块展现为可翻页“PPT” 每块 Hero 图 + 小英文注解 + 中文重点讲解 + 符号图表 色彩、动效、排版风格经过新 Labubu 主题定制 视觉调性统一:干净明快、资讯清晰、调性年轻趣味

这个封面是营销汇报环节中最重要的一页,

做过运营的都知道,高亮最优数据是必须的一环,

这一页minimax做的非常漂亮,数据正确、配图配色好看、排版都很精致,可以直接照搬。

再看中间页的数据分析,

从市场占比、泡泡玛特的IP 营收对比、二手市场价格上做出了相应的数据总结,

甚至引入了前几天拍卖掉的108万天价初代labubu(许个愿,我也想要)。

而且它还能总结了目前某音、某书、某博的讨论数据,

并且列出真实产生的明星效应事件,非常清晰一目了然。

最后介绍了labubu的创始人、设计理念以及labubu和泡泡玛特和简要合作历史,总结了未来的发展趋势,整个网页不管是从一个报告看还是从设计上看质量都蛮高的。

编程考了,多模态考了,MCP、PPT也跑了,是时候试试看硬实力的 Deep Search 了。

刚好 MiniMax 的视频模型 Hailuo 02(0616(其实是618)都起来打榜了,

单看视频效果也是很离谱的程度,

https://www.zhihu.com/video/1918747678059241827

这打击感太强了,

所以我这把直接让 MiniMax Agent 自己来做一个AI视频发展全景总结:

https://www.zhihu.com/video/1918745094644831515

提示语短度不预告~

MiniMax 的视频模型 Hailuo 02(0616(其实是618)马上就要上线了,我真的非常兴奋。现在,我想知道关于AI视频的所有的一切,包括时长、清晰度、技术架构、功能点首尾帧、超清、延长、主体一致性等,从24年6月份到25年6月份。我希望得到一个极度详细的万字报告。这个报告不要太单调,要写的像故事那样。同时做一个时间线,放上所有ai视频产品,包括Hailuo的迭代时间点。把最后搜索得到的结果,按照合适的格式整理成美观的网页。

这一次跟前两次不同,我没有具体指定一些风格、技术栈、配色方案等等,

而是直接让 MiniMax Agent 自己选择合适的格式整理成网页。

这更接近我平时使用深度研究或者深度搜索的场景,需求比较模糊,更期待模型自身给我的反馈。

效果也比我预计中要好很多,是一个比较标准的产品展示页,或者博客类型的页面,顶端栏划分了不同的信息,顶端和底部都保留了大量跟Hailuo 02的相关项,每一个页面都能交互,包含的信息量非常大,几乎完美的匹配了我的需求,你看到提示语中我说到的东西几乎都实现了。

我最最喜欢的是顶部这个类似通知滚动条的设计,就很有一种人感,有一种小巧思的感觉。

很多高频运营的网页都会使用的做法,nice。

最后来看看MiniMax Agent的积分定价吧,

新用户会自带1000个积分,

基础版对标的应该是manus的plus版,同样的价格能执行2倍左右的任务数。

那我自己跑的这三个案例举例,

不带音频生成的话,任务积分消耗在300-500不等,能完成15个任务的水分不大。

今天是Minimax开源周的第三天,

Day1开源了 MiniMax M1

跟之前开源的基座模型MiniMax-01一样,456B参数,MoE架构,激活参数45.9B。支持1M输入,80k输出的超长上下文,是DeepSeek-R1的8倍。

Day2发布了Hailuo 02

支持 10 秒,1080P 视频。

一起来看看前后升级的效果对比吧

https://www.zhihu.com/video/1918747802932052233

好期待后面三天还会有什么大货,

会是一个月前才发的声音模型Speech-02有小版本更新?

还是说图片模型也跟着视频模型一起升级?

我已经等不及了,

要不连夜开发布会吧!

@ 作者 / 卡尔 & 阿汤

@ 动手学AI知识库 / learnprompt.pro


最后,感谢你看到这里

如果喜欢这篇文章,不妨顺手给我们

赞同 / 评论 / 分享 / 喜欢 / 收藏 ❤️

更多的内容正在不断填坑中……

最近,我一直在关注通用智能体AI工具,以下是几款推荐,后面还有邀请码哦~

前段时间爆火的Manus,把通用智能体这一概念具象化并产品化了。

以往提及通用智能体,很多时候只是一个比较模糊的概念,对于什么叫通用智能体以及该以何种方式呈现,都没人能想清楚。

而Manus把这个东西真正做出来了,其创意就非常厉害了。

它厉害的地方就在于,创造性地提供了一个沙箱环境,智能体可以在这个类似虚拟电脑的环境中进行其他操作,比如打开浏览器、查找内容、生成文字和文件,然后保存到这个虚拟电脑里,这些操作都是在沙箱环境中完成的。

智能体主要用于做任务规划以及编排、调用工具等工作。以前这些需要通过手动节点去完成,现在只要一句话,就能让AI自动把任务规划好,这是很厉害的一点。

比如下面这个官方案例,用来为中学教育者制作了引人入胜的视频演示,通过通俗易懂的教育内容清晰地讲解动量定理。

可惜的是,目前Manus还是邀请制,普通用户申请需要加入等待名单。

登录网址:manus.im/

不过好在,我们还有扣子空间。

我们知道,扣子的智能体设计以及编排在在国内目前市面上,扣子(coze)与Dify比较突出。

扣子能够简化我们在开发AI应用过程中的一些操作,其最大好处在于让很多不会写代码的人也可以开发AI应用。

那为何现在还要推出扣子空间呢?它是一款可以对标Manus的通用智能体工具,并且其也接入了MCP扩展插件。

在其扩展插件方面可以看到用了很多插件,像其内部体系的飞书多维表格以及飞书云文档,还有天气、航班、信用相关的,实际上就是按照这个协议去实现的,所以变得很简单。越来越多的可以扩展加入进来。

接下来要提到MCP,简单给大家科普一下,它是由Claude的母公司Anthropic在去年11月份提出的一个协议。该协议旨在解决目前AI模型接入各种插件时存在的乱象,此前每个插件接入一个大模型都要重新写一遍接口,十分麻烦。

MCP就如同互联网上的HTTP协议一样,将所有接口统一,这样任何一个工具要接入大模型时就变得非常简单,不管是豆包也好,还是其他如GPT、claude等也好,都只需实现一遍即可,插件接入各类平台就变得容易了。

可以将MCP协议从硬件角度做个比喻,它类似Type-C接口,Type-C接口统一了设备领域中各种杂乱的接口情况,同样,MCP协议也简化了各种复杂工具接入。

近期,扣子又提出了一个更大的概念,影响力更大,即可以把之前提到的工作流,包括智能体编排所做出的应用工作流,以MCP协议的方式一键发布到扣子空间。

这个想象空间就很大了。例如,所有代码开发者的成果都可以往这上面添加,也就是说可以通过一句话调用通用智能体,市场前景广阔。

以前相关智能体编排平台是本身有智能体中心,发布应用能给开发者带来一些收入,现在通过这个新功能相当于又多了一种发布途径。

不过,这个功能目前才刚刚推出,看了一下,对于普通开发者还未开放,仍处于内测阶段,只有少部分人在尝试,还没正式面向大众开发,真正能使用可能还需要一段时间,但这个概念确实很厉害。

扣子空间案例,生成Flappy Bird类型游戏:

https://www.zhihu.com/video/1902069980800976862

登录网址:space.coze.cn/

同样需要邀请码,但是更容易获得,只要一个用户开启了一个任务,就可以获得5个邀请码。

在国内,其他通用智能体方面也有不少跟进发展的情况。比如我体验过前百度高管开发的GenSpark,它与扣子空间相比有一些不同之处。

GenSpark的PPT是通过网页生成的,做出来的效果从视觉感受上来说,比那种套模板的AI生成的要更舒服一些。

https://www.zhihu.com/video/1902070233105163746

具体介绍可见文章:zhuanlan.zhihu.com/p/18

而且GenSpark还有亮点,它可以直接通过通用大模型去生成视频,之前看过一个案例,比如生成做饭相关内容的视频,效果还挺不错的。

它整合了像可灵、Vidu、MiniMax、PixVerse、Google Veo2等其他几个AI视频工具,能够一句话调用这些资源。

登录地址:genspark.ai/

它不需要邀请,注册即可用,每天有200积分赠送。

还有360的纳米AI,也推出了超级智能体功能,可以支持自己发布MCP并使用,并也内置了100多个MCP服务,近期在搞内测邀请,其页面展示了相关情况。

它在写报告、插入一些元素生成图文并茂内容等方面的能力,在目前类似智能体工具中是比较厉害的,因为我看过大部分的写报告的DeepResearch功能,都是纯文字的,包括我们熟知的Open AI DeepResearch、Google Gemini2.5 Pro DeepResearch,还有智谱AutoGLM沉思,而纳米AI还具备这个功能,着实让人惊喜。

比如这是我生成的一份调研报告,图表、文字都直接能生成的完整报告出炉:

又比如生成的旅游攻略,图文并茂,甚至连实地照片都找出来了:

下载网址:bot.n.cn/download

,下载客户端到电脑上,再进入到智能体页面,需要邀请码才能使用:

我这里有五个邀请码,感兴趣的朋友尽快试试:

当然,还有智谱AutoGLM沉思也不错。

#AI工具 #AI工具推荐 #智能体 #AI应用开发 #MCP协议 #扣子 #扣子空间 #GenSpark #纳米AI超级智能体 #科技前沿 #内测体验 #AI发展

0 基础入门 Agent:理论知识体系搭建指南

小讯
上一篇 2026-03-29 12:19
下一篇 2026-03-29 12:17

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/232189.html