六大Coding Plan 速度和tokens消耗测试!

六大Coding Plan 速度和tokens消耗测试!天下武功 唯快不破 不管做什么事情速度都是重要的衡量指标 除了躺着做的事情 不着急 过日子嘛 能省就省 除了快 还要省 tokens 这是大家在购买 Coding Plan 时最关心的两个问题 今天就给大家做一个测试 可以作为选购参考 放心 无广告 无链接 只有实测 这是我自己开发的测试平台 目前我主要是购买了阿里云百炼 火山方舟 腾讯云 智谱

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



天下武功,唯快不破!

不管做什么事情速度都是重要的衡量指标。(除了躺着做的事情……不着急!)

过日子嘛,能省就省

除了快,还要省 tokens!

这是大家在购买 Coding Plan 时最关心的两个问题,今天就给大家做一个测试,可以作为选购参考。

放心:无广告,无链接,只有实测!

这是我自己开发的测试平台:

目前我主要是购买了阿里云百炼,火山方舟、腾讯云、智谱、Kimi、MiniMax 六家公司的 Coding Plan。除了智谱升级到了 Pro 级别之外(为了用上 GLM5),其他全部是入门款订阅套餐。对大家来说,应该非常有参考价值!

为了测试速度和 tokens 消耗情况,我会出三个题目,测两种场景,然后每个题目测三次

首先我们来测试最简单的问题,比如"早上好"。

这个问题主要是看各家模型的最快反应速度,我在系统提示词中特别强调了:

关闭所有思考能力,用最简单的方式来回答

下面直接来看结果:

我这个批量测试,可以从多维度测试模型,比如查看回复内容,总的消耗时间,总的消耗token,如果有思考内容输出,也可以查看思考过程。

第一次测试结果,最快的是 Kimi,只用了 7 秒左右最慢的是阿里云百炼 27.8 秒

然后,我把 6 个平台,3 次测试,18 个结果进行了汇总,并制作了图表。

汇总图表如下:

从图表中可以非常直观的看到,基于我的网络环境和测试问题来看,速度前三是:Kimi,智谱,MiniMax

因为这个问题回答很少,所以比 tokens 没太大意思。

唯一有意思的就是,阿里云百炼的思考模式真的是有点问题,什么弱智问题都得思考半天。

上面的问题只是为了测试最快的情况,接下来两个题目会测试深度思考模式下的速度和tokens消耗情况

顺便也看一下各家模型的逻辑思维能力(智商)怎么样。

第一个题目是排队问题,这应该算是数学逻辑的范畴。

问题如下:

有 5 个人排成一排,每人帽子颜色为红或蓝。他们可以看到前面的人的帽子,但看不到自己的。主持人宣布:"至少有一顶红帽子。"从最后一人开始,每人依次说"是"或"否"(表示是否知道自己帽子的颜色)。如果第 5 人说"否",第 4 人说"是",求所有可能的帽子颜色分布。

这题我以前是用来测试本地开源大模型的,在去年的时候,开源模型还无法很好处理这个问题,有的开源模型直接会把脑子烧坏,疯狂思考,不出结果。即便是当时最强的模型,也要花点时间。

因为这是逻辑题,所以我在系统提示词中特别强调:

启用思维链,把思考等级调到最大,保持问题的准确性!

这是输入截图:

第一次测试结果如下:

首先,我们可以看到MiniMax 和腾讯云交了白卷。就是思考卡住了,然后被截断了。

其次,最快的是火山方舟 15 秒,最慢的是阿里云百炼 98 秒。

这个问题,基本上就为了查看 tokens 消耗情况,能答出来基本就是正确的,答不出来就是答不出来,直接卡死。

下面是汇总图表:

注意:图表 Y 轴中时间单位是(秒),图片顶部标注了毫秒,有一点点问题。

这部分的测试结果,有一个很严重的问题,就是有些选手,交白卷

我在图中做了标注!!!

正常来说腾讯和MiniMax应该没有资格存在这个图表里了。

从这一题中我们可以得到的结论是:

最快的三个是:火山方舟,Kimi,智谱 GLM。

最省 token 的三个是:Kimi,火山方舟,智谱 GLM。

有的人特别擅长数字逻辑,但是不一定擅长空间逻辑。

所以我也出了一个空间题:

6 米长的竹竿能否通过 4 米高,3 米宽的门?

系统提示词是:

启用 COT 思维链,把思考级别拉到最高,但是要尽快正确的回答这个问题!

这个题目,在人类看来很简单。

但是 AI 可能还没有明白这其中的陷阱。

我去年测试的时候,当时只有 Grok 和 DS 最新版可以稳定的回答这个问题。

输入截图:

第一次结果如下:

首先,这一轮腾讯云交了白卷。

其次,阿里,智谱,火山回答正确,MiniMax 和 Kimi 回答错误。

最后,回答最快的是 Kimi,回答最慢的是阿里云。

这个问题其实没有那么简单。

下面是第二次的结果:

这次,MiniMax 说可以了,Kimi 还是不行。

这是第三次的结果:

这一次,MiniMax 直接摆烂,Kimi 说能通过。

可以看到,有些选手咬定了可以,有些选手一会儿这样一会儿那样。

模型的稳定性也是很重要的,有些 AI 其实根本不懂,就是抛硬币而已

另外,那些咬死答案的,也有可能只是看了标准答案,而不是自己思考的结果。

三次汇总如下:

从这个图中可以看到,最快的是:Kimi,火山,智谱最省的是火山,Kimi,智谱。

最后把三题的数据汇总一下!!!

从这个图表来看,腾讯云,MiniMax,阿里云百炼 可以先排除了,速度慢,token 消耗多。其中有两位选手,还常常答不出来。

剩下 3 位是 Kimi,火山,智谱。

Kimi 最快, 但是存在答错问题的情况,年轻人快但是不一定准!

火山方舟最省, 也没有答错问题,常规问答场景综合性能不错,简单问题思考有点长!

GLM5 是最稳的,速度不快不慢,tokens 消耗不多不少,回答问题智商在线!

今天的问题都是一些问答题,不涉及复杂的工程问题。

主要是测试速度,tokens消耗,常规智力等维度。

最后还要补充一下,这个速度在不同时间段和不同拥堵状态可能会有差异。

我记得我最早测 GLM 的时候,就觉得它能力还可以,但是配到小龙虾里面就特别特别慢。

后来我就换成了 Kimi,跑得飞快。

然后前几天又发现 Kimi 慢得不行,有一段时间甚至直接没有回复(在 OpenClaw 上面)。

然后这几天我又在测试,好像 GLM 的速度上来了,比较正常了。无论编程还是OpenClaw。

主要是这段时间这个东西太火爆了,一旦人多, token 速度肯定就会受影响,人少速度就会快起来!

还有一个问题,协议的问题。

Kimi 的 OpenAI 协议好像会提示不允许非编程场景调用。

阿里那个 Coding Plan 刚上的时候,Anthropic 协议直接就挂了,目前正常。

有些平台的接口多问几次,也会异常。

这两天稍微好一些,基本上通过 Anthropic协议都能正常调用。

大概就是这些吧!

我本来准备一个小时结束战斗,越写越多。

本来想着之前测试项目写文章太累了,今天来个轻松的,就截个图。

没想到,又是表格,又是图表,看起来是爽了,写起来真累😮‍💨!

为了设计这张封面图,又花了我好多时间:

希望对大家有帮助!

有帮助的话,帮忙扩散一下!

声明一下:我就是个业余测试,结果可能并不全面和准确,仅供参考!

当然也八九不离十啦~~

最后放一个彩蛋!!!

我的 Coding Plan 测试平台添加了一个新功能。

我添加了一个大模型对战系统,目前支持五子棋和中国象棋对战。

五子棋对战:

中国象棋对战:

赶紧收工!!! 下期见!

小讯
上一篇 2026-03-21 08:52
下一篇 2026-03-21 08:50

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/240573.html