六大Coding Plan 速度和tokens消耗测试！

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

天下武功，唯快不破！

不管做什么事情速度都是重要的衡量指标。（除了躺着做的事情……不着急！）

过日子嘛，能省就省！

除了快，还要省 tokens！

这是大家在购买 Coding Plan 时最关心的两个问题，今天就给大家做一个测试，可以作为选购参考。

放心：无广告，无链接，只有实测！

这是我自己开发的测试平台：

目前我主要是购买了阿里云百炼，火山方舟、腾讯云、智谱、Kimi、MiniMax 六家公司的 Coding Plan。除了智谱升级到了 Pro 级别之外（为了用上 GLM5），其他全部是入门款订阅套餐。对大家来说，应该非常有参考价值！

为了测试速度和 tokens 消耗情况，我会出三个题目，测两种场景，然后每个题目测三次。

首先我们来测试最简单的问题，比如"早上好"。

这个问题主要是看各家模型的最快反应速度，我在系统提示词中特别强调了：

关闭所有思考能力，用最简单的方式来回答

下面直接来看结果：

我这个批量测试，可以从多维度测试模型，比如查看回复内容，总的消耗时间，总的消耗token，如果有思考内容输出，也可以查看思考过程。

第一次测试结果，最快的是 Kimi，只用了 7 秒左右 。最慢的是阿里云百炼 27.8 秒。

然后，我把 6 个平台，3 次测试，18 个结果进行了汇总，并制作了图表。

汇总图表如下：

从图表中可以非常直观的看到，基于我的网络环境和测试问题来看，速度前三是：Kimi，智谱，MiniMax

因为这个问题回答很少，所以比 tokens 没太大意思。

唯一有意思的就是，阿里云百炼的思考模式真的是有点问题，什么弱智问题都得思考半天。

上面的问题只是为了测试最快的情况，接下来两个题目会测试深度思考模式下的速度和tokens消耗情况。

顺便也看一下各家模型的逻辑思维能力（智商）怎么样。

第一个题目是排队问题，这应该算是数学逻辑的范畴。

问题如下：

有 5 个人排成一排，每人帽子颜色为红或蓝。他们可以看到前面的人的帽子，但看不到自己的。主持人宣布："至少有一顶红帽子。"从最后一人开始，每人依次说"是"或"否"（表示是否知道自己帽子的颜色）。如果第 5 人说"否"，第 4 人说"是"，求所有可能的帽子颜色分布。

这题我以前是用来测试本地开源大模型的，在去年的时候，开源模型还无法很好处理这个问题，有的开源模型直接会把脑子烧坏，疯狂思考，不出结果。即便是当时最强的模型，也要花点时间。

因为这是逻辑题，所以我在系统提示词中特别强调：

启用思维链，把思考等级调到最大，保持问题的准确性！

这是输入截图：

第一次测试结果如下：

首先，我们可以看到MiniMax 和腾讯云交了白卷。就是思考卡住了，然后被截断了。

其次，最快的是火山方舟 15 秒，最慢的是阿里云百炼 98 秒。

这个问题，基本上就为了查看 tokens 消耗情况，能答出来基本就是正确的，答不出来就是答不出来，直接卡死。

下面是汇总图表：

注意：图表 Y 轴中时间单位是（秒），图片顶部标注了毫秒，有一点点问题。

这部分的测试结果，有一个很严重的问题，就是有些选手，交白卷。

我在图中做了标注！！！

正常来说腾讯和MiniMax应该没有资格存在这个图表里了。

从这一题中我们可以得到的结论是：

最快的三个是：火山方舟，Kimi，智谱 GLM。

最省 token 的三个是：Kimi，火山方舟，智谱 GLM。

有的人特别擅长数字逻辑，但是不一定擅长空间逻辑。

所以我也出了一个空间题：

6 米长的竹竿能否通过 4 米高，3 米宽的门？

系统提示词是：

启用 COT 思维链，把思考级别拉到最高，但是要尽快正确的回答这个问题！

这个题目，在人类看来很简单。

但是 AI 可能还没有明白这其中的陷阱。

我去年测试的时候，当时只有 Grok 和 DS 最新版可以稳定的回答这个问题。

输入截图：

第一次结果如下：

首先，这一轮腾讯云交了白卷。

其次，阿里，智谱，火山回答正确，MiniMax 和 Kimi 回答错误。

最后，回答最快的是 Kimi，回答最慢的是阿里云。

这个问题其实没有那么简单。

下面是第二次的结果：

这次，MiniMax 说可以了，Kimi 还是不行。

这是第三次的结果：

这一次，MiniMax 直接摆烂，Kimi 说能通过。

可以看到，有些选手咬定了可以，有些选手一会儿这样一会儿那样。

模型的稳定性也是很重要的，有些 AI 其实根本不懂，就是抛硬币而已。

另外，那些咬死答案的，也有可能只是看了标准答案，而不是自己思考的结果。

三次汇总如下：

从这个图中可以看到，最快的是：Kimi，火山，智谱 。最省的是火山，Kimi，智谱。

最后把三题的数据汇总一下！！！

从这个图表来看，腾讯云，MiniMax，阿里云百炼 可以先排除了，速度慢，token 消耗多。其中有两位选手，还常常答不出来。

剩下 3 位是 Kimi，火山，智谱。

Kimi 最快， 但是存在答错问题的情况，年轻人快但是不一定准！

火山方舟最省， 也没有答错问题，常规问答场景综合性能不错，简单问题思考有点长！

GLM5 是最稳的，速度不快不慢，tokens 消耗不多不少，回答问题智商在线！

今天的问题都是一些问答题，不涉及复杂的工程问题。

主要是测试速度，tokens消耗，常规智力等维度。

最后还要补充一下，这个速度在不同时间段和不同拥堵状态可能会有差异。

我记得我最早测 GLM 的时候，就觉得它能力还可以，但是配到小龙虾里面就特别特别慢。

后来我就换成了 Kimi，跑得飞快。

然后前几天又发现 Kimi 慢得不行，有一段时间甚至直接没有回复（在 OpenClaw 上面）。

然后这几天我又在测试，好像 GLM 的速度上来了，比较正常了。无论编程还是OpenClaw。

主要是这段时间这个东西太火爆了，一旦人多， token 速度肯定就会受影响，人少速度就会快起来！

还有一个问题，协议的问题。

Kimi 的 OpenAI 协议好像会提示不允许非编程场景调用。

阿里那个 Coding Plan 刚上的时候，Anthropic 协议直接就挂了，目前正常。

有些平台的接口多问几次，也会异常。

这两天稍微好一些，基本上通过 Anthropic协议都能正常调用。

大概就是这些吧！

我本来准备一个小时结束战斗，越写越多。

本来想着之前测试项目写文章太累了，今天来个轻松的，就截个图。

没想到，又是表格，又是图表，看起来是爽了，写起来真累😮‍💨！

为了设计这张封面图，又花了我好多时间：

希望对大家有帮助！

有帮助的话，帮忙扩散一下！

声明一下：我就是个业余测试，结果可能并不全面和准确，仅供参考！

当然也八九不离十啦~~

最后放一个彩蛋！！！

我的 Coding Plan 测试平台添加了一个新功能。

我添加了一个大模型对战系统，目前支持五子棋和中国象棋对战。

五子棋对战：

中国象棋对战：

赶紧收工！！！下期见！

六大Coding Plan 速度和tokens消耗测试！

相关推荐