2026年如何评价openrouter上疑似deepseek V4的匿名模型 Hunter Alpha ？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

如何评价openrouter上疑似deepseek V4的匿名模型 Hunter Alpha 和另一个匿名模型Healer Alpha。

我可以很确定的说不是V4。

我就在某discord社区里面，V4L我们天天蹬，V4可能的八股我们都是一清二楚的。3月12号上午五点多我们群友发的链接，我们现场测的。

注意力水平连V4lite都不如，文笔也不行，还可以基本确定蒸馏了DS的语料。在sillytavern里面用二十万输入tokens的大型重前端角色卡和多功能预设测试的结果非常烂，有严重的掉格式行为，对人物的描写也有非常严重的机器人化问题。

注意力方面拉胯到了什么地步？V4Lite实际注意力大概700K左右（判断标准是对输入内容中指令的遵循程度，非严谨的捞针测试），这个模型实际也就256K。结合它healer模型256K的上下文来看，hunter模型很有可能是强行把256K上下文扩充到了1M，注意力并没有得到相应的提升。

为什么我说它大量蒸馏了DS的语料呢？因为它在输出幻觉内容的时候输出的都是DS喜欢输出的内容（是的，它幻觉率高得离谱），比如我问它上下文多少的时候它三次里面有两次回答我是128K（还有一次根本就没说）——你们能明白看到128K这个数字的时候我那种先被气笑又看力竭最后没招了释然的感觉吗？那一刻我觉得那个熬夜熬到早上六点、连下午的课都准备翘掉专门测试“V4”的我是个傻福🤡

唯一的好处是它不是V4，它要是V4那我们亿万鲸小子就都成小丑了

最新消息，我们群里的大佬测了它的代码领域跑分，结果如下：

数据由discord用户Yazawa Alpha提供，已取得当事人同意。如有侵权请联系我，我会第一时间删除

26.03.14 更新，有可能是保密原因，应该不会有人抄分词器吧

从tokenizer来看应该是mimo系列的，DS之前从来没有匿名测试过新模型，而且匿名模型注意力比DS网页版差多了。

.DataGridViewColumnHeadersHeightSizeMode

这个Hunter Alpha模型用私有的题目测试，有的题目生成效果差于GLM5 /kimi k2.5，有的又优于GLM5/kimi k2.5/gemini 3 pro/opus 4.5。

我测出来效果比较好的一个题目是：

做一个资本主义模拟器，用于分析和复现资本主义危机的原因，研究其内部调控的机制，包含雇佣、消费、投资、信贷等生产关系。输出面板，研究在一个微型社会中的个体。最终交付一个html网页。

这个交付质量是几个模型中最高的，甚至优于gemini 3 pro的输出结果，基本第一版不迭代的情况下就满足题目要求了。

另一个题目：生成一个仿照windows vista的交互式网页。中规中矩，和glm5差不多的水平。

仿照Windows 7这个窗口切换效果也做出来了。基本也符合预期。

这个题目最好的答案仍然是gemini deep think的输出，近乎完美。

谷歌 Gemini 3 Deep Think 深度思考大模型升级，相比前代有哪些提升？

比较差的题目输出是。

做一个《文明6》的游戏，网页版《文明6》要求如下的功能：
需求1、使它变成RTS实时战略游戏，而不是回合制。
这个功能点需要大模型理解什么是rts游戏及它的特征，这些知识的抽象层次其实是很高的，即时战略类游戏的特点是不需要手工点按那个回合键，并且游戏双方时间上是公平的。这个输出结果是完全正确的。
需求2、增加ai辅助的研发树功能，就是增加一个ai助理可以勾选上，在资源允许的情况下自动完成研发。
这个功能是真实的《文明》游戏里面没有的，所以ai需要理解用户要求添加一个“ai助理系统”的意图，实际生成的这个小游戏确实能自动的完成科研。
需求3、所有单位可以自动寻找对手。
这个涉及路径规划和寻址，所有单位会自动寻找对手和城池。

这个题目在GLM5上，答案非常出色，优于gemini 3 pro的第一版输出。

但是hunter alpha的输出UI界面极差，多次提示修改后几乎一片混乱，功能完全不正常。下面这个链接是同样的题目在GLM5的测评。

如何看待智谱 GLM-5 以「Pony Alpha」匿名代号在 OpenRouter 上先行亮相？

生成一个大富翁游戏，这个题目仍然差于预期。对于指定的修改建议理解错了。

下图是第1版，这个路线是一个环形，我希望它变成包含岔路口、多个环形棋盘格线路，结果后续理解错了。

这里面我要求他路线变成多个环线，它给改成这样了，同样的prompt，GLM5输出是正常的。

一个3d场景生成题目，这个题目国产的模型都做得不错，kimi K2.5效果最好。

生成一个3D的交互式网页，内容是红楼梦里面的一个经典场景，要求讲述一个完整的故事要有情节。

它的输出是：

我选择红楼梦中 最明媚动人的场景： 史湘云醉卧芍药茵。众姐妹行酒令，湘云不胜酒力，醉后在芍药花丛中酣睡，落花满身，蝴蝶环绕。

Kimi 发布并开源 K2.5 模型，哪些信息值得关注？Agent 集群能力能做哪些任务？

整体效果还不错，场景中的每一个物件其实可以点击，还挺有意思的，其实我原本想的“可交互”指的是鼠标悬停上去能够介绍那是什么东西。但是他理解的可交互指的是可以点击，然后产生动画效果。比方说图中的花点一下是可以颤抖的。。。

生成windows vista网页，整体效果国产所有模型**，优于GLM5。

大富翁的这个题目输出也是完全正确的，整体功能是完全正确的，同样也是国产模型**，个人感觉甚至略好于GLM5。

生成3d场景的也很不错，之前国产模型在这类任务最好的是kimi-K2.5，这个模型的输出质量达到kimi-K2.5的水平。

我将为你创建“宝钗扑蝶”的3D交互式网页

要求补充细节迭代之后，建模精细度还能再提升，比如说下面这个扇面是真的做出来了一个扇子。说明限制能力的还是thinking effort，如果给更多的计算时间，效果可能会更好。

再来看一个3D游戏的例子。

请做一个3D的网页游戏，它的内容是从天而降的一个《俄罗斯方块》。
玩家需要控制一个角色，在这个游戏里面前后左右上跳，来躲避从天而降的这个方块。
这个方块积满一层的50%的面积就可以消掉。
玩家如果站在正在消掉这一层上面，就可以获得得分。
如果玩家被从天而降的方块砸中的话，那么将会扣分，并且回到原点。

大概有点像躲避类的一种游戏，那么观察他对于整个设计美学的理解，整个逻辑的理解，是否符合所有的要求。根据之前vibe coding经验，这个题目可以测试出来模型的指令跟随能力、指令理解能力。

这个测试题目，国产模型之前只有GLM5可以比较完美地做出来，并且需要迭代1次才能理解用户的设计意图，但是这个匿名模型居然只修了1个3d显示的bug就完全做对了。

复刻一个网页版《泡泡堂》，第一版基本正确，有一处理解错误导致的瑕疵。

其他几个题目也表现非常出色，有空粘贴出来。

另外笔者试了几个私有的题库，主要是改代码和续写代码，几乎等同于Opus4.5的水平，有个特别繁琐复杂的修改，居然超过了Opus4.5的水平。

整体感受模型能力opus4.5

2026年如何评价openrouter上疑似deepseek V4的匿名模型 Hunter Alpha ？

相关推荐