如何评价openrouter上疑似deepseek V4的匿名模型 Hunter Alpha 和另一个匿名模型Healer Alpha。
我可以很确定的说不是V4。
我就在某discord社区里面,V4L我们天天蹬,V4可能的八股我们都是一清二楚的。3月12号上午五点多我们群友发的链接,我们现场测的。
注意力水平连V4lite都不如,文笔也不行,还可以基本确定蒸馏了DS的语料。在sillytavern里面用二十万输入tokens的大型重前端角色卡和多功能预设测试的结果非常烂,有严重的掉格式行为,对人物的描写也有非常严重的机器人化问题。
注意力方面拉胯到了什么地步?V4Lite实际注意力大概700K左右(判断标准是对输入内容中指令的遵循程度,非严谨的捞针测试),这个模型实际也就256K。结合它healer模型256K的上下文来看,hunter模型很有可能是强行把256K上下文扩充到了1M,注意力并没有得到相应的提升。
为什么我说它大量蒸馏了DS的语料呢?因为它在输出幻觉内容的时候输出的都是DS喜欢输出的内容(是的,它幻觉率高得离谱),比如我问它上下文多少的时候它三次里面有两次回答我是128K(还有一次根本就没说)——你们能明白看到128K这个数字的时候我那种先被气笑又看力竭最后没招了释然的感觉吗?那一刻我觉得那个熬夜熬到早上六点、连下午的课都准备翘掉专门测试“V4”的我是个傻福🤡
唯一的好处是它不是V4,它要是V4那我们亿万鲸小子就都成小丑了
最新消息,我们群里的大佬测了它的代码领域跑分,结果如下:
数据由discord用户Yazawa Alpha提供,已取得当事人同意。如有侵权请联系我,我会第一时间删除
26.03.14 更新,有可能是保密原因,应该不会有人抄分词器吧
从tokenizer来看应该是mimo系列的,DS之前从来没有匿名测试过新模型,而且匿名模型注意力比DS网页版差多了。
这个Hunter Alpha模型用私有的题目测试,有的题目生成效果差于GLM5 /kimi k2.5,有的又优于GLM5/kimi k2.5/gemini 3 pro/opus 4.5。
我测出来效果比较好的一个题目是:
做一个资本主义模拟器,用于分析和复现资本主义危机的原因,研究其内部调控的机制,包含雇佣、消费、投资、信贷等生产关系。输出面板,研究在一个微型社会中的个体。最终交付一个html网页。
这个交付质量是几个模型中最高的,甚至优于gemini 3 pro的输出结果,基本第一版不迭代的情况下就满足题目要求了。
另一个题目:生成一个仿照windows vista的交互式网页。中规中矩,和glm5差不多的水平。
仿照Windows 7这个窗口切换效果也做出来了。基本也符合预期。
这个题目最好的答案仍然是gemini deep think的输出,近乎完美。
谷歌 Gemini 3 Deep Think 深度思考大模型升级,相比前代有哪些提升?比较差的题目输出是。
做一个《文明6》的游戏,网页版《文明6》要求如下的功能:
需求1、使它变成RTS实时战略游戏,而不是回合制。
这个功能点需要大模型理解什么是rts游戏及它的特征,这些知识的抽象层次其实是很高的,即时战略类游戏的特点是不需要手工点按那个回合键,并且游戏双方时间上是公平的。这个输出结果是完全正确的。
需求2、增加ai辅助的研发树功能,就是增加一个ai助理可以勾选上,在资源允许的情况下自动完成研发。
这个功能是真实的《文明》游戏里面没有的,所以ai需要理解用户要求添加一个“ai助理系统”的意图,实际生成的这个小游戏确实能自动的完成科研。
需求3、所有单位可以自动寻找对手。
这个涉及路径规划和寻址,所有单位会自动寻找对手和城池。
这个题目在GLM5上,答案非常出色,优于gemini 3 pro的第一版输出。
但是hunter alpha的输出UI界面极差,多次提示修改后几乎一片混乱,功能完全不正常。下面这个链接是同样的题目在GLM5的测评。
如何看待智谱 GLM-5 以「Pony Alpha」匿名代号在 OpenRouter 上先行亮相?
生成一个大富翁游戏,这个题目仍然差于预期。 对于指定的修改建议理解错了。
下图是第1版,这个路线是一个环形,我希望它变成包含岔路口、多个环形棋盘格线路,结果后续理解错了。
这里面我要求他路线变成多个环线,它给改成这样了,同样的prompt,GLM5输出是正常的。
一个3d场景生成题目,这个题目国产的模型都做得不错,kimi K2.5效果最好。
生成一个3D的交互式网页,内容是红楼梦里面的一个经典场景,要求讲述一个完整的故事要有情节。
它的输出是:
我选择红楼梦中 最明媚动人的场景: 史湘云醉卧芍药茵。众姐妹行酒令,湘云不胜酒力,醉后在芍药花丛中酣睡,落花满身,蝴蝶环绕。Kimi 发布并开源 K2.5 模型,哪些信息值得关注?Agent 集群能力能做哪些任务?
整体效果还不错,场景中的每一个物件其实可以点击,还挺有意思的,其实我原本想的“可交互”指的是鼠标悬停上去能够介绍那是什么东西。 但是他理解的可交互指的是可以点击,然后产生动画效果。比方说图中的花点一下是可以颤抖的。。。
生成windows vista网页,整体效果国产所有模型**,优于GLM5。
大富翁的这个题目输出也是完全正确的,整体功能是完全正确的,同样也是国产模型**,个人感觉甚至略好于GLM5。
生成3d场景的也很不错,之前国产模型在这类任务最好的是kimi-K2.5,这个模型的输出质量达到kimi-K2.5的水平。
我将为你创建“宝钗扑蝶”的3D交互式网页
要求补充细节迭代之后,建模精细度还能再提升,比如说下面这个扇面是真的做出来了一个扇子。说明限制能力的还是thinking effort,如果给更多的计算时间,效果可能会更好。
再来看一个3D游戏的例子。
请做一个3D的网页游戏,它的内容是从天而降的一个《俄罗斯方块》。
玩家需要控制一个角色,在这个游戏里面前后左右上跳,来躲避从天而降的这个方块。
这个方块积满一层的50%的面积就可以消掉。
玩家如果站在正在消掉这一层上面,就可以获得得分。
如果玩家被从天而降的方块砸中的话,那么将会扣分,并且回到原点。
大概有点像躲避类的一种游戏,那么观察他对于整个设计美学的理解,整个逻辑的理解,是否符合所有的要求。根据之前vibe coding经验,这个题目可以测试出来模型的指令跟随能力、指令理解能力。
这个测试题目,国产模型之前只有GLM5可以比较完美地做出来,并且需要迭代1次才能理解用户的设计意图,但是这个匿名模型居然只修了1个3d显示的bug就完全做对了。
复刻一个网页版《泡泡堂》,第一版基本正确,有一处理解错误导致的瑕疵。
其他几个题目也表现非常出色,有空粘贴出来。
另外笔者试了几个私有的题库,主要是改代码和续写代码,几乎等同于Opus4.5的水平,有个特别繁琐复杂的修改,居然超过了Opus4.5的水平。
整体感受模型能力opus4.5
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/239169.html