短的结论:做更好的自己
基本信息:
- 成本:暂时免费
- 速度:约40字每秒
- 平均长度:约4900字
- 平均耗时:128秒
- 回答耗时相比旧版平均255秒,有大幅优化。
- 极其严重的幻觉。在涉及上下文幻觉、字符幻觉测试的相关题目中,X1表现完全没有推理模型该具备的底线能力。如#9单词缩写,X1表现甚至不如顺序稍低的基础模型混元turbos。#33洗牌分牌问题,对具备逐步推导能力的推理模型算Easy题,而X1竟然从洗牌第一步开始数错分错。#4拧魔方,虽然较难,但大部分推理模型至少知道怎么拧,只是记不住魔方6面的颜色顺序。而X1在2分钟推理后给出了魔方并没有被拧,颜色没有改变的结论。
- 计算能力退步。#10水热热量,X1旧版曾经拿过满分,而新版在3pass中出现三种不同的badcase。包含死循环,重复输出相同搭配,计算错误。#22连续计算和旧版类似,对小数乘法的掌握较差。考察平面几何方程求解的#21线段求交,X1的表现同样不如豆包1.5等基础模型,交点计算大部分错误。
- 多步推理极易中途出错,指令遵循差。在重点考察多步推理的题目中,X1的问题共性是在推理的前半段尚能保持对题意的理解,从约1000字之后开始,尤其当推理出现矛盾时,会尝试撇开题目约束,自行发挥。典型如#30日记整理,X1在第一个条件上花费了上千字推导,随后的约束条件大都忘记,或者只在“嘴上”提一下。
- 偶现死循环,耗尽Token。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/221045.html