2026年讯飞星火 X1 0420 测评

科技前沿 • 2026-04-06 08:15 • 阅读 1

讯飞星火 X1 0420 测评短的结论做更好的自己基本信息成本暂时免费速度约 40 字每秒平均长度约 4900 字平均耗时 128 秒测试方式参见 https zhuanlan zhihu com p 32 这次测试基于 4 月题目已经增加 34 amp 35 2 道 Hard 题所以所有模型的分数相比 3 月有变动讯飞在 1 月发布 X1 时尝试限制只让 X1 回答数学问题

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

短的结论：做更好的自己
基本信息：

成本：暂时免费
速度：约40字每秒
平均长度：约4900字
平均耗时：128秒

回答耗时相比旧版平均255秒，有大幅优化。

极其严重的幻觉。在涉及上下文幻觉、字符幻觉测试的相关题目中，X1表现完全没有推理模型该具备的底线能力。如#9单词缩写，X1表现甚至不如顺序稍低的基础模型混元turbos。#33洗牌分牌问题，对具备逐步推导能力的推理模型算Easy题，而X1竟然从洗牌第一步开始数错分错。#4拧魔方，虽然较难，但大部分推理模型至少知道怎么拧，只是记不住魔方6面的颜色顺序。而X1在2分钟推理后给出了魔方并没有被拧，颜色没有改变的结论。
计算能力退步。#10水热热量，X1旧版曾经拿过满分，而新版在3pass中出现三种不同的badcase。包含死循环，重复输出相同搭配，计算错误。#22连续计算和旧版类似，对小数乘法的掌握较差。考察平面几何方程求解的#21线段求交，X1的表现同样不如豆包1.5等基础模型，交点计算大部分错误。
多步推理极易中途出错，指令遵循差。在重点考察多步推理的题目中，X1的问题共性是在推理的前半段尚能保持对题意的理解，从约1000字之后开始，尤其当推理出现矛盾时，会尝试撇开题目约束，自行发挥。典型如#30日记整理，X1在第一个条件上花费了上千字推导，随后的约束条件大都忘记，或者只在“嘴上”提一下。
偶现死循环，耗尽Token。

小讯

零基础Midjourney指南：提示词设计、多风格探索，玩转AI生成艺术

上一篇 2026-04-06 08:16

2026年终于能用了！国行 iPhone 已经可以强行开启苹果 AI 功能

下一篇 2026-04-06 08:14

零基础Midjourney指南：提示词设计、多风格探索，玩转AI生成艺术 1773281575
ai风月 1773281571
2026年智谱AI向左，MiniMax向右：港股同一考场，AI两种活法 1773281567
文心一言在 AIGC 领域的应用价值与意义 1773281563
2026年Claude Code安装到开发流程汇总 1773281559
【AI学习100天】Day04 对比AI工具—DeepSeek、Kimi、豆包、文心一言、通义千问 1773281555
2026年合作共赢？小米将多枚Kimi商标转让给月之暗面 1773281543
阿里千问Qwen金融实盘登顶：国产大模型＊＊AI投资＊＊能力跃升 1773281535
2026年Ubuntu如何安装自定义鼠标指针（cursor）？ 1773281519
2026年终于能用了！国行 iPhone 已经可以强行开启苹果 AI 功能 1773281583
👩‍💻小白必看！Cursor开发网站本地部署超详细攻略，拯救你的编程之旅！ 1773281587
2026年25年最新！科大讯飞AI鼠标M111星火版必买指南｜静音+语音打字翻译天花板 1773281591
2026年deepseek怎么用新手教程 1773281595
2026年文心一言百宝箱使用指南 1773281603
2026年做题王者，实战拉跨！是时候给马斯克的Grok4泼盆冷水了！（Grok 4模型详细测评报告） 1773281607
创建自己专属 DeepSeek 大模型：超详细教程 1773281611
文心一言免费api 1773281619
【2025最新】Cursor安装-功能-使用-订阅全流程指南！你不得不用的AI编程神器！ 1773281623

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们，一经查实，本站将立刻删除。
如需转载请保留出处：https://51itzy.com/kjqy/221045.html