2026年文心一言4.5 turbo & X1 turbo 测评

文心一言4.5 turbo & X1 turbo 测评短的结论 革命尚未成功 百度仍需努力 基本信息 4 5 turbo 成本 3 2 每百万 速度 约 53 字每秒 平均长度 约 5500 字 平均耗时 101 秒 X1 turbo 成本 4 块每百万 速度 约 58 字每秒 平均长度 约 13700 字 平均耗时 241 秒 表格为了突出对比关系 有一定裁剪 不是完整排序 测试方式 参见 https zhuanlan zhihu com p 32

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



短的结论:革命尚未成功,百度仍需努力
基本信息:

  • 4.5 turbo
    • 成本:3.2每百万
    • 速度:约53字每秒
    • 平均长度:约5500字
    • 平均耗时:101秒
  • X1 turbo
    • 成本:4块每百万
    • 速度:约58字每秒
    • 平均长度:约13700字
    • 平均耗时:241秒
  • 4.5turbo在规则明确的计算问题上改善明显。如#21线段交点,#22连续计算,计算思路明确,解题过程规整,正确率大幅提升,推理风格更接近新版X1 turbo。而旧版4.5和x1在数学计算上的思路较为凌乱,过程也潦草。可见百度在数学训练方面确实有新思路或者换了新的对齐。相比之下,x1turbo的数学提升就主要在于思路过程,正确率与旧版区别不大。
  • 4.5turbo和x1turbo在程序方面有一定进步,从结果来看,4.5turbo表现堪用。输出稳定性也比旧版更好。但其有不小概率会使用英文作答,且大概率程序的注释全部用英文。使用角度来看无伤大雅,但可推知百度在提升编程能力的思路。
  • x1turbo在人类直觉问题上有小突破,从旧版毫无头绪,盲目解答,进化到偶尔有一些正确思路,但思考深度仍不足。如#23解密问题,先前头部模型Gemini 2.5/o3/o4等3pass可稳定找到正确思路,而x1turbo只在一次测试中偶然找到思路并正确解出。另一次测试找到了思路,但惰于求解。从推理过程来看,x1turbo清楚自己的“猜测”成分过高,无法证实,因此作答小心谨慎。
  • 指令遵循问题上,4.5turbo表现不容乐观,许多badcase上承旧版。如#30日记整理问题,在多个条件约束里,4.5turbo多次输出都随机遵循其中部分约束。而难兄难弟的x1turbo有时会因为幻觉,将条件的应用范围搞错。#30本身不难,主要考察多个条件下模型如何遵循,遵循哪些。文心turbo系列当前表现泛化来看,在类似信息提取,资料整理等应用场景恐使用者多需费心。
  • 4.5turbo在字符相关问题上没有改善,典型如#9单词缩写,错误与旧版如出一辙。
  • 4.5turbo和x1turbo都存在大量死循环和中途切换到英文推理的现象。其中4.5turbo死循环率在10%,x1turbo略低,在9%。二者异常率都显著高于初版。疑似是过于激进的成本优化导致。
  • x1turbo在高难度问题上,有不小概率响应超时(大于600秒)。而旧版在同样问题上表现为抓住一个简单但错误的思路进行推理。

小讯
上一篇 2026-04-03 17:44
下一篇 2026-04-03 17:42

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/224575.html