2026年文心一言4.5 turbo & X1 turbo 测评

科技前沿 • 2026-04-03 17:43 • 阅读 0

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

短的结论：革命尚未成功，百度仍需努力
基本信息：

4.5turbo在规则明确的计算问题上改善明显。如#21线段交点，#22连续计算，计算思路明确，解题过程规整，正确率大幅提升，推理风格更接近新版X1 turbo。而旧版4.5和x1在数学计算上的思路较为凌乱，过程也潦草。可见百度在数学训练方面确实有新思路或者换了新的对齐。相比之下，x1turbo的数学提升就主要在于思路过程，正确率与旧版区别不大。
4.5turbo和x1turbo在程序方面有一定进步，从结果来看，4.5turbo表现堪用。输出稳定性也比旧版更好。但其有不小概率会使用英文作答，且大概率程序的注释全部用英文。使用角度来看无伤大雅，但可推知百度在提升编程能力的思路。
x1turbo在人类直觉问题上有小突破，从旧版毫无头绪，盲目解答，进化到偶尔有一些正确思路，但思考深度仍不足。如#23解密问题，先前头部模型Gemini 2.5/o3/o4等3pass可稳定找到正确思路，而x1turbo只在一次测试中偶然找到思路并正确解出。另一次测试找到了思路，但惰于求解。从推理过程来看，x1turbo清楚自己的“猜测”成分过高，无法证实，因此作答小心谨慎。

指令遵循问题上，4.5turbo表现不容乐观，许多badcase上承旧版。如#30日记整理问题，在多个条件约束里，4.5turbo多次输出都随机遵循其中部分约束。而难兄难弟的x1turbo有时会因为幻觉，将条件的应用范围搞错。#30本身不难，主要考察多个条件下模型如何遵循，遵循哪些。文心turbo系列当前表现泛化来看，在类似信息提取，资料整理等应用场景恐使用者多需费心。
4.5turbo在字符相关问题上没有改善，典型如#9单词缩写，错误与旧版如出一辙。
4.5turbo和x1turbo都存在大量死循环和中途切换到英文推理的现象。其中4.5turbo死循环率在10%，x1turbo略低，在9%。二者异常率都显著高于初版。疑似是过于激进的成本优化导致。
x1turbo在高难度问题上，有不小概率响应超时（大于600秒）。而旧版在同样问题上表现为抓住一个简单但错误的思路进行推理。