新一代豆包推理大模型Doubao-Seed-1.6-think来了，能力全面突破！

科技前沿 • 2026-04-09 10:02 • 阅读 0

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

近年来，大语言模型（LLM）在专业领域的推理能力成为技术迭代的核心方向。2025年4月15日发布的 Doubao-1.5-thinking-pro 凭借长思维链和强化学习技术，在医疗、教育、金融等8大类别中展现了突出的推理性能。时隔两个月，其升级版 doubao-seed-1-6-thinking- 于6月15日正式推出，进一步优化了模型架构。

本文将从 医疗、教育、金融、法律、行政公务、心理健康、推理与数学计算、语言与指令遵从 8个维度，对比新旧版本的性能变化，分析升级模型的优势与潜在改进空间，为技术从业者和行业应用者提供参考。

01 整体分析

*数据来源：ReLE中文大模型能力评测

更多细分维度结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

分析结论：

显著提升的类别：
- 行政公务（+12.5%）和 心理健康（+14.6%）提升幅度最大，可能是新版本针对这些领域进行了专项优化。
- 语言与指令遵从（+3.42%）和总分（+3.66%）也表现较好，说明整体能力增强。
- 金融、法律、推理与数学计算有小幅提升（1%~1.5%）。
轻微下降的类别：
- 医疗（-1.28%）和教育（-0.52%）略有退步，可能因模型调整时未优先适配这些领域。

总结：新版本在行政公务、心理健康等场景表现突出，总分提升明显，但医疗和教育领域需进一步优化。

02 推理与数学计算

接下来，我们再对“推理与数学计算”做深入分析：

*数据来源：ReLE中文大模型能力评测

更多细分维度结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

分析结论：

显著提高的类别：
- 高中奥数（+22.43%）、演绎推理（+7.44%）、数独（+16.63%）表现明显提升，尤其是高中奥数能力进步突出。
- 小学奥数和算术能力保持满分，未发生变化。
明显变弱的类别：
- 常识推理（-25.00%）大幅下降，表格问答（-8.86%）和BBH（-4.13%）也有小幅退步。
可能原因：
- 新版本可能优化了复杂逻辑（如奥数、演绎推理）和结构化问题（如数独）的能力，但牺牲了部分常识关联性任务（常识推理）和表格理解（表格问答）的泛化性。
- BBH（BIG-Bench Hard）的轻微下降可能反映对复杂多步推理的稳定性略有波动。

The end.

新一代豆包推理大模型Doubao-Seed-1.6-think来了，能力全面突破！

*数据来源：ReLE中文大模型能力评测

更多细分维度结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

分析结论：

*数据来源：ReLE中文大模型能力评测

更多细分维度结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

分析结论：

相关推荐