Claude 4.6 Sonnet发布:百万token上下文,带“思考”功能的代码助手
Anthropic今天推出了Claude 4.6 Sonnet。核心更新不是更快,而是会“思考”。
新模型引入了一个叫“自适应思考”的引擎,通过扩展思考API调用。简单说,它在输出最终答案之前,会先停一下,内部推演逻辑路径。调试复杂代码时,它会在思考阶段定位根因,而不是直接猜着输出一段代码。处理混乱数据集时,它会花更多算力分析边缘情况和模式不一致。
基准测试数据也在逼近旗舰Opus。SWE-bench Verified从49%涨到79.6%,OSWorld(计算机使用)从14.9%飙到72.5%,MATH从71.1%到88%。那个72.5%的OSWorld分数意味着它可以相当准确地操作电子表格、浏览器、本地文件——离能真正干活又近了一步。
搜索功能也改了。不是简单抓前几条结果,而是用Python代码后处理。搜2025年的库更新?它自己写代码过滤掉旧结果,按网站权威性排序,优先选GitHub、Stack Overflow、官方文档。内测里搜索准确率从33.3%提到46.6%。
上下文窗口涨到100万token,beta状态。可以一次喂整个代码仓库,不会忘。输入 \(3/百万token,输出\)15/百万token。同时推了一个上下文压缩API,长对话成本能下来。
对开发者来说,这意味着一个能边想边干、能自己搜自己筛、能吞下整个项目的模型。价格没涨太多。
Anthropic今天推出了Claude 4.6 Sonnet。核心更新不是更快,而是会“思考”。
新模型引入了一个叫“自适应思考”的引擎,通过扩展思考API调用。简单说,它在输出最终答案之前,会先停一下,内部推演逻辑路径。调试复杂代码时,它会在思考阶段定位根因,而不是直接猜着输出一段代码。处理混乱数据集时,它会花更多算力分析边缘情况和模式不一致。
基准测试数据也在逼近旗舰Opus。SWE-bench Verified从49%涨到79.6%,OSWorld(计算机使用)从14.9%飙到72.5%,MATH从71.1%到88%。那个72.5%的OSWorld分数意味着它可以相当准确地操作电子表格、浏览器、本地文件——离能真正干活又近了一步。
搜索功能也改了。不是简单抓前几条结果,而是用Python代码后处理。搜2025年的库更新?它自己写代码过滤掉旧结果,按网站权威性排序,优先选GitHub、Stack Overflow、官方文档。内测里搜索准确率从33.3%提到46.6%。
上下文窗口涨到100万token,beta状态。可以一次喂整个代码仓库,不会忘。输入 \(3/百万token,输出\)15/百万token。同时推了一个上下文压缩API,长对话成本能下来。
对开发者来说,这意味着一个能边想边干、能自己搜自己筛、能吞下整个项目的模型。价格没涨太多。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/208963.html