2026年【LLM新品速递】全新的Claude 3.5 Sonnet和Claude 3.5 Haiku

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

10月22日，Anthropic宣布推出升级版的Claude 3.5 Sonnet，以及一个新模型Claude 3.5 Haiku。

新版Claude 3.5 Sonnet在各方面都相较于前代产品有了显著提升，尤其是在它原本优势明显的编码领域表现尤为突出。而Claude 3.5 Haiku在多项评估中，与之前最大模型Claude 3 Opus的表现持平，且成本与上一代Haiku相同，速度也相似。

新版Claude还推出了一项具有突破性的全新功能——计算机操作，目前正处于公开测试阶段。

从今天起，开发者可以通过API指示Claude像人类一样使用计算机，例如查看屏幕、移动光标、点击按钮和输入文本。Claude 3.5 Sonnet是首个在公开测试中具备这一功能的前沿AI模型。目前，这项功能还处于实验性阶段，有时可能会出现操作繁琐或错误的情况。Claude团队（后面简称“团队”）提前发布此功能以收集开发者的反馈，并预期其性能将迅速改善。

Asana、Canva、Cognition、DoorDash、Replit和The Browser Company已经开始探索这些新功能，用于完成一些需要几十甚至上百步操作的任务。例如，Replit利用Claude 3.5 Sonnet的计算机操作和用户界面导航功能，为其Replit Agent产品开发了一项关键功能，用于在应用程序构建过程中进行评估。

升级后的Claude 3.5 Sonnet现已向所有用户开放。开发者现在可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI测试该功能。新的Claude 3.5 Haiku将于本月稍晚推出。

注：评估表未包括OpenAI的o1模型系列，因为这些模型依赖于大量的预处理计算时间，这与典型模型的运行方式存在根本差异，因此难以进行直接性能比较。

新版Claude 3.5 Sonnet在行业基准测试中表现出显著的全面提升，尤其在智能体编程和工具使用任务上取得了突出的进展。

在编码测试中，其在SWE-bench Verified的得分从33.4%提升到49.0%，超过了所有公开的模型，包括像OpenAI o1-preview这样的推理模型和专门为智能体编程设计的系统。此外，它在TAU-bench的智能体工具使用测试中也表现优异，在零售领域的得分从62.6%提高到69.2%，而在难度更高的航空领域，其得分从36.0%上升到46.0%。这一系列改进是在保持与前代相同的价格和速度的前提下实现的。

早期用户反馈表明，升级后的Claude 3.5 Sonnet在AI编程能力上有了重要飞跃。GitLab在测试其DevSecOps任务时发现，这款模型在多个应用场景中的推理能力提升了10%，且没有增加延迟，使其成为多步骤软件开发的理想解决方案。Cognition公司使用新版本Claude 3.5 Sonnet进行自主AI评估，发现其在编码、规划和问题解决方面相比前代有了显著提升。The Browser Company在使用该模型自动化网页工作流程时表示，Claude 3.5 Sonnet的表现优于他们之前测试过的所有模型。

作为持续与外部专家合作的一部分，新版Claude 3.5 Sonnet还由美国AI安全研究所（US AISI）和英国安全研究所（UK AISI）联合进行了预部署测试。

团队也对升级后的Claude 3.5 Sonnet进行了潜在风险评估，并确认其符合《责任扩展政策》中的ASL-2标准。

Claude 3.5 Haiku是下一代最快的模型。与Claude 3 Haiku相比，Claude 3.5 Haiku在保持相同成本和相似速度的基础上，在各项能力上全面提升，并在多项智能基准测试中超越了上一代最大的模型Claude 3 Opus。

Claude 3.5 Haiku在编程任务上的表现尤其突出。例如，它在SWE-bench Verified测试中得分达40.6%，优于许多使用公开最先进模型的智能体，包括最初版本的Claude 3.5 Sonnet和GPT-4o。

凭借低延迟、改进的指令执行能力以及更精准的工具使用能力，Claude 3.5 Haiku非常适合用于用户界面产品、特定子任务的智能体，以及从大规模数据（例如购买历史、定价或库存信息）中生成个性化体验。

Claude 3.5 Haiku将于本月晚些时候上线，支持在Anthropic自有的API、Amazon Bedrock和Google Cloud的Vertex AI上使用。初期将以文本模型形式推出，并在后续版本中支持图像输入功能。

团队正在探索一项全新的功能——计算机操作。

与其为Claude设计特定的工具来完成单一任务，团队更倾向于教它通用的计算机技能，这使Claude能够使用多种为人类设计的标准软件和工具。开发者可以利用这种新功能来自动化重复性任务、构建和测试软件，或执行如研究等开放性任务。

为实现这些通用技能，团队开发了一个API，使Claude能够感知和与计算机界面进行交互。开发者可以通过集成该API，让Claude将指令（例如：“使用我的电脑和在线数据完成表单填写”）转化为具体的计算机操作（如检查电子表格、移动光标打开浏览器、导航到相关网页，并根据网页数据填写表单等）。在OSWorld平台上（该平台评估AI在计算机操作中的表现），Claude 3.5 Sonnet在截图模式下的得分为14.9%，显著高于其他AI系统的7.8%。当允许更多操作步骤时，Claude的得分达到22.0%。

尽管团队预计这项能力在未来几个月会迅速提升，但得承认，目前Claude在使用计算机时仍有许多不完善之处。一些对于人类而言轻而易举的操作——如滚动、拖动和缩放——对Claude仍然是挑战。因此，团队建议开发者从低风险任务开始尝试。

由于计算机操作功能可能为垃圾信息、虚假信息和欺诈等常见威胁提供新的途径，团队正采取积极措施以确保其安全部署。他们开发了一些新型分类器，可以检测计算机操作行为并评估是否存在潜在危害。

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku \ Anthropic

2026年【LLM新品速递】全新的Claude 3.5 Sonnet和Claude 3.5 Haiku

相关推荐