10月22日,Anthropic宣布推出升级版的Claude 3.5 Sonnet,以及一个新模型Claude 3.5 Haiku。
新版Claude 3.5 Sonnet在各方面都相较于前代产品有了显著提升,尤其是在它原本优势明显的编码领域表现尤为突出。而Claude 3.5 Haiku在多项评估中,与之前最大模型Claude 3 Opus的表现持平,且成本与上一代Haiku相同,速度也相似。
新版Claude还推出了一项具有突破性的全新功能——计算机操作,目前正处于公开测试阶段。
从今天起,开发者可以通过API指示Claude像人类一样使用计算机,例如查看屏幕、移动光标、点击按钮和输入文本。Claude 3.5 Sonnet是首个在公开测试中具备这一功能的前沿AI模型。目前,这项功能还处于实验性阶段,有时可能会出现操作繁琐或错误的情况。Claude团队(后面简称“团队”)提前发布此功能以收集开发者的反馈,并预期其性能将迅速改善。
Asana、Canva、Cognition、DoorDash、Replit和The Browser Company已经开始探索这些新功能,用于完成一些需要几十甚至上百步操作的任务。例如,Replit利用Claude 3.5 Sonnet的计算机操作和用户界面导航功能,为其Replit Agent产品开发了一项关键功能,用于在应用程序构建过程中进行评估。
升级后的Claude 3.5 Sonnet现已向所有用户开放。开发者现在可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI测试该功能。新的Claude 3.5 Haiku将于本月稍晚推出。
GPT plus 代充 只需 145
新版Claude 3.5 Sonnet在行业基准测试中表现出显著的全面提升,尤其在智能体编程和工具使用任务上取得了突出的进展。
在编码测试中,其在SWE-bench Verified的得分从33.4%提升到49.0%,超过了所有公开的模型,包括像OpenAI o1-preview这样的推理模型和专门为智能体编程设计的系统。此外,它在TAU-bench的智能体工具使用测试中也表现优异,在零售领域的得分从62.6%提高到69.2%,而在难度更高的航空领域,其得分从36.0%上升到46.0%。这一系列改进是在保持与前代相同的价格和速度的前提下实现的。
早期用户反馈表明,升级后的Claude 3.5 Sonnet在AI编程能力上有了重要飞跃。GitLab在测试其DevSecOps任务时发现,这款模型在多个应用场景中的推理能力提升了10%,且没有增加延迟,使其成为多步骤软件开发的理想解决方案。Cognition公司使用新版本Claude 3.5 Sonnet进行自主AI评估,发现其在编码、规划和问题解决方面相比前代有了显著提升。The Browser Company在使用该模型自动化网页工作流程时表示,Claude 3.5 Sonnet的表现优于他们之前测试过的所有模型。
作为持续与外部专家合作的一部分,新版Claude 3.5 Sonnet还由美国AI安全研究所(US AISI)和英国安全研究所(UK AISI)联合进行了预部署测试。
团队也对升级后的Claude 3.5 Sonnet进行了潜在风险评估,并确认其符合《责任扩展政策》中的ASL-2标准。
Claude 3.5 Haiku是下一代最快的模型。与Claude 3 Haiku相比,Claude 3.5 Haiku在保持相同成本和相似速度的基础上,在各项能力上全面提升,并在多项智能基准测试中超越了上一代最大的模型Claude 3 Opus。
Claude 3.5 Haiku在编程任务上的表现尤其突出。例如,它在SWE-bench Verified测试中得分达40.6%,优于许多使用公开最先进模型的智能体,包括最初版本的Claude 3.5 Sonnet和GPT-4o。
凭借低延迟、改进的指令执行能力以及更精准的工具使用能力,Claude 3.5 Haiku非常适合用于用户界面产品、特定子任务的智能体,以及从大规模数据(例如购买历史、定价或库存信息)中生成个性化体验。
Claude 3.5 Haiku将于本月晚些时候上线,支持在Anthropic自有的API、Amazon Bedrock和Google Cloud的Vertex AI上使用。初期将以文本模型形式推出,并在后续版本中支持图像输入功能。
团队正在探索一项全新的功能——计算机操作。
与其为Claude设计特定的工具来完成单一任务,团队更倾向于教它通用的计算机技能,这使Claude能够使用多种为人类设计的标准软件和工具。开发者可以利用这种新功能来自动化重复性任务、构建和测试软件,或执行如研究等开放性任务。
为实现这些通用技能,团队开发了一个API,使Claude能够感知和与计算机界面进行交互。开发者可以通过集成该API,让Claude将指令(例如:“使用我的电脑和在线数据完成表单填写”)转化为具体的计算机操作(如检查电子表格、移动光标打开浏览器、导航到相关网页,并根据网页数据填写表单等)。在OSWorld平台上(该平台评估AI在计算机操作中的表现),Claude 3.5 Sonnet在截图模式下的得分为14.9%,显著高于其他AI系统的7.8%。当允许更多操作步骤时,Claude的得分达到22.0%。
尽管团队预计这项能力在未来几个月会迅速提升,但得承认,目前Claude在使用计算机时仍有许多不完善之处。一些对于人类而言轻而易举的操作——如滚动、拖动和缩放——对Claude仍然是挑战。因此,团队建议开发者从低风险任务开始尝试。
由于计算机操作功能可能为垃圾信息、虚假信息和欺诈等常见威胁提供新的途径,团队正采取积极措施以确保其安全部署。他们开发了一些新型分类器,可以检测计算机操作行为并评估是否存在潜在危害。
Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku \ Anthropic
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/211045.html