<p cms-style="font-L"> 每经编辑 杜宇 </p><p cms-style="font-L">当地时间10月22日,Anthropic的Claude 3.5迎重磅升级!</p><p cms-style="font-L">Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet 都来了。Claude 3.5 Sonnet 不仅编程能力更强,还带来全新功能computer use(计算机使用), Claude 现在支持像人类一样操作计算机,<font cms-style="font-L">可以遵循用户的命令在计算机屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,<font cms-style="font-L strong-Bold">模拟人们与自己计算机的交互方式</font>。</font></p><div class="img_wrapper"><img src="https://n.sinaimg.cn/spider/770/w521h249//12f7-1f16cf1dc9951d3bd7917d530cc26f1c.png" id="0"/></div><p cms-style="font-L">升级版 Claude 3.5 Sonnet 现在就可以使用了。computer use测试版也开放使用。</p><div class="img_wrapper"><img src="https://n.sinaimg.cn/spider/8/w525h283//c174-4c778d485e4b8a812afbc7d2c11483be.png" id="1"/></div><p cms-style="font-L">进化后的Claude 3.5 Sonnet堪称最强推理模型。它在各个方面得到了全面显著的提升,尤其是业界领先的编码能力。</p><div class="img_wrapper"><img src="https://n.sinaimg.cn/spider/240/w550h490//81bc-8129e8b018ea59728dc831e3b7ec5c42.png" id="2"/></div><p cms-style="font-L"><font cms-style="font-L strong-Bold">甚至,Claude现在能够像人类一样操作计算机,不仅可以查看屏幕、移动光标,还可以单机按钮、键入文本!</font></p><p cms-style="font-L">目前,Claude 在以与人相同的方式使用计算机的模型中处于最先进水平——也就是说,通过查看屏幕并根据屏幕内容采取行动。在一个旨在测试开发人员让模型使用计算机的评估(OSWorld)中,Claude 目前获得了 14.9% 的分数。这远未达到人类水平的技能(通常为 70-75%),但远高于同一类别中排名第二的 AI 模型获得的 7.7%。</p><p cms-style="font-L">Anthropic开发者关系主管表示,计算机使用是全新人机交互范式的第一步。同时也是,AI模型应该具备的全新基础能力。</p><p cms-style="font-L"><font cms-style="font-L">为什么要训练AI操作电脑?</font>Anthropic表示,在过去几年里,强大的AI开发已经达到了许多里程碑,比如执行复杂逻辑推理,以及识别和理解图像的能力。<font cms-style="font-L strong-Bold">而下一个突破点,就是AI操作电脑了!</font>如果模型不必通过专门定制的工具进行交互,而是按指示就能使用所有软件,这一定代表着未来的方向。</p><p cms-style="font-L">在下面这个demo中,Anthropic研究员给Claude提出了一个极有难度的挑战:</p><p cms-style="font-L">我的朋友要来旧金山,我想明天早上和他一起在金门大桥看日出。我们将从<span id=stock_sh></span><span id=quote_sh></span>高地出发。你能帮我们找到一个绝佳的观赏地点,查看一下开车时间和日出时间,然后安排一个日历活动,让我们有足够的时间到达那里吗?</p><p cms-style="font-L">Claude自行打开了Google,开始了搜索。</p><div class="img_wrapper"><img src="https://n.sinaimg.cn/spider/700/w960h540//b6b8-gif65c6ff61ac9281b41c1c2d3b441f2984.gif" id="3"/></div><p cms-style="font-L">金门大桥和用户居住地有多远呢?Claude会自己打开地图查找距离。</p><div class="img_wrapper"><img src="https://n.sinaimg.cn/spider/700/w960h540//ca7a-gife1a296a2d38f711dc1d145a0ca.gif" id="4"/></div><p cms-style="font-L">开发者展示出Claude如何操控了自己的笔记本电脑,丝滑地完成了一个网站编程任务。</p><p cms-style="font-L">首先,Claude在小哥的<font cms-style="font-L">Chrome浏览器</font>中导航到了Claude.ai,并且让Claude为自己创造了一个90年代主题的个人主页。</p><p cms-style="font-L">只见它自己输入网址,键入提示,向另一个Claude发出请求。</p><div class="img_wrapper"><img src="https://n.sinaimg.cn/spider/700/w960h540//6844-gif48d2cc3760bcbf9da85d0a45196eba76.gif" id="5"/></div><p cms-style="font-L">假设我们需要填写一份来自蚂蚁设备公司的供应商请求表,但需要填写的数据散步在电脑的各个角落,Claude能帮我们完成吗?</p><p cms-style="font-L">只见它开始截取操作者的屏幕截图,并且很快发现:蚂蚁设备公司并不在表格中。</p><div class="img_wrapper"><img src="https://n.sinaimg.cn/spider/700/w960h540//34ae-gif6e9ac17bac2b0a1a8fada33d.gif" id="6"/></div><p cms-style="font-L">这时,它立刻切换到CRM系统中,去搜索这个公司。找到后,它开始滚动页面,查找填表所需的所有信息,然后提交了表格。这也就意味着,我们工作中许多不得不做的繁琐事项,都可以交由Claude代劳了!</p><div class="img_wrapper"><img src="https://n.sinaimg.cn/spider/700/w960h540//86ba-gif0a5faf867cafb0e786eb2e3d6b67c08d.gif" id="7"/></div><p cms-style="font-L">在各项行业基准测试中,升级版Claude 3.5 Sonnet性能得到了全方位提升。特别是,智能体编码、工具使用任务中取得显著突破。</p><p cms-style="font-L">在编码能力方面,它在SWE-bench Verified测试中,性能从33.4%大幅提升至49.0%。</p><p cms-style="font-L">这超越了所有公开可用的模型——包括OpenAI o1-preview等推理模型和专为智能体编码设计的专门系统。</p><p cms-style="font-L">凭借快速的处理速度、改进的指令执行能力和更准确的工具使用,Claude 3.5 Haiku非常适合面向用户的产品、专门的辅助任务,以及从<span id=stock_sh></span><span id=quote_sh></span>(**)中生成个性化体验。</p><p cms-style="font-L">AI操作电脑能力代表了一种全新的人工智能开发方法。</p><p cms-style="font-L">迄今为止,LLM开发者一直在努力使工具适应模型,创造特殊的环境,让AI使用专门设计的工具来完成各种任务。</p><p cms-style="font-L">虽然Claude已经达到了当前的最高水平,但它的操作仍然相对缓慢且容易出错。我们日常使用电脑时的许多操作,如拖拽、缩放等,Claude都还无法做到。</p><p cms-style="font-L">此外,Claude目前观察屏幕的方式类似于快速翻阅一本画册,通过连续截图并拼接在一起,而不是观察连续的视频流。这意味着它可能会错过一些短暂的动作或通知。</p><p cms-style="font-L">有趣的是,Anthropic在录制Demo时,还遇到了一些有趣的小插曲。</p><p cms-style="font-L">比如,在一次演示中,Claude不小心点击停止了一个长时间运行的屏幕录制,导致所有录像都付诸东流。</p><p cms-style="font-L">而在另一次编码演示中,Claude则突然「走神」,开始饶有兴趣地浏览起黄石国家公园的照片。</p><div class="img_wrapper"><img src="https://n.sinaimg.cn/spider/700/w960h540//8e72-giffaaccc07d03fbee4eb1229ccff.gif" id="8"/></div><p cms-style="font-L">总之,Claude如今的表现让人对未来充满期待:AI操作电脑的能力将神速进步,那一天,软件开发小白都能轻松使用它。</p><p cms-style="font-L">每日经济新闻综合公开资料</p>
讯享网
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/209222.html