就在刚刚,Claude 官方正式宣布推出下一代 AI 模型 Claude 3,包含了 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 这三个最先进的模型在推理、数学、编码、多语言理解和视觉方面树立了新的行业基准。
讯享网
并在其发布的性能基准测评结果中,多个方面超越了 GPT-4。
Claude 3 型号可以支持实时客户聊天、自动完成和数据提取任务,在这些任务中,响应必须是即时和实时的。
Haiku 是市场上最快、最具成本效益的智能类别模型。它可以在不到三秒的时间内读取有关 arXiv(~10K tokens)的信息和数据密集的研究论文,其中包含图表和图形。发布后,我们预计会进一步提高性能。
对于绝大多数工作负载,Sonnet 比 Claude 2 和 Claude 2.1 快 2 倍,具有更高的智能水平。它擅长需要快速响应的任务,例如知识检索或销售自动化。Opus 提供与 Claude 2 和 2.1 相似的速度,但智能水平要高得多。
Claude 3 型号具有与其他领先型号相媲美的复杂视觉功能。它们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别高兴能为我们的企业客户提供这种新模式,其中一些客户拥有多达 50% 的知识库以各种格式编码,例如 PDF、流程图或演示幻灯片。
以前的 Claude 模型经常做出不必要的拒绝,这表明缺乏对上下文的理解。我们在这一领域取得了有意义的进展:与前几代模型相比,Opus、Sonnet 和 Haiku 拒绝回答系统护栏提示的可能性要小得多。如下图所示,Claude 3 模型对请求表现出更细致的理解,识别真正的伤害,并且拒绝回答无害提示的频率要低得多。
各种规模的企业都依赖我们的模型来为他们的客户提供服务,因此我们的模型输出必须保持大规模的高精度。为了评估这一点,我们使用了大量复杂的事实问题,这些问题针对当前模型中的已知弱点。我们将回答分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型说它不知道答案,而不是提供不正确的信息。与 Claude 2.1 相比,Opus 在这些具有挑战性的开放式问题的准确性(或正确答案)方面提高了两倍,同时也减少了错误答案的水平。
除了产生更可信的回答外,我们还将很快在我们的 Claude 3 模型中启用引用,以便他们可以指向参考资料中的精确句子来验证他们的答案。
Claude 3 系列型号最初将在发布时提供 200K 上下文窗口。但是,所有三种型号都能够接受超过 100 万个 Tokens 的输入,我们可能会将其提供给需要增强处理能力的特定客户。
为了有效地处理长上下文提示,模型需要强大的召回功能。“Needle In A Haystack”(NIAH)评估衡量模型从大量数据语料库中准确调用信息的能力。我们通过在每个提示中使用 30 个随机针/问题对之一,并在不同的众包文档语料库上进行测试,增强了该基准的稳健性。Claude 3 Opus 不仅实现了近乎完美的回忆,准确率超过 99%,而且在某些情况下,它甚至通过识别“needle”句似乎是人类人为地插入到原始文本中来识别评估本身的局限性。
与同类产品相比,它以更低的成本提供强大的性能,专为大规模 AI 部署而设计。
Claude 3 Haiku 从目前测评来看速度最快、最紧凑的型号,具有近乎即时的响应能力。它以无与伦比的速度回答简单的查询和请求。用户将能够构建模仿人类交互的无缝 AI 体验。
以上内容源自官网资料:https://www.anthropic.com/news/claude-3-family
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/209798.html