Cloudflare打造统一推理层:一个API访问多供应商模型,快速可靠助力智能体开发!

Cloudflare打造统一推理层:一个API访问多供应商模型,快速可靠助力智能体开发!p style margin left 0 margin right 0 text align center p

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

Cloudflare人工智能平台:统一推理层,为智能体提供快速、可靠模型访问!

2026年4月16日,Cloudflare正将自身打造成一个统一的推理层,通过一个API就能访问任何供应商的任何人工智能模型,并且具备快速、可靠的特性。

人工智能模型更新速度极快,实际应用场景通常需调用多个模型。构建人工智能应用,尤其是智能体时,会面临需访问所有模型、避免过度依赖单一供应商、监控成本、确保可靠性和管理延迟等挑战。

自推出AI Gateway和Workers AI后,开发者在Cloudflare上构建人工智能应用的热情高涨。过去几个月,Cloudflare更新了仪表盘,增加零设置默认网关、上游故障自动重试功能,以及更精细的日志控制。

一个目录,一个统一端点

从今天起,可使用用于Workers AI的相同 `AI.run()` 绑定来调用第三方模型。使用Workers的用户,从Cloudflare托管的模型切换到OpenAI、Anthropic或其他供应商的模型,只需修改一行代码。

const response = await env.AI.run(‘anthropic/claude-opus-4-6’, {
input: ‘What is Cloudflare?’,
}, {
gateway: { id: “default” },
});










不使用Workers的用户,未来几周内将推出REST API支持,可在任何环境中访问完整的模型目录。现在可通过一个API、一行代码切换模型以及一组信用额度来支付费用,访问来自12家以上供应商的70多个模型,且目录还在快速扩展。可浏览模型目录,为用例找到合适模型,模型供应扩展到包括图像、视频和语音模型,以构建多模态应用。通过一个API访问所有模型,能在一个地方管理所有人工智能支出,还可通过在请求中包含自定义元数据细分成本。

const response = await env.AI.run(‘@cf/moonshotai/kimi-k2.5’,
{
prompt: ‘What is AI Gateway?’
},
{
metadata: { “teamId”: “AI”, “userId”: 12345 }
}
);



















自带模型

AI Gateway可让用户通过一个API访问所有供应商的模型,但有时用户需要运行基于自己的数据进行微调的模型,或针对特定用例进行优化的模型。Cloudflare正努力让用户能够将自己的模型引入Workers AI,利用Replicate的 Cog 技术帮助用户将机器学习模型容器化。

`cog.yaml` 文件示例:

build:
python_version: “3.13”
python_requirements: requirements.txt
predict: “predict.py:Predictor”







`predict.py` 文件示例:

from cog import BasePredictor, Path, Input
import torch

class Predictor(BasePredictor):
def setup(self):
“”“Load the model into memory to make running multiple predictions efficient”“”
self.net = torch.load(“weights.pth”)

def predict(self,
image: Path = Input(description=“Image to enlarge”),
scale: float = Input(description=“Factor to scale image by”, default=1.5)
) -> Path:
“”“Run a single prediction on the model”“”
# … pre-processing …
output = self.net(input)
# … post-processing …
return output














































用户可运行 `cog build` 构建容器镜像,并将Cog容器推送到Workers AI,Cloudflare将为用户部署和提供模型,用户可通过常用的Workers AI API访问。Cloudflare正在进行一些大型项目,让更多客户能使用这一功能,已在内部团队和一些外部客户中测试,有兴趣成为设计合作伙伴可联系。很快,任何人都可打包自己的模型并通过Workers AI使用。

快速获取首个令牌

构建实时智能体时,结合使用Workers AI模型和AI Gateway特别强大。用户对速度的感知取决于获取首个令牌的时间,Cloudflare在全球330个城市的数据中心网络,使AI Gateway与用户和推理端点距离近,将流式传输开始前的网络时间降至最低。Workers AI在其公共目录中托管了开源模型,包括专门为智能体设计的大型模型和实时语音模型,通过AI Gateway调用这些Cloudflare托管的模型,代码和推理在同一全球网络上运行,无需额外通过公共互联网,能让智能体实现最低的延迟。

具备自动故障转移的可靠性设计

构建智能体时,可靠性和速度同样重要。智能体工作流程中的每一步都依赖于前面的步骤,可靠的推理至关重要。通过AI Gateway,若调用的模型在多个供应商处都有提供,其中一个供应商出现故障,会自动将请求路由到另一个可用的供应商,无需编写故障转移逻辑。使用 Agents SDK构建长时间运行的智能体,流式推理调用在断开连接时能保持弹性,AI Gateway会在流式响应生成时对其进行缓冲,与智能体的生命周期无关。若智能体在推理过程中中断,可重新连接到AI Gateway并获取响应,无需重新进行推理调用或为相同的输出令牌支付两次费用,结合Agents SDK内置的检查点功能,最终用户不会察觉到任何异常。

Replicate

Replicate团队已正式加入Cloudflare的人工智能平台团队,双方一直在努力进行Replicate与Cloudflare的集成工作,包括将所有Replicate模型引入AI Gateway,并将托管模型迁移到Cloudflare基础设施上。很快,用户就可以通过AI Gateway访问在Replicate上喜欢的模型,也能将在Replicate上部署的模型托管到Workers AI上。

开始使用

要开始使用,可查看关于 AI Gateway 或 Workers AI 的文档。通过 Agents SDK 了解更多关于在Cloudflare上构建智能体的信息。

在Cloudflare TV观看

Cloudflare的连接云可以保护整个企业网络,帮助客户高效构建互联网规模的应用,加速任何网站或互联网应用,抵御DDoS攻击,防范黑客,并能帮助用户迈向零信任。从任何设备访问 1.1.1.1,即可开始使用免费应用,让网络更快速、更安全。若想了解构建更美好互联网的使命,可从这里开始。若正在寻找新的职业方向,可查看 招聘信息。

相关文章:

入门指南:

  • 免费计划
  • 企业版
  • 比较计划
  • 获取推荐
  • 申请演示

小讯
上一篇 2026-04-18 21:09
下一篇 2026-04-18 21:07

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/269471.html