Cloudflare打造统一推理层：一个API访问多供应商模型，快速可靠助力智能体开发！

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

Cloudflare人工智能平台：统一推理层，为智能体提供快速、可靠模型访问！

2026年4月16日，Cloudflare正将自身打造成一个统一的推理层，通过一个API就能访问任何供应商的任何人工智能模型，并且具备快速、可靠的特性。

人工智能模型更新速度极快，实际应用场景通常需调用多个模型。构建人工智能应用，尤其是智能体时，会面临需访问所有模型、避免过度依赖单一供应商、监控成本、确保可靠性和管理延迟等挑战。

自推出AI Gateway和Workers AI后，开发者在Cloudflare上构建人工智能应用的热情高涨。过去几个月，Cloudflare更新了仪表盘，增加零设置默认网关、上游故障自动重试功能，以及更精细的日志控制。

一个目录，一个统一端点

从今天起，可使用用于Workers AI的相同 `AI.run()` 绑定来调用第三方模型。使用Workers的用户，从Cloudflare托管的模型切换到OpenAI、Anthropic或其他供应商的模型，只需修改一行代码。

const response = await env.AI.run(‘anthropic/claude-opus-4-6’, {
 input: ‘What is Cloudflare?’,
}, {
 gateway: { id: “default” },
});

不使用Workers的用户，未来几周内将推出REST API支持，可在任何环境中访问完整的模型目录。现在可通过一个API、一行代码切换模型以及一组信用额度来支付费用，访问来自12家以上供应商的70多个模型，且目录还在快速扩展。可浏览模型目录，为用例找到合适模型，模型供应扩展到包括图像、视频和语音模型，以构建多模态应用。通过一个API访问所有模型，能在一个地方管理所有人工智能支出，还可通过在请求中包含自定义元数据细分成本。

const response = await env.AI.run(‘@cf/moonshotai/kimi-k2.5’,
 {
 prompt: ‘What is AI Gateway?’
 },
 {
 metadata: { “teamId”: “AI”, “userId”: 12345 }
 }
);

自带模型

AI Gateway可让用户通过一个API访问所有供应商的模型，但有时用户需要运行基于自己的数据进行微调的模型，或针对特定用例进行优化的模型。Cloudflare正努力让用户能够将自己的模型引入Workers AI，利用Replicate的 Cog 技术帮助用户将机器学习模型容器化。

`cog.yaml` 文件示例：

build:
 python_version: “3.13”
 python_requirements: requirements.txt
predict: “predict.py:Predictor”

`predict.py` 文件示例：

from cog import BasePredictor, Path, Input
import torch

class Predictor(BasePredictor):
 def setup(self):
 “”“Load the model into memory to make running multiple predictions efficient”“”
 self.net = torch.load(“weights.pth”)

 def predict(self,
 image: Path = Input(description=“Image to enlarge”),
 scale: float = Input(description=“Factor to scale image by”, default=1.5)
 ) -> Path:
 “”“Run a single prediction on the model”“”
 # … pre-processing …
 output = self.net(input)
 # … post-processing …
 return output

用户可运行 `cog build` 构建容器镜像，并将Cog容器推送到Workers AI，Cloudflare将为用户部署和提供模型，用户可通过常用的Workers AI API访问。Cloudflare正在进行一些大型项目，让更多客户能使用这一功能，已在内部团队和一些外部客户中测试，有兴趣成为设计合作伙伴可联系。很快，任何人都可打包自己的模型并通过Workers AI使用。

快速获取首个令牌

构建实时智能体时，结合使用Workers AI模型和AI Gateway特别强大。用户对速度的感知取决于获取首个令牌的时间，Cloudflare在全球330个城市的数据中心网络，使AI Gateway与用户和推理端点距离近，将流式传输开始前的网络时间降至最低。Workers AI在其公共目录中托管了开源模型，包括专门为智能体设计的大型模型和实时语音模型，通过AI Gateway调用这些Cloudflare托管的模型，代码和推理在同一全球网络上运行，无需额外通过公共互联网，能让智能体实现最低的延迟。

具备自动故障转移的可靠性设计

构建智能体时，可靠性和速度同样重要。智能体工作流程中的每一步都依赖于前面的步骤，可靠的推理至关重要。通过AI Gateway，若调用的模型在多个供应商处都有提供，其中一个供应商出现故障，会自动将请求路由到另一个可用的供应商，无需编写故障转移逻辑。使用 Agents SDK构建长时间运行的智能体，流式推理调用在断开连接时能保持弹性，AI Gateway会在流式响应生成时对其进行缓冲，与智能体的生命周期无关。若智能体在推理过程中中断，可重新连接到AI Gateway并获取响应，无需重新进行推理调用或为相同的输出令牌支付两次费用，结合Agents SDK内置的检查点功能，最终用户不会察觉到任何异常。

Replicate

Replicate团队已正式加入Cloudflare的人工智能平台团队，双方一直在努力进行Replicate与Cloudflare的集成工作，包括将所有Replicate模型引入AI Gateway，并将托管模型迁移到Cloudflare基础设施上。很快，用户就可以通过AI Gateway访问在Replicate上喜欢的模型，也能将在Replicate上部署的模型托管到Workers AI上。

开始使用

要开始使用，可查看关于 AI Gateway 或 Workers AI 的文档。通过 Agents SDK 了解更多关于在Cloudflare上构建智能体的信息。

在Cloudflare TV观看

Cloudflare的连接云可以保护整个企业网络，帮助客户高效构建互联网规模的应用，加速任何网站或互联网应用，抵御DDoS攻击，防范黑客，并能帮助用户迈向零信任。从任何设备访问 1.1.1.1，即可开始使用免费应用，让网络更快速、更安全。若想了解构建更美好互联网的使命，可从这里开始。若正在寻找新的职业方向，可查看招聘信息。

2026年4月16日，构建运行超大型语言模型的基础，作者：Michelle Chen、Kevin Flansburg、Vlad Krasnov。
2026年4月16日，人工智能搜索：智能体的搜索原语，作者：Gabriel Massadas、Miguel Cardoso、Anni Wang。
2026年4月16日，使用PlanetScale + Workers部署Postgres和MySQL数据库，作者：Vy Ton、Matt Silverlock。
2026年4月16日，工件：支持Git的版本化存储，作者：Dillon Mulroy、Matt Carey、Matt Silverlock。

入门指南：

免费计划
企业版
比较计划
获取推荐
申请演示