大模型接口调用FAQ

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

A: 兼容OpenAI接口(/v1/chat/completions) 和 Anthropic接口标准(/v1/messages); 同时兼容HTTP流式和非流式调用。

A: 只有查询模型列表接口(/v1/models)支持GET操作，其他接口均为POST操作。

Q1：如何调用 API 以及部署？可参考此处文档：https://www.qiniu.com/products/ai-token-api#document

Q2：API 接口是什么风格？请求参数和响应参数是怎样的？接口兼容 OpenAI 风格，参数也完全兼容 OpenAI 的 sdk，比如 maxtoken、tempeature 等常见参数可以直接使用 sdk 中的参数；常见容易搞错的是 OpenAI sdk 配的 baseurl 一般是域名 + /v1，比如：https://api.qnaigc.com/v1，而不是（https://api.qnaigc.com/ 或者 https://api.qnaigc.com/v1/chat/completions）

Q3：API 支持哪些模型？除了 DeepSeek-R1、V3 模型，也支持 Qwen 模型，模型列表参考：AI大模型广场

Q4：各种 AI App 或大模型聚合平台（如 cherrystudio 等），如何接入七牛的 API ？可以选择 OpenAI 的接入方式进行接入，常见容易搞错的是 url 配置一般是域名，比如：https://api.qnaigc.com，而不是 https://api.qnaigc.com/v1/chat/completions

Q5：API 的回答为什么没有思考过程？只有 deepseek-r1 模型是默认有思考过程的，回答内容开头有标签。也有小概率遇到标签内容为空的情况，属正常情况

Q6：API 调用报错： openai.InternalServerError: Error code: 503 - }，怎么解决？ model 字段的值传错了，需要严格和 AI大模型广场里面的“API model参数“的值保持一致，否则找不到模型

Q7：API 调用报错包含 header 字段的，比如： "error":"authorization header missing", "status": false，怎么解决？往往是请求 header 或请求字段有问题，建议对照教程文档检查下；如果还未解决，可以咨询我们的技术支持， 注意抹掉 api key 敏感信息

Q8：API 如何调用 DeepSeek 671B 的模型？当前支持的 deepseek-r1 就是 671B 的全参数模型，也是所谓的满血版

Q9：七牛云有哪些 GPU 主机可用来私有部署？支持多少人并发使用？ GPU 主机 A100、V100、A10、H20、4090 等都有，可以部署 671b 量化全参模型，也可以跑中小参的 DeepSeek-R1-Qwen、DeepSeek-R1-Llama 蒸馏模型；具体规格示例：6张 40G 的 A100 显卡可以满足 10 tokens/s；8张 32G 的 V100 显卡大概 5 tokens/s

如需私有部署，可参考此文档：DeepSeek R1 GPU 主机部署教程

Q10：ollma 与 vllm 部署方式如何选择？ ollama 推荐个人开发者，高并发推荐 vllm 部署，目前全参数模型要求配置高，也可以使用 32b 的蒸馏模型

vllm 部署速度对比

模型：DeepSeek-R1-Distill-Qwen-32B
环境：显卡 4 x 32G V100 CPU 48 x Intel® Xeon® Silver 4116 CPU @ 2.10 GHz

GPU 显存、内存消耗并发数速度显存 95.9 GB VIRT（虚拟内存）: 56.7G；RES（物理内存）: 5.8G 1 13.848 tokens/s 显存 95.9 GB VIRT（虚拟内存）: 56.7G；RES（物理内存）: 5.8G 10 14.12 tokens/s 显存 95.9 GB VIRT（虚拟内存）: 56.7G；RES（物理内存）: 5.8G 100 13.41 tokens/s

Q11：使用 Token API 和购买 GPU 主机进行专属私有化部署有什么差别？差别1：数据安全隐私。API 背后的模型归属云厂商，客户的问题和答案都经过云厂商的模型处理；私有化部署的模型归属客户，客户的问题和答案数据有更好的隐私保护，尤其是如果客户场景是 RAG 应用，涉及客户的内部资料和数据，更建议用私有化部署的方式差别2：灵活性。API 一般是按 token 计费，RPM/TPM 等指标并不明显；私有化部署则租期可长可短，token 数无限制，RPM/TPM 等通过扩容比较可控。

API 定价

Q12：获取 API KEY 的 /llmapikey 的接口可以调用多次吗？API KEY 需要重新获取吗？API KEY 泄漏了怎么办？第一次调用 /llmapikey 接口获取 API KEY，保存下来可以一直用；如果泄漏或者单纯想要重置 API KEY，可以再次调用 /llmapikey 接口，获取新的 API KEY，旧的 API KEY失效。

Q13：支持联网搜索吗？联网搜索需要单独配置对应的API,使用全网搜索 API

Q14：grok-4-fast模型是否有参数支持关闭推理？不支持，只能在提示词引导关闭思考

Q15：AI大模型API调用RPM是多少？不同模型的RPM限制不一样，如需了解具体模型的RPM限制，您可以提交工单咨询

Q16：如何开通海外大模型API功能？账号实名认证完成后，即可使用，无需额外申请

Q17：AI接口调用报402错误码？ 402错误码是账号余额或资源包不足导致的，资源包、账单以及AI接口请求是15分钟的实时计量数据，提示402错误后您那边充值或购买资源包即可，充值或购买资源包后，大约15分钟左右接口会恢复正常。

Q18：文生图接口使用gemini-2.5-flash-image模型，请求参数n指定多个图像数量时不生效？ gemini-2.5-flash-image模型在生成多张图片时不稳定导致的，建议每次输出一张图片，多次调用来处理

Q19：API接口调用报ip in black list 错误？这是因为使用了错误的API-KEY频繁调用接口导致的，您修改使用正确的API-KEY调用即可

Q20：如何查询某个API-KEY的用量和计费信息？ 1、用量可以在七牛控制台 - 用量统计查看，支持按API-KEY查询；
2、计费信息可以在七牛控制台 - 计费预估查看，支持按API-KEY查询。

Q21：为什么无法创建API-KEY？目前AI产品仅支持中国大陆账号使用，暂不支持海外账号。
1、如果您注册的是海外账号的话，无法创建API-KEY是预期的；
2、如果注册的是中国大陆区域账号，创建失败，可以提供下具体错误信息，然后提交工单由技术人员排查确认。

Q22：AI接口调用报403（invalid user v2或access denied for invalid user）错误，如何处理？这种403错误一般是风控系统巡查判定认定为非法注册大量账号、恶意机刷AI推理活动资源包奖励，导致AI调用被封禁；
对于系统自动触发封禁，如果认为存在误封情况，可在此提交申诉 解封申诉 提交后系统会自动审核处理。
提交申诉时需要您提供不是机刷的证明，包括但不限于：
1. 公众号/视频号/B 站等公域平台的内容分享链接；
2. 微信群/Discord 等私域社群的转发分享截图；
3. 证明材料中均需显示完整的推广链接，或推广海报。

Q23：Claude Code调用claude模型失败，报 Invalid effort value: xhigh. Must be one of: thigh’,‘medium’, "low’ 错误，如何处理？原因：目前还不在支持 xhigh 导致的，未来会支持，
解决方法：在Claudecode中输入： /effort high 把 effort 调整为 high 即可

附录：

API文档：https://developer.qiniu.com/aitokenapi/13379/real-time-ai-interface-api
API定价：https://developer.qiniu.com/aitokenapi/12898/ai-token-api-pricing
支持的模型列表：https://www.qiniu.com/ai/models
专属 GPU 主机购买：https://marketing.qiniu.com/activity/2024-1111-act
DeepSeek R1 GPU 主机部署教程：https://developer.qiniu.com/aitokenapi/12885/host-deployment-tutorial
更多文档：https://www.qiniu.com/products/ai-token-api#document

相关推荐