是 OpenClaw 中专门用于视觉理解的模型配置,独立于主对话模型()。当对话涉及图片或视觉内容时,OpenClaw 会自动切换到 指定的模型来处理。
主模型()不一定支持视觉输入。例如:
- 是纯文本模型,无法处理图片
- 支持多模态(文本+图片)
单独配置 可以做到:文本走快模型,图片走多模态模型,兼顾速度和能力。
在 OpenClaw 配置文件中():
GPT plus 代充 只需 145
两种写法都支持:
讯享网
场景 说明
用户发送图片 照片、截图等图片附件,agent 需要"看图说话"时
用户发送 PDF PDF 含扫描页/图片,需视觉分析时(先查 ,未配则回退到 )
媒体理解管线 收到的图片/视频截帧经过自动媒体理解流程时
agent 工具调用 agent 使用内置的 工具分析图片时
讯享网
逐个尝试,第一个成功即返回。全部失败则报错:
"No image model configured. Set agents.defaults.imageModel.primary or agents.defaults.imageModel.fallbacks."
如果没有配置 ,PDF 工具会自动回退到 的配置。
当未配置 且系统检测到对应 provider 的 API key 时,会使用内置默认:
Provider 默认模型 OpenAI Anthropic Google MiniMax ZAI
讯享网
效果:
- 纯文本对话 →
- 发图片 → ,失败则 →
- 发 PDF → ,未配则回退到 imageModel 链
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/211935.html