openclaw语音转文字失败时,需依次检查音频权限、whisper/deepgram/qwen/vosk等模型配置及技能启用状态。具体包括:启用realtime监听、加载本地whisper/tiny-zh模型、配置deepgram api与nova-3参数、注册qwen3.5-9b为增强处理器、安装vosk适配器并指定中文模型路径。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 多模态理解力帮你轻松跨越从0到1的创作门槛☜☜☜

如果您在使用OpenClaw进行会议记录或视频字幕生成时,语音无法准确转为文字,则可能是由于音频输入路径未启用、模型服务未就绪或转录技能未安装。以下是解决此问题的步骤:
OpenClaw需通过系统音频驱动直接接入麦克风流,才能实现低延迟实时转录。该模式绕过文件上传环节,适用于线上会议同步记录与直播字幕生成。
1、确认系统音频权限已授予OpenClaw:在macOS中进入“系统设置→隐私与安全性→麦克风”,勾选openclaw-gateway;在Windows中进入“设置→隐私→麦克风”,启用相关权限。
2、编辑~/.openclaw/openclaw.json,在audio节点下启用实时监听:
3、设置"realtime": true,并指定采样率与静音阈值:
4、保存配置后执行openclaw gateway restart重启服务。
Whisper模型无需联网、不外传音频、支持中文方言及99种语言,是隐私敏感场景下的首选ASR引擎。其运行依赖Python环境与FFmpeg,且必须完成模型权重本地加载。
1、确保已安装Python 3.10+与FFmpeg:
2、下载Whisper中文专用轻量模型(tiny-zh)至本地:
3、在~/.openclaw/openclaw.json中新增Whisper提供方配置:
4、验证模型加载状态:执行clawhub list skills | grep whisper,确认whisper-offline-transcriber处于active状态。
当对转录速度与多说话人区分有更高要求时,可启用Deepgram作为外部ASR后端。其nova-3模型在中文会议场景下具备自动标点、智能格式化与角色分离能力,但需网络可达且音频上传至第三方服务。
1、获取Deepgram API Key(以dg_开头),写入~/.openclaw/.env:
2、在openclaw.json的tools.media.audio区块中启用Deepgram并指定参数:
3、添加语言提示与智能功能开关:
4、重启网关后,发送语音消息将自动触发Deepgram异步转录流程。
纯ASR输出常含语气词、重复句与逻辑断层,需结合大语言模型进行上下文清洗与结构重排。Qwen3.5-9B本地部署版本可在保留原始信息前提下,生成带发言标注、时间锚点与重点加粗的增强文本。
1、启动Qwen3.5-9B本地服务(监听端口8080):
2、在openclaw.json中注册该模型为summarization后处理器:
3、为音频技能链指定后处理模型ID:
4、测试指令:/transcribe realtime --enhance-with qwen3-9b,观察日志中是否出现[ENHANCE] applied to 127 tokens标记。
Vosk专为边缘设备优化,可在无GPU、内存≤8GB的笔记本或树莓派上稳定运行。其识别准确率略低于Whisper,但启动快、响应低、资源占用恒定,适合嵌入式会议终端或老旧办公电脑。
1、安装Vosk Python包及中文模型(约1.8GB):
2、将模型解压路径写入配置文件:
3、在skills/audio-processor/config.json中强制指定引擎:
4、执行clawhub install vosk-adapter安装适配器模块,并确认vosk-model-zh-cn-0.22被正确加载。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/282244.html