2026年OpenClaw 语音功能实战:让 AI 开口说话

OpenClaw 语音功能实战:让 AI 开口说话我有个习惯 早上刷手机的时候不太想看文字 眼睛还没睡醒 脑子也转得慢 如果 AI 能直接把回答念给我听 感觉会顺很多 后来我在 OpenClaw 里发现了 TTS 文字转语音 功能 顺手配了一下 现在每天早上问它几个问题 它直接用语音回我 挺好用的 分享一下怎么弄 OpenClaw 的语音功能 本质上是把 AI 的文字回复转换成音频 然后作为语音消息发出来 在 Telegram 上

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



我有个习惯,早上刷手机的时候不太想看文字。

眼睛还没睡醒,脑子也转得慢。如果 AI 能直接把回答念给我听,感觉会顺很多。

后来我在 OpenClaw 里发现了 TTS(文字转语音)功能,顺手配了一下,现在每天早上问它几个问题,它直接用语音回我——挺好用的,分享一下怎么弄。


OpenClaw 的语音功能,本质上是把 AI 的文字回复转换成音频,然后作为语音消息发出来。

在 Telegram 上,它会直接发一个圆形语音气泡,点击就能播放,跟朋友发语音条的效果一样。在其他平台,会发送一个 MP3 文件。

它支持三个语音服务:

ElevenLabs —— 音质最好,声音非常自然,有情绪感。有付费套餐,但免费额度也够个人用。

OpenAI TTS —— 音质很好,声音清晰稳定。如果你已经有 OpenAI API Key,直接用就行。

Edge TTS —— 微软的神经语音服务,完全免费,不需要 API Key。音质没有前两个好,但胜在零成本,平时用够了。

如果你什么 Key 都没配,OpenClaw 会自动用 Edge TTS 兜底,不会报错,直接就能用。


打开 openclaw.json,找到 messages 这个字段,加进去:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always"    }  }}

就这一行配置,保存重启,AI 回复就会自动附带语音了。

auto 有四个值:

  • off  —— 关闭(默认)
  • always  —— 每次回复都发语音
  • inbound  —— 只有你发语音过来,它才用语音回
  • tagged  —— 只有 AI 主动标记了才发语音(适合只在特定场景用语音)

我平时用 always,因为懒。


什么都不用,直接开:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "edge"    }  }}

想指定声音?Edge TTS 有很多中文语音:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "edge",      "edge": {        "voice": "zh-CN-XiaoxiaoNeural",        "lang": "zh-CN",        "rate": "+5%"      }    }  }}

zh-CN-XiaoxiaoNeural 是女声,声音比较温和自然。还有 zh-CN-YunxiNeural(男声)、zh-CN-XiaohanNeural(女声,风格更活泼)等等。

rate 控制语速,+5% 稍微快一点点,不想听太慢的话可以调到 +10% 到 +20%


如果你有 OpenAI API Key,音质会好很多:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "openai",      "openai": {        "apiKey": "sk-xxxxxx",        "model": "gpt-4o-mini-tts",        "voice": "alloy"      }    }  }}

OpenAI 有六个声音:alloyechofableonyxnovashimmer

我个人比较喜欢 nova,稍微暖一些,听起来不那么机械。

模型用 gpt-4o-mini-tts 就够了,价格比完整版便宜,质量没差太多。


ElevenLabs 的声音是目前最自然的,有情绪变化,听起来更像真人:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "elevenlabs",      "elevenlabs": {        "apiKey": "xxxxxxxx",        "voiceId": "你的声音ID",        "modelId": "eleven_multilingual_v2"      }    }  }}

voiceId 在 ElevenLabs 后台找,选一个你喜欢的声音复制 ID 填进来。

eleven_multilingual_v2 支持中文,发音挺准的。

ElevenLabs 每月有一定免费额度,个人日常使用基本够用,如果用量大了再考虑付费。


OpenClaw 支持配一个主要服务 + 自动备用:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "openai",      "openai": {        "apiKey": "sk-xxxxxx",        "voice": "nova"      },      "elevenlabs": {        "apiKey": "xxxxxxxx",        "voiceId": "your-voice-id"      }    }  }}

OpenAI 出问题,自动切 ElevenLabs;ElevenLabs 也挂了,再切 Edge TTS。

三层备用,基本不会遇到语音功能完全失效的情况。


有时候 AI 的回复很长,全部转成语音会很大一段,听起来也累。

OpenClaw 有自动摘要功能,超过一定长度的回复,会先生成一个简短摘要,再把摘要转成语音:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "summaryModel": "openai/gpt-4o-mini"    }  }}

默认摘要阈值是 1500 个字符。超过这个长度,OpenClaw 会自动用 summaryModel 先把回复压缩,再发语音。

如果你不想要摘要,就发指令关掉:

ounter(line/tts summary off

不想改配置文件,也可以在聊天里直接控制:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line/tts always       # 开启语音/tts off          # 关闭语音/tts inbound      # 只在我发语音时才回语音/tts status       # 查看当前状态/tts provider openai   # 临时切换语音提供商/tts limit 2000   # 改摘要阈值/tts audio 你好,这是一条测试语音   # 单次生成语音,不影响设置

这些命令是实时生效的,不用重启服务。


早上听新闻摘要

配合定时任务,让 AI 每天早上抓几条新闻,整理成摘要,用语音发给你。起床刷牙的时候听,不占手。

问问题不用盯着屏幕

做别的事的时候问 AI,用语音回复,眼睛不用离开手头的事。

语音激活模式

把 auto 设成 inbound,你发语音过来,它就用语音回。完全模拟和人说话的感觉。

只在关键场景用语音

把 auto 设成 tagged,这样大部分回复还是文字,只有 AI 觉得这条回复适合听的时候才发语音,不会所有回复都是音频。


如果你是用 Telegram 连接 OpenClaw,语音功能的体验特别好。

AI 的语音回复会发成圆形的语音气泡,跟朋友发语音条一样。点一下就播放,可以调速,可以拖进度,Telegram 的语音播放器体验做得挺完善的。

如果是其他平台,会收到一个 MP3 音频文件,播放也没问题,就是形式不一样。


OpenClaw 的 TTS 功能配起来很快,核心配置就一行 "auto": "always"

三个语音服务各有侧重:不想花钱用 Edge TTS,追求音质用 OpenAI,想要最自然的声音用 ElevenLabs。配主备切换,基本上不用担心中断。

个人感觉,语音功能最适合两个场景:一是手头忙、不方便盯屏幕的时候;二是早上刚起来、不想费劲看文字的时候。

如果你之前只是用文字跟 AI 聊,可以试试开语音,换个交互方式,感觉还挺不一样的。

小讯
上一篇 2026-04-15 16:32
下一篇 2026-04-15 16:30

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/264161.html