2026年OpenClaw 语音功能实战：让 AI 开口说话

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

我有个习惯，早上刷手机的时候不太想看文字。

眼睛还没睡醒，脑子也转得慢。如果 AI 能直接把回答念给我听，感觉会顺很多。

后来我在 OpenClaw 里发现了 TTS（文字转语音）功能，顺手配了一下，现在每天早上问它几个问题，它直接用语音回我——挺好用的，分享一下怎么弄。

OpenClaw 的语音功能，本质上是把 AI 的文字回复转换成音频，然后作为语音消息发出来。

在 Telegram 上，它会直接发一个圆形语音气泡，点击就能播放，跟朋友发语音条的效果一样。在其他平台，会发送一个 MP3 文件。

它支持三个语音服务：

ElevenLabs —— 音质最好，声音非常自然，有情绪感。有付费套餐，但免费额度也够个人用。

OpenAI TTS —— 音质很好，声音清晰稳定。如果你已经有 OpenAI API Key，直接用就行。

Edge TTS —— 微软的神经语音服务，完全免费，不需要 API Key。音质没有前两个好，但胜在零成本，平时用够了。

如果你什么 Key 都没配，OpenClaw 会自动用 Edge TTS 兜底，不会报错，直接就能用。

打开 openclaw.json，找到 messages 这个字段，加进去：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always"    }  }}

就这一行配置，保存重启，AI 回复就会自动附带语音了。

auto 有四个值：

off —— 关闭（默认）
always —— 每次回复都发语音
inbound —— 只有你发语音过来，它才用语音回
tagged —— 只有 AI 主动标记了才发语音（适合只在特定场景用语音）

我平时用 always，因为懒。

什么都不用，直接开：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "edge"    }  }}

想指定声音？Edge TTS 有很多中文语音：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "edge",      "edge": {        "voice": "zh-CN-XiaoxiaoNeural",        "lang": "zh-CN",        "rate": "+5%"      }    }  }}

zh-CN-XiaoxiaoNeural 是女声，声音比较温和自然。还有 zh-CN-YunxiNeural（男声）、zh-CN-XiaohanNeural（女声，风格更活泼）等等。

rate 控制语速，+5% 稍微快一点点，不想听太慢的话可以调到 +10% 到 +20%。

如果你有 OpenAI API Key，音质会好很多：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "openai",      "openai": {        "apiKey": "sk-xxxxxx",        "model": "gpt-4o-mini-tts",        "voice": "alloy"      }    }  }}

OpenAI 有六个声音：alloy、echo、fable、onyx、nova、shimmer。

我个人比较喜欢 nova，稍微暖一些，听起来不那么机械。

模型用 gpt-4o-mini-tts 就够了，价格比完整版便宜，质量没差太多。

ElevenLabs 的声音是目前最自然的，有情绪变化，听起来更像真人：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "elevenlabs",      "elevenlabs": {        "apiKey": "xxxxxxxx",        "voiceId": "你的声音ID",        "modelId": "eleven_multilingual_v2"      }    }  }}

voiceId 在 ElevenLabs 后台找，选一个你喜欢的声音复制 ID 填进来。

eleven_multilingual_v2 支持中文，发音挺准的。

ElevenLabs 每月有一定免费额度，个人日常使用基本够用，如果用量大了再考虑付费。

OpenClaw 支持配一个主要服务 + 自动备用：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "openai",      "openai": {        "apiKey": "sk-xxxxxx",        "voice": "nova"      },      "elevenlabs": {        "apiKey": "xxxxxxxx",        "voiceId": "your-voice-id"      }    }  }}

OpenAI 出问题，自动切 ElevenLabs；ElevenLabs 也挂了，再切 Edge TTS。

三层备用，基本不会遇到语音功能完全失效的情况。

有时候 AI 的回复很长，全部转成语音会很大一段，听起来也累。

OpenClaw 有自动摘要功能，超过一定长度的回复，会先生成一个简短摘要，再把摘要转成语音：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "summaryModel": "openai/gpt-4o-mini"    }  }}

默认摘要阈值是 1500 个字符。超过这个长度，OpenClaw 会自动用 summaryModel 先把回复压缩，再发语音。

如果你不想要摘要，就发指令关掉：

ounter(line/tts summary off

不想改配置文件，也可以在聊天里直接控制：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line/tts always       # 开启语音/tts off          # 关闭语音/tts inbound      # 只在我发语音时才回语音/tts status       # 查看当前状态/tts provider openai   # 临时切换语音提供商/tts limit 2000   # 改摘要阈值/tts audio 你好，这是一条测试语音   # 单次生成语音，不影响设置

这些命令是实时生效的，不用重启服务。

早上听新闻摘要

配合定时任务，让 AI 每天早上抓几条新闻，整理成摘要，用语音发给你。起床刷牙的时候听，不占手。

问问题不用盯着屏幕

做别的事的时候问 AI，用语音回复，眼睛不用离开手头的事。

语音激活模式

把 auto 设成 inbound，你发语音过来，它就用语音回。完全模拟和人说话的感觉。

只在关键场景用语音

把 auto 设成 tagged，这样大部分回复还是文字，只有 AI 觉得这条回复适合听的时候才发语音，不会所有回复都是音频。

如果你是用 Telegram 连接 OpenClaw，语音功能的体验特别好。

AI 的语音回复会发成圆形的语音气泡，跟朋友发语音条一样。点一下就播放，可以调速，可以拖进度，Telegram 的语音播放器体验做得挺完善的。

如果是其他平台，会收到一个 MP3 音频文件，播放也没问题，就是形式不一样。

OpenClaw 的 TTS 功能配起来很快，核心配置就一行 "auto": "always"。

三个语音服务各有侧重：不想花钱用 Edge TTS，追求音质用 OpenAI，想要最自然的声音用 ElevenLabs。配主备切换，基本上不用担心中断。

个人感觉，语音功能最适合两个场景：一是手头忙、不方便盯屏幕的时候；二是早上刚起来、不想费劲看文字的时候。

如果你之前只是用文字跟 AI 聊，可以试试开语音，换个交互方式，感觉还挺不一样的。

2026年OpenClaw 语音功能实战：让 AI 开口说话

相关推荐