2026年我想给 OpenClaw 接上语音，结果有人先做了

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

我一直在用（龙虾），通过飞书和电报来用，体验不错，已经在帮我做各种小杂事了。我这两天还基于龙虾做了个有点点意思的东西，还在打磨（vibe）中，过两天分享出来。

在和龙虾对话的过程中，我心里一直有一个感受和念头：人和 AI 之间，语音才是更 native 的交互方式。

这个念头不是凭空来的。

早在 ChatGPT 刚发布之际，我就做过一个真•全球首位的语音 ChatGPT 对话的软件，发到 B 站后一天之内播放就破了10万。

可以说，我对语音交互还是有一点儿执念的：语音的带宽虽然不高，但它是高度压缩的、灵感密度最大的。这其实就是我们人和人之间最高效、最自然的工作表达方式。文字当然更准确、更易理解，但很多时候，当你打下前几个字的时候，当时的灵感已经忘了一半。

而灵感，则是 AI 时代最为重要的东西。

我自己就经常有过灵感突然飞走的经历，所以我就一直偏爱语音输入类的工具。

龙虾出来之后我就在想，能不能给它接一个语音入口呢？

外网其实已经有人做过类似的尝试，用浏览器接语音，用Web Speech API去调后端，再把结果显示在网页里。技术上不复杂，甚至可以说挺优雅。

GPT plus 代充只需 145

但我一直觉得，这种方式还是有点「隔着一层」。它更像是：

你坐在电脑前，对着电脑说话。

本质上还是「你在用电脑」而我真正想要的，是反过来——

不是我去靠近设备，而是设备贴近我。

让它不只是「打字对话」，而是随时随地、张嘴就来。飞书可以发语音，电报也可以，但终究不够 native，离那种真正「随时随地、开口即用」的体验还有些距离。

我一直想自己做一个，但这几天确实太忙了，一直没动手（动嘴）。

然后今天，我发现，这件事，已经有人在往我认同的方向走了。

有个叫「」的团队在做一件事：

他们现在做的并不是“一个语音 APP”。更准确地说，是用 APP 先把「耳机 + 服务」的整条链路跑通并稳定下来。APP只是当前最便捷的载体，后续再把同一套能力自然迁移到更贴身的硬件入口上。

简单来说就是，你对着手机说一句话，家里或公司或远程的龙虾就开始干活，干完了把结果推到你手机上。

而这个 APP 粗看之下，可能会觉得这和在飞书里发个语音消息有什么不同？

但这里有个关键的区别：它对接的不是一个 chatbot，而是 OpenClaw 这个真正能干活的个人 Agent。这不只是语音版的 ChatGPT，也不是打通个聊天机器人就完了。

可以想象，这个入口以及未来的耳机背后，将会是一群不同的 Agent 在随时听从你的指令，全天候为你工作、解决问题。它用的是语音这种人和人之间最直接的沟通吩咐方式，自然到你甚至不觉得自己在「操作」什么东西。

所以看到的第一时间，我就要来安装包上手一试了。

昨晚下载 APP 后，虽然该有的都有，但细节还需要打磨，玩了一会儿我就睡了。没想到早上醒来，看到已经又更新了2个版本了……

这是要春节无休的节奏啊……这么快速迭代的速度，我觉得再过几天、过几周，应该就能有一个不错的、可以日常用起来的版本。

那实际用起来什么感觉呢？来看几个我试过的场景。

今天早上我照旧去家附近的公园跑步，跑着跑着突然想起一件事：最近想调研某个技术方案的竞品情况，一直没顾上。以前这种念头只能先记在脑子里，等跑完回去再说。但大概率回去就忘了，或者被别的事岔开。这次我掏出手机，打开 Hi Light APP，点了通话按钮，说了一句：

“帮我调研一下海内外的竞品和技术方案，整理成文档放桌面。”

然后手机塞回口袋，继续跑。等跑完回去一看，文档已经在那了。并且还成功直接调用了我之前的写的Nanobanana_PPT的skill。

我们来看看效果

顺便叮嘱一句：AI 时代，建议大家还是要多跑步、多运动。万一 AGI 真来了，你总得有个好身体去见证吧。

然后跑完步到家，我正洗澡满手都是水的时候，然后阿里云的电话告警来了：数据库满了，虽然是测试环境。

手上满是水时的打字体验和效率……懂的都懂……

不过现在就省事许多了，只需要点击电话按钮，然后直接说：「查一下测试环境，数据库满了，把数据同步表的数据清一下只保留最近一周的。」然后我电脑端的OpenClaw 会用我提前配置好的 skills 自动去连数据库、确定问题、清理数据、二次确认，然后在我还没洗完澡，就把结果推到手机上，给我语音播报完成了。

用了几次之后我发现，这真的是一个很爽的交互模式：我可以像打电话一样直接给 Agent 说出指令，它接收到之后会告诉我说已收到，还让我先去干点别的或者玩一会儿，等它的好消息。然后过不久，结果就推送过来了，我随时可以审阅。

如果还有需要调整的地方，继续语音追加指示就行。真的就像一个人在管理着无数随叫随到的员工。说句不太谦虚的话，有那么点君临天下的感觉。

说完体验，来聊聊怎么接入。整个过程不复杂，电脑上装好 OpenClaw 之后，安装光帆的 hi-light 插件：

然后去 Hi Light APP 里获取你的 API Key（设置 → 帐号管理 → 获取 API Key），在 OpenClaw 配置文件 ~/.openclaw/openclaw.json 里加上 hi-light 的 channel 配置：

最后执行 openclaw gateway restart，没报错就说明接上了。

不过，其实，这里许多操作我都是直接无脑扔给，然后它自己就搞定了。虽然我最近 coding 任务上 Codex 用得越来越多，但这类安装配置的杂事还是 Claude Code 更顺手，体验也明显更好。

但后面我计划直接用耳机来控制龙虾，然后就可以用它来控制 Claude Code 了。

（或者反过来，用 Claude Code 来控制龙虾？）

从技术上看，完整的链路是这样的：

我的语音 → Hi Light APP（或耳机）→ 光帆云服务器 → 你电脑上的 OpenClaw 客户端 → 本地执行 → 结果回传 → APP 展示。

中间走的是长连接，响应及时。

另外，这套插件 + WebSocket 通道，其实已经很像平台化能力的雏形。后面大概率会做成一个开放平台，把「设备入口 + 指令通道 + 任务回传」这整条链路开放给开发者，让更多人可以接入类似 OpenClaw 这样的 Agent 能力。现在看到的接入方式，本质上已经是在提前搭平台的骨架。

这里其实没有“绝对安全”。像 OpenClaw 这种能连本地环境、能执行动作的 Agent，本质上就是在 自由度、响应速度与安全边界之间做取舍。

光帆提供了两种部署模式：

：插件跑在你自己的 Mac 上，数据尽量不出本地，安全边界更可控，适合对数据敏感的极客。
Cloud Host：更省心、随时在线，但需要更清晰的权限与隔离机制来约束风险边界。换句话说：它不是“更安全”，而是“把权衡摆在台面上”，让不同人按需求选。

安全性方面，API Key 的机制会确保指令只会发到你绑定的设备上。Local Host 模式数据完全不出域。Cloud Host 模式下用户数据做了隔离处理。插件代码在 GitHub 上开源，可以自己去看。

如果你没什么隐私而言，那你随时，我则敏感且确实有许多我自己定制的东西，我建议还是用 Local Host 模式，数据不出域，个性化集成且踏实放心。

从行业角度看，AI 正在从「被动响应」走向「主动理解」，从屏幕走向穿戴，入口正在从键盘迁移到麦克风。光帆在做的事情是把 Agent 能力延伸到了更 native 的硬件交互层面，方向是对的。

如果你本身就在用 OpenClaw，而且也对语音入口有兴趣，可以尝试下这个产品。

语音不是为了更酷，而是为了更自然。当 AI 真正成为执行体，交互方式终究会回到人类最原始、也最直接的沟通方式——说话。因为那本来就是我们与世界协作的方式。

光帆龙虾插件 GitHub：https://github.com/Gongcong/hi-light-plugin

光帆官网：https://guangfan.com/

2026年我想给 OpenClaw 接上语音，结果有人先做了

相关推荐