2026年我想给 OpenClaw 接上语音,结果有人先做了

我想给 OpenClaw 接上语音,结果有人先做了我一直在用 龙虾 通过飞书和电报来用 体验不错 已经在帮我做各种小杂事了 我这两天还基于龙虾做了个有点点意思的东西 还在打磨 vibe 中 过两天分享出来 在和龙虾对话的过程中 我心里一直有一个感受和念头 人和 AI 之间 语音才是更 native 的交互方式 这个念头不是凭空来的 早在 ChatGPT 刚发布之际 我就做过一个 真 全球 首位的语音 ChatGPT 对话的软件

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



我一直在用 (龙虾),通过飞书和电报来用,体验不错,已经在帮我做各种小杂事了。我这两天还基于龙虾做了个有点点意思的东西,还在打磨(vibe)中,过两天分享出来。

在和龙虾对话的过程中,我心里一直有一个感受和念头:人和 AI 之间,语音才是更 native 的交互方式。

这个念头不是凭空来的。

早在 ChatGPT 刚发布之际,我就做过一个真•全球首位的语音 ChatGPT 对话的软件,发到 B 站后一天之内播放就破了10万。

可以说,我对语音交互还是有一点儿执念的:语音的带宽虽然不高,但它是高度压缩的、灵感密度最大的。这其实就是我们人和人之间最高效、最自然的工作表达方式。文字当然更准确、更易理解,但很多时候,当你打下前几个字的时候,当时的灵感已经忘了一半。

而灵感,则是 AI 时代最为重要的东西。

我自己就经常有过灵感突然飞走的经历,所以我就一直偏爱语音输入类的工具。

龙虾出来之后我就在想,能不能给它接一个语音入口呢?

外网其实已经有人做过类似的尝试,用浏览器接语音,用Web Speech API去调后端,再把结果显示在网页里。技术上不复杂,甚至可以说挺优雅。

图片
GPT plus 代充 只需 145

但我一直觉得,这种方式还是有点「隔着一层」。它更像是:

你坐在电脑前,对着电脑说话。

本质上还是「你在用电脑」而我真正想要的,是反过来——

不是我去靠近设备,而是设备贴近我。

让它不只是「打字对话」,而是随时随地、张嘴就来。飞书可以发语音,电报也可以,但终究不够 native,离那种真正「随时随地、开口即用」的体验还有些距离。

我一直想自己做一个,但这几天确实太忙了,一直没动手(动嘴)。

然后今天,我发现,这件事,已经有人在往我认同的方向走了。

有个叫「」的团队在做一件事:

他们现在做的并不是“一个语音 APP”。更准确地说,是用 APP 先把「耳机 + 服务」的整条链路跑通并稳定下来。APP只是当前最便捷的载体,后续再把同一套能力自然迁移到更贴身的硬件入口上。

简单来说就是,你对着手机说一句话,家里或公司或远程的龙虾就开始干活,干完了把结果推到你手机上。

图片

而这个 APP 粗看之下,可能会觉得这和在飞书里发个语音消息有什么不同?

但这里有个关键的区别:它对接的不是一个 chatbot,而是 OpenClaw 这个真正能干活的个人 Agent。这不只是语音版的 ChatGPT,也不是打通个聊天机器人就完了。

可以想象,这个入口以及未来的耳机背后,将会是一群不同的 Agent 在随时听从你的指令,全天候为你工作、解决问题。它用的是语音这种人和人之间最直接的沟通吩咐方式,自然到你甚至不觉得自己在「操作」什么东西。

所以看到 的第一时间,我就要来安装包上手一试了。

昨晚下载 APP 后,虽然该有的都有,但细节还需要打磨,玩了一会儿我就睡了。没想到早上醒来,看到已经又更新了2个版本了…… 

图片

这是要春节无休的节奏啊……这么快速迭代的速度,我觉得再过几天、过几周,应该就能有一个不错的、可以日常用起来的版本。

那实际用起来什么感觉呢?来看几个我试过的场景。

今天早上我照旧去家附近的公园跑步,跑着跑着突然想起一件事:最近想调研某个技术方案的竞品情况,一直没顾上。以前这种念头只能先记在脑子里,等跑完回去再说。但大概率回去就忘了,或者被别的事岔开。这次我掏出手机,打开 Hi Light APP,点了通话按钮,说了一句:

“帮我调研一下海内外 的竞品和技术方案,整理成文档放桌面。”

然后手机塞回口袋,继续跑。等跑完回去一看,文档已经在那了。并且还成功直接调用了我之前的写的Nanobanana_PPT的skill

图片

我们来看看效果

顺便叮嘱一句:AI 时代,建议大家还是要多跑步、多运动。万一 AGI 真来了,你总得有个好身体去见证吧。

然后跑完步到家,我正洗澡满手都是水的时候,然后阿里云的电话告警来了:数据库满了,虽然是测试环境。

手上满是水时的打字体验和效率……懂的都懂……

不过现在就省事许多了,只需要点击电话按钮,然后直接说:「查一下测试环境,数据库满了,把数据同步表的数据清一下只保留最近一周的。」然后我电脑端的OpenClaw 会用我提前配置好的 skills 自动去连数据库、确定问题、清理数据、二次确认,然后在我还没洗完澡,就把结果推到手机上,给我语音播报完成了。 

图片

用了几次之后我发现,这真的是一个很爽的交互模式:我可以像打电话一样直接给 Agent 说出指令,它接收到之后会告诉我说已收到,还让我先去干点别的或者玩一会儿,等它的好消息。然后过不久,结果就推送过来了,我随时可以审阅。

如果还有需要调整的地方,继续语音追加指示就行。真的就像一个人在管理着无数随叫随到的员工。说句不太谦虚的话,有那么点君临天下的感觉。

图片

说完体验,来聊聊怎么接入。整个过程不复杂,电脑上装好 OpenClaw 之后,安装光帆的 hi-light 插件:

然后去 Hi Light APP 里获取你的 API Key(设置 → 帐号管理 → 获取 API Key),在 OpenClaw 配置文件 ~/.openclaw/openclaw.json 里加上 hi-light 的 channel 配置:

最后执行 openclaw gateway restart,没报错就说明接上了。

不过,其实,这里许多操作我都是直接无脑扔给 ,然后它自己就搞定了。虽然我最近 coding 任务上 Codex 用得越来越多,但这类安装配置的杂事还是 Claude Code 更顺手,体验也明显更好。

但后面我计划直接用耳机来控制龙虾,然后就可以用它来控制 Claude Code 了。

(或者反过来,用 Claude Code 来控制龙虾?)

从技术上看,完整的链路是这样的:

我的语音 → Hi Light APP(或耳机)→ 光帆云服务器 → 你电脑上的 OpenClaw 客户端 → 本地执行 → 结果回传 → APP 展示。

中间走的是 长连接,响应及时。 

另外,这套插件 + WebSocket 通道,其实已经很像平台化能力的雏形。后面大概率会做成一个开放平台,把「设备入口 + 指令通道 + 任务回传」这整条链路开放给开发者,让更多人可以接入类似 OpenClaw 这样的 Agent 能力。现在看到的接入方式,本质上已经是在提前搭平台的骨架。

图片

这里其实没有“绝对安全”。像 OpenClaw 这种能连本地环境、能执行动作的 Agent,本质上就是在 自由度、响应速度与安全边界之间做取舍。

光帆提供了两种部署模式

  1. :插件跑在你自己的 Mac 上,数据尽量不出本地,安全边界更可控,适合对数据敏感的极客。
  2. Cloud Host:更省心、随时在线,但需要更清晰的权限与隔离机制来约束风险边界。换句话说:它不是“更安全”,而是“把权衡摆在台面上”,让不同人按需求选。

安全性方面,API Key 的机制会确保指令只会发到你绑定的设备上。Local Host 模式数据完全不出域。Cloud Host 模式下用户数据做了隔离处理。插件代码在 GitHub 上开源,可以自己去看。

如果你没什么隐私而言,那你随时,我则敏感且确实有许多我自己定制的东西,我建议还是用 Local Host 模式,数据不出域,个性化集成且踏实放心。

从行业角度看,AI 正在从「被动响应」走向「主动理解」,从屏幕走向穿戴,入口正在从键盘迁移到麦克风。光帆在做的事情是把 Agent 能力延伸到了更 native 的硬件交互层面,方向是对的。

如果你本身就在用 OpenClaw,而且也对语音入口有兴趣,可以尝试下这个产品。

语音不是为了更酷,而是为了更自然。当 AI 真正成为执行体,交互方式终究会回到人类最原始、也最直接的沟通方式——说话。因为那本来就是我们与世界协作的方式。

光帆龙虾插件 GitHub:https://github.com/Gongcong/hi-light-plugin 

光帆官网:https://guangfan.com/

小讯
上一篇 2026-03-11 17:42
下一篇 2026-03-11 17:44

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/213409.html