2026年字节全双工语音大模型Seeduplex上线豆包,语音交互更像“真人”了

字节全双工语音大模型Seeduplex上线豆包,语音交互更像“真人”了p 4 月 9 日 字节跳动推出原生全双工语音大模型 Seeduplex 并同步在豆包 App 全量上线 这意味着全双工技术正式走出实验室 在业界率先实现了规模化落地 p Seeduplex 的核心突破是把 AI 语音从 轮流说话 的半双工 对讲机模式 升级为 边听边说 的全双工 打电话模式 范式 让模型具备更自然的对话流控制能力和实时交互能力 语音交互方面

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

4月9日,字节跳动推出原生全双工语音大模型Seeduplex,并同步在豆包App全量上线,这意味着全双工技术正式走出实验室,在业界率先实现了规模化落地。

Seeduplex的核心突破是把AI语音从“轮流说话”的半双工(对讲机模式),升级为“边听边说”的全双工(打电话模式)范式,让模型具备更自然的对话流控制能力和实时交互能力。

语音交互方面,想要实现真正的自然交互,关键在于模型的抗干扰能力和动态判停能力。

复杂的声学环境一直是语音交互的挑战。过去,用户常需提高音量或寻找安静角落,才能完成一次稳妥的交互。Seeduplex模型能持续接收并理解用户侧音频,感知用户所在的全局声学环境,判断并区分真正交互的声音和干扰声,提升了抗干扰能力,大幅降低了误回复率与误打断率。

另外一个核心关键是动态判停能力,不会错误打断用户,能够准确判断用户何时在思考、何时已说完。Seeduplex通过深度融合语音与语义理解,在对话节奏把控上具有更强的灵活性。

根据官方披露的模型评测数据,Seeduplex将判停延迟降低约250ms的同时,复杂场景下的AI抢话比例相对减少40%;针对用户的打断需求,在响应准确率更高的前提下,Seeduplex将打断响应的延迟进一步缩短了约300ms;在复杂声学干扰场景下,Seeduplex将误回复率和误打断率降低了一半。

相比豆包App之前使用的半双工对话框架,Seeduplex的整体交互体验进一步提升,其判停MOS分提高了8%,对话流畅度MOS分提升了12%。

在发布声明中,团队表示Seeduplex将以全双工为起点不断进化,未来将继续提升模型的音频理解能力以及对话节奏多样性和控制能力,在“边听边说”的基础上,引入模型主动能力。也会进一步探索“边听边想”、“边听边搜”等方案,让模型具备更深度的思考和执行能力。此外,也会引入视觉模态以实现更深度的多模态融合。让Seeduplex“在感知、交互与行动的闭环中,真正实现听、看、想、说、做的协同。”

据悉,Seeduplex上线后,豆包语音通话在对话自然度、响应速度和抗干扰表现上都进一步提升,可以边听边讲,交流体验更加自然。

这波升级,引发了用户广泛关注,收获了一片赞美之声。

很多网友认为,Seeduplex的进步让生活更加便利美好。

有网友提到:“一直用豆包通话练习英语,豆包一定要不断越来越强大啊!俺的英语口语就靠你了。”

也有网友建议:“豆包可以出一个带摄像头的智能设备,或者学习辅助设备,对接豆包大模型。我家孩子经常跟豆包视频,说有这样的智能设备,就好了!”

小讯
上一篇 2026-04-11 13:24
下一篇 2026-04-11 13:22

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/256749.html