会 "接话" 的 AI 来了!
它就是推出的开源全双工语音模型:
NVIDIA 称它是首个支持文本角色提示和音频声音调节的实时全双工语音对话模型!
(字节推出了国内版本的Seeduplex全量上线豆包应用,中美竞争真是你追我赶!但字节的是闭源,不开源)
PersonaPlex 最革命性的突破,就是实现了真正的。
传统语音助手只能你说一句,我等一句,必须等你说完才能回应,完全不符合人类对话的自然习惯。
而 PersonaPlex 可以同时听和说,支持人类对话的所有动态:附和、打断、重叠、自然停顿。
说人话就是之前的AI聊天类似对讲机,现在可以完全像真人一样,在适当的时候附和你,就像和真人聊天一样自然流畅!
我试用了感受了一下效果,真的十分惊艳!
这以后诈骗用上了,老人可能很难分辨真假了….
PersonaPlex 基于 NVIDIA 自研的 Moshi 架构和权重,通过合成和真实对话数据混合训练,能产生低延迟、自然的口语交互,同时保持一致的角色特征。
三层架构,RTX 显卡就能本地部署
PersonaPlex 基于 Moshi 架构,采用高效的深度学习设计,让强大的全双工对话能力在普通硬件上也能流畅运行。
它的核心架构分为三层:
- 语音输入层:实时捕获音频,支持噪声抑制和语音活动检测,精准判断何时倾听、何时回应
- 对话理解与生成层:基于 的强大理解能力,结合角色提示,生成符合语境和身份的回应,同时保持对话流畅性
- 语音输出层:低延迟合成自然语音,支持实时调整语速、语调,与输入音频无缝衔接,实现真正的全双工体验
最令人惊喜的是,PersonaPlex 对硬件要求并不高
(必须使用NVIDIA GPU(支持 CUDA),AMD 或 Intel 显卡不兼容)
https://github.com/NVIDIA/personaplex
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/254741.html