现在的 ASR(语音转文字)模型,像 OpenAI 的 Whisper,识别率确实已经很顶了。
但当你真正把它们用到长达一小时的会议录音,或者七嘴八舌的播客访谈时,你就会发现一个致命的问题:它听得懂字,但听不懂“局”。
比如一个 1 小时的会议,模型会把它切成 120 个 30 秒的片段。这样做的问题显而易见:
但最近,微软出手了。正式开源了 VibeVoice-ASR,一个拥有 90 亿参数(9B)的统一语音识别模型。
它最离谱的能力在于:拒绝切片,拒绝拼凑,它能在一个 64K 的超长上下文窗口内,一次性“吞下”整整 60 分钟的音频,并直接吐出完美的结构化结果。
它实现了 ASR 领域的“三位一体”:Who(谁说的)+ When(什么时候说的)+ What(说了啥)。
还能自定义热词,提前告诉模型一些专业术语、人名之类的, 识别准确率能大幅提升。
随着 VibeVoice-ASR 的补齐,GitHub 狂揽 22K+ Star 的 VibeVoice 生态终于集齐了 TTS、ASR、RealTime 三大能力。
主要特点
模型架构
它的底层架构非常有意思,实际上是一个多模态的 LLM。而之所以这么强,是因为它有一个强大的“底座”。
它采用 MIT 协议。这意味着你可以免费商用,可以魔改,可以集成到你自己的 SaaS 产品里而不必担心版权大棒。
核心能力
VibeVoice-ASR 的核心还是 Who + When + What 三合一输出。
在过去,如果想把一段会议录音变成结构化的纪要,通常需要一条复杂的 Pipeline(流水线):
最后写脚本把这些拼起来。这中间任何一个环节出错,结果就崩了,既慢又容易累积误差。
VibeVoice-ASR 实现了 End-to-End(端到端)的统一输出。
[00:15 - 00:20] : 今天的会议主要讨论 Q3 财报。 [00:21 - 00:25] : 好的,我已经把数据准备好了。
一次推理,搞定三件事:
这样直接省去了繁琐的后处理步骤。
快速入手
源码下载:
用法也及其简单,启动 Gradio 演示:
或者直接用脚本文件+参数直接推断:
典型应用场景
写在最后
VibeVoice-ASR 并不是一个孤立模型,而是正式补齐了微软 VibeVoice 体系的一个重要拼图。
这下 VibeVoice 体系,终于齐活了,实现了从“听”到“说”,从“离线”到“实时”的完整语音能力闭环。
对于一直苦于 Whisper 限制的开发者来说,这绝对是一个值得立刻尝试的替代方案。
开源地址:
模型:https://huggingface.co/microsoft/VibeVoice-ASR GitHub:https://github.com/microsoft/VibeVoice
如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️
在看你就赞赞我!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/242759.html