微软重磅开源!22K星的 VibeVoice 再添新成员,60分钟音频 ASR 端到端统一输出!

微软重磅开源!22K星的 VibeVoice 再添新成员,60分钟音频 ASR 端到端统一输出!现在的 ASR 语音转文字 模型 像 OpenAI 的 Whisper 识别率确实已经很顶了 但当你真正把它们用到长达一小时的会议录音 或者七嘴八舌的播客访谈时 你就会发现一个致命的问题 它听得懂字 但听不懂 局 比如一个 1 小时的会议 模型会把它切成 120 个 30 秒的片段 这样做的问题显而易见 但最近 微软出手了 正式开源了 VibeVoice ASR 一个拥有 90

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



现在的 ASR(语音转文字)模型,像 OpenAI 的 Whisper,识别率确实已经很顶了。

但当你真正把它们用到长达一小时的会议录音,或者七嘴八舌的播客访谈时,你就会发现一个致命的问题:它听得懂字,但听不懂“局”。

比如一个 1 小时的会议,模型会把它切成 120 个 30 秒的片段。这样做的问题显而易见:

但最近,微软出手了。正式开源了 VibeVoice-ASR,一个拥有 90 亿参数(9B)的统一语音识别模型。

它最离谱的能力在于:拒绝切片,拒绝拼凑,它能在一个 64K 的超长上下文窗口内,一次性“吞下”整整 60 分钟的音频,并直接吐出完美的结构化结果

它实现了 ASR 领域的“三位一体”:Who(谁说的)+ When(什么时候说的)+ What(说了啥)。

还能自定义热词,提前告诉模型一些专业术语、人名之类的, 识别准确率能大幅提升。

随着 VibeVoice-ASR 的补齐,GitHub 狂揽 22K+ Star 的 VibeVoice 生态终于集齐了 TTS、ASR、RealTime 三大能力。

主要特点
模型架构

它的底层架构非常有意思,实际上是一个多模态的 LLM。而之所以这么强,是因为它有一个强大的“底座”。

它采用 MIT 协议。这意味着你可以免费商用,可以魔改,可以集成到你自己的 SaaS 产品里而不必担心版权大棒。

核心能力

VibeVoice-ASR 的核心还是 Who + When + What 三合一输出

在过去,如果想把一段会议录音变成结构化的纪要,通常需要一条复杂的 Pipeline(流水线):

最后写脚本把这些拼起来。这中间任何一个环节出错,结果就崩了,既慢又容易累积误差。

VibeVoice-ASR 实现了 End-to-End(端到端)的统一输出。

[00:15 - 00:20] : 今天的会议主要讨论 Q3 财报。 [00:21 - 00:25] : 好的,我已经把数据准备好了。

一次推理,搞定三件事:

这样直接省去了繁琐的后处理步骤。

快速入手

源码下载:

用法也及其简单,启动 Gradio 演示:

或者直接用脚本文件+参数直接推断:

典型应用场景
写在最后

VibeVoice-ASR 并不是一个孤立模型,而是正式补齐了微软 VibeVoice 体系的一个重要拼图。

这下 VibeVoice 体系,终于齐活了,实现了从“听”到“说”,从“离线”到“实时”的完整语音能力闭环。

对于一直苦于 Whisper 限制的开发者来说,这绝对是一个值得立刻尝试的替代方案。

开源地址:

模型:https://huggingface.co/microsoft/VibeVoice-ASR GitHub:https://github.com/microsoft/VibeVoice

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️

在看你就赞赞我!

小讯
上一篇 2026-03-18 15:03
下一篇 2026-03-18 15:01

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/242759.html