微软重磅开源！22K星的 VibeVoice 再添新成员，60分钟音频 ASR 端到端统一输出！

科技前沿 • 2026-03-18 15:02 • 阅读 0

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

现在的 ASR（语音转文字）模型，像 OpenAI 的 Whisper，识别率确实已经很顶了。

但当你真正把它们用到长达一小时的会议录音，或者七嘴八舌的播客访谈时，你就会发现一个致命的问题：它听得懂字，但听不懂“局”。

比如一个 1 小时的会议，模型会把它切成 120 个 30 秒的片段。这样做的问题显而易见：

但最近，微软出手了。正式开源了 VibeVoice-ASR，一个拥有 90 亿参数（9B）的统一语音识别模型。

它最离谱的能力在于：拒绝切片，拒绝拼凑，它能在一个 64K 的超长上下文窗口内，一次性“吞下”整整 60 分钟的音频，并直接吐出完美的结构化结果。

它实现了 ASR 领域的“三位一体”：Who（谁说的）+ When（什么时候说的）+ What（说了啥）。

还能自定义热词，提前告诉模型一些专业术语、人名之类的, 识别准确率能大幅提升。

随着 VibeVoice-ASR 的补齐，GitHub 狂揽 22K+ Star 的 VibeVoice 生态终于集齐了 TTS、ASR、RealTime 三大能力。

它的底层架构非常有意思，实际上是一个多模态的 LLM。而之所以这么强，是因为它有一个强大的“底座”。

它采用 MIT 协议。这意味着你可以免费商用，可以魔改，可以集成到你自己的 SaaS 产品里而不必担心版权大棒。

VibeVoice-ASR 的核心还是 Who + When + What 三合一输出。

在过去，如果想把一段会议录音变成结构化的纪要，通常需要一条复杂的 Pipeline（流水线）：

最后写脚本把这些拼起来。这中间任何一个环节出错，结果就崩了，既慢又容易累积误差。

VibeVoice-ASR 实现了 End-to-End（端到端）的统一输出。

[00:15 - 00:20] : 今天的会议主要讨论 Q3 财报。 [00:21 - 00:25] : 好的，我已经把数据准备好了。

一次推理，搞定三件事：

这样直接省去了繁琐的后处理步骤。

源码下载：

用法也及其简单，启动 Gradio 演示:

或者直接用脚本文件+参数直接推断：

VibeVoice-ASR 并不是一个孤立模型，而是正式补齐了微软 VibeVoice 体系的一个重要拼图。

这下 VibeVoice 体系，终于齐活了，实现了从“听”到“说”，从“离线”到“实时”的完整语音能力闭环。

对于一直苦于 Whisper 限制的开发者来说，这绝对是一个值得立刻尝试的替代方案。

开源地址：

模型：https://huggingface.co/microsoft/VibeVoice-ASR GitHub：https://github.com/microsoft/VibeVoice

如果本文对您有帮助，也请帮忙点个赞👍 + 在看哈！❤️

在看你就赞赞我！