2026年语音识别(实时语音转录)——funasr的详细部署和使用教程(包括实时语音转录)

语音识别(实时语音转录)——funasr的详细部署和使用教程(包括实时语音转录)阿里达摩院开源大型端到端语音识别工具包 FunASR FunASR 提供了在大规模工业语料库上训练的模型 并能够将其部署到应用程序中 工具包的核心模型是 Paraformer 这是一个非自回归的端到端语音识别模型 经过手动注释的普通话语音识别数据集进行了训练 该数据集包含 60 000 小时的语音数据 为了提高 Paraformer 的性能

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



阿里达摩院开源大型端到端语音识别工具包FunASR:

FunASR提供了在大规模工业语料库上训练的模型,并能够将其部署到应用程序中。工具包的核心模型是Paraformer,这是一个非自回归的端到端语音识别模型,经过手动注释的普通话语音识别数据集进行了训练,该数据集包含60,000小时的语音数据。为了提高Paraformer的性能,本文在标准的Paraformer基础上增加了时间戳预测和热词定制能力。此外,为了便于模型部署,本文还开源了基于前馈时序记忆网络FSMN-VAD的语音活动检测模型和基于可控时延Transformer(CT-Transformer)的文本后处理标点模型,这两个模型都是在工业语料库上训练的。这些功能模块为构建高精度的长音频语音识别服务提供了坚实的基础,与在公开数据集上训练的其它模型相比,Paraformer展现出了更卓越的性能。 FunASR 的中文语音转写效果比 Whisper 更优秀。

https://github.com/modelscope/FunASR

 
  

需要下载模型

GPT plus 代充 只需 145

英文识别: 

中文识别: 

 
  

funasr_samplessamplespython

GPT plus 代充 只需 145

运行服务器端:

 运行客户端:即可使用麦克风,进行实时转录。

 
  

小讯
上一篇 2026-03-14 23:26
下一篇 2026-03-14 23:24

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/234728.html