免费开源！Fun-ASR多语言语音识别模型，快速部署教程来了

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

1.1 为什么选择Fun-ASR

在全球化交流日益频繁的今天，多语言语音识别技术变得越来越重要。Fun-ASR-MLT-Nano-2512作为阿里通义实验室推出的开源语音识别模型，支持31种语言的实时转写，包括中文、英文、日文、韩文等主流语言，甚至还能识别粤语等方言。

这个由社区开发者“by113小贝”二次优化后的版本，修复了原始模型中的关键bug，使得部署和使用更加稳定可靠。最重要的是，它完全免费开源，无论是个人开发者还是企业团队，都能零成本使用这个强大的语音识别工具。

1.2 本教程能帮你做什么

通过这篇教程，你将学会：

如何在Linux系统上快速部署Fun-ASR
如何使用Web界面进行语音识别
如何通过Python API集成到自己的应用中
常见问题的解决方法

即使你是刚接触语音识别的新手，也能在30分钟内完成部署并开始使用。

2.1 系统要求

在开始之前，请确保你的系统满足以下最低要求：

操作系统：Ubuntu 20.04或更高版本
Python版本：3.8或更高
内存：至少8GB
磁盘空间：5GB以上

虽然模型可以在CPU上运行，但如果有NVIDIA GPU（支持CUDA），识别速度会快很多。

2.2 一键安装步骤

打开终端，依次执行以下命令：

# 安装Python依赖 pip install -r requirements.txt

安装音频处理工具

sudo apt-get install -y ffmpeg

进入项目目录

cd /root/Fun-ASR-MLT-Nano-2512

启动Web服务

nohup python app.py > /tmp/funasr_web.log 2>&1 & echo $! > /tmp/funasr_web.pid

等待约1分钟，服务就会启动完成。你可以在浏览器中访问：

http://localhost:7860

看到Web界面就说明部署成功了！

3.1 上传音频文件

Web界面提供了最简单的使用方式：

点击“Upload”按钮，选择你要识别的音频文件（支持MP3、WAV等常见格式）
在下拉菜单中选择音频的语言（如果不确定可以选“自动检测”）
点击“开始识别”按钮
稍等片刻，识别结果就会显示在下方文本框中

3.2 实时录音识别

除了上传文件，你还可以直接录音：

点击“Record”按钮
允许浏览器使用麦克风
开始说话，说完后点击停止
点击“开始识别”获取文字结果

这个功能特别适合需要实时转写的场景，比如会议记录、采访整理等。

4.1 基本调用方法

如果你想在自己的Python程序中使用Fun-ASR，可以这样调用：

from funasr import AutoModel

初始化模型

model = AutoModel(

model=".", # 指向模型所在目录 device="cuda:0" if torch.cuda.is_available() else "cpu"

)

识别音频文件

result = model.generate(

input=["path/to/your/audio.mp3"], language="中文" # 指定语言

)

print(result[0][“text”]) # 打印识别结果

4.2 批量处理音频

Fun-ASR支持批量处理，可以显著提高效率：

# 准备多个音频文件路径 audio_files = [“audio1.mp3”, “audio2.mp3”, “audio3.mp3”]

批量识别

results = model.generate(

input=audio_files, batch_size=3, # 一次处理3个文件 language="自动检测"

)

for res in results:

print(res["text"])

5.1 提高识别准确率

虽然Fun-ASR的准确率已经很高，但你可以通过以下方法进一步提升：

确保音频质量：尽量使用16kHz采样率的清晰录音
明确指定语言：如果知道音频语言，直接指定比“自动检测”更准确
减少背景噪音：在安静环境下录音效果最好
使用标准发音：方言或口音较重时，准确率可能会略有下降

5.2 处理长音频

对于超过1小时的超长音频，建议分段处理：

import librosa

加载长音频

y, sr = librosa.load(“long_audio.mp3”, sr=16000)

分段处理（每段10分钟）

segment_length = 10 * 60 * sr # 10分钟对应的采样点数 segments = [y[i:i+segment_length] for i in range(0, len(y), segment_length)]

for i, seg in enumerate(segments):

# 保存临时文件 temp_file = f"temp_segment_{i}.wav" librosa.output.write_wav(temp_file, seg, sr) # 识别 result = model.generate(input=[temp_file], language="中文") print(f"第{i+1}段结果:", result[0]["text"])

6.1 服务启动失败怎么办

如果访问http://localhost:7860没有响应，可以检查：

查看日志文件：
```
tail -f /tmp/funasr_web.log 
```
常见的错误信息会显示在这里。
检查端口是否被占用：
```
netstat -tulnp | grep 7860 
```
如果7860端口已被其他程序使用，可以在app.py中修改端口号。
确保依赖安装完整：
```
pip list | grep funasr 
```
如果没有输出，说明安装不成功，需要重新安装。

6.2 识别结果不准确

如果遇到识别错误，可以尝试：

检查音频质量，确保没有太多背景噪音
明确指定正确的语言
尝试使用WAV格式而不是MP3
如果问题持续，可以在GitHub上提交issue

7.1 核心优势回顾

Fun-ASR-MLT-Nano-2512作为一款免费开源的多语言语音识别模型，具有以下突出优点：

支持31种语言，覆盖全球主要语种
部署简单，几分钟就能跑起来
提供Web界面和Python API两种使用方式
在普通硬件上就能获得不错的识别速度
社区持续优化，修复了原始版本的关键bug

7.2 下一步学习建议

如果你想更深入地使用Fun-ASR：

尝试将其集成到你的应用中，比如自动字幕生成、语音助手等
学习如何微调模型，适应特定领域的术语
探索更多语音处理技术，如语音合成、声纹识别等

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。