在本地搭建 Whisper 语音转写环境比较简单,以下是详细步骤,适用于 Windows、macOS 和 Linux 系统,其中windows系统亲测可用:
一、基础环境准备
- 安装 Python
确保安装 Python 3.8+:
- 下载地址:python.org/downloads
- 安装时勾选 "Add Python to PATH"(关键步骤)
- 验证 Python 安装
打开命令行(CMD/PowerShell/ 终端),输入:python --version # 或 python3 --version(macOS/Linux),显示版本号即表示安装成功。
二、安装 Whisper
# 国内镜像加速(可选)
pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple
- 安装核心库
命令行输入以下命令(国内用户可加镜像加速):
# 基础安装(默认包含轻量模型支持) pip install openai-whisper
- 安装音频处理依赖
Whisper 需要额外工具处理音频格式:Windows:下载并安装 FFmpeg,将 ffmpeg.exe 所在目录添加到系统环境变量 PATH。
三、下载 Whisper 模型(可选)
Whisper 会自动下载所需模型,也可提前手动下载(推荐大型模型 large-v3 以获得**效果):
# 安装时指定模型(自动下载) pip install "openai-whisper[large-v3]"
模型会保存在以下路径(可手动替换或管理):
- Windows:
C:Users你的用户名.cachewhisper
- macOS/Linux:
~/.cache/whisper/
四、基本使用方法
1. 命令行直接转写
# 转写音频文件(支持 WAV/MP3/MP4 等格式)
whisper 你的音频文件路径.wav --model large-v3 --language Chinese
# 示例(替换为你的文件路径)
whisper D:Net_Program estwhisper-test.wav --model large-v3 --language Chinese
2. 关键参数说明
--model:指定模型(tiny/base/small/medium/large-v3,越大精度越高,需求资源越多)
--language Chinese:指定语言为中文(避免自动检测错误)
--output_dir 输出目录:指定结果保存路径
--format txt:输出格式(支持 txt/srt/vtt 等)
五、Python 脚本调用(进阶)
if name == “main”:
# 安装繁转简依赖(首次运行需要)
try:
import zhconv
except ImportError:
print(“正在安装繁转简依赖…”)
subprocess.run([“pip”, “install”, “zhconv”], check=True)
import zhconv
六、常见问题解决
- 内存不足
- 若提示
OutOfMemoryError,换用更小的模型(如medium或small) - 关闭其他占用内存的程序(
large-v3建议至少 16GB 内存)
- 若提示
- 音频格式错误
- 用 FFmpeg 转换格式:
ffmpeg -i 输入文件.mp3 -ar 16000 -ac 1 输出文件.wav(转为 16kHz 单声道 WAV)
- 用 FFmpeg 转换格式:
- 模型下载慢
- 手动下载模型文件(可在 Hugging Face 找到),放入
.cache/whisper/目录
- 手动下载模型文件(可在 Hugging Face 找到),放入
通过以上步骤,你可以在本地搭建一个稳定的 Whisper 转写环境,无需依赖 Ollama,直接调用模型进行语音转写。如果追求更高精度,优先使用 large-v3 模型;若注重速度或资源有限,可选择 small 或 base 模型。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/252115.html