2026年VoxCPM 2：开源2B语音模型，30种语言9种方言

科技前沿 • 2026-04-10 07:30 • 阅读 1

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

找一个免费、开源、支持方言和多语种的语音合成模型并不容易。市面上的闭源平台按字符收费，开源方案又往往在音质和表现力上打折扣。

VoxCPM 2 是面壁智能联合OpenBMB开源社区、清华大学人机语音交互实验室推出的2B参数语音模型。它走了一条不同于主流Token-based方案的路线，采用扩散自回归连续表征技术，在保留声音的声学细节和情感特征上做得更好。

最重要的是，它完全开源免费，支持商用。

用一个类比来理解：如果说传统的语音合成方案是先把油画拍成马赛克照片再试图还原，那VoxCPM 2是在连续的颜色空间里直接作画，跳过了"马赛克"这一步。这使得它在地道方言、声音克隆和情绪表达上的效果明显更好。

语言与方言覆盖

声音克隆

音色设计

高音质

语音标签控制

访问 https://voxcpm.modelbest.cn/ ，进入在线体验界面。

在左上角上传一段参考音频，建议20秒左右。不上传也可以使用音色设计功能。

在"Control Instruction"中填写方言或语言指令，例如"东北话"、"粤语"、"Thai"等。还可以添加情绪和语速描述。

将需要合成的台词文本填入文本框。

点击"Generate Speech"按钮，不到1秒即可生成音频。

提示: 生成面板还有几个关键参数：Text Normalization（文本规范化，处理日期和数字等AI读不准的内容）、CFG Value（控制AI的听话程度，数值越高越遵循指令）、LocDiT Steps（步数越高音质越好但速度越慢）。

VoxCPM 2 提供了全家桶级的工具链：

GitHub 地址：https://github.com/OpenBMB/VoxCPM/

HuggingFace 地址：https://huggingface.openbmb.com/model/openbmb/VoxCPM2

方言场景：四川话、东北话、粤语的语气词和顿挫感都还原得很到位，不再是"标准普通话带口音"的效果。

音色设计：通过文字描述就能创造出从未存在的声音，比如"清澈男中音，偏冷调，像月光落在雪地上"这种描述也能生成出贴合的声音。

多语种：特别是东南亚语言的效果，海外用户反馈"自家语言的效果很不错"。

闭源平台ElevenLabs的Pro套餐每月99美元，仅含50万字符额度。VoxCPM 2完全开源免费，部署成本大约是一张4090显卡的几度电费。