找一个免费、开源、支持方言和多语种的语音合成模型并不容易。市面上的闭源平台按字符收费,开源方案又往往在音质和表现力上打折扣。
VoxCPM 2 是面壁智能联合OpenBMB开源社区、清华大学人机语音交互实验室推出的2B参数语音模型。它走了一条不同于主流Token-based方案的路线,采用扩散自回归连续表征技术,在保留声音的声学细节和情感特征上做得更好。
最重要的是,它完全开源免费,支持商用。
用一个类比来理解:如果说传统的语音合成方案是先把油画拍成马赛克照片再试图还原,那VoxCPM 2是在连续的颜色空间里直接作画,跳过了"马赛克"这一步。这使得它在地道方言、声音克隆和情绪表达上的效果明显更好。
语言与方言覆盖
- 30种全球主流语言,特别强化了东南亚八国语言(泰语、越南语、印尼语、马来语、菲律宾语等)
- 9种中国方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语
声音克隆
- 上传5-20秒参考音频即可克隆声音
- 支持参考音频降噪(勾选即可去除背景杂音)
- 克隆相似度达到业界领先水平
音色设计
- 无需上传任何参考音频,通过文字描述从零创造声音
- 可以精确控制情绪、语速、音量等参数
- 支持同一文本生成不同情绪的版本
高音质
- 48000Hz CD级音质(市面普遍为24000Hz)
- 生成速度约1秒
语音标签控制
- 支持在文本中插入
[laughing](笑声)、[sigh](叹气)、[Uhm](嗯)等标签控制停顿效果
访问 https://voxcpm.modelbest.cn/ ,进入在线体验界面。
在左上角上传一段参考音频,建议20秒左右。不上传也可以使用音色设计功能。
在"Control Instruction"中填写方言或语言指令,例如"东北话"、"粤语"、"Thai"等。还可以添加情绪和语速描述。
将需要合成的台词文本填入文本框。
点击"Generate Speech"按钮,不到1秒即可生成音频。
提示: 生成面板还有几个关键参数:Text Normalization(文本规范化,处理日期和数字等AI读不准的内容)、CFG Value(控制AI的听话程度,数值越高越遵循指令)、LocDiT Steps(步数越高音质越好但速度越慢)。
VoxCPM 2 提供了全家桶级的工具链:
- 推理:原生Torch推理、LoRA微调、全参数微调都支持
- 高吞吐:VoxCPM-NanoVLLM 用于GPU推理加速
- UI插件:ComfyUI、WebUI插件一应俱全
- Rust版本:为性能要求高的场景准备了Rust重构版
GitHub 地址:https://github.com/OpenBMB/VoxCPM/
HuggingFace 地址:https://huggingface.openbmb.com/model/openbmb/VoxCPM2
方言场景:四川话、东北话、粤语的语气词和顿挫感都还原得很到位,不再是"标准普通话带口音"的效果。
音色设计:通过文字描述就能创造出从未存在的声音,比如"清澈男中音,偏冷调,像月光落在雪地上"这种描述也能生成出贴合的声音。
多语种:特别是东南亚语言的效果,海外用户反馈"自家语言的效果很不错"。
- 内容创作:短视频配音、有声书、播客生成
- 跨境电商:东南亚出海团队的本地化配音,成本只有闭源平台的零头
- 游戏与影视:角色配音、动画旁白
- 文化内容:方言保护、地方特色内容创作
闭源平台ElevenLabs的Pro套餐每月99美元,仅含50万字符额度。VoxCPM 2完全开源免费,部署成本大约是一张4090显卡的几度电费。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/254487.html