VoxCPM2 是清華大學 NLP 實驗室與 ModelBest 共同孵化的 OpenBMB 團隊在 2026 年 4 月釋出的開源語音生成模型,20 億參數、支援 30 種語言、48kHz 錄音室級輸出,採 Apache 2.0 授權可自由商用。 在 Minimax-MLS 語音相似度(SIM)基準測試中,VoxCPM2 的英語得分 85.4%,ElevenLabs 為 61.3%;中文 82.5% 對 67.7%;阿拉伯語 79.1% 對 70.6%。這組數字讓一個完全免費、可在本地 GPU 運行的模型,在語音克隆的核心指標上拉開了與月費最高 USD 1,320(約 NTD 42,000)的商業服務之間的距離。
不過,這組數據需要放在正確的脈絡裡看。
基準測試的完整圖像:相似度高,但清晰度有落差
社群瘋傳的 SIM 分數只講了一半故事。同一份 Minimax-MLS 基準還測了 WER(字錯誤率,越低越好),衡量的是語音的可辨識程度。在這個指標上,VoxCPM2 在部分語言的表現明顯落後。
英語和中文的 WER 表現跟 ElevenLabs 接近甚至更好(中文 WER 1.136% 對 16.026%,ElevenLabs 在中文清晰度上反而落後很多)。但阿拉伯語的 WER 13% 對 1.7%、捷克語 24% 對 2.1%,說明在低資源語言上,VoxCPM2 的語音克隆雖然「像」,但聽起來不一定「清楚」。
還有一個關鍵前提:這些數據來自 VoxCPM2 團隊自行在 Minimax-MLS 基準上跑的結果。Minimax-MLS 本身是 MiniMax 團隊設計的測試集。截至目前,尚未有獨立第三方對 VoxCPM2 做過完整的對照驗證。
VoxCPM2 的技術架構:跳過 Token 化的擴散自迴歸模型
多數主流 TTS 模型(包括 ElevenLabs、MiniMax-Speech)會先把連續的語音信號轉成離散 token,再用語言模型預測下一個 token。VoxCPM2 走了不同的路。
它的架構是 LocEnc → TSLM → RALM → LocDiT,直接在連續的潛在空間裡做擴散自迴歸生成,跳過離散化這一步。團隊的論點是:token 化會丟失聲學細節,特別是呼吸節奏、微妙的音高變化和情緒轉折。從 SIM 分數來看,這個設計選擇在語音相似度上確實拿到了回報。
底層基座是 MiniCPM-4,20 億參數,訓練數據超過 200 萬小時的多語種語音。模型以 bfloat16 精度運行,語言模型的 token 速率是 6.25 Hz,最大序列長度 8,192 個 token。內建 AudioVAE V2 超解析度模組,能把 16kHz 的參考音檔直接升頻到 48kHz 輸出,不需要外部後處理工具。
五種使用模式:從文字造聲到極致克隆
VoxCPM2 提供了五種不同精細度的語音生成方式:
聲音設計功能是 VoxCPM2 跟多數競品拉開差距的地方。你可以用純文字描述想要的聲音特徵——「二十多歲的女生,聲音溫柔帶點沙啞」——模型就能從無到有生成匹配的語音,不需要任何參考音檔。
不過,官方文件明確提到:聲音設計和風格控制的結果在不同次生成之間會有變異,建議生成 1 到 3 次來取得滿意的輸出。這對需要穩定產出的商業流程來說是個限制。
硬體門檻與推論效能
RTF(Real-Time Factor)0.13 代表生成 1 秒語音只需 0.13 秒。RTX 4090 上用 Nano-vLLM-VoxCPM 推論引擎可以達到這個速度,支援批次並行請求和 FastAPI HTTP 伺服器部署。
8 GB VRAM 的門檻意味著大多數有獨立顯卡的遊戲筆電都能跑。安裝也簡單:pip install voxcpm。但 CUDA 12.0 的要求排除了較舊的 NVIDIA GPU(大約 2020 年以前的卡),也排除了 AMD 和 Apple Silicon 使用者。
ElevenLabs 的商業護城河還在嗎?
把 VoxCPM2 放到商業語音服務的價格光譜裡看:
單看定價,VoxCPM2 是「免費 vs. 每月最高 USD 1,320」的對比。但商業決策不只看月費。
ElevenLabs 提供的是一個完整的託管服務:API 穩定性保證、客服 SLA、HIPAA/BAA 合規(醫療場景)、SSO 企業登入、多席次工作區。這些東西 VoxCPM2 都沒有。你拿到的是一個開源模型和權重,部署、維運、安全性、合規性全部自己處理。
對個人創作者和小型團隊來說,VoxCPM2 的價值主張很清楚:省下每月 USD 5 到 99 的訂閱費,換取自己管硬體和技術整合。對企業來說,評估的重點會是:內部 GPU 基礎設施成本、ML 工程團隊的維運能力、以及合規需求能不能用開源方案滿足。
開源 TTS 的競爭格局:VoxCPM2 並非唯一選擇
VoxCPM2 不是第一個挑戰商業 TTS 服務的開源模型。目前值得關注的開源替代方案還包括:
從 Minimax-MLS 的完整數據看,Qwen3-TTS 在英語和中文的 WER 上表現最好(英語 0.934%、中文 0.928%),但它只覆蓋有限語言,沒有公開的聲音設計功能。FishAudio S2 在多數語言的 SIM 和 WER 上都跟 VoxCPM2 在同一水平。VoxCPM2 的差異化在於「聲音設計」功能和 30 語言的覆蓋範圍。
倫理與安全風險:語音克隆技術的雙面刃
語音克隆技術越逼真,被拿來做語音詐騙和假冒身份的風險就越高。VoxCPM2 的官方使用條款禁止用於冒充真人、電信詐騙或散播假資訊,並要求所有 AI 生成的語音內容必須明確標示。
但開源模型一旦釋出,技術上無法阻止惡意使用。這跟 Stable Diffusion 釋出後面臨的 deepfake 問題類似——工具本身是中性的,但使用情境需要法規和平台規範來約束。
台灣目前對 AI 生成語音的規範仍在發展中。企業如果要在客服、行銷或內容製作中使用語音克隆技術,建議在內部建立使用政策和標示機制,不要等法規到位才處理。
VoxCPM2 支援哪些語言?
VoxCPM2 支援 30 種語言,包括中文、英語、日語、韓語、法語、德語、西班牙語、阿拉伯語、印地語等,另外還支援 9 種中文方言(四川話、粵語、吳語、東北話、河南話、陝西話、山東話、天津話、閩南話)。使用時不需要標註語言標籤,模型會自動辨識。
VoxCPM2 需要什麼硬體才能跑?
最低約 8 GB VRAM 的 NVIDIA GPU,搭配 CUDA 12.0 以上、Python 3.10 以上、PyTorch 2.5.0 以上。RTX 3060 以上的消費級顯卡基本都能運行。安裝指令是 pip install voxcpm。
VoxCPM2 的聲音設計功能跟語音克隆有什麼不同?
語音克隆需要一段參考音檔,模型根據這段音檔複製說話者的聲音特徵。聲音設計則完全不需要參考音檔,你用文字描述想要的聲音特徵(例如「年輕男性,低沉有磁性,語速偏慢」),模型從零生成一個匹配的新聲音。
Minimax-MLS 基準測試的 SIM 分數可信嗎?
SIM(語音相似度)分數是透過比對合成語音和參考錄音的嵌入向量餘弦相似度計算的。數據目前是 VoxCPM2 團隊自行在 Minimax-MLS 測試集上跑出來的。基準本身由 MiniMax 設計並公開。獨立第三方驗證尚未出現,建議在做商業決策前自行測試。
企業可以直接用 VoxCPM2 做商用產品嗎?
可以。VoxCPM2 採用 Apache 2.0 授權,允許免費商業使用,沒有額外的授權費或使用量限制。但企業需要自行處理 GPU 基礎設施、模型部署維運、以及 AI 生成內容的合規標示。ElevenLabs 等商業服務提供的 SLA、合規認證和技術支援,開源方案裡不包含。
引用來源
- VoxCPM2 — Hugging Face Model Card
- VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation — arXiv 2509.24650
Author Insight
我們團隊在協助客戶建置 AI 語音工作流的過程中,觀察到一個反覆出現的模式:開源模型在基準測試上的數字很漂亮,但實際部署到生產環境後,穩定性和邊界情境的處理能力才是真正的分水嶺。VoxCPM2 的聲音設計功能確實讓人眼睛一亮,但官方自己都建議「生成 1 到 3 次取得滿意結果」,這在需要批次產出的商業場景裡會是個瓶頸。
讓我比較在意的是 WER 數據的落差。英語和中文的表現紮實,但阿拉伯語 13% 的字錯誤率、捷克語 24%,代表在這些語言上生成的語音雖然「聽起來像那個人」,但內容可能會有聽不清楚的段落。對做多語種內容的團隊來說,這是選型時必須測試的盲區。
我的建議是:如果你的使用場景集中在中文和英語,VoxCPM2 值得認真評估,特別是對預算有限但有 GPU 資源的團隊。如果你需要跨十幾種語言的穩定商業級輸出,ElevenLabs 的託管服務目前還是比較安全的選擇。兩者不是非此即彼的關係——不少團隊已經在用開源模型處理內部素材、商業服務處理客戶端產出的混合架構。
想討論 AI 語音技術在你的產品或內容流程裡怎麼落地,歡迎跟 Tenten 團隊預約諮詢。
Erik (EKC), Digital Strategy Director @ Tenten.co
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/261561.html