2026年VoxCPM2 開源語音模型實測：清華團隊 20 億參數 TTS 在相似度基準上大幅領先 ElevenLabs

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 VoxCPM2 是清華大學 NLP 實驗室與 ModelBest 共同孵化的 OpenBMB 團隊在 2026 年 4 月釋出的開源語音生成模型，20 億參數、支援 30 種語言、48kHz 錄音室級輸出，採 Apache 2.0 授權可自由商用。 在 Minimax-MLS 語音相似度（SIM）基準測試中，VoxCPM2 的英語得分 85.4%，ElevenLabs 為 61.3%；中文 82.5% 對 67.7%；阿拉伯語 79.1% 對 70.6%。這組數字讓一個完全免費、可在本地 GPU 運行的模型，在語音克隆的核心指標上拉開了與月費最高 USD 1,320（約 NTD 42,000）的商業服務之間的距離。
不過，這組數據需要放在正確的脈絡裡看。
基準測試的完整圖像：相似度高，但清晰度有落差
社群瘋傳的 SIM 分數只講了一半故事。同一份 Minimax-MLS 基準還測了 WER（字錯誤率，越低越好），衡量的是語音的可辨識程度。在這個指標上，VoxCPM2 在部分語言的表現明顯落後。

語言 VoxCPM2 SIM ElevenLabs SIM VoxCPM2 WER ElevenLabs WER 英語 85.4% 61.3% 2.289% 2.339% 中文 82.5% 67.7% 1.136% 16.026% 阿拉伯語 79.1% 70.6% 13.046% 1.666% 捷克語 78.3% 68.5% 24.132% 2.108% 德語 80.3% 61.4% 0.679% 0.572% 法語 73.5% 53.5% 4.534% 5.216%

英語和中文的 WER 表現跟 ElevenLabs 接近甚至更好（中文 WER 1.136% 對 16.026%，ElevenLabs 在中文清晰度上反而落後很多）。但阿拉伯語的 WER 13% 對 1.7%、捷克語 24% 對 2.1%，說明在低資源語言上，VoxCPM2 的語音克隆雖然「像」，但聽起來不一定「清楚」。

還有一個關鍵前提：這些數據來自 VoxCPM2 團隊自行在 Minimax-MLS 基準上跑的結果。Minimax-MLS 本身是 MiniMax 團隊設計的測試集。截至目前，尚未有獨立第三方對 VoxCPM2 做過完整的對照驗證。

VoxCPM2 的技術架構：跳過 Token 化的擴散自迴歸模型

多數主流 TTS 模型（包括 ElevenLabs、MiniMax-Speech）會先把連續的語音信號轉成離散 token，再用語言模型預測下一個 token。VoxCPM2 走了不同的路。

它的架構是 LocEnc → TSLM → RALM → LocDiT，直接在連續的潛在空間裡做擴散自迴歸生成，跳過離散化這一步。團隊的論點是：token 化會丟失聲學細節，特別是呼吸節奏、微妙的音高變化和情緒轉折。從 SIM 分數來看，這個設計選擇在語音相似度上確實拿到了回報。

底層基座是 MiniCPM-4，20 億參數，訓練數據超過 200 萬小時的多語種語音。模型以 bfloat16 精度運行，語言模型的 token 速率是 6.25 Hz，最大序列長度 8,192 個 token。內建 AudioVAE V2 超解析度模組，能把 16kHz 的參考音檔直接升頻到 48kHz 輸出，不需要外部後處理工具。

五種使用模式：從文字造聲到極致克隆

VoxCPM2 提供了五種不同精細度的語音生成方式：

模式輸入需求適用場景純文字合成文字基本的多語種 TTS 聲音設計（Voice Design）文字描述（性別、年齡、音色、情緒）從零創造全新聲音，不需參考音檔可控克隆短音檔 + 風格指令克隆聲音後調整情緒和語速極致克隆音檔 + 對應逐字稿最高保真度的聲音複製 LoRA 微調 5-10 分鐘音檔建立專屬聲音模型

聲音設計功能是 VoxCPM2 跟多數競品拉開差距的地方。你可以用純文字描述想要的聲音特徵——「二十多歲的女生，聲音溫柔帶點沙啞」——模型就能從無到有生成匹配的語音，不需要任何參考音檔。

不過，官方文件明確提到：聲音設計和風格控制的結果在不同次生成之間會有變異，建議生成 1 到 3 次來取得滿意的輸出。這對需要穩定產出的商業流程來說是個限制。

硬體門檻與推論效能

項目規格最低 VRAM 約 8 GB 推薦 GPU NVIDIA RTX 4090 標準 PyTorch RTF ~0.3（即時播放的 0.3 倍時間） Nano-vLLM 優化 RTF ~0.13（比即時播放快約 7.7 倍） Python 版本 ≥ 3.10（< 3.13） PyTorch 版本 ≥ 2.5.0 CUDA 版本 ≥ 12.0

RTF（Real-Time Factor）0.13 代表生成 1 秒語音只需 0.13 秒。RTX 4090 上用 Nano-vLLM-VoxCPM 推論引擎可以達到這個速度，支援批次並行請求和 FastAPI HTTP 伺服器部署。

8 GB VRAM 的門檻意味著大多數有獨立顯卡的遊戲筆電都能跑。安裝也簡單：pip install voxcpm。但 CUDA 12.0 的要求排除了較舊的 NVIDIA GPU（大約 2020 年以前的卡），也排除了 AMD 和 Apple Silicon 使用者。

ElevenLabs 的商業護城河還在嗎？

把 VoxCPM2 放到商業語音服務的價格光譜裡看：

方案月費特點 ElevenLabs Free USD 0 10,000 credits/月（約 10 分鐘），不可商用 ElevenLabs Starter USD 5 30,000 credits/月，可商用，即時語音克隆 ElevenLabs Creator USD 22 100,000 credits/月，專業語音克隆 ElevenLabs Pro USD 99 500,000 credits/月，44.1kHz API 輸出 ElevenLabs Business USD 1,320 數百萬 credits/月，多席次協作 VoxCPM2 USD 0 無限生成，本地運行，Apache 2.0 商用授權

單看定價，VoxCPM2 是「免費 vs. 每月最高 USD 1,320」的對比。但商業決策不只看月費。

ElevenLabs 提供的是一個完整的託管服務：API 穩定性保證、客服 SLA、HIPAA/BAA 合規（醫療場景）、SSO 企業登入、多席次工作區。這些東西 VoxCPM2 都沒有。你拿到的是一個開源模型和權重，部署、維運、安全性、合規性全部自己處理。

對個人創作者和小型團隊來說，VoxCPM2 的價值主張很清楚：省下每月 USD 5 到 99 的訂閱費，換取自己管硬體和技術整合。對企業來說，評估的重點會是：內部 GPU 基礎設施成本、ML 工程團隊的維運能力、以及合規需求能不能用開源方案滿足。

開源 TTS 的競爭格局：VoxCPM2 並非唯一選擇

VoxCPM2 不是第一個挑戰商業 TTS 服務的開源模型。目前值得關注的開源替代方案還包括：

模型團隊特點 VoxCPM2 OpenBMB / 清華 20 億參數，聲音設計 + 克隆，30 語言 Qwen3-TTS 阿里巴巴部分語言 WER 更低（英語 0.934%） FishAudio S2 Fish Audio 部分語言 SIM 與 VoxCPM2 接近 CosyVoice2 阿里巴巴中文自然度評分較高

從 Minimax-MLS 的完整數據看，Qwen3-TTS 在英語和中文的 WER 上表現最好（英語 0.934%、中文 0.928%），但它只覆蓋有限語言，沒有公開的聲音設計功能。FishAudio S2 在多數語言的 SIM 和 WER 上都跟 VoxCPM2 在同一水平。VoxCPM2 的差異化在於「聲音設計」功能和 30 語言的覆蓋範圍。

倫理與安全風險：語音克隆技術的雙面刃

語音克隆技術越逼真，被拿來做語音詐騙和假冒身份的風險就越高。VoxCPM2 的官方使用條款禁止用於冒充真人、電信詐騙或散播假資訊，並要求所有 AI 生成的語音內容必須明確標示。

但開源模型一旦釋出，技術上無法阻止惡意使用。這跟 Stable Diffusion 釋出後面臨的 deepfake 問題類似——工具本身是中性的，但使用情境需要法規和平台規範來約束。

台灣目前對 AI 生成語音的規範仍在發展中。企業如果要在客服、行銷或內容製作中使用語音克隆技術，建議在內部建立使用政策和標示機制，不要等法規到位才處理。

VoxCPM2 支援哪些語言？

VoxCPM2 支援 30 種語言，包括中文、英語、日語、韓語、法語、德語、西班牙語、阿拉伯語、印地語等，另外還支援 9 種中文方言（四川話、粵語、吳語、東北話、河南話、陝西話、山東話、天津話、閩南話）。使用時不需要標註語言標籤，模型會自動辨識。

VoxCPM2 需要什麼硬體才能跑？

最低約 8 GB VRAM 的 NVIDIA GPU，搭配 CUDA 12.0 以上、Python 3.10 以上、PyTorch 2.5.0 以上。RTX 3060 以上的消費級顯卡基本都能運行。安裝指令是 pip install voxcpm。

VoxCPM2 的聲音設計功能跟語音克隆有什麼不同？

語音克隆需要一段參考音檔，模型根據這段音檔複製說話者的聲音特徵。聲音設計則完全不需要參考音檔，你用文字描述想要的聲音特徵（例如「年輕男性，低沉有磁性，語速偏慢」），模型從零生成一個匹配的新聲音。

Minimax-MLS 基準測試的 SIM 分數可信嗎？

SIM（語音相似度）分數是透過比對合成語音和參考錄音的嵌入向量餘弦相似度計算的。數據目前是 VoxCPM2 團隊自行在 Minimax-MLS 測試集上跑出來的。基準本身由 MiniMax 設計並公開。獨立第三方驗證尚未出現，建議在做商業決策前自行測試。

企業可以直接用 VoxCPM2 做商用產品嗎？

可以。VoxCPM2 採用 Apache 2.0 授權，允許免費商業使用，沒有額外的授權費或使用量限制。但企業需要自行處理 GPU 基礎設施、模型部署維運、以及 AI 生成內容的合規標示。ElevenLabs 等商業服務提供的 SLA、合規認證和技術支援，開源方案裡不包含。

引用來源

VoxCPM2 — Hugging Face Model Card
VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation — arXiv 2509.24650

Author Insight

我們團隊在協助客戶建置 AI 語音工作流的過程中，觀察到一個反覆出現的模式：開源模型在基準測試上的數字很漂亮，但實際部署到生產環境後，穩定性和邊界情境的處理能力才是真正的分水嶺。VoxCPM2 的聲音設計功能確實讓人眼睛一亮，但官方自己都建議「生成 1 到 3 次取得滿意結果」，這在需要批次產出的商業場景裡會是個瓶頸。

讓我比較在意的是 WER 數據的落差。英語和中文的表現紮實，但阿拉伯語 13% 的字錯誤率、捷克語 24%，代表在這些語言上生成的語音雖然「聽起來像那個人」，但內容可能會有聽不清楚的段落。對做多語種內容的團隊來說，這是選型時必須測試的盲區。

我的建議是：如果你的使用場景集中在中文和英語，VoxCPM2 值得認真評估，特別是對預算有限但有 GPU 資源的團隊。如果你需要跨十幾種語言的穩定商業級輸出，ElevenLabs 的託管服務目前還是比較安全的選擇。兩者不是非此即彼的關係——不少團隊已經在用開源模型處理內部素材、商業服務處理客戶端產出的混合架構。

想討論 AI 語音技術在你的產品或內容流程裡怎麼落地，歡迎跟 Tenten 團隊預約諮詢。

Erik (EKC), Digital Strategy Director @ Tenten.co