小马的 AI 工具集 给 Agent 学习

语音克隆

无 tokenizer 的开源 TTS 模型,支持 30 语言、声音设计与语音克隆

语音克隆
类型 29,633 星标 更新 2026-06-10 许可 Apache-2.0 原仓库 主页

VoxCPM2: 无需分词器的多语音生成、创意声音设计与逼真人声克隆TTS系统

English | 中文

Project Page Live Playground Documentation Hugging Face ModelScope DemoPage VoxCPM2 Technical Report

VoxCPM Logo

OpenBMB%2FVoxCPM | Trendshift

👋 加入社区,讨论与支持!
飞书  |  Discord

VoxCPM 是一种无需分词器的文本转语音系统,通过端到端扩散自回归架构直接生成连续语音表示,绕过离散分词,实现高度自然且富有表现力的合成。

VoxCPM2 是最新主要版本——一个在超过200万小时多语言语音数据上训练的 2B 参数模型,现支持30种语言声音设计可控语音克隆48kHz 录音室品质音频输出。基于 MiniCPM-4 骨干网络构建。

✨ 亮点

  • 🌍 30种语言多语言支持 — 直接输入任意30种支持语言的文本即可合成,无需语言标签
  • 🎨 声音设计 — 仅凭自然语言描述即可创建全新声音(性别、年龄、音调、情感、语速……),无需参考音频
  • 🎛️ 可控克隆 — 从短参考片段克隆任意声音,并可选择风格引导来控制情感、语速和表现力,同时保留原始音色
  • 🎙️ 终极克隆 — 复现每一个声音细节:提供参考音频及其文本,模型从参考处无缝继续,忠实保留所有声音细节——音色、节奏、情感和风格(与 VoxCPM1.5 相同)
  • 🔊 48kHz 高品质音频 — 接受16kHz参考音频,通过 AudioVAE V2 的非对称编码/解码设计直接输出48kHz录音室品质音频,内置超分辨率——无需外部升采样器
  • 🧠 上下文感知合成 — 自动从文本内容推断合适的韵律和表现力
  • 实时流式合成 — 在 NVIDIA RTX 4090 上 RTF 低至约0.3,经 Nano-vLLMvLLM-Omni 加速后约0.13——官方为 VoxCPM2 提供的 vLLM 全模态服务,支持 PagedAttention 和兼容 OpenAI 的 API
  • 📜 完全开源 & 商业可用 — 权重和代码以 Apache-2.0 许可证发布,可免费商用

🌍 支持的语言(30种)
阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语

中文方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话

新闻

  • [2026.04] 🔥 我们发布 VoxCPM2 — 2B参数,30种语言,声音设计与可控语音克隆,48kHz音频输出!权重 | 文档 | 演示 | 技术报告
  • [2025.12] 🎉 开源 VoxCPM1.5 权重 ,支持SFT与LoRA微调。(🏆 GitHub 趋势榜 #1
  • [2025.09] 🔥 发布 VoxCPM 技术报告
  • [2025.09] 🎉 开源 VoxCPM-0.5B 权重🏆 HuggingFace 趋势榜 #1

目录


🚀 快速开始

安装

pip install voxcpm

要求: Python ≥ 3.10 (<3.13),PyTorch ≥ 2.5.0,CUDA ≥ 12.0。详见 快速开始文档

Python API

🗣️ 文本转语音

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained(
  "openbmb/VoxCPM2",
  load_denoiser=False,
)

wav = model.generate(
    text="VoxCPM2 是当前推荐用于逼真多语言语音合成的版本。",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)
print("已保存:demo.wav")

如果你更喜欢先从 ModelScope 下载,可以使用:

pip install modelscope
from modelscope import snapshot_download
snapshot_download("OpenBMB/VoxCPM2", local_dir='./pretrained_models/VoxCPM2') # 指定本地目录保存模型

from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained("./pretrained_models/VoxCPM2", load_denoiser=False)

wav = model.generate(
    text="VoxCPM2 是当前推荐用于逼真多语言语音合成的版本。",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)

🎨 语音设计

通过自然语言描述创建语音,无需参考音频。格式: 将描述放在 text 开头的括号内(例如 "(your voice description)The text to synthesize."):

wav = model.generate(
    text="(A young woman, gentle and sweet voice)Hello, welcome to VoxCPM2!",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("voice_design.wav", wav, model.tts_model.sample_rate)

🎛️ 可控语音克隆

上传参考音频。模型会克隆音色,同时你仍可使用控制指令调整语速、情感或风格。

wav = model.generate(
    text="This is a cloned voice generated by VoxCPM2.",
    reference_wav_path="path/to/voice.wav",
)
sf.write("clone.wav", wav, model.tts_model.sample_rate)

wav = model.generate(
    text="(slightly faster, cheerful tone)This is a cloned voice with style control.",
    reference_wav_path="path/to/voice.wav",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("controllable_clone.wav", wav, model.tts_model.sample_rate)

🎙️ 极致克隆

同时提供参考音频及其精确转录文本,基于音频续接的克隆能重现每一个发音细节。为获得最大克隆相似度,将同一个参考音频同时传入 reference_wav_pathprompt_wav_path,如下所示:

wav = model.generate(
    text="This is an ultimate cloning demonstration using VoxCPM2.",
    prompt_wav_path="path/to/voice.wav",
    prompt_text="The transcript of the reference audio.",
    reference_wav_path="path/to/voice.wav", # optional, for better simliarity 
)
sf.write("hifi_clone.wav", wav, model.tts_model.sample_rate)

🔄 流式 API

import numpy as np

chunks = []
for chunk in model.generate_streaming(
    text="Streaming text to speech is easy with VoxCPM!",
):
    chunks.append(chunk)
wav = np.concatenate(chunks)
sf.write("streaming.wav", wav, model.tts_model.sample_rate)

CLI 使用

# Voice design (no reference audio needed)
voxcpm design \
  --text "VoxCPM2 brings studio-quality multilingual speech synthesis." \
  --output out.wav

# Controllable voice cloning with style control
voxcpm design \
  --text "VoxCPM2 brings studio-quality multilingual speech synthesis." \
  --control "Young female voice, warm and gentle, slightly smiling" \
  --output out.wav

# Voice cloning (reference audio)
voxcpm clone \
  --text "This is a voice cloning demo." \
  --reference-audio path/to/voice.wav \
  --output out.wav

# Ultimate cloning (prompt audio + transcript)
voxcpm clone \
  --text "This is a voice cloning demo." \
  --prompt-audio path/to/voice.wav \
  --prompt-text "reference transcript" \
  --reference-audio path/to/voice.wav \ # optional, for better simliarity
  --output out.wav

# Batch processing
voxcpm batch --input examples/input.txt --output-dir outs

# Help
voxcpm --help

Web 演示

python app.py --port 8808  # then open in browser: http://localhost:8808

使用 --device 选择运行设备:

python app.py --device auto

支持的值有 autocpumpscudacuda:N。在 Apple Silicon Mac 上,auto 会在可用时使用 MPS。

🚢 生产部署(Nano-vLLM)

为高吞吐服务,推荐使用 Nano-vLLM-VoxCPM ——一个基于 Nano-vLLM 的专用推理引擎,支持并发请求与异步 API。

pip install nano-vllm-voxcpm
from nanovllm_voxcpm import VoxCPM
import numpy as np, soundfile as sf

server = VoxCPM.from_pretrained(model="/path/to/VoxCPM", devices=[0])
chunks = list(server.generate(target_text="Hello from VoxCPM!"))
sf.write("out.wav", np.concatenate(chunks), 48000)
server.stop()

在 NVIDIA RTX 4090 上 RTF 低至 ~0.13(标准 PyTorch 实现约为 ~0.3),支持批处理并发请求和 FastAPI HTTP 服务器。部署细节请参阅 Nano-vLLM-VoxCPM 仓库

🏭 生产服务(vLLM-Omni)

对于多租户生产部署,请使用 vLLM-Omni ——vLLM 官方项目的多模态扩展,原生支持 VoxCPM2。它提供了 PagedAttention KV 缓存、连续批处理,以及即开即用的 OpenAI 兼容 /v1/audio/speech 端点。

# Install from source (latest main — vllm-omni is rapidly evolving)
uv pip install vllm==0.19.0 --torch-backend=auto
git clone https://github.com/vllm-project/vllm-omni.git && cd vllm-omni
uv pip install -e .

其他平台(ROCm、XPU、MUSA、NPU)及 Docker 镜像的安装请参阅 vLLM-Omni 安装指南

# Launch an OpenAI-compatible TTS server (--omni enables omni-modal serving)
vllm serve openbmb/VoxCPM2 --omni --port 8000

# Call it from any OpenAI client
curl http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{"model":"openbmb/VoxCPM2","input":"Hello from VoxCPM2 on vLLM-Omni!","voice":"default"}' \
  --output out.wav

基于上游 vLLM 调度器,内置批处理并发请求、流式块传输和多 GPU 部署。完整部署方案请参阅 VoxCPM2 示例

完整的参数参考、多场景示例及语音克隆技巧 → 快速入门指南 | 使用指南 | Cookbook


📦 模型与版本

VoxCPM2VoxCPM1.5VoxCPM-0.5B
状态🟢 最新稳定旧版
骨干参数2B0.6B0.5B
音频采样率48kHz44.1kHz16kHz
LM Token 速率6.25Hz6.25Hz12.5Hz
语言302(zh, en)2(zh, en)
克隆模式独立参考与续接仅续接仅续接
语音设计
可控语音克隆
SFT / LoRA
RTF(RTX 4090)~0.30~0.15~0.17
Nano-VLLM 上的 RTF(RTX 4090)~0.13~0.08~0.10
显存~8 GB~6 GB~5 GB
权重🤗 HF / MS🤗 HF / MS🤗 HF / MS
技术报告arXivarXiv ICLR 2026
演示页面音频样例音频样例

VoxCPM2 基于免分词器的扩散自回归范式构建。该模型完全在 AudioVAE V2 的潜在空间中运行,遵循四阶段流水线:LocEnc → TSLM → RALM → LocDiT,实现丰富的表现力和 48kHz 原生音频输出。

VoxCPM2 模型架构

完整的架构详情、VoxCPM2 特定升级以及模型对比表,请参阅架构设计


📊 性能

VoxCPM2 在公开的零样本和可控 TTS 基准测试中达到最先进或可比的水平。

Seed-TTS-eval

Seed-TTS-eval 的 WER(⬇) 和 SIM(⬆) 结果(点击展开)

模型参数量开源test-ENtest-ZHtest-Hard
WER/%⬇SIM/%⬆CER/%⬇SIM/%⬆CER/%⬇SIM/%⬆
MegaTTS30.5B2.7977.11.5279.0--
DiTAR0.6B1.6973.51.0275.3--
CosyVoice30.5B2.0271.81.1678.06.0875.8
CosyVoice31.5B2.2272.01.1278.15.8375.8
Seed-TTS-2.2576.21.1279.67.5977.6
MiniMax-Speech-1.6569.20.8378.3--
F5-TTS0.3B2.0067.01.5376.08.6771.3
MaskGCT1B2.6271.72.2777.4--
CosyVoice0.3B4.2960.93.6372.311.7570.9
CosyVoice20.5B3.0965.91.3875.76.8372.4
SparkTTS0.5B3.1457.31.5466.0--
FireRedTTS0.5B3.8246.01.5163.517.4562.1
FireRedTTS-21.5B1.9566.51.1473.6--
Qwen2.5-Omni7B2.7263.21.7075.27.9774.7
Qwen3-Omni30B-A3B1.39-1.07---
OpenAudio-s1-mini0.5B1.9455.01.1868.523.3764.3
IndexTTS21.5B2.2370.61.0376.57.1275.5
VibeVoice1.5B3.0468.91.1674.4--
HiggsAudio-v23B2.4467.71.5074.055.0765.6
VoxCPM-0.5B0.6B1.8572.90.9377.28.8773.0
VoxCPM1.50.8B2.1271.41.1877.07.7473.1
MOSS-TTS1.8573.41.2078.8--
Qwen3-TTS1.7B1.2371.71.2277.06.7674.8
FishAudio S24B0.99-0.54-5.99-
LongCat-Audio-DiT3.5B1.5078.61.0981.86.0479.7
VoxCPM22B1.8475.30.9779.58.1375.3

CV3-eval

CV3-eval 多语言 WER/CER(⬇) 结果(点击展开)

模型zhenhard-zhhard-enjakodeesfritru
CosyVoice24.086.3212.5811.969.1319.7-----
CosyVoice3-1.5B3.914.999.7710.557.575.696.434.4711.810.56.64
Fish Audio S22.652.439.104.403.962.762.222.006.262.042.78
VoxCPM23.655.008.558.485.965.694.773.809.854.255.21

MiniMax-Multilingual-Test

Minimax-MLS-test 的 WER(⬇) 结果(点击展开)

语言MinimaxElevenLabsQwen3-TTSFishAudio S2VoxCPM2
阿拉伯语1.6651.6663.50013.046
粤语34.11151.51330.67038.584
中文2.25216.0260.9280.7301.136
捷克语3.8752.1082.84024.132
荷兰语1.1430.8030.9900.913
英语2.1642.3390.9341.6202.289
芬兰语4.6662.9643.3302.632
法语4.0995.2162.8583.0504.534
德语1.9060.5721.2350.5500.679
希腊语2.0160.9915.7402.844
印地语6.9625.82714.64019.699
印度尼西亚语1.2371.0591.4601.084
意大利语1.5431.7430.9481.2701.563
日语3.51910.6463.8232.7604.628
韩语1.7471.8651.7551.1801.962
波兰语1.4150.7661.2601.141
葡萄牙语1.8771.3311.5261.1401.938
罗马尼亚语2.8781.34710.74021.577
俄语4.2813.8783.2122.4003.634
西班牙语1.0291.0841.1260.9101.438
泰语2.70173.9364.2302.961
土耳其语1.520.6990.8700.817
乌克兰语1.0820.9972.3006.316
越南语0.8873.4157.4103.307

Minimax-MLS-test 的 SIM(⬆) 结果(点击展开)

语言MinimaxElevenLabsQwen3-TTSFishAudio S2VoxCPM2
阿拉伯语73.670.675.079.1
粤语77.867.080.583.5
中文78.067.779.981.682.5
捷克语79.668.579.878.3
荷兰语73.868.073.080.8
英语75.661.377.579.785.4
芬兰语83.575.981.989.0
法语62.853.562.869.873.5
德语73.361.477.576.780.3
希腊语82.673.379.586.0
印地语81.873.082.185.6
印度尼西亚语72.966.076.380.0
意大利语69.957.981.774.778.0
日语77.673.878.879.682.8
韩语77.670.079.981.783.3
波兰语80.272.981.988.4
葡萄牙语80.571.181.778.183.7
罗马尼亚语80.969.973.379.7
俄语76.167.679.279.081.1
西班牙语76.261.581.477.683.1
泰语80.058.878.684.0
土耳其语77.959.683.587.1
乌克兰语73.064.774.779.8
越南语74.336.974.080.6

内部 30 语言 ASR 基准测试

我们还额外运行了一个内部多语言可懂度基准测试,包含 30 种语言 × 500 个样本。ASR 转录通过 Gemini 3.1 Flash Lite API 进行评估。

内部 30 语言 ASR 基准测试(点击展开)

语言指标VoxCPM2Fish S2-Pro
ar (阿拉伯语)CER1.23%0.30%
da (丹麦语)WER2.70%3.52%
de (德语)WER0.96%0.64%
el (希腊语)WER3.17%4.61%
en (英语)WER0.42%1.03%
es (西班牙语)WER1.33%0.64%
fi (芬兰语)WER2.24%2.80%
fr (法语)WER2.16%2.34%
he (希伯来语)CER2.98%15.27%
hi (印地语)CER0.79%0.91%
id (印尼语)WER1.36%1.68%
it (意大利语)WER1.65%1.08%
ja (日语)CER2.40%1.82%
km (高棉语)CER2.05%75.15%
ko (韩语)CER0.95%0.29%
lo (老挝语)CER1.90%87.40%
ms (马来语)WER1.75%1.41%
my (缅甸语)CER1.42%85.27%
nl (荷兰语)WER1.25%1.68%
no (挪威语)WER2.49%3.76%
pl (波兰语)WER1.90%1.65%
pt (葡萄牙语)WER1.48%1.49%
ru (俄语)WER0.90%0.86%
sv (瑞典语)WER2.22%2.63%
sw (斯瓦希里语)CER1.07%2.02%
th (泰语)CER0.94%1.92%
tl (他加禄语)WER2.63%4.00%
tr (土耳其语)WER1.65%1.65%
vi (越南语)WER1.56%5.56%
zh (中文)CER0.92%1.02%
平均值(30种语言)1.68%-

InstructTTSEval

指令引导的声音设计结果(点击展开)

模型InstructTTSEval-ZHInstructTTSEval-EN
APS⬆DSD⬆RP⬆APS⬆DSD⬆RP⬆
Hume83.075.354.3
VoxInstruct47.552.342.654.957.039.3
Parler-tts-mini63.448.728.6
Parler-tts-large60.045.931.2
PromptTTS64.347.231.4
PromptStyle57.446.430.9
VoiceSculptor75.764.761.5
Mimo-Audio-7B-Instruct75.774.361.580.677.659.5
Qwen3TTS-12Hz-1.7B-VD85.281.165.182.982.468.4
VoxCPM285.271.560.884.283.271.4

⚙️ 微调

VoxCPM 支持 全量微调(SFT)LoRA 微调。只需 5–10 分钟 的音频,即可适配特定的说话人、语言或领域。

# LoRA 微调(参数高效,推荐)
python scripts/train_voxcpm_finetune.py \
    --config_path conf/voxcpm_v2/voxcpm_finetune_lora.yaml

# 全量微调
python scripts/train_voxcpm_finetune.py \
    --config_path conf/voxcpm_v2/voxcpm_finetune_all.yaml

# WebUI 训练与推理
python lora_ft_webui.py   # 然后打开 http://localhost:7860

完整指南 → 微调指南(数据准备、配置、训练、LoRA 热切换、FAQ)


📚 文档

完整文档:voxcpm.readthedocs.io

主题链接
快速入门与安装快速入门
使用指南与示例用户指南
VoxCPM 系列模型
微调(SFT 与 LoRA)微调指南
FAQ 与故障排除FAQ

🌟 生态系统与社区

项目描述
Nano-vLLM高吞吐、快速 GPU 推理服务
vLLM-Omni官方 vLLM 全模态推理服务 for VoxCPM2 — PagedAttention、OpenAI 兼容 API
VoxCPM.cppGGML/GGUF:CPU、CUDA、Vulkan 推理
VoxCPM-ONNXONNX 导出,支持 CPU 推理
VoxCPMANEApple Neural Engine 后端
voxcpm_rsRust 重实现版
ComfyUI-VoxCPMComfyUI 节点工作流
ComfyUI_RH_VoxCPM功能完备的 ComfyUI VoxCPM 2 工作流,支持多说话人生成、LoRA 和自动 ASR
ComfyUI-VoxCPMTTSComfyUI TTS 扩展
TTS WebUI基于浏览器的 TTS 扩展

请参阅文档中的完整生态系统。社区项目不由 OpenBMB 官方维护。做出了很酷的东西?请提交 Issue 或 PR 来添加!


⚠️ 风险与限制

  • 潜在滥用风险: VoxCPM 的语音克隆能生成高度逼真的合成语音。严禁将 VoxCPM 用于冒充、欺诈或虚假信息传播。我们强烈建议明确标注所有 AI 生成的内容。
  • 可控生成稳定性: 语音设计和可控语音克隆的结果可能因运行次数而异——您可以尝试生成 1~3 次以获得期望的语音或风格。我们正在积极提高可控性的一致性。
  • 语言覆盖范围: VoxCPM2 官方支持 30 种语言。对于未列入列表的语言,欢迎直接测试或基于自有数据进行微调。我们计划在后续版本中扩大语言覆盖范围。
  • 使用: 本模型以 Apache-2.0 许可证发布。对于生产部署,建议根据您的使用场景进行充分的测试和安全评估。

📖 引用

如果您觉得 VoxCPM 有用,请考虑引用我们的工作并点亮 ⭐ 仓库!

@article{zhou2026voxcpm2,
  title   = {VoxCPM2 Technical Report},
  author  = {Zhou, Yixuan  and Zeng, Guoyang and Liu, Xin and Li, Xiang and Yu, Renjie and Gui, Jiancheng and Wu, Jiaheng and Wang, Ziyang and Shen, Xudong and Ye, Runchuan  and Zhang, Zhisheng and Zhou, Jiuyang and Bai, Bingsong and Sun, Weiyue and Deng, Mengyuan and Shi, Qundong and Wu, Zhiyong and Liu, Zhiyuan},
  journal = {arXiv preprint arXiv:2606.06928},
  year    = {2026},
}

@article{zhou2025voxcpm,
  title = {Voxcpm: Tokenizer-free TTS for context-aware speech generation and true-to-life voice cloning},
  author = {Zhou, Yixuan and Zeng, Guoyang and Liu, Xin and Li, Xiang and Yu, Renjie and Wang, Ziyang and Ye, Runchuan and Sun, Weiyue and Gui, Jiancheng and Li, Kehan and Wu, Zhiyong and Liu, Zhiyuan},
  journal = {arXiv preprint arXiv:2509.24650},
  year = {2025}
}

📄 许可证

VoxCPM 模型权重和代码在 Apache-2.0 许可证下开源。

🙏 致谢

  • DiTAR —— 扩散自回归骨干网络
  • MiniCPM-4 —— 语言模型基座
  • CosyVoice —— 基于 Flow Matching 的 LocDiT 实现
  • DAC —— 音频 VAE 骨干网络
  • 我们的社区用户——感谢你们试用 VoxCPM、报告问题、分享想法和贡献代码,你们的支持让项目变得更好

机构

ModelBest     THUHCSI

⭐ Star 历史

Star History Chart

在 GitHub 查看完整项目