开源的TTS模型：实现1:1零样本声音克隆-桃花坞里桃花庵

在 TTS（文本转语音）技术的快速发展下，如何生成更加自然、可控、个性化的 AI 语音，成为了语音合成领域的核心挑战。

传统的 TTS 系统虽然能生成高质量语音，但往往存在控制能力有限、跨语言表现较差、声音风格固定等问题。

Spark-TTS 作为一款刚刚开源的高质量语音合成（TTS）系统。

不仅支持零样本语音克隆，还能进行细粒度语音控制，包括语速、音调、语气等多项参数调节，同时具备跨语言生成能力，让 AI 语音变得更加灵活、多样化。

核心能力

• 零样本语音克隆：只需提供几秒钟的语音样本，便能克隆目标说话人的声音
• 细粒度语音控制：粗粒度控制（性别、说话风格等）；细粒度调整（音高、语速等）
• 跨语言语音生成：支持跨语言语音合成，支持中文和英文，并保持自然度和准确性
• 高质量自然语音：结合 Qwen-2.5 思维链技术，增强语音表达逻辑，自动调整语气、停顿、强调等语音表达
• 音质 & 语音控制能力：采用 BiCodec 单流语音编解码器，将语音分解为语义信息和说话人属性
• Web界面支持：提供了使用 Web UI 进行语音克隆和语音创建的界面

Spark-TTS 兼具高音质、可控性、跨语言能力，并且完全开源，是当前最灵活的开源 TTS 方案之一。

安装部署

克隆项目

git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

创建Python虚拟环境，安装Python依赖

conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

模型下载（两种方式）：

• 通过Python代码下载

from huggingface_hub import snapshot_download

snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

• 通过 git 下载

mkdir -p pretrained_models

# Make sure you have git-lfs installed (https://git-lfs.com)
git lfs install

git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

运行演示：

cd example
bash infer.sh

或者直接在命令行中进行推理：

python -m cli.inference 
    --text "text to synthesis." 
    --device 0 
    --save_dir "path/to/save/audio" 
    --model_dir pretrained_models/Spark-TTS-0.5B 
    --prompt_text "transcript of the prompt audio" 
    --prompt_speech_path "path/to/prompt_audio"

如果使用Web界面，可以使用以下命令启用：