SparkAudio团队开发的文本转语音(TTS)系统,基于 Qwen2.5 构建, 能够生成自然、高质量的语音。并支持零样本语音克隆和多语言合成。
Spark-TTS是SparkAudio团队开发的文本转语音(TTS)系统,基于 Qwen2.5 构建, 直接从文本控制音调、速度和说话者风格,支持零样本语音克隆、多语言合成、细粒度语音控制以及通过 Web UI 进行语音生成,能够快速将文本转换为自然、高质量的语音内容。和传统TTS系统不同,它直接从LLM预测的编码中重建音频,简化了语音生成流程,提高了效率。