Voicebox 开源语音合成软件

GitHub 2.5万 Stars,下载量突破 70万次的本地语音合成方案。

核心理念

  • 零云端依赖:所有模型、文本、声音数据 100% 保存在本地
  • 隐私安全:无需上传数据到任何云端服务器
  • 零成本高频使用:不受按字数付费的限制

功能模块

一、高精度声音克隆

参数说明
所需人声3–30 秒清晰人声
训练时间约 2 分钟
输出专属声音档案,保留原音情感特征和说话节奏
高级功能支持人物设定描述,让发音更贴合角色

二、多引擎文本转语音

  • 内置引擎:VALL-E、Chatterbox 等主流语音合成引擎
  • 语言:中英文等 20+ 种语言
  • 语气词标签:部分引擎支持插入「笑声、咳嗽、叹气」等标签,让声音更自然

三、长文本处理

  • 单次上限:5 万字
  • 自动分割:超长文本按句子分割生成后平滑拼接
  • 适用:长视频制作、有声书

四、音频后期与多轨编辑

8 种音频参数(界面内实时预览): 变调、混响、延迟等

多轨道时间线编辑器: 左侧面板,类似专业音频软件,支持多角色分轨编排对白/播客。

运行环境

项目说明
语言Python
体积
内存
加速支持显卡加速
隐私数据 100% 本地
仓库github.com/jamiepine/voicebox

适用场景

  • 内容创作者(隐私敏感)
  • 高频零成本配音需求
  • 商用场景(避免数据上云风险)