GPT-SoVITS
GPT-SoVITS,强大的本地语音克隆工具! 下载,模型,整合包,教程,在线,github,webui,api
标签:ai音频GPT-SoVITS-webui GPT-SoVITS使用 GPT-SoVITS教程 GPT-SoVITS整合包GPT-SoVITS下载,模型,整合包,教程,在线,github,webui,api,强大的本地语音克隆工具
简介
GPT-sovits 是一款功能强大的本地语音克隆工具,它基于深度学习技术,能够生成与目标人物声音非常相似的音频,你仅需提供一分钟的语音就能够很好的识别训练,生成非常相近的语音模型。训练的模型可以下次直接调用,后期输入文本即可生成与模型十分相似的语音,非常强大。软件适用于各种应用场景,如虚拟代言人、语音助手、有声读物等。通过使用GPT-sovits,用户可以轻松地生成高质量的语音音频,满足各种需求。
GPT-SoVITS是一个开源的TTS项目,只需要1分钟的音频文件就可以克隆声音,支持将汉语、英语、日语三种语言的文本转为克隆声音,作者已测试,部署很方便,训练速度很快,效果很好。项目发布不到1个月就有了13.3k star。
主要功能和特色
GPT-sovits 功能特点:
1. 语音合成:添加要模拟的人声音频文件到软件中识别训练,然后手动修改识别的文字校准,就可以训练成效果十分出色的语音模型。后期可以将文本转换为语音,生成与目标人物声音非常相似的音频。
2. 语音克隆:根据用户提供的目标人物的语音样本,学习并模仿其语音特征,从而实现语音克隆。这使得用户可以创建出与目标人物声音非常相似的虚拟代言人或其他应用场景。
3. 多语言支持:目前仅对中文进行了测试,其它语言请自行测试,可以根据自己的需求选择合适的语言进行语音合成和克隆。
4. 安全可靠:GPT-sovits 完全本地化运行,无需任何联网,这就完全杜绝了隐私泄露等问题。
GPT-sovits 使用方法
1. 软件免安装,下载后解压,双击打开 go-webui.bat 自动弹出本地网页,在这个网页中进行操作;
2. 在 前置数据集获取 功能页面中,可以去除音频中的背景音乐或者其它杂音,如果是纯净人声可以直接跳过。在运行过程中,会弹出文本校对页面,可以对人声和识别的文本文字进行校对,手动修改达到完美匹配;
3. 在 TTS 功能页面中,设置三个*号的输入框,其它默认即可;
更新内容
这个项目发布之后,获得了比较高的关注,所以更新也比较活跃。这段时间已经有了不少更新!
20240121更新
1-config添加is_share,诸如colab等场景可以将此改为True,来使得webui映射到公网
2-WebUI添加英文系统英文翻译适配
3-cmd-asr自动判断是否已自带damo模型,如不在默认目录上将从modelscope自带下载
4-SoVITS训练报错ZeroDivisionError 尝试修复(过滤长度0的样本等)
5-清理TEMP文件夹缓存音频等文件
6-大幅削弱合成音频包含参考音频结尾的问题
20240122更新
1-修复过短输出文件返回重复参考音频的问题。
2-经测试,英文日文训练原生支持(日文训练需要根目录不含非英文等特殊字符)。
3-音频路径检查。如果尝试读取输入错的路径报错路径不存在,而非ffmpeg错误。
20240123更新
1-解决hubert提取nan导致SoVITS/GPT训练报错ZeroDivisionError的问题
2-支持推理界面快速切换模型
3-优化模型文件排序逻辑
4-中文分词使用jieba_fast代替jieba
20240126更新
1-支持输出文本中英混合、日英混合
2-输出可选切分模式
3-修复uvr5读取到目录自动跳出的问题
4-修复多个换行导致推理报错
5-去除推理界面大量冗余log
6-支持mac训练推理
7-自动识别不支持半精度的卡强制单精度。cpu推理下强制单精度。
20240128更新
1-修复数字转汉字念法问题
2-修复句首少量字容易吞字的问题
3-通过限制排除不合理的参考音频长度
4-修复GPT训练不保存ckpt的问题
5-完善Dockerfile的下载模型流程
20240129更新
1-16系等半精度训练有问题的显卡把训练配置改为单精度训练
2-测试更新可用的colab版本
3-修复git clone modelscope funasr仓库+老版本funasr导致接口不对齐报错的问题
20240130更新
1-所有涉及路径的地方双引号自动去除,小白复制路径带双引号不会报错
2-修复中英文标点切割问题和句首句尾补标点的问题
3-增加按标点符号切分
上面有详细的更新说明,
对我来说特别有用的是,它支持中英混合生成了。
另外对英语和日语的训练都完善了,啥时候定制个某老师的声音?
还有后台日志好像简洁清楚多了。
推理界面支持切换模型,让使用更加便捷了。
其他还有很多细节我就不复述了。
全网最热💫AI音频工具
✨1.Mubert
无版权免费音乐,根据输入文字立即生成,还可以提供样本自动生成。
✨2. Runway
输入文字就可以直接生成视频,强大的AI视频制作工具,绿幕抠像、视频合成等,功能还是比较齐全的。只需点击几下即可立即从任何视频中删除背景。
✨3. LALAL AI
可以快速通过AI将声音进行分离,能够从歌曲中移除人声,伴奏,还有各种乐器声音,从而获得独立的音轨。还能将和背景噪声消除,值得推荐!
✨4. Pictory
可将文字内容一键转变成短视频。
✨5. Endel
AI智能个性化白噪音,可以通过位置、环境、和心率在类的信息来创建个性化背景音乐,帮助您集中注意力、放松和睡眠!
✨6.Deepbrain
文字即可转化为逼真的视频,只需 5 分钟,可将时间和成本减少 80%!
数据评估
本站ai导航提供的GPT-SoVITS都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由ai导航实际控制,在2024年2月19日 上午3:07收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,ai导航不承担任何责任。