客户需求:
初步计划:
具体实施过程:
CEO人物形象:
历史人物形象:
CEO声音:
-
Bert-Vits2 训练之后只能进行中文的推理,英文和数字会直接勿略掉(可以用中文同音字凑合,但是效果不好)。 -
Bert-Vits2 原项目操作麻烦,B站会有一些分享一键整合包的,但是分支很多,文件很大,文档也不全,会有各种报错,需要多尝试。 -
Bert-Vits2 对电脑配置要求高,3060 Ti 显卡训练需要半天左右才可以训练好第一个模型。可以按时按量租用GPU云服务器训练,例如阿里云、腾讯云,可以是Windows Sever系统,有可视化界面,或者AutoDL之类的,使用的ipynb笔记本的形式,没有图形界面,只能按步操作。4090、V100、T4之类的服务器可以在配置完环境之后半小时左右跑完训练,只需要把模型文件下载即可。【提示1】Windows服务器需要手动安装显卡驱动才行。【提示2】按时按量的可以选择停机不收费,能节省很多钱。
历史人物的声音:
-
微软的 Azure Speech Studio(免费)有多种语言可以选择,也是比较自然一点的方案,但是音色不多(需要找三个),特别是历史人物又年龄比较大,需要中老年的音色。 -
魔音工坊(有免费额度和免费音色,超出之后收费,VIP音色需要收费),音色比较多,效果还不错。多次尝试之后选出了三个音色,手动调整气口之后,甲方通过。
-
把国外纪录片中的声音扒下来,人生分离去掉背景音乐之后使用 Bert-Vits2 训练模拟。但是机器感比较强,还不能说中文。尝试 Bert-Vits2 训练英文的素材失败,可能需要使用原版开源项目才可以(未尝试)。 -
audiobox,可以根据描述词生成不同音色的声音,但是不太能控制,随机性比较大。如果克隆声音音色需要录制一句特定的话,放弃。 -
https://huggingface.co/spaces/coqui/xtts(免费),但是和原始音色关系不大, 有种机器感觉, 优势是可以说不用的语言 -
Heygen视频翻译(收费) ,上传视频之后可以翻译成其他语言,并且对上口型。但是翻译之后的内容属于机翻,不是很确定。如果尝试heygen的数字人,则需要录一段授权视频(没办法提供)。 -
百度飞浆(有一定免费积分):音色不够像,机器感和电流声比较明显
视频合成:
-
-
Heygen(收费):
-
-
-
D-ID(收费):
-
-
-
Runway(免费+收费):
-
-
Heygen国内网络不可直连,但是挂梯子又提示注册不了。 -
解决方案:在阿里云租一个按时按量的境外的有图形界面的 Windows sever 系统的服务器,远程过去,用服务器操作注册。便宜的一小时不到1块钱,但是就是卡。
未尝试的方案:
-
AI换脸 -
SD动画、SD对口型、SD生成人物形象
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)