目录
SyncTalk模型简介
安装步骤(Windos)
1、百度网盘下载代码
2、cuda安装
3、aconda安装
4、在aconda中创建虚拟环境
5、checkpoints下载
6、更新代码
数据预处理
1、准备视频
2、预处理命令
训练
1、运行命令
2、训练结果
推理
1、准音频
2、命令
3、运行结果
SyncTalk是一种基于NeRF的高同步性说话人合成方法,专门针对提升说话人视频真实感和同步性而设计,克服了以往在同步性方面遇到的挑战,仅使用5分钟的说话视频即可生成高真实感的人物形象。目前该工作已入选CVPR 2024。下图为SyncTalk概览图,来自SyncTalk论文。

论文题目: SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis
论文链接: https://arxiv.org/abs/2311.17590
项目主页: https://ziqiaopeng.github.io/synctalk
代码链接: https://github.com/ZiqiaoPeng/SyncTalk
效果展示:
百度网盘 请输入提取码
论文作者给出的版本:
Tested on Ubuntu 18.04, Pytorch 1.12.1 and CUDA 11.3.
Windows环境,建议安装cuda11.7,我已安装了百度网盘里的代码,执行conda list,python的版本为3.9,cuda的版本为11.7

具体安装步骤请见:
windows系统CUDA的详细安装教程_windows安装cuda-CSDN博客
步骤请见
(Windows系统)Anaconda下载及安装超详细教程(图文步骤附带详细解释,简单易上手)!!_anaconda windows-CSDN博客
关于环境变量,anaconda程序会自动填写,检查后没有自动填写的可手动填写。
创建虚拟环境synctalk,命令如下:
GPT plus 代充 只需 145
创建成功后,把SyncTalk-Windowsface-SyncTalkvenv中的文件拷贝到anaconda的synctalk文件 夹中。
checkpoints文件的获取有几种方式:
网盘
推理、训练时程序检测不到对应的文件会自动下载,如果觉得下载过程太慢,可以粘贴提示说明里的文件地址,用迅雷下载。
下载好的checkpoints文件,存储位置为:C:UsersAdmin.cache orchhubcheckpoints
下载synctalk最新代码,覆盖到本地的程序上,下载地址如下:
https://github.com/ZiqiaoPeng/SyncTalk
下载AD-NeRF中的data_util文件夹,覆盖synctalk的data_utils文件夹
AD-NeRF/data_util at master · YudongGuo/AD-NeRF · GitHub
视频要求,帧速率 :25FPS,帧宽高:512*512,每帧画面必须有说话的人,视频长度建议在4分02秒内,多于此时间会报错,需要调整代码。
视频需要高分辨率,低分辨率的视频训练出来效果较差。
视频放入目录 SyncTalk-Windowsface-SyncTalkSyncTalkdata
预处理命令

预处理结果


运行数据预处理程序时,需注意,运行完毕,检查bs.npy文件是否生成,有时会无法生成这个文件,此时需要运行以下命令生成此文件
python data_utils/blendshape_capture/main.py --path I:AISyncTalkSyncTalk-Windowsface-SyncTalkSyncTalkdata est3
设置环境变量
SET PATH=..venvffmpeg;%PATH%
进一步训练,再训练8轮
python main.py data/test3 --workspace model/trial_test3 -O --iters --finetune_lips --patch_size 64 --asr_model ave

至此,模型训练基本完成,如果一切顺利,能得到效果较好的推理结果。但有时会出现双下巴的情况,可能是训练视频质量的问题,可以尝试进一步训练,解决双下巴的问题,但如果训练视频的质量不佳,可能还是解决不了双下巴的问题。
python main.py data/test3/ --workspace model/trial_test3_torso/ -O --torso --head_ckpt model/trial_test3/checkpoints/ngp_ep0019.pth --iters --asr_model ave
此命令会训练到28轮。
训练结果如下图


准备wav文件,文件不限长度,放入SyncTalk-Windowsface-SyncTalkSyncTalkdemo
设置环境变量
SET PATH=..venvffmpeg;%PATH%
没有进行修复下巴训练的情况
python main.py data/test3 --workspace model/trial_test3 -O --test --test_train --asr_model ave --portrait --aud ./demo/test.wav
进行修复下巴训练的情况
GPT plus 代充 只需 145python main.py data/test3 --workspace model/trial_test3_torso -O --torso --test --test_train --asr_model ave --aud ./demo/test.wav

如需获取本文完整方案 PDF、技术架构图,或有相关定制开发需求,可直接点击我的头像私信我,我会在 24 小时内回复。也可查看「行业案例」,获取更多落地经验和联系方式。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/235887.html