AniPortrait：音频驱动逼真人像合成，腾讯AI数字人整合包

科技前沿 • 2025-03-03 13:17 • 阅读 49

大家好，我是讯享网，很高兴认识大家。

AniPortrait：音频驱动逼真人像合成，腾讯AI数字人整合包

之前阿里展示EMO项目让照片唱歌说话时，惊艳了所有人，然而到现在为止一直还没开源被饱受诟病，今天腾讯的AniPortrait来啦！也是一个让照片开口项目说话的项目！根据音频和图像输入生成会说话、唱歌的动态视频它可以根据音频（比如说话声）和一张静态的人脸图片，自动生成逼真的人脸动画，并保持口型一致。支持多种语言，同时支持进行面部重绘和头部姿势控制。
在这里插入图片描述
讯享网

腾讯提出的新颖框架，专注于通过音频和参考肖像图像生成高质量动画。该方法分为两个阶段：首先从音频中提取3D中间表示，并将其投影到2D面部地标序列中；其次，使用一个结合运动模块的高质量扩散模型，将地标序列转换为逼真且时间上连贯的肖像动画。

Github开源地址：

https://github.com/Zejun-Yang/AniPortrait

核心技术

音频分析：AniPortrait接收音频文件作为输入，通过对这些数据的深入分析，识别出语音模式、情感和节奏。
动画生成：依据音频分析结果，AniPortrait能够生成与声音匹配的肖像动画。特别是在音频包含说话声的情况下，动画会模拟真实的口型和面部表情，以符合说话的节奏和情绪。

所提出的框架包括两个模块，Audio2Lmk 和 Lmk2Video。前者旨在从音频输入中提取一系列能够捕捉复杂面部表情和嘴唇运动的关键点序列。后者利用这些关键点序列生成具有时间稳定性的高质量肖像视频。下图1中概述了该框架，并在下文提供了更多细节。
在这里插入图片描述

生成结果

在这里插入图片描述

视频案例

-d4e0add6-

AniPortrait：音频驱动逼真人像合成，腾讯AI数字人整合包

AniPortrait：音频驱动逼真人像合成，腾讯AI数字人整合包

Github开源地址：

核心技术

生成结果

视频案例

相关推荐