项目介绍
LatentSync是由字节跳动联合北京交通大学推出的端到端唇形同步框架,基于音频条件潜在扩散模型(Latent Diffusion Models),旨在实现语音与唇形运动的高精度同步。
该项目通过结合Stable Diffusion的生成能力与音视频联合建模技术,解决了传统方法依赖中间表示(如3D模型或2D关键点)的复杂性问题,直接生成动态逼真、时间连贯的说话视频。
项目截图


视频介绍
技术架构与核心创新
- 潜在扩散模型(LDM)
LatentSync以音频为条件,在潜在空间(而非像素空间)直接建模音视频关联,避免了两阶段生成过程中的误差累积。其架构包括:- 音频编码:通过Whisper模型将音频转换为嵌入向量,与U-Net的交叉注意力层集成。
- 视觉生成:参考帧与掩码帧的潜在表示经噪声处理后输入U-Net,一步预测干净潜在特征并解码为视频帧。
- 时序一致性优化(TREPA)
针对扩散模型帧间一致性不足的问题,LatentSync引入Temporal Representation Alignment方法,利用自监督视频模型VideoMAE-v2提取时序特征,通过计算生成帧与真实帧的时序表示距离作为额外损失,显著提升时间连贯性(FVD指标优化达192.74)。 - SyncNet监督增强
在像素空间添加预训练SyncNet损失,解决潜在空间监督收敛困难的问题,将唇同步精度从91%提升至94%,同时保留头部姿态与身份特征。
LatentSync通过端到端架构、时序对齐机制与监督优化三位一体,重新定义了唇形同步技术的精度与效率边界。其开源特性与低硬件门槛不仅降低了行业应用门槛,也为学术研究提供了重要基线。未来,随着多语言数据集的扩展与模型微调,LatentSync有望在元宇宙、远程交互等领域释放更大潜力。
暂无评论内容