bytedance/LatentSync: Taming Stable Diffusion for Lip Sync!

04-14-2025
Note:
对嘴型的方法 LatentSync 是一个基于音频条件化潜在扩散模型的端到端唇部同步框架。它不需要任何中间运动表示,而是直接建模复杂的音频-视觉相关性。此外,它还提出了时间表示对齐(TREPA)技术来增强时间一致性,同时保持唇部同步的准确性。