AI 說話照片的工作原理:Wan 2.2 與 Wav2Lip 解釋 (2026)

人工智慧說話照片的工作原理:Wan 2.2 與 Wav2Lip
「人工智慧說話照片」將單一靜態影像轉換為該臉部說話的影片 - 具有逼真的唇形同步、頭部運動和表情。到 2026 年,兩種架構將主導該領域:阿里巴巴的 Wan 2.2 和歷史悠久的 Wav2Lip 系列。以下是每個人的擅長之處以及如何選擇。
核心問題
給定一張靜態照片和一個音軌,產生一個視頻,其中照片中的臉部與音頻進行口型同步。自然眨眼、頭部搖擺和與音頻音調相匹配的情緒表達可加分。
Wav2Lip — 老兵
Wav2Lip 於 2020 年發布 (arXiv:2008.10010),並且仍然是僅口型同步任務的主力。它的特色是嘴部區域替換:它採用現有視訊並替換嘴部區域以與新音訊同步。對於現有影片上的純口型同步,它仍然是最先進的。
優點:極快的推理、出色的唇形準確性、易於理解的故障模式。
限制:不會產生頭部移動或表情 - 最適合現有素材,而不是靜態照片。
Wan 2.2 — 多面手
萬2.2是阿里巴巴統一實驗室2025年推出的具有角色動畫能力的視訊擴散模型。與 Wav2Lip 不同,它可以拍攝單張靜態照片並生成全身視頻,包括頭部運動、眨眼、微表情以及與提供的音軌的唇形同步。
優點:從單一影像產生逼真的動作,在需要時處理全身,產生與音訊音調相符的情緒表達。
限制:推理速度較慢(H100 上的 10 秒剪輯通常需要 30-90 秒)、硬體成本較高、輸出變數較多 - 有時需要重新滾動。
每個模型如何處理靜態影片作業
想像一張人的正面照片和一段 10 秒的說話音頻片段。
- 單獨使用 Wav2Lip: 無法直接執行此操作。需要對現有影片進行修改。
- 單獨使用 Wan 2.2:從頭開始產生整個 10 秒影片 - 頭部運動、表情、口型同步。
- 混合管道:一些 2025 年生產堆疊使用 Wan 2.2 進行頭部運動 + 對嘴部區域使用 Wav2Lip 細化通道。混合體通常在唇形準確性方面勝過單獨的任何一個,而不會犧牲運動真實感。
身分保護
這兩種模型都依賴人臉嵌入網路來保存身分。生產工具通常將它們與 ArcFace 或 說話照片功能預設使用 Wan 2.2,並支援針對口型關鍵內容(翻譯、ADR、語言在地化)的 Wav2Lip 細化通道。對於大多數消費者使用案例,Wan 2.2 本身就可以達到品質和速度的正確平衡。
硬體和成本快照
在 A100 (80 GB) 上,10 秒的 Wan 2.2 代運行時間約為 60-120 秒。在 H100 上,時間降至 25-45 秒。 Wav2Lip 在任一 GPU 上都更接近即時。對於消費者瀏覽器工具,預計每 10 秒剪輯的端到端時間為 1-2 分鐘,包括排隊時間。
Limitations That Still Matter in 2026
- 兩種型號在側面來源照片(臉部超過約 45°)上的表現均較差。
- 爆破音(p、b、m)的口型同步有時仍會落後於音頻幾幀。
- 長剪輯(30 秒以上)會在純單影像輸入中累積時間相干漂移 - 多幀錨定會有所幫助。
- 具有非拉丁音素的語言(普通話音調、點擊輔音)需要微調變體才能實現最佳口型同步。
底線
Wav2Lip 是視訊間唇形同步的精確工具。 Wan 2.2 是影像到影片產生的畫布。 Pick by your input format, not by hype. 如果您是一位剛剛嘗試新事物的創作者,FaceSwapAI 上的有聲照片演示附帶了 Wan 2.2,可以隨時使用 - 在閱讀更多研究論文之前,先用您自己的一張照片和 10 秒的語音備忘錄進行嘗試。