AI Talking Photo の仕組み: Wan 2.2 と Wav2Lip の説明 (2026)

AI Talking Photo の仕組み: Wan 2.2 と Wav2Lip

「AI トーキングフォト」は、1 枚の静止画像を、リアルな口パク、頭の動き、表情を伴って話している顔のビデオに変換します。 2026 年には、アリババの Wan 2.2 と長年確立された Wav2Lip 系統の 2 つのアーキテクチャがこの分野を支配しています。それぞれの利点と選び方を次に示します。

核心的な問題

静止写真とオーディオトラックを指定して、写真内の顔がオーディオに口パクするビデオを生成します。オーディオのトーンに合わせた自然なまばたき、頭の揺れ、感情表現にはボーナスポイントが加算されます。

Wav2Lip — ベテラン

Wav2Lip は 2020 年に公開され (arXiv:2008.10010)、リップシンクのみのタスクの主力であり続けています。その専門分野は口の領域の置換です。既存のビデオを取得し、口の領域を置き換えて新しい音声と同期します。既存のビデオで純粋にリップシンクを行う場合は、依然として最先端です。

長所: 非常に高速な推論、優れたリップ精度、よく理解されている故障モード。

制限事項: 頭の動きや表情は生成されません。静止写真ではなく、既存の映像で最も効果的に機能します。

Wan 2.2 — ジェネラリスト

Wan 2.2 は、キャラクターアニメーション機能を備えた Alibaba Tongyi Lab の 2025 年のビデオ普及モデルです。 Wav2Lip とは異なり、1 枚の静止写真を撮影し、頭の動き、まばたき、微表情、提供されたオーディオトラックへのリップシンクなどの全身ビデオを生成できます。

長所: 単一の画像からリアルな動きを生成し、必要に応じて全身を処理し、オーディオのトーンに合わせた感情表現を生成します。

制限事項: 推論が遅くなり (H100 の 10 秒のクリップで通常 30 ～ 90 秒)、ハードウェアのコストが高く、出力の可変性が高くなります。場合によっては再ロールが必要になります。

各モデルが静止画からビデオへのジョブを処理する方法

人物の正面を向いた 1 枚の写真と、彼らが話している 10 秒の音声クリップを想像してください。

Wav2Lip 単独: これを直接実行することはできません。変更するには既存の動画が必要です。
Wan 2.2 単独: 頭の動き、表情、リップシンクなど、10 秒のビデオ全体を最初から生成します。
ハイブリッドパイプライン: 一部の 2025 プロダクションスタックでは、頭の動きに Wan 2.2 と口の領域の Wav2Lip リファインメントパスを使用します。ハイブリッドは、モーションのリアリズムを犠牲にすることなく、唇の正確さにおいてどちらか単独よりも優れていることがよくあります。

アイデンティティの保持

どちらのモデルも、アイデンティティの保存のために顔埋め込みネットワークに依存しています。制作ツールは通常、これらを ArcFace または AdaFace 埋め込みと組み合わせて、生成されたフレームを保持します。本人であることが特定できる。 AdaFace は、低品質のソース画像に適しています。

いつどちらを選択すべきか

Wav2Lip: ビデオ映像がすでにあるので、それをオーバーダビングする必要があります (翻訳、字幕の置換、ダイアログの置換)。
Wan 2.2: 静止写真しかなく、完全な会話ビデオが必要です。または、表現力豊かな感情表現が必要です。
ハイブリッド: 静止画から動画への出力で映画レベルのリップ精度が必要であり、推論予算がある必要があります。

FaceSwapAI が使用するもの

FaceSwapAI のトーキングフォト機能は、デフォルトで Wan 2.2 を使用し、リップクリティカルなコンテンツ (翻訳、ADR、言語ローカリゼーション) の Wav2Lip リファインメントパスをサポートしています。ほとんどの消費者向けユースケースでは、Wan 2.2 のみが品質と速度の適切なバランスです。

ハードウェアとコストのスナップショット

A100 (80 GB) では、10 秒の Wan 2.2 世代はおよそ 60 ～ 120 秒で実行されます。 H100 では、25 ～ 45 秒に低下します。 Wav2Lip はどちらの GPU でもリアルタイムに近いです。一般消費者向けブラウザツールの場合、キュー時間を含め、エンドツーエンドで 10 秒のクリップあたり 1 ～ 2 分かかることが予想されます。

2026 年になっても依然として重要な制限

どちらのモデルも、横顔のソース写真（顔が約 45° を超える）ではパフォーマンスが低下します。
破裂音（p、b、m）のリップシンクは依然として音声よりも数フレーム遅れてしまうことがあります。
長いクリップ（30 秒以上）では、純粋な単一画像入力に時間的コヒーレンスドリフトが蓄積されます。マルチフレームアンカリングが役立ちます。
ラテン語以外の音素（マンダリンの声調、クリック子音）を含む言語では、最適なリップシンクを実現するために微調整されたバリエーションが必要です。

最終行

Wav2Lip は、ビデオ間のリップシンクのための高精度ツールです。 Wan 2.2 は、画像からビデオを生成するためのキャンバスです。誇大宣伝ではなく、入力フォーマットに基づいて選択してください。また、何かを試してみたいクリエイターの場合は、FaceSwapAI のトーキング写真デモが Wan 2.2 に同梱されており、すぐに使用できるようになっています。研究論文を読む前に、自分の写真の 1 枚と 10 秒の音声メモで試してみてください。