
將 2 到 8 張虛擬 K-pop 偶像的關鍵影格圖片上傳到 Frames to Video 工具。關鍵影格會固定臉型、髮色和服裝,AI 則在這些影格之間生成動作。這種方法能在不同鏡頭中保持角色身份一致,不需要訓練模型,也不需要換臉。
大多數 AI video generators 會根據單次文字提示生成每個場景。模型每次都重新解讀提示詞,因此取樣上的細微差異可能帶來不同下顎線、偏暖的髮色或更柔和的眼線。當影片累積到 6 到 8 個鏡頭時,這些小變化會被放大,偶像看起來像不同的人。
根本原因很簡單:文字提示沒有像素級記憶。模型不知道上一個鏡頭中的角色具體長什麼樣,只能重新猜一次。
基於關鍵影格的生成可以解決這件事。當你提供角色的實際圖片,模型會把那些像素當作錨點。它是在已知視覺狀態之間生成動作,而不是每次重新發明角色。
先用 Text to Image 生成基礎偶像肖像。提示詞要具體,例如:
K-pop idol, female, platinum silver bob cut, sharp black eyeliner, holographic crop top, black leather harness, front-facing, upper body, studio lighting, dark background
在圖片編輯工具中調整到臉部正確為止。DomoAI 的 Nano Banana Pro 很適合這一步,因為它能用一條提示詞修改多張圖片的細節。這張肖像就是你的身份錨點,之後所有圖片都應參考它。
使用相同角色描述,再生成 3 張圖片,只改變構圖、角度和環境:
[same character description], full body, standing on neon-lit stage, dramatic low camera angle[same character description], close-up profile, looking over shoulder, purple stage fog[same character description], mid-shot, arms raised above head, blue and pink crowd lights behind每張圖的髮型、妝容和服裝提示都要一致。光線條件也很重要,因為不一致的光線是關鍵影格之間顏色漂移最常見的原因。
按照表演順序上傳 4 張圖片:正面近景 → 回頭側臉 → 舞台全身 → 舉手中景。
DomoAI 的 Frames to Video 支援 2 到 8 張關鍵影格,並在它們之間生成順滑轉場。每段轉場都寫一條簡短動作提示,例如「slow turn toward camera」或「arms rise into spotlight」。先生成 10 秒片段。
用不同關鍵影格組合重複生成,例如慢動作轉身或走向鏡頭,直到你有 4 到 5 段片段,合計約 40 秒。
把每段影片用 Video Upscaler 升級到 4K,再匯入 CapCut 或你常用的剪輯軟體,搭配音樂卡點剪輯。
一致的片段應該通過三個測試:
10 秒片段可先用 3 到 4 張關鍵影格。當鏡頭角度變化很大時,請增加影格。兩張適合慢速推近或頭部微動,複雜舞蹈則可能需要 6 到 8 張。
可以。關鍵是提供已經呈現不同角度的角色圖片。正面肖像、側臉和全身圖能給模型足夠參考,讓身份在角度變化中保持穩定。
可以。先生成一張精修肖像作為身份錨點,用同一角色提示建立所有姿勢變體,再把圖片作為關鍵影格上傳到 Frames to Video。模型會在你的圖片之間插值,而不是從零生成,所以不需要後期換臉也能穩定臉部。
可以。DomoAI Frames to Video 支援任何來源的 PNG、JPG 和 JPEG。Midjourney 生成的圖片、Stable Diffusion 或其他工具的圖片都能作為關鍵影格。
DomoAI Frames to Video 使用最多 8 張關鍵影格和自訂轉場時間,支援約 56 秒以內的片段。完整 MV 建議生成多段,再在剪輯軟體中組合。
Kling 和 Runway 通常用單張圖片或文字提示生成單段影片。若要跨多個鏡頭保持角色身份,往往需要反覆重生直到臉剛好匹配,或加入 LoRA 訓練和外部換臉工具。DomoAI 的 Frames to Video 採用不同方式:你上傳 2 到 8 張角色關鍵影格,模型就在單次生成中維持臉、髮型和服裝細節。不用訓練模型,也不用第三方修補。對需要同一角色出現在 6 到 8 個不同鏡頭的音樂影片流程來說,關鍵影格方法能大幅減少提示詞試錯時間。
Make every scene
worth sharing.