Video-to-Video para troca de cenário com preservação de identidade + áudio
Adicionados nesta rodada: Wan 2.2 Animate (Replace e Animation) e LatentSync (lipsync sobre vídeo gerado).
Objetivo: Identificar a melhor pipeline pra transformar vídeo casual em "estúdio profissional" preservando rosto, identidade, voz e movimentos do Pedro.
Mesmo input em todas: pedro-video-9s-exact.mp4 (9s) + prompt descrevendo um podcast studio profissional. Preservar 100% identidade.
Mudanças desde a rodada 1: Pika removido (sem API pública). Luma ganhou variantes com áudio recomposto e face swap pós-processo. Adicionados Veo 3 (Google) e Runway Act-Two.
pedro-video-9s-exact.mp4
9 segundos · Pedro falando em ambiente casual
pedro-foto-3.jpg
Foto usada nos jobs com identidade-alvo (Magic Hour face swap, Veo 3 image-to-video, Kling motion control).
"Replace background with a professional podcast studio: warm ambient lighting, modern microphone setup on a desk, acoustic foam panels in the background, cinematic depth of field, high quality. Keep the person's face, identity, body, hair and movements 100% identical."
Como funciona: recebe foto-alvo + vídeo source → transfere movimentos e fala do source pra figura da foto. Não é "swap de fundo" puro, é motion transfer com pessoa-alvo já em ambiente novo (a foto define o cenário).
Limitações observadas pelo Diego: qualidade visual ótima, mas sem áudio e a feição do Pedro mudou bastante.
Pós-processo: ffmpeg pega o áudio original do Pedro e cola sobre o vídeo Luma cortado pra 9s. Resolve o "sem som". Sincronia labial depende de quanto o Luma alterou a boca.
Pós-processo: Magic Hour API (/v1/face-swap) cola o rosto do Pedro sobre o vídeo Luma+áudio. Tentativa de resolver simultaneamente identidade + áudio.
Observação: "Edit Video" é literalmente posicionada como "Swap backgrounds, lighting, angles - all without reshooting" — descrição idêntica ao caso Janusly. Truncou pra 5s. SDK Runway é maduro.
Observação: única plataforma do benchmark com áudio gerado nativamente (no caso, voz/ambiente sintetizados — não a voz real do Pedro). Veo 3 é image-to-video, então a entrada foi a foto do Pedro + prompt do estúdio. Primeira tentativa foi rejeitada pelo content filter (E005, alegação "sensitive content"); a 2ª passou usando google/veo-3-fast e prompt sem termos de "preservação de identidade".
O que era esperado: Act-Two é a feature do Runway desenhada exatamente pro caso Janusly — "performance capture": pega 1 vídeo de driving performance + 1 imagem/vídeo de character e anima o character com os movimentos faciais e gestos do driving. Em teoria, é o que o Janusly precisa: identidade da foto + movimentos do vídeo casual.
Como funciona: Wan 2.2 Animate tem 2 modos. Animation anima uma foto-alvo (Pedro headshot pro) seguindo os movimentos faciais e corporais de um vídeo source — equivalente teórico ao Act-Two do Runway, mas open-source via Replicate. Replace faz o oposto: substitui o personagem dentro de um vídeo existente (no nosso caso, o resultado Luma Ray3) pelo personagem da foto-alvo, usando segmentação SAM2 internamente.
Input: headshot profissional do Pedro + pedro-video-9s-exact.mp4 como driving. Output: 9s, com áudio do source mergeado nativamente (merge_audio=true). Identidade tem que vir 100% da foto e movimentos do vídeo casual.
Input: luma-ray3-result.mp4 (cenário e movimento ótimos, mas com a feição alterada) + headshot Pedro. Output: 11s, sem áudio (Luma source não tem). Tenta resolver o problema "Luma mudou o rosto" colando o Pedro real sobre o vídeo Luma.
Como funciona: recebe vídeo + áudio e re-sincroniza a boca do vídeo pra bater exatamente com o áudio fornecido. Usado como pós-processo sobre o melhor output do Wan 2.2 Animate (a versão Animation, que já tem áudio do Pedro), para corrigir qualquer dessincronia labial residual.
Pipeline final candidata: Foto Pedro → FLUX Kontext (headshot pro) → Wan 2.2 Animate Animation (cenário + movimentos + áudio merged) → LatentSync (lipsync corrigido). Custo total estimado: ~$0.30-0.60 por vídeo. Tudo via Replicate, escalável.
O que mudou desde a rodada 2: entraram Wan 2.2 Animate (2 modos) e LatentSync. Wan 2.2 Animate é a primeira opção do benchmark que faz performance capture real via API — equivalente conceitual ao Act-Two do Runway, mas open-source e escalável. LatentSync entra como pós-processo de lipsync, prometendo corrigir o último ponto fraco que sobrava (boca dessincronizada quando a IA altera a fala).
Caminho técnico mais promissor agora: pipeline Foto Pedro → FLUX Kontext (headshot pro) → Wan 2.2 Animate Animation (cenário + movimentos + áudio do Pedro merged) → LatentSync (lipsync corrigido). Cobre os 4 requisitos: identidade visual, voz real, movimentos preservados e cenário profissional. Custo total ~$0.30-0.60/vídeo, ~10 min total.
Caminhos alternativos: Luma Ray3 + ffmpeg + Magic Hour continua viável se Wan Animation deixar resíduos visuais. Kling 2.6 Motion Control fica como baseline mais barato e estável.
1ª opção pro MVP: FLUX Kontext + Wan 2.2 Animate Animation + LatentSync. Tudo open-source via Replicate, escalável, ~$0.40/vídeo, áudio real preservado, identidade da foto-alvo.
2ª opção / fallback: Luma Ray3 + ffmpeg + Magic Hour face swap. Cenário Luma é o melhor visualmente, ~$1/vídeo.
3ª opção / barato: Kling 2.6 Motion Control. Motion transfer puro, $0.30/vídeo, sem cenário gerado nem áudio nativo.
Investigar mais: Wan Replace (substituir Pedro dentro do Luma Ray3) pode ser combo interessante — cenário de vídeo Luma + identidade Pedro real + áudio merged via ffmpeg.
Descartar: Veo 3 (voz sintética). Runway Act-Two segue inviável sem API pública.