🎬 Janusly Benchmark — Rodada 3

Video-to-Video para troca de cenário com preservação de identidade + áudio

Adicionados nesta rodada: Wan 2.2 Animate (Replace e Animation) e LatentSync (lipsync sobre vídeo gerado).

📋 Visão Geral

Objetivo: Identificar a melhor pipeline pra transformar vídeo casual em "estúdio profissional" preservando rosto, identidade, voz e movimentos do Pedro.

Mesmo input em todas: pedro-video-9s-exact.mp4 (9s) + prompt descrevendo um podcast studio profissional. Preservar 100% identidade.

Mudanças desde a rodada 1: Pika removido (sem API pública). Luma ganhou variantes com áudio recomposto e face swap pós-processo. Adicionados Veo 3 (Google) e Runway Act-Two.

🎥 Vídeo Original (input)

pedro-video-9s-exact.mp4

9 segundos · Pedro falando em ambiente casual

🖼️ Foto Pedro (face swap)

pedro-foto-3.jpg

Foto usada nos jobs com identidade-alvo (Magic Hour face swap, Veo 3 image-to-video, Kling motion control).

📝 Prompt usado

"Replace background with a professional podcast studio: warm ambient lighting, modern microphone setup on a desk, acoustic foam panels in the background, cinematic depth of field, high quality. Keep the person's face, identity, body, hair and movements 100% identical."

🏆 Plataformas Testadas

Kling 2.6 Motion Control — baseline atual

✓ Testado (baseline)
Custo$0.30
Tempo~6 min
Max duração10s
Áudionão
MétodoAPI (Replicate)

Como funciona: recebe foto-alvo + vídeo source → transfere movimentos e fala do source pra figura da foto. Não é "swap de fundo" puro, é motion transfer com pessoa-alvo já em ambiente novo (a foto define o cenário).

✓ Pontos fortes

  • Custo imbatível ($0.30)
  • API estável e bem documentada
  • Pipeline atual já validado com Diego

✗ Pontos fracos

  • Limite de 10s
  • Cenário precisa vir pronto na foto
  • Sem áudio nativo

Luma Ray3 — Modify + pós-processos

✓ 3 variantes testadas
Custo base~$0.50-1.00
+ Magic Hour+~$0.20
Tempo total~12 min
Duração saída9s (com cortes)
MétodoWeb/API + ffmpeg + Magic Hour API

A — Luma puro

Limitações observadas pelo Diego: qualidade visual ótima, mas sem áudio e a feição do Pedro mudou bastante.

B — Luma + áudio (ffmpeg)

Pós-processo: ffmpeg pega o áudio original do Pedro e cola sobre o vídeo Luma cortado pra 9s. Resolve o "sem som". Sincronia labial depende de quanto o Luma alterou a boca.

C — Luma + áudio + Magic Hour

Pós-processo: Magic Hour API (/v1/face-swap) cola o rosto do Pedro sobre o vídeo Luma+áudio. Tentativa de resolver simultaneamente identidade + áudio.

✓ Pontos fortes

  • Pipeline 100% via API (Luma + Magic Hour + ffmpeg)
  • Resolve identidade (face swap) e áudio (merge) que o Luma puro não cobre
  • Custo total ainda dentro do orçamento (~$0.70-1.20 por vídeo)
  • Qualidade do cenário Luma é a melhor do benchmark

✗ Pontos fracos

  • 3 etapas independentes pra coordenar
  • Face swap pode introduzir artefatos próprios
  • Sincronia labial não é garantida (Luma muda boca)
  • Tempo total maior (12 min)

Runway Gen-4 Aleph — Edit Video

✓ Testado
Custo75 créditos (~$0.75)
Tempo~3 min
Max duração5s (truncado)
Áudionão
MétodoWeb + API

Observação: "Edit Video" é literalmente posicionada como "Swap backgrounds, lighting, angles - all without reshooting" — descrição idêntica ao caso Janusly. Truncou pra 5s. SDK Runway é maduro.

✓ Pontos fortes

  • Posicionamento idêntico ao Janusly
  • Geração rápida (~3min)
  • SDK e API maduros

✗ Pontos fracos

  • Limite de 5s na config padrão
  • Sem áudio nativo
  • Truncou o vídeo original

Google Veo 3 Fast — image + audio nativo

✓ Testado
Custo~$0.40 (8s)
Tempo~4 min
Max duração8s
Áudiosim (nativo, gerado)
MétodoAPI (Replicate)

Observação: única plataforma do benchmark com áudio gerado nativamente (no caso, voz/ambiente sintetizados — não a voz real do Pedro). Veo 3 é image-to-video, então a entrada foi a foto do Pedro + prompt do estúdio. Primeira tentativa foi rejeitada pelo content filter (E005, alegação "sensitive content"); a 2ª passou usando google/veo-3-fast e prompt sem termos de "preservação de identidade".

✓ Pontos fortes

  • Áudio gerado nativamente (único do benchmark)
  • Cenário gerado do zero junto com a pessoa
  • API via Replicate, simples

✗ Pontos fracos

  • Voz gerada não é a do Pedro — não preserva sua fala real
  • Content filter rejeita prompts com "preservar identidade"
  • Limite de 8s
  • Não recebe o vídeo original — só foto, perde os movimentos do Pedro

Runway Act-Two — Performance Capture

⚠ Bloqueado server-side
Custo previsto~1.80 créditos/s
TempoN/A
Max duração30s
Áudiovia voice tab (não testado)
MétodoWeb (Playwright)
3 tentativas falharam com "There was an issue on our end"

O Runway estornou os créditos automaticamente. Mensagem da própria plataforma: "Any used credits have been refunded. If you get this error more than once, try different inputs." Pedro foto (9:16) + Pedro driving video (9s, 9:16) — combinação dentro dos limites documentados, mas a infraestrutura do Act-Two recusou as 3 tentativas em sequência. Não conseguimos avaliar o resultado nesta rodada.

O que era esperado: Act-Two é a feature do Runway desenhada exatamente pro caso Janusly — "performance capture": pega 1 vídeo de driving performance + 1 imagem/vídeo de character e anima o character com os movimentos faciais e gestos do driving. Em teoria, é o que o Janusly precisa: identidade da foto + movimentos do vídeo casual.

✓ Pontos fortes (no papel)

  • Feature dedicada a "performance capture"
  • Suporta até 30s
  • Tab "Voices" promete áudio também
  • Slider de "facial expressiveness" + toggle de gestures

✗ Pontos fracos / bloqueios

  • 3 falhas server-side em sequência nesta sessão
  • Sem API pública pro Act-Two — só web
  • Difícil escalar pro produto sem API
  • Avaliação adiada — repetir em outro momento

Wan 2.2 Animate (ByteDance/Alibaba) — Apache 2.0, open-source

★ Novidade — 2 modos testados
Custo~$0.20-0.50
Tempo5-10 min
Max duraçãodepende do source
Áudiomerge nativo (Animation)
MétodoAPI (Replicate)

Como funciona: Wan 2.2 Animate tem 2 modos. Animation anima uma foto-alvo (Pedro headshot pro) seguindo os movimentos faciais e corporais de um vídeo source — equivalente teórico ao Act-Two do Runway, mas open-source via Replicate. Replace faz o oposto: substitui o personagem dentro de um vídeo existente (no nosso caso, o resultado Luma Ray3) pelo personagem da foto-alvo, usando segmentação SAM2 internamente.

A — Animation (foto + driving video)

Input: headshot profissional do Pedro + pedro-video-9s-exact.mp4 como driving. Output: 9s, com áudio do source mergeado nativamente (merge_audio=true). Identidade tem que vir 100% da foto e movimentos do vídeo casual.

B — Replace (sobre Luma Ray3)

Input: luma-ray3-result.mp4 (cenário e movimento ótimos, mas com a feição alterada) + headshot Pedro. Output: 11s, sem áudio (Luma source não tem). Tenta resolver o problema "Luma mudou o rosto" colando o Pedro real sobre o vídeo Luma.

✓ Pontos fortes

  • Open-source (Apache 2.0) — pode self-hostar no futuro
  • Animation merge áudio do source nativamente
  • Replace usa SAM2 para segmentação precisa
  • Sem content filter restritivo
  • Custo competitivo ($0.20-0.50)

✗ Pontos fracos

  • Tempo de processamento maior (~10 min Animation)
  • Replace não tem áudio se o source não tem
  • Qualidade depende muito da iluminação da foto-alvo
  • Lipsync no Animation pode ficar levemente off

LatentSync 1.6 (ByteDance) — pós-processo de lipsync

★ Pós-processo
Custo~$0.05
Tempo~1-2 min
Funçãolipsync
Áudioaplica áudio externo
MétodoAPI (Replicate)

Como funciona: recebe vídeo + áudio e re-sincroniza a boca do vídeo pra bater exatamente com o áudio fornecido. Usado como pós-processo sobre o melhor output do Wan 2.2 Animate (a versão Animation, que já tem áudio do Pedro), para corrigir qualquer dessincronia labial residual.

Pipeline final candidata: Foto Pedro → FLUX Kontext (headshot pro) → Wan 2.2 Animate Animation (cenário + movimentos + áudio merged) → LatentSync (lipsync corrigido). Custo total estimado: ~$0.30-0.60 por vídeo. Tudo via Replicate, escalável.

✓ Pontos fortes

  • Resolve o "boca dessincronizada" residual
  • Custo praticamente irrelevante ($0.05)
  • Aplica áudio real do Pedro com lipsync correto
  • Pode ser plugado em qualquer pipeline

✗ Pontos fracos

  • Só corrige boca, não o resto da identidade
  • Pode introduzir leve borrão na região oral
  • Precisa do áudio extraído antes (ffmpeg)

📊 Resumo & Recomendação

O que mudou desde a rodada 2: entraram Wan 2.2 Animate (2 modos) e LatentSync. Wan 2.2 Animate é a primeira opção do benchmark que faz performance capture real via API — equivalente conceitual ao Act-Two do Runway, mas open-source e escalável. LatentSync entra como pós-processo de lipsync, prometendo corrigir o último ponto fraco que sobrava (boca dessincronizada quando a IA altera a fala).

Caminho técnico mais promissor agora: pipeline Foto Pedro → FLUX Kontext (headshot pro) → Wan 2.2 Animate Animation (cenário + movimentos + áudio do Pedro merged) → LatentSync (lipsync corrigido). Cobre os 4 requisitos: identidade visual, voz real, movimentos preservados e cenário profissional. Custo total ~$0.30-0.60/vídeo, ~10 min total.

Caminhos alternativos: Luma Ray3 + ffmpeg + Magic Hour continua viável se Wan Animation deixar resíduos visuais. Kling 2.6 Motion Control fica como baseline mais barato e estável.

🎯 Recomendação técnica (a confirmar com inspeção visual)

1ª opção pro MVP: FLUX Kontext + Wan 2.2 Animate Animation + LatentSync. Tudo open-source via Replicate, escalável, ~$0.40/vídeo, áudio real preservado, identidade da foto-alvo.

2ª opção / fallback: Luma Ray3 + ffmpeg + Magic Hour face swap. Cenário Luma é o melhor visualmente, ~$1/vídeo.

3ª opção / barato: Kling 2.6 Motion Control. Motion transfer puro, $0.30/vídeo, sem cenário gerado nem áudio nativo.

Investigar mais: Wan Replace (substituir Pedro dentro do Luma Ray3) pode ser combo interessante — cenário de vídeo Luma + identidade Pedro real + áudio merged via ffmpeg.

Descartar: Veo 3 (voz sintética). Runway Act-Two segue inviável sem API pública.

⚠️ Decisão pendente: compare lado a lado Wan Animation, Wan Replace, LatentSync e a melhor variante Luma. Critérios: (a) a feição realmente parece o Pedro? (b) a sincronia labial bate com o áudio? (c) o cenário é convincente? (d) tem artefato perceptível? A pipeline Wan Animation + LatentSync é a candidata mais limpa em arquitetura — todas peças open-source via Replicate.