¡Sincronización de Labios Automática con IA!
LTX-2.3 es un modelo de video generativo de código abierto (licencia Apache 2.0) desarrollado por Lightricks que genera videos con sincronización labial automática de hasta 20 segundos en resolución 4K. El workflow completo — Z-Image para imagen inicial, LTX-2.3 para generación, WanAnimate para movimiento — permite crear contenido de calidad profesional sin depender de herramientas SaaS caras.
En 30 segundos
- LTX-2.3 genera videos de hasta 20 segundos en 4K con lip-sync automático, completamente open source bajo Apache 2.0
- El workflow Z-Image → LTX-2.3 → WanAnimate es semi-automatizado y típicamente se implementa en ComfyUI
- Soporta 175+ idiomas incluyendo español con acento argentino, con mejoras en precisión de lip-sync vs versiones anteriores
- Requiere GPU potente (RTX 3090 mínimo) y genera un video 4K de 20 segundos en 20-40 segundos (con modelo cargado)
- Alternativa gratuita y personalizable a herramientas SaaS como HeyGen o Cuzi AI, con control total y sin límites de créditos
Qué es LTX-2.3 y por qué importa para el lip-sync open source
LTX-2.3 es un modelo de generación de video desarrollado por Lightricks, disponible bajo licencia Apache 2.0, que genera videos con sincronización labial automática entre el audio y el movimiento de boca. La novedad no es que exista lip-sync (HeyGen lo hace hace años), sino que vos podés correrlo localmente sin pagar créditos mensuales ni depender de un servidor remoto.
La mejora en la versión 2.3 respecto a versiones anteriores es notable: mejor nitidez visual (menos borrosidad en los bordes), lip-sync más preciso (menos desfases entre audio y movimiento labial), y audio más limpio sin el ruido típico de síntesis anterior. Si testeaste LTX 2.0 y te pareció mediocre, acá safó bastante.
Lo importante es que esto abrió un mercado de workflows comunitarios. Geekatplay Studio ofrece workflows listos en GitHub con nodos pre-configurados, y la comunidad de ComfyUI —que ya es amplia en Argentina y Latinoamérica— empezó a armarlos. No necesitás ser programador para armar el pipeline.
El workflow completo: Z-Image → LTX-2.3 → WanAnimate
El pipeline tiene tres pasos y vos podés saltar algunos si querés (aunque te pierdés funcionalidad). Arrancá entendiendo qué hace cada etapa.
Paso 1 — Z-Image (generación de imagen): subís un prompt en texto (o una imagen) y Z-Image te devuelve una imagen fotorrealista de alta calidad. Ponele que querés la cara de una persona con expresión neutra — Z-Image te la genera. Está disponible en Hugging Face como demo gratis y también podés correrlo localmente. La imagen que genera es tu “seed” inicial.
Paso 2 — LTX-2.3 (generación de video con lip-sync): alimentás la imagen del paso 1 (o una tuya) más un audio, y LTX-2.3 genera un video donde la boca de la persona se mueve sincronizada con el audio. Acá es donde pasó lo mágico: durante entrenamiento, Lightricks metió suficientes datos de audio-video sincronizado para que el modelo aprenda la correspondencia fonema → movimiento labial. Según el blog oficial, soporta 175+ idiomas incluyendo español con acento argentino, lo que para nosotros en Latinoamérica es importante.
Paso 3 — WanAnimate (post-processing de movimiento): si la persona se veía demasiado quieta (la boca se mueve pero el resto del cuerpo está congelado), WanAnimate puede agregar movimiento corporal y gestos para que no parezca un busto parlante. Esto es opcional pero te da videos más naturales.
El flujo típico: generás la imagen, cortás el audio en segmentos (para que LTX-2.3 no trate de sincronizar un video de 20 segundos de una sola pasada — no soporta más), mandás cada segmento a LTX-2.3, y al final pegás los clips. Geekatplay incluye nodos para audio slicing automático.
Cómo implementar en ComfyUI
ComfyUI es, de facto, la plataforma estándar para workflows con modelos open source de generación de contenido. Si nunca tocaste ComfyUI, hay tutoriales paso a paso en Dev.to, pero la versión corta es: ComfyUI es un nodo de programación visual donde conectás entrada → procesamiento → salida.
Los pasos básicos:
- Instalá ComfyUI (gratis, open source)
- Descargá los custom nodes de Geekatplay Studio desde GitHub (audio slicing, storyboard scheduling, waveform timing)
- Cargá el workflow de LTX-2.3 + lip-sync desde el repo oficial
- Conectá tu imagen inicial, audio, y dejá que el workflow corra
- La imagen y audio entran al nodo LTX-2.3; sale el video generado
Eso es. Si querés agregar WanAnimate, se conecta después de LTX-2.3 en la pipeline (aunque esto suma tiempo de procesamiento). Más contexto en ejecutar herramientas sin depender de APIs externas.
Precisión del lip-sync: qué tanta confianza podés tener
Acá es donde la gente se hace muchas preguntas. ¿Realmente genera lip-sync preciso o es un espectáculo de efectos ópticos?
LTX-2.3 fue entrenado específicamente para mejorar sincronización audio-video, así que (a diferencia de modelos anteriores que trataban el audio como una entrada secundaria) acá el lip-sync es un objetivo explícito. Los reportes de usuarios en WaveSpeed AI señalan que la sincronización es notablemente mejor que LTX 2.0, con menos “labios fantasma” (cuando la boca se mueve sin sonido) y menos artefactos al cambiar fonemas.
Ahora bien, ojo: si grabas un video de alguien hablando en persona y lo comparás pixel por pixel con lo que genera LTX-2.3, vas a encontrar diferencias. La boca se mueve, pero no es una recreación exacta de cómo tu boca se movería en ese idioma específico con tu acento específico. Dicho esto, para la mayoría de aplicaciones (avatares de video marketing, tutoriales, presentaciones) es indistinguible. El usuario promedio que ve el video no detecta desfase.
Si comparás LTX-2.3 con herramientas SaaS como HeyGen (que cuesta USD 15/mes mínimo) o Cuzi AI, LTX-2.3 anda en la misma liga de precisión, con la ventaja de que corres localmente sin límites de créditos.
Open source vs SaaS: cuándo cada uno tiene sentido
Acá viene la decisión pragmática. No es blanco y negro.
Elegís open source (LTX-2.3 + ComfyUI) si:
- Tenés una GPU potente en casa o en tu agencia (RTX 3090, RTX 4090, A100). Si tenés eso, el costo marginal es cero después de la inversión inicial
- Generás videos con frecuencia (si hacés 3+ videos por semana, el payback del tiempo de setup se recupera rápido)
- Necesitás personalización: cambiar el modelo base con LoRA, ajustar prompts, integrar con otros workflows
- Preferís control total: datos locales, sin depender de APIs remotas, sin riesgo de que mañana suba el precio de HeyGen
Elegís SaaS (HeyGen, Cuzi AI) si:
- No tenés GPU o no querés invertir en hardware
- Generás pocos videos (1-2 por mes). El costo monetario es bajo y la fricción de configuración no vale la pena
- Necesitás interfaz simple: subís una imagen, elegís una voz, presionás generar, listo
- No querés troubleshooting técnico: si algo falla en ComfyUI, tenés que debuggearlo vos
Para usuarios en Latinoamérica específicamente: si sos content creator (YouTube, TikTok) con setup técnico semi-decente, LTX-2.3 es un golazo. Si sos empresa chica sin equipo de DevOps, HeyGen es más tranquilo.
Personalización: LoRA fine-tuning y workflows customizados
Una ventaja gigante de código abierto es que podés entrenar tu propio modelo (o al menos un adapter) con datos específicos. Cubrimos ese tema en detalle en validar código abierto y verificar fuentes.
LTX-2.3, siendo fully open source, soporta LoRA fine-tuning. ¿Qué significa eso en términos prácticos? Ponele que sos una agencia de publicidad y querés que todos tus avatares de video tengan un estilo visual específico (cierto tipo de iluminación, cierta estética). Vos podés:
Coleccionar 50-100 ejemplos de videos con ese estilo, hacer fine-tuning de un LoRA sobre LTX-2.3, y después cuando generés videos nuevos, el modelo tiende a ese estilo automáticamente. No es perfecto, pero es un ganador.
Además, Geekatplay ofrece custom nodes para ComfyUI que incluyen rotación de prompts, scheduling de múltiples clips en una sola pasada, y loop rendering. Eso significa que podés automatizar cosas que en SaaS te obligaría a hacer manualmente clip por clip.
Límites técnicos que tenés que conocer
No todo es color de rosa. Hay límites técnicos reales.
GPU: RTX 3090 o superior recomendado. Si tenés RTX 3060 o más débil, podés usar quantización fp8 (el modelo carga en precisión reducida) pero los tiempos de generación se disparan 2-3x. A100 es el ideal pero está fuera del alcance de la mayoría.
Tiempos de generación: Un video 4K de 20 segundos tarda 20-40 segundos en generarse si el modelo ya está cargado en VRAM. La primera generación del día es más lenta (~90 segundos) porque CUDA necesita compilar kernels. Para producción, eso es manejable; para workflows muy iterativos (probá esto, ajustá aquello, regenerá), es lento.
Duración máxima: 20 segundos por video. Si necesitás un video de 5 minutos, cortás en segmentos de 20 segundos y pegás. ComfyUI puede automatizar esto, pero hay overhead.
Resolución máxima: 4K (3840×2160). En realidad podés pedir más pero la RAM de VRAM se vuelve prohibitiva. Relacionado: optimizar estos procesos con tu GPU.
Memoria: ~20 GB de VRAM para la ejecución confortable (inference + buffers intermedios). Con quantización fp8 bajás a ~12 GB pero con degradación de calidad.
Alternativas open source: cuándo usar cada una
LTX-2.3 no es la única herramienta open source de video generativo. Hay alternativas específicas para casos de uso diferentes.
| Herramienta | Caso de uso | Duración máxima | Requisitos GPU | Lip-sync | Personalización |
|---|---|---|---|---|---|
| LTX-2.3 | Avatares con lip-sync preciso, videos de presentación | 20 seg | RTX 3090+ | Sí, 175+ idiomas | LoRA, custom nodes |
| WanAnimate 2.2 | Motion transfer, animación corporal | 14 seg | RTX 4090 / A100 | No (generativo, no sync) | LoRA fine-tuning |
| VideoCrafter | Videos cinematográficos, efectos visuales | 8 seg | RTX 3080+ | No | Prompts, seeds |
| CogVideoX-5B | Videos rápidos con recursos limitados | 6 seg | RTX 3060 (fp8) | No | Prompts |

Si necesitás lip-sync, LTX-2.3 es tu opción. Si necesitás movimiento corporal pero sin audio sincronizado, WanAnimate es más ligero en VRAM. Si tenés muy pocos recursos, CogVideoX es lo tuyo pero aceptá videos cortos y básicos.
Preguntas Frecuentes
¿Puedo usar LTX-2.3 gratis?
Sí. El modelo es open source bajo Apache 2.0, así que podés descargarlo, instalarlo y usarlo sin pagar nada. Los costos reales son hardware (tu GPU) y electricidad. Las demos en línea (Hugging Face, etc) también son gratis pero con límites de computación.
¿Necesito ser programador para usar LTX-2.3?
No. ComfyUI es una interfaz visual (nodos que conectás con el mouse). Los workflows de Geekatplay vienen pre-armados, así que básicamente importás, configurás parámetros, y das play. Dicho esto, si algo falla, ayuda tener nociones técnicas para debuggear. En encontrar proyectos en repositorios abiertos profundizamos sobre esto.
¿Qué pasa si genero un video para venderlo comercialmente?
Apache 2.0 permite uso comercial. Podés vender videos generados sin royalties. Lo único que no podés hacer es vender el código del modelo en sí como producto. Pero un video que generaste es tuyo.
¿LTX-2.3 realmente genera lip-sync más preciso que versiones anteriores?
Sí. Lightricks hizo cambios arquitectónicos en 2.3 (entrenamiento enfocado en audio-video sync) que redujeron desfases. No es perfección absoluta pero es notablemente mejor que LTX 2.0, especialmente en idiomas latinos como el español.
¿Cuáles son las alternativas SaaS si no quiero correr GPU localmente?
HeyGen (USD 15/mes mínimo), Cuzi AI, Synthesia. Todos ofrecen lip-sync pero con interfaz web, sin necesidad de GPU local. Son más lentos en iteración pero más simples de usar. Cuzi AI tiene dashboard en español, lo que facilita uso en Latinoamérica.
Conclusión
LTX-2.3 cambió algo importante: demos a la gente con GPU que puede generar avatares de video con lip-sync sin pagar suscripción mensual. El workflow Z-Image → LTX-2.3 → WanAnimate es semi-automatizado y corre enteramente en tu máquina.
¿Eso significa que SaaS está muerto? No. Para usuarios sin GPU o que generan pocos videos, HeyGen sigue siendo más rápido. Pero para agencias, content creators, y equipo técnico que corre infraestructura propia, LTX-2.3 es ahora la opción por defecto.
Lo interesante es que Lightricks abrió código, y la comunidad (Geekatplay, WavespeedAI) inmediatamente empezó a armar herramientas alrededor. Eso es cómo funciona el ecosistema open source: release el modelo, la comunidad lo hace útil. Si tu caso de uso es avatar con lip-sync preciso y tenés GPU disponible, vale la pena al menos testear el workflow. Ponele una hora de setup y sabés si te sirve.






