Cómo hacer vídeos de producto con IA sin deformar el producto

June 15, 2026

La deformación ocurre porque el modelo está adivinando. Dále una imagen fuente limpia, mantén el movimiento pequeño, genera varias tomas y elige la más limpia. Ese es el sistema completo.

Por qué los productos se deforman en el vídeo con IA

Los modelos de vídeo con IA no entienden que tu etiqueta es una etiqueta. Ven píxeles. Cuando esos píxeles se mueven —porque pediste rotación, un empuje de cámara o movimiento atmosférico— el modelo redistribuye los píxeles fotograma a fotograma. El texto y los logotipos son lo más difícil de preservar porque las formas de las letras son precisas: un desplazamiento de un píxel en el borde de una letra parece un manchurrón.

La causa raíz es la combinación de dos factores: la complejidad visual de la imagen fuente y demasiado movimiento solicitado. Cuanto más compleja sea la etiqueta, más tiene que reconstruirla el modelo fotograma a fotograma. Cuanto más movimiento pidas, más fotogramas tiene que reconstruir.

Los distintos tipos de producto se deforman de maneras distintas. Conocer el tipo de producto te dice dónde enfocar el esfuerzo.

Botellas y latas son cilíndricas. La etiqueta se enrolla alrededor de una curva y el modelo la calcula mal de fotograma en fotograma. Incluso una rotación de 30 grados revela área de etiqueta que no estaba en el fotograma original —el modelo la inventa, y rara vez es preciso.

El envasado plano —cajas, cartones— se comporta de manera diferente. Las esquinas duras se desplazan y las líneas rectas desarrollan una leve curva. Menos dramático que los cilíndros, pero aún visible en inspección cercana.

El envasado flexible (bolsas, bolsas de pie, envoltorios de mylar) produce la peor deformación en general. No hay estructura rígida para que el modelo se ancle, así que la superficie se deforma de manera impredecible. Para el envasado flexible, el método compuesto —bloquear el producto, animar la escena— es casi siempre el enfoque correcto.

Empieza con la imagen fuente correcta

La imagen fuente es la palanca más importante. Una entrada más fuerte produce una salida más estable.

Opción A — Usa tu propia foto del producto: Dispara de frente o con un ligero ángulo de tres cuartos, etiqueta completamente en cuadro, al menos 1080×1080px, bien iluminado sin sombras duras que dividan la etiqueta. Un fondo neutro o liso mantiene la atención del modelo en el producto.

Opción B — Genera primero la imagen del producto: Esto a menudo produce resultados de animación más limpios que usar una foto real. Usa GPT Image 2 o Nano Banana Pro para este paso.

GPT Image 2 maneja texto y logotipos mejor que la mayoría de los generadores de imágenes. Cuando tu etiqueta tiene tipografía específica, usa un prompt como: «foto de producto de una botella de vidrio negro con una etiqueta minimalista blanca que dice ‘MINERAL WATER’, de frente, fondo blanco, iluminación de estudio, bordes nítidos, sin reflejos.» Describe el texto de la etiqueta exactamente como debe aparecer.

Nano Banana Pro es la mejor opción cuando necesitas consistencia con múltiples referencias. Acepta hasta nueve imágenes de referencia y genera en 4K, guardándose directamente en Activos. Úsalo cuando la consistencia de marca en una línea de producto importa más que generar desde cero.

Guía por tipo de producto

El enfoque que funciona para una lata de bebida no es el mismo que funciona para una bolsa de mylar. Aquí está qué hacer para cada categoría de producto principal.

Bebidas (botellas, latas): Genera un still de estudio limpio con GPT Image 2 para cualquier etiqueta con texto específico. Describe el movimiento como «producto sostenido por una fuerza atmosférica suave, ligera rotación (máximo 15 grados), condensación formándose, luz lateral cálida». Mantén la rotación en 15 grados o menos. Para latas con etiquetas envolventes, mantén el plano frontal.

Cosméticos (tubos, cajas, compactos): Las superficies de caja plana aguantan mejor que los tubos cilíndricos. Genera con un ligero ángulo de 3/4 y escribe «sin rotación, suave desplazamiento en paralaje». Para compactos y paletas, los planos con la tapa abierta animan bien. Escribe «producto permanece abierto, cámara push lento, la luz cambia».

Alimentos envasados (bolsas, bolsas de pie, envoltorios): El envasado flexible es el que más se deforma. Usa el método compuesto: anima la escena de fondo, compone la imagen del producto como un still bloqueado encima. El producto nunca se mueve, así que no hay nada que deformar. Para productos en caja rígida —cereales, cajas de pasta, latas de té— tratálos como envasado plano.

Ropa y textiles: El desafío aquí no es la estabilidad de la etiqueta —es el comportamiento natural del tejido. Escribe «oleteo suave del tejido, luz natural, ligera brisa». Mantén el movimiento ligero.

Mantén el movimiento pequeño

Image to Video con Seedance 2.0 te da el máximo control sobre el movimiento. El prompt que escribes para el movimiento importa tanto como la imagen fuente.

Un prompt de movimiento pequeño y específico deja menos que el modelo adivine. Un prompt vago o ambicioso significa más interpolación, y más interpolación significa más oportunidades para que la etiqueta se desplace.

Cuatro prompts de movimiento del más seguro al más arriesgado:

Seguro: «empuje lento de frente, producto centrado, cambio suave de luz de estudio, sin movimiento de fondo»

Seguro: «el producto rota suavemente 15 grados a la izquierda, luz cálida desde la derecha, la cámara se queda quieta»

Moderado: «una gota de condensación se forma lentamente en la superficie de la botella, vapor atmosférico en el fondo, la cámara se queda quieta»

Evitar: «el producto gira 360 grados completos, zoom dramático hacia la etiqueta»

Observa que los prompts más seguros mueven la luz, no el producto. La atmósfera hace más trabajo visual que la rotación.

Palabras de prompt de movimiento que ayudan vs. que dañan

Palabras que ayudan a la estabilidad: «slow», «gentle», «holds still», «no movement», «camera holds», «subtle», «atmospheric», «light shift», «parallax», «condensation», «steam».

Estas indican al modelo que el movimiento mínimo es aceptable —que la calidad viene de la escena, no del movimiento. Un prompt construido principalmente con estas palabras siempre es el punto de partida más seguro.

Palabras que dañan la estabilidad: «spin», «rotate», «360», «full rotation», «swipe», «zoom in fast», «dramatic», «tilt».

Estas piden al modelo que muestre el producto desde ángulos que no se le dieron en la imagen fuente. El modelo tiene que extrapolar cómo se ve la etiqueta desde esos nuevos ángulos, y adivina.

La distinción no es sobre la palabra en sí. Es sobre si el prompt pide al modelo que invente área de etiqueta que nunca vio. «Rotación lenta 10 grados» es más seguro que «rotación 45 grados» porque 10 grados se mantiene mayormente dentro del cuadro fuente.

Neutro pero útil: «slow push in», «gentle drift», «product centered», «camera holds». Combinástos con un elemento atmosférico específico —«condensation», «steam», «light shift»— y le das al modelo algo que renderizar mientras mantienes el producto estable.

Genera variaciones y elige la mejor

Una generación es una prueba, no un resultado final. Genera cuatro a seis tomas del mismo prompt, luego revísalas contra una lista de comprobación consistente antes de elegir.

Qué comprobar, fotograma a fotograma:

Fotograma 1: ¿La etiqueta es completamente legible? Compara el peso de la fuente y el espacio entre letras con tu imagen fuente. Cualquier desenfoque aquí significa que la generación ya es inestable.
Fotogramas 5–10: ¿La silueta se ha desplazado? Una botella que se ensancha a mitad de clip, una lata que cambia de proporciones o una tapa que cambia de posición es un descarte.
Último fotograma: ¿El logotipo aún coincide con tu logotipo? Las formas de las letras deben ser consistentes con el fotograma uno.
Durante todo el clip: ¿Los bordes duros —tapas, costuras, bordes de etiqueta— se mantienen nítidos, o se están desenfocando y parpadeando?

El objetivo es encontrar una toma donde el producto se vea idéntico en el fotograma uno y en el último fotograma.

Sobre Modo Relax: Los planes Estándar ($19,59/mes) y Pro ($48,99/mes) incluyen Modo Relax, que te permite generar sin gastar créditos. Trata el Modo Relax como tu cola de pruebas —ejecuta tu primer lote ahí, identifica qué funciona, y gasta créditos en la versión refinada. Ver detalles del plan actual.

Cuando todas las tomas se deforman: diagnóstico

Si generas seis tomas y todas se deforman, el problema se puede diagnosticar. Trabaja en este orden.

Las seis se deforman en el mismo punto del clip: La imagen fuente tiene un borde o detalle que el modelo no puede mantener. Solución: simplifica la imagen fuente. Si estás usando una foto real del producto, cambia a una imagen generada con GPT Image 2.

Algunas tomas se deforman más que otras: El prompt de movimiento está en el límite. Elige la toma con menos deformación y reduce la intensidad de movimiento un paso. Pequeñas reducciones de movimiento a menudo producen grandes mejoras en estabilidad.

Solo uno o dos de seis se deforman: Es normal. Esos son tus descartes. No necesitas seis clips estables —necesitas uno.

La deformación solo ocurre en los últimos fotogramas: El modelo empezó estable pero se desvió a medida que la generación se extendió. Prueba una generación más corta, o compone los últimos segundos con un fotograma still bloqueado de la imagen fuente.

Bloquea el producto, anima la escena

Cuando el producto es complejo —etiqueta densa, acabado en papelámina, múltiples tipografías— la opción más limpia es no animar el producto en absoluto. En su lugar, anima todo lo que hay a su alrededor.

El flujo de trabajo específico:

Genera un entorno de fondo usando Image to Video o un still usando GEN Image. Por ejemplo: encimera de mármol, superficie de madera, fondo de estudio con degradado suave.
Exporta tu imagen del producto con fondo transparente usando la herramienta de Eliminación de Fondo.
Anima el entorno de fondo —desplazamiento lento, cambio de luz, vapor atmosférico, bokeh de profundidad de campo superficial.
Compone el producto estático sobre el fondo animado en CapCut o Premiere Pro. El producto nunca se mueve, así que no hay nada que deformar.

El resultado se lee como un vídeo de producto premium. El movimiento viene de la escena, no del SKU.

Mejorar y exportar

Antes de la exportación final, pasa el clip por el Mejorador de video para una salida de hasta 4K. Mejorar después de la generación te da bordes más nítidos en la etiqueta sin la inestabilidad que viene de la generación de alta resolución con mucho movimiento.

Si quieres controlar cómo evoluciona el plano a lo largo de un clip más largo, usa Fotogramas a video. Proporciona dos fotogramas clave —un fotograma de apertura y uno de cierre— y deja que el modelo interpole entre ellos.

Formato de exportación: 9:16 para redes sociales, 16:9 para colocaciones web y anuncios, 1:1 para miniaturas de listados de productos.

Preguntas frecuentes

¿Por qué los logotipos y las etiquetas se distorsionan en el vídeo con IA?

Los modelos de vídeo con IA funcionan redistribuyendo píxeles entre fotogramas, no comprendiendo lo que significa un logotipo. El texto y las formas de las letras son precisos: un pequeño desplazamiento se lee como distorsión. La solución es una imagen fuente más limpia, menor intensidad de movimiento y generar múltiples tomas para encontrar la salida estable.

¿Cuál es la mejor foto de producto para una animación con IA estable?

De frente, etiqueta completa visible, mínimo 1080×1080px, fondo neutro, sin sombras duras que dividan la etiqueta. Una imagen de producto generada con GPT Image 2 o Nano Banana Pro a menudo funciona mejor que una foto real porque empieza más limpia.

¿Cómo arreglo un clip donde el envasado se deforma a mitad del clip?

Descártalo y vuelve a generar. Vuelve a la imagen fuente: simplifica el fondo, cambia a un ángulo frontal y reduce el prompt de movimiento. Genera cuatro a seis tomas. Si todas se desviarón, la imagen fuente es el problema.

¿Cuánto puede durar un vídeo de producto con IA?

Las generaciones estándar de vídeo con IA son típicamente de cuatro a seis segundos. Para clips más largos, usa Fotogramas a video con dos fotogramas clave e interpolación, o une varias tomas en CapCut o Premiere Pro.

¿Necesito un plan de pago para generar múltiples tomas?

El plan gratuito incluye créditos iniciales. Los planes Estándar ($19,59/mes) y Pro ($48,99/mes) incluyen Modo Relax, que te permite generar sin gastar créditos.

¿Qué productos son más difíciles de animar sin deformación?

El envasado flexible —bolsas, bolsas de pie, envoltorios de mylar— y las etiquetas envolventes con mucho texto son los más difíciles. Usa el método compuesto: anima la escena, mantén el producto como un still bloqueado sobre un fondo transparente.

¿Puedo animar un producto con fondo transparente?

Sí. Genera el still del producto con fondo transparente usando GPT Image 2. Animálo con Image to Video, luego compónlo en CapCut o Premiere Pro sobre cualquier fondo que quieras.

Prueba DomoAI gratis —sin tarjeta de crédito. Planes de pago desde $6,99/mes facturado anualmente.

Artículos recientes

Cómo hacer un video de ti mismo con IA: la forma más fácil que funciona

March 4, 2026

Cómo hacer vídeos alucinantes con IA: la forma más fácil

March 4, 2026

La revolución de Ghibli: cómo GPT-4o está transformando la generación de imágenes con IA

July 23, 2026