Comment faire des vidéos produit IA sans déformer le produit

June 15, 2026

La déformation arrive parce que le modèle devine. Donnez-lui une image source propre, gardez le mouvement petit, générez plusieurs prises, et choisissez la plus propre. C'est tout le système.

Pourquoi les produits se déforment dans la vidéo IA

Les modèles vidéo IA ne comprennent pas que votre étiquette est une étiquette. Ils voient des pixels. Quand ces pixels bougent — parce que vous avez demandé une rotation, une poussée caméra, ou un mouvement atmosphérique — le modèle les redistribue image par image. Le texte et les logos sont les plus difficiles à préserver parce que les formes de lettres sont précises : un décalage d'un seul pixel sur le bord d'une lettre ressemble à un flou.

La cause principale est la combinaison de deux facteurs : la complexité visuelle dans l'image source plus trop de mouvement demandé. Plus l'étiquette est complexe, plus le modèle doit la reconstruire d'une image à l'autre. Plus vous demandez de mouvement, plus il y a d'images à reconstruire.

Les différentes formes de produits se déforment différemment. Connaître votre type de produit vous dit où concentrer votre effort.

Les bouteilles et les canettes sont cylindriques. L'étiquette s'enroule autour d'une courbe, et le modèle recalcule mal cette courbe d'une image à l'autre. Même une rotation de 30 degrés révèle de la zone d'étiquette qui n'était pas dans le cadre original — le modèle l'invente, et c'est rarement précis.

L'emballage plat — boîtes, cartons — se comporte différemment. Les coins durs dérivent et les lignes droites développent une légère courbe. Moins spectaculaire que les cylindres, mais toujours visible à l'inspection rapprochée.

L'emballage souple (sachets, sacs debout, emballages mylar) produit la pire déformation globale. Il n'y a pas de structure rigide sur laquelle le modèle peut s'ancrer, donc la surface se déforme de façon imprévisible. Pour l'emballage souple, la méthode composite — verrouiller le produit, animer la scène — est presque toujours la bonne approche.

Commencer avec la bonne image source

L'image source est le levier le plus important. Une entrée plus forte produit une sortie plus stable.

Option A — Utilisez votre propre photo produit : Photographiez de face ou à un léger angle trois-quarts, étiquette entièrement dans le cadre, au moins 1080×1080px, bien éclairé sans ombres dures coupant l'étiquette. Un fond neutre ou uni garde l'attention du modèle sur le produit.

Option B — Générez d'abord l'image produit : Cela produit souvent des résultats d'animation plus propres qu'avec une vraie photo. Utilisez GPT Image 2 ou Nano Banana Pro pour cette étape.

GPT Image 2 gère mieux le texte et les logos que la plupart des générateurs d'images. Quand votre étiquette a une typographie spécifique, utilisez un prompt comme : « photo produit d'une bouteille en verre noir avec une étiquette minimaliste blanche portant 'MINERAL WATER', de face, fond blanc, éclairage studio, bords nets, sans reflets. » Décrivez le texte de l'étiquette exactement comme il doit apparaître.

Nano Banana Pro est le meilleur choix quand vous avez besoin d'une cohérence multi-référence. Il accepte jusqu'à neuf images de référence et sort en 4K, en sauvegardant directement dans les Assets. Utilisez-le quand la cohérence de marque sur une ligne de produits importe plus que générer de zéro.

Guide par type de produit

L'approche qui fonctionne pour une canette de boisson n'est pas la même que celle qui fonctionne pour un sachet mylar. Voici quoi faire pour chaque catégorie majeure de produit.

Boissons (bouteilles, canettes) : Générez une image studio propre avec GPT Image 2 pour toute étiquette avec du texte spécifique. Promptez le mouvement comme « produit maintenu par une force atmosphérique douce, légère rotation (15 degrés max), condensation se formant, lumière latérale chaude. » Gardez la rotation à 15 degrés ou moins. Pour les canettes avec des étiquettes enveloppantes, restez de face.

Cosmétiques (tubes, boîtes, compacts) : Les surfaces de boîtes plates tiennent mieux que les tubes cylindriques. Générez à un léger angle 3/4 et promptez « pas de rotation, dérive parallaxe douce. » Pour les compacts et palettes, les prises à couvercle ouvert s'animent bien. Promptez « le produit reste ouvert, poussée lente de caméra, lumière qui change. »

Alimentation emballée (sacs, sachets, emballages) : L'emballage souple se déforme le plus. Utilisez la méthode composite : animez la scène de fond, composez l'image produit en tant qu'image fixe verrouillée par-dessus. Le produit ne bouge jamais, donc il n'y a rien à déformer. Pour les produits en boîte rigide — céréales, boîtes de pâtes, boîtes de thé — traitez-les comme un emballage plat.

Vêtements et textiles : Le défi ici n'est pas la stabilité de l'étiquette — c'est le comportement naturel du tissu. Promptez « léger battement de tissu, lumière naturelle, légère brise. » Gardez le mouvement léger.

Garder le mouvement petit

Image to Video avec Seedance 2.0 vous donne le plus de contrôle sur le mouvement. Le prompt que vous écrivez pour le mouvement compte autant que l'image source.

Un petit prompt de mouvement spécifique laisse moins à deviner au modèle. Un prompt vague ou ambitieux signifie plus d'interpolation, et plus d'interpolation signifie plus d'opportunités pour que l'étiquette dérive.

Quatre prompts de mouvement allant du plus sûr au plus risqué :

Sûr : « poussée lente de face, produit centré, douce variation lumière studio, pas de mouvement de fond »

Sûr : « produit tourne doucement de 15 degrés à gauche, lumière chaude depuis la droite, caméra reste fixe »

Modéré : « goutte de condensation se forme lentement sur la surface de la bouteille, vapeur atmosphérique en fond, caméra fixe »

À éviter : « produit tourne à 360 degrés, zoom dramatique sur l'étiquette »

Remarquez que les prompts les plus sûrs bougent la lumière, pas le produit. L'atmosphère fait plus de travail visuel que la rotation.

Mots de prompt de mouvement qui aident vs. nuisent

Mots qui aident la stabilité : « slow », « gentle », « holds still », « no movement », « camera holds », « subtle », « atmospheric », « light shift », « parallax », « condensation », « steam ».

Ces mots signalent au modèle qu'un mouvement minimal est acceptable — que la qualité vient de la scène, pas du mouvement. Un prompt construit principalement avec ces mots est toujours le point de départ le plus sûr.

Mots qui nuisent à la stabilité : « spin », « rotate », « 360 », « full rotation », « swipe », « zoom in fast », « dramatic », « tilt ».

Ces mots demandent au modèle de montrer le produit depuis des angles qui n'étaient pas dans l'image source. Le modèle doit extrapoler à quoi ressemble l'étiquette depuis ces nouveaux angles, et il devine.

La distinction n'est pas à propos du mot lui-même. C'est à propos de si le prompt demande au modèle d'inventer une zone d'étiquette qu'il n'a jamais vue. « Rotation lente 10 degrés » est plus sûr que « rotation 45 degrés » parce que 10 degrés reste principalement dans le cadre source.

Neutre mais utile : « slow push in », « gentle drift », « product centered », « camera holds ». Associez-les avec un élément atmosphérique spécifique — « condensation », « steam », « light shift » — et vous donnez au modèle quelque chose à rendre tout en gardant le produit stable.

Générer des variations et choisir la meilleure

Une génération est un test, pas un final. Générez quatre à six prises du même prompt, puis examinez-les par rapport à une liste de contrôle cohérente avant de choisir.

Ce qu'il faut vérifier, image par image :

Image 1 : L'étiquette est-elle entièrement lisible ? Comparez le poids de la police et l'espacement des lettres avec votre image source. Tout flou ici signifie que la génération est déjà instable.
Images 5–10 : La silhouette a-t-elle dérivé ? Une bouteille qui s'élargit au milieu du clip, une canette qui change de proportions, ou un capuchon qui change de position est un déchet.
Dernière image : Le logo correspond-il encore à votre logo ? Les formes de lettres doivent être cohérentes avec l'image un.
Tout au long : Les bords durs — capuchons, coutures, bordures d'étiquette — restent-ils nets, ou floutent-ils et clignotent-ils ?

L'objectif est de trouver une prise où le produit semble identique à l'image un et à la dernière image.

Sur le Mode Relax : Les plans Standard (19,59$/mois) et Pro (48,99$/mois) incluent le Mode Relax, qui vous permet de générer sans dépenser de crédits. Traitez le Mode Relax comme votre file d'attente de test — exécutez votre premier lot là, identifiez ce qui fonctionne, et dépensez des crédits sur la version affinée. Voir les détails actuels des plans.

Quand toutes vos prises se déforment : Diagnostic

Si vous générez six prises et que toutes se déforment, le problème est diagnosticable. Travaillez dans cet ordre.

Les six se déforment au même point du clip : L'image source a un bord ou un détail que le modèle ne peut pas maintenir. Correction : simplifiez l'image source. Si vous utilisez une vraie photo produit, passez à une image générée via GPT Image 2.

Certaines prises se déforment plus que d'autres : Le prompt de mouvement est à la limite. Prenez la prise la moins déformée et réduisez l'intensité du mouvement d'un cran. De petites réductions de mouvement produisent souvent de grandes améliorations de stabilité.

Seulement une ou deux sur six se déforment : C'est normal. Ce sont vos déchets. Vous n'avez pas besoin de six clips stables — vous en avez besoin d'un.

La déformation n'arrive que dans les dernières images : Le modèle a commencé stable mais a dérivé à mesure que la génération s'étendait. Essayez une génération plus courte, ou composez les dernières secondes avec une image fixe verrouillée de l'image source.

Verrouiller le produit, animer la scène

Quand le produit est complexe — étiquette dense, finition dorée, polices multiples — l'option la plus propre est de ne pas animer le produit du tout. Animez plutôt tout ce qui l'entoure.

Le workflow spécifique :

Générez un environnement de fond en utilisant Image to Video ou une image fixe avec GEN Image. Pensez : plan de travail en marbre, surface en bois, fond de studio dégradé doux.
Exportez votre image produit avec un fond transparent en utilisant l'outil Suppression d'arrière-plan.
Animez l'environnement de fond — dérive lente, variation de lumière, vapeur atmosphérique, bokeh à faible profondeur de champ.
Composez le produit statique sur le fond animé dans CapCut ou Premiere Pro. Le produit ne bouge jamais, donc il n'y a rien à déformer.

Le résultat se lit comme une vidéo produit premium. Le mouvement vient de la scène, pas du SKU.

Upscaler et exporter

Avant l'export final, passez le clip dans l'Améliorateur vidéo pour une sortie jusqu'en 4K. L'upscaling après génération vous donne des bords plus nets sur l'étiquette sans l'instabilité qui vient d'une génération haute résolution à mouvement élevé.

Si vous voulez contrôler comment le plan évolue sur un clip plus long, utilisez Images-clés en vidéo. Fournissez deux images-clés — une image d'ouverture et une image de fermeture — et laissez le modèle interpoler entre elles.

Format d'export : 9:16 pour le social, 16:9 pour les placements web et les publicités, 1:1 pour les miniatures de listing produit.

FAQ

Pourquoi les logos et les étiquettes se déforment-ils dans la vidéo IA ?

Les modèles vidéo IA fonctionnent en redistribuant les pixels d'une image à l'autre, pas en comprenant ce que signifie un logo. Le texte et les formes de lettres sont précis — un petit décalage se lit comme une déformation. La correction est une image source plus propre, une intensité de mouvement plus faible, et générer plusieurs prises pour trouver la sortie stable.

Quelle est la meilleure photo produit pour une animation IA stable ?

De face, étiquette entièrement visible, minimum 1080×1080px, fond neutre, pas d'ombres dures coupant l'étiquette. Une image produit générée via GPT Image 2 ou Nano Banana Pro fonctionne souvent mieux qu'une vraie photo parce qu'elle commence plus propre.

Comment corriger un clip où l'emballage se déforme en cours de clip ?

Jetez-le et régénérez. Revenez à l'image source : simplifiez le fond, passez à un angle de face, et réduisez le prompt de mouvement. Générez quatre à six prises. Si elles dérivent toutes, l'image source est le problème.

Quelle peut être la durée d'une vidéo produit IA ?

Les générations vidéo IA standard font typiquement quatre à six secondes. Pour des clips plus longs, utilisez Images-clés en vidéo avec deux images-clés et interpolation, ou assemblez plusieurs prises dans CapCut ou Premiere Pro.

Ai-je besoin d'un plan payant pour générer plusieurs prises ?

Le plan gratuit inclut des crédits initiaux. Les plans Standard (19,59$/mois) et Pro (48,99$/mois) incluent le Mode Relax, qui vous permet de générer sans dépenser de crédits.

Quels produits sont les plus difficiles à animer sans déformation ?

L'emballage souple — sachets, sacs debout, emballages mylar — et les étiquettes enveloppantes riches en texte sont les plus difficiles. Utilisez la méthode composite : animez la scène, gardez le produit comme image fixe verrouillée sur fond transparent.

Puis-je animer un produit avec un fond transparent ?

Oui. Générez l'image fixe du produit avec un fond transparent en utilisant GPT Image 2. Animez-la avec Image to Video, puis composez dans CapCut ou Premiere Pro sur n'importe quel fond souhaité.

Essayez DomoAI gratuitement — aucune carte de crédit requise. Plans payants à partir de 6,99$/mois facturés annuellement.

Articles récents

Le guide ultime de l'IA Wan et de ses meilleures alternatives en 2026

March 4, 2026

11 meilleures alternatives à Higgsfield AI pour les vidéos et le montage d'IA

March 4, 2026

L'IA dans les réseaux sociaux : outils, stratégies et guide du retour sur investissement pour 2025

May 6, 2026