Dossier Animation de Personnages : Le défi des visages expressifs

Savoir animer les expressions d'un visage virtuel est essentiel pour transcrire les émotions et établir les fondements d'une communication plus naturelle avec le spectateur ou l'interlocuteur humain, internaute ou joueur.

Deux techniques existent pour animer les visages : l'interpolation de formes de base et la déformation par points de contrôle. Dans le premier cas, on se crée une bibliothèque de variantes d'un même visage, décrivant les humeurs possibles du personnage virtuel, joie, tristesse, rire ou folie. L'animation se fera en définissant à chaque instant le pourcentage de chacune des formes de base ("blending shapes"), par exemple par le biais de courbes d'interpolation. Cette technique est particulièrement bien adaptée à un timing donné par une voix enregistrée. On définit à chaque image clef si le visage est souriant ou non, s'il prononce un O ou un A.

La deuxième technique s'appuie sur une structure de points (ou de lignes) qui en se déplaçant, vont entraîner les points du visage qui sont dans leur voisinage. Elle est indispensable en cas de saisie d'une animation faciale par "motion capture". Les positions des marqueurs placés sur le visage réel, une fois trackés, vont entraîner les points de contrôle. Ces deux techniques peuvent se combiner. On peut animer le bas d'un visage comprenant la bouche avec des interpolations de formes (pour transcrire les phonèmes de manière précise) et animer en revanche le haut du visage (en particulier les sourcils) par le déplacement de points de contrôle.

Les outils dédiés à la saisie réelle

Interpoler entre des formes de base n'est pas une technique spécifique à l'animation faciale, tout bon logiciel 3D en possède les fonctionnalités. En revanche, s'il s'agit d'utiliser astucieusement des données issues d'une capture réelle (mouvements de marqueurs ou vidéo), il est conseillé de s'appuyer sur un des outils dédiés existants. La société la plus renommée est Blaze International, en Australie, qui a développé une gamme de produits, Famous3D, spécialisés dans ce domaine. Leur produit phare, "Animator", importe une grande variété de formats de données issues de la capture de mouvements. L'utilisateur peint directement en 3D sur le visage virtuel les zones d'influence des différents capteurs. L'animation est ensuite générée automatiquement mais peut être modifiée manuellement par exemple pour être exagérée dans certaines parties. Vendu 5630 Euros, "Animator" exporte les scènes générées vers 3dsMAX, Maya, SoftImage et Lightwave mais seulement jusqu'à la 5.6. Les autres outils de la gamme Famous3D sont vTracker (1120 Euros), qui sait tracker des capteurs sur une vidéo de camescope et permet ainsi des saisies à moindre coût, et FaceAce, plugin de 3DS Max (558 Euros), qui se limite à la peinture 3D de zones de contrôle.

Une autre solution complète est proposée par la société allemande X-IST. L'outil de saisie, FaceTracker (11274 Euros), est constitué d'un casque comprenant une mini-caméra intégrée à l'extrémité d'un bras, située face au visage de l'acteur réel. Jusqu'à 36 capteurs peuvent être posés sur le visage et détectés. Le résultat final est correct et facile à mettre en œuvre mais limité car comme toutes les saisies vidéo, l'information de profondeur n'est pas saisie. Les données sont exportables vers de nombreux logiciels 3D Studio MAX, FilmBox, Famous, Artiface, Softimage, Maya et aussi vers l'outil d'animation faciale de X-IST, VuppetMaster. Cet outil, qui utilise des scènes 3DS Max, est vendu de son côté 16910 Euros. Il permet de régler en temps réel des animations faciales à partir de multiples sources de saisie d'animation aussi bien MIDI que par captures de mouvements optiques ou magnétiques. L'utilisation d'une console MIDI est une bonne solution pour animer manuellement en temps réel des visages. La société Puppet Works propose aussi sur ce principe, le produit Face Works (5100 Euros), constitué d'une console MIDI et d'un logiciel d'animation interfacé avec Maya. Elle commercialise aussi à 900 Euros, Voice Works, un plugin de lipsync ("lip synchronisation" ou synhronisation des bouches) à base de phonèmes pour Maya.

Autres produits d'animation faciale

Plusieurs autres produits plus basiques existent. "3d Me Now" de Bio Virtual permet de modéliser des visages réalistes à partir d'une ou deux photographies d'une tête réelle. Il est possible ensuite de les animer par interpolation et de générer automatiquement un lipsynch. Une version basique, avec peu d'exports, peut être achetée directement sur Internet à 56 euros. La version professionnelle, elle, coûte 2600 Euros. De manière similaire, la société LifeFX propose un package FaceXpress (2249 Euros), comportant un logiciel de modélisation à partir de photos et d'animation. Enfin, la société Dio-O-Matic, réputée pour ses plugins 3DS dont Morph-O-Matic (339 Euros), qui est un excellent plugin de morphing, a sorti récemment un nouveau produit, Facial Studio (562 Euros), qui permet de générer et d'animer automatiquement la tête de son choix, grâce à plus de cinq cent paramètres (âge, ethnie, sexe, réalisme, etc).

Quant au lipsync, de nombreux plugins de qualité existent qui détectent le timing des phonèmes à partir d'une voix enregistrée avec l'aide du texte écrit. Pour 3DS Max, il existe Fatlips 3D de la société Yulsoft (900 Euros) et JetaReyes (110 Euros) de la société espagnole Infografica qui nous a habituée à des plugins d'excellente facture. La société Lipsinc commercialise à la fois un plugin pour 3DS Max, Ventriloquist (445 Euros) et un plugin pour Poser, Mimic (220 Euros). Un des produits les plus réputés dans le domaine du lipsync est Magpie Pro (280 Euros) de Third Wish qui exporte dans de nombreux formats (Lightwave, Max, Maya, Softimage, Animation Master, Mirai, Flash et Pulse3). Il permet de générer très rapidement des lipsync aussi bien par détection manuelle que par reconnaissance automatique de phonèmes. Enfin, pour Ligtwave, le plugin généraliste project:messiah intègre la solution de lipsync Puppet Master.

    SyncMagic

    Lyes Meftahi, responsable marketing
    Andreas Carlen, directeur technique
    Lyes Meftahi
    Lyes Meftahi
    Andreas Carlen
    Andreas Carlen

    Créée en 1999, la société SyncMagic est spécialisée dans la prestation de grand volume de lipsync, à l'origine uniquement pour les studios d'animation 2D, maintenant aussi pour les studios 3D. Ils travaillent en particulier régulièrement avec Sparx (les personnages des séries "Bob & Scott" de TF1 et "Georgio" de Teletoon, le personnage de Clara dans "Thomas est amoureux", projet en cours d'habillage pour France3). Ils ont développé leur propre outil.

    Comment avez-vous organisé la production de lipsync ?

    Nous produisons du lipsync en grande quantité, à bas coûts, et avec des courbes de qualité et des délais serrés. Nous vendons notre prestation à la minute entre 400 F pour du cartoon et 800 F pour du réaliste quel que soit le projet. Nous sommes partis des techniques classiques de lipsync que nous avons informatisés et une grande partie de notre effort a portée sur la gestion de production.

    A partir de la bande-son et du texte, notre outil détecte automatiquement les phonèmes et donne un timing précis en milli-secondes. Pour la 2D, il génère des feuilles d'exposition et pour la 3D, il génère des courbes d'animation pour chaque forme de bouche correspondant à un phonème. Ensuite, nous faisons une vérification du résultat et des retouches manuelles si c'est nécessaire. Nous ne travaillons que sur les phonèmes. Chez le client les animateurs rajoutent des expressions.

    Pour être capable d'automatiser un lipsync de qualité, il est nécessaire de prévoir une phase de préparation et de tests assez longue par personnage où nous paramétrons sa personnalité (dynamique, aggressif, mou, etc). De nombreux allers et retours ont lieu avec le client qui intègre et teste nos lipsync. Nous sommes amenés à les conseiller sur la fabrication des shapes. Il faut entre 6 à 9 bouches pour un personnage cartoon et entre 15 à 18 bouches pour un personnage réaliste. Certaines bouches peuvent être générées en pourcentage à partir des bouches de base. Lorsque tout est en place, nous savons traité des séries avec neuf personnages, avec des lipsync personnalisés par personnage et produire cinq minutes en 24 heures. Evidemment, la phase de préparation est rentabilisée s'il y a un gros volume de lipsync à produire.

    Nous savons aussi gérer des chants, des voix cartoon atypique et nous pouvons faire de la détection musicale pour la danse. Nous savons gérer les mouvements de langue et de machoire et nous pourrions aussi gérer les blinks et l'animation de la glotte qui sont liés au lipsync, mais les clients ne l'ont pas encore demandé.



    Xavier Lardy
    Lead artist chez Galilea
    Xavier Lardy

    "Pharao's Curse" est un jeu d'aventure à énigmes, qui se passe en 1936 en Egypte et met en scène des expéditions concurrentes d'archéologues. Xavier Lardy travaille sur la conception, le choix des outils et la réalisation des cinématiques. La chaîne de production utilisée est Lightwave avec "projet Messiah" en plugin pour l'animation et Magpie pour le lipsync.

    Comment avez-vous organisé la production de "Pharao's Curse" ?

    En amont, la caméra et le timing général sont réglés dans Lightwave. Les scripts sont alors importés dans Messiah pour l'animation de personnages. En parallèle les voix sont enregistrées et l'ensemble est montée dans Premiere ou dans After Effects. Les scripts sont aussi envoyés à Magpie avec les vidéo des animations de personnages pour donner les timing de gestuels. L'animation faciale est faite par Frédéric Marzullo qui travaille à distance avec Magpie. Il y a neuf personnages principaux à animer. Magpie génère un script interprété par Lightwave sous forme de clefs d'animation. Cette organisation nous permet de découpler l'animation de la gestuelle de l'animation faciale et nous fait gagner énormément de temps. Nous l'avions déjà testé sur un projet précédent, "Loch Ness" où nous avons produit 20 à 25 minutes d'animation faciale, avec aussi une chaîne séparée 3DS Max et Magpie.

    Pourquoi avoir choisi Magpie ?

    Nous avions testé d'autres solutions à base de phonèmes mais le résultat était un peu mou et nécessitait un gros travail de préparation. Magpie inclut aussi la possibilité de générer automatiquement des phonèmes en fonction d'un texte et d'une bande-son mais nous avons préféré prendre le parti pris de l'animation manuelle.

    Depuis un an et demi que nous utilisons Magpie, il a montré sa productivité. On pose les clefs d'animation par canaux (sourcils, yeux, bouche). Grâce à sa visualisation temps réel, on peut fabriquer très rapidement des plans. Pour le lipsync, la détection se fait à l'oreille et on clic sur une touche pour affecter un phonème un peu comme en sténo. On arrive ainsi à faire 2mn30 de lipsync par jour pour un personnage. Autre avantage, jusqu'au rendering, on peut revenir en arrière et modifier les plans. Comme Magpie exporte les données au format natif Lightwave mais aussi dans d'autres formats, on peut migrer facilement en cours de production sur un autre logiciel. Enfin, on bénéficie d'un très bon support technique. Quant à Messiah, un de ces avantages énormes est de permettre de travailler indépendamment du mesh, on n'a pas à réassigner les points si on change la géométrie.

Pour en savoir plus :

Famous 3D / Blaze International
famous3d.com
FacTracket, Vuppet Master / X-IST
www.x-ist.de
Face Works, Voice Works / Puppet Works
www.puppetworks.com
3d Me Now / Bio Virtual
www.biovirtual.com
FaceXpress / LifeFX
www.lifefx.com
Facial Studio, Morph-O-Matic / Dio-O-Matic
www.di-o-matic.com/
Fatlips 3D / Yulsoft
www.yulsoft.com
JetaReyes / Infografica
www.reyes-infografica.com
Mimic, Ventriloquist / Lipsinc
www.lipsinc.com
Magpie Pro / Third Wish
www.thirdwishsoftware.com/magpiepro.html
Project:messiah
www.projectmessiah.com

Distributeurs :

Pixel 3D
www.pixel-3d.com
After Systems
www.aftersystems.com

© juin 2002 François Ploye et Pixel SA