Savoir animer les expressions d'un
visage virtuel est essentiel pour transcrire les émotions et
établir les fondements d'une communication plus naturelle avec
le spectateur ou l'interlocuteur humain, internaute ou joueur.
Deux techniques existent pour animer les visages : l'interpolation de
formes de base et la déformation par points de contrôle.
Dans le premier cas, on se crée une bibliothèque de
variantes d'un même visage, décrivant les humeurs
possibles du personnage virtuel, joie, tristesse, rire ou folie.
L'animation se fera en définissant à chaque instant le
pourcentage de chacune des formes de base ("blending shapes"), par
exemple par le biais de courbes d'interpolation. Cette technique est
particulièrement bien adaptée à un timing
donné par une voix enregistrée. On définit
à chaque image clef si le visage est souriant ou non, s'il
prononce un O ou un A.
La deuxième technique s'appuie sur une structure de points (ou
de lignes) qui en se déplaçant, vont entraîner les
points du visage qui sont dans leur voisinage. Elle est indispensable
en cas de saisie d'une animation faciale par "motion capture". Les
positions des marqueurs placés sur le visage réel, une
fois trackés, vont entraîner les points de contrôle.
Ces deux techniques peuvent se combiner. On peut animer le bas d'un
visage comprenant la bouche avec des interpolations de formes (pour
transcrire les phonèmes de manière précise) et
animer en revanche le haut du visage (en particulier les sourcils) par
le déplacement de points de contrôle.
Les outils dédiés
à la saisie réelle
Interpoler entre des formes de base n'est pas une technique
spécifique à l'animation faciale, tout bon logiciel 3D en
possède les fonctionnalités. En revanche, s'il s'agit
d'utiliser astucieusement des données issues d'une capture
réelle (mouvements de marqueurs ou vidéo), il est
conseillé de s'appuyer sur un des outils dédiés
existants. La société la plus renommée est Blaze
International, en Australie, qui a développé une gamme de
produits, Famous3D, spécialisés dans ce domaine. Leur
produit phare, "Animator", importe une grande variété de
formats de données issues de la capture de mouvements.
L'utilisateur peint directement en 3D sur le visage virtuel les zones
d'influence des différents capteurs. L'animation est ensuite
générée automatiquement mais peut être
modifiée manuellement par exemple pour être
exagérée dans certaines parties. Vendu 5630 Euros,
"Animator" exporte les scènes générées vers
3dsMAX, Maya, SoftImage et Lightwave mais seulement jusqu'à la
5.6. Les autres outils de la gamme Famous3D sont vTracker (1120 Euros),
qui sait tracker des capteurs sur une vidéo de camescope et
permet ainsi des saisies à moindre coût, et FaceAce,
plugin de 3DS Max (558 Euros), qui se limite à la peinture 3D de
zones de contrôle.
Une autre solution complète est proposée par la
société allemande X-IST. L'outil de saisie, FaceTracker
(11274 Euros), est constitué d'un casque comprenant une
mini-caméra intégrée à
l'extrémité d'un bras, située face au visage de
l'acteur réel. Jusqu'à 36 capteurs peuvent être
posés sur le visage et détectés. Le
résultat final est correct et facile à mettre en
œuvre mais limité car comme toutes les saisies
vidéo, l'information de profondeur n'est pas saisie. Les
données sont exportables vers de nombreux logiciels 3D Studio
MAX, FilmBox, Famous, Artiface, Softimage, Maya et aussi vers l'outil
d'animation faciale de X-IST, VuppetMaster. Cet outil, qui utilise des
scènes 3DS Max, est vendu de son côté 16910 Euros.
Il permet de régler en temps réel des animations faciales
à partir de multiples sources de saisie d'animation aussi bien
MIDI que par captures de mouvements optiques ou magnétiques.
L'utilisation d'une console MIDI est une bonne solution pour animer
manuellement en temps réel des visages. La société
Puppet Works propose aussi sur ce principe, le produit Face Works (5100
Euros), constitué d'une console MIDI et d'un logiciel
d'animation interfacé avec Maya. Elle commercialise aussi
à 900 Euros, Voice Works, un plugin de lipsync ("lip
synchronisation" ou synhronisation des bouches) à base de
phonèmes pour Maya.
Autres produits d'animation faciale
Plusieurs autres produits plus basiques existent. "3d Me Now" de Bio
Virtual permet de modéliser des visages réalistes
à partir d'une ou deux photographies d'une tête
réelle. Il est possible ensuite de les animer par interpolation
et de générer automatiquement un lipsynch. Une version
basique, avec peu d'exports, peut être achetée directement
sur Internet à 56 euros. La version professionnelle, elle,
coûte 2600 Euros. De manière similaire, la
société LifeFX propose un package FaceXpress (2249
Euros), comportant un logiciel de modélisation à partir
de photos et d'animation. Enfin, la société Dio-O-Matic,
réputée pour ses plugins 3DS dont Morph-O-Matic (339
Euros), qui est un excellent plugin de morphing, a sorti
récemment un nouveau produit, Facial Studio (562 Euros), qui
permet de générer et d'animer automatiquement la
tête de son choix, grâce à plus de cinq cent
paramètres (âge, ethnie, sexe, réalisme, etc).
Quant au lipsync, de nombreux plugins de qualité existent qui
détectent le timing des phonèmes à partir d'une
voix enregistrée avec l'aide du texte écrit. Pour 3DS
Max, il existe Fatlips 3D de la société Yulsoft (900
Euros) et JetaReyes (110 Euros) de la société espagnole
Infografica qui nous a habituée à des plugins
d'excellente facture. La société Lipsinc commercialise
à la fois un plugin pour 3DS Max, Ventriloquist (445 Euros) et
un plugin pour Poser, Mimic (220 Euros). Un des produits les plus
réputés dans le domaine du lipsync est Magpie Pro (280
Euros) de Third Wish qui exporte dans de nombreux formats (Lightwave,
Max, Maya, Softimage, Animation Master, Mirai, Flash et Pulse3). Il
permet de générer très rapidement des lipsync
aussi bien par détection manuelle que par reconnaissance
automatique de phonèmes. Enfin, pour Ligtwave, le plugin
généraliste project:messiah intègre la solution de
lipsync Puppet Master.
|
SyncMagic
Lyes Meftahi, responsable marketing
Andreas Carlen, directeur technique
|

Lyes Meftahi |

Andreas Carlen |
Créée en 1999, la société SyncMagic est
spécialisée dans la prestation
de grand volume de lipsync, à l'origine uniquement pour les
studios
d'animation 2D, maintenant aussi pour les studios 3D. Ils travaillent
en particulier régulièrement avec Sparx (les personnages
des séries
"Bob & Scott" de TF1 et "Georgio" de Teletoon, le personnage de
Clara dans "Thomas est amoureux", projet en cours d'habillage pour
France3). Ils ont développé leur propre outil.
Comment avez-vous organisé la production de lipsync ?
Nous produisons du lipsync en grande quantité, à bas
coûts, et avec des
courbes de qualité et des délais serrés. Nous
vendons notre prestation
à la minute entre 400 F pour du cartoon et 800 F pour du
réaliste quel
que soit le projet. Nous sommes partis des techniques classiques de
lipsync que nous avons informatisés et une grande partie de
notre
effort a portée sur la gestion de production.
A partir de la bande-son et du texte, notre outil détecte
automatiquement les phonèmes et donne un timing précis en
milli-secondes. Pour la 2D, il génère des feuilles
d'exposition et pour
la 3D, il génère des courbes d'animation pour chaque
forme de bouche
correspondant à un phonème. Ensuite, nous faisons une
vérification du
résultat et des retouches manuelles si c'est nécessaire.
Nous ne
travaillons que sur les phonèmes. Chez le client les animateurs
rajoutent des expressions.
Pour être capable d'automatiser un lipsync de qualité, il
est
nécessaire de prévoir une phase de préparation et
de tests assez longue
par personnage où nous paramétrons sa personnalité
(dynamique,
aggressif, mou, etc). De nombreux allers et retours ont lieu avec le
client qui intègre et teste nos lipsync. Nous sommes
amenés à les
conseiller sur la fabrication des shapes. Il faut entre 6 à 9
bouches
pour un personnage cartoon et entre 15 à 18 bouches pour un
personnage
réaliste. Certaines bouches peuvent être
générées en pourcentage à
partir des bouches de base. Lorsque tout est en place, nous savons
traité des séries avec neuf personnages, avec des lipsync
personnalisés
par personnage et produire cinq minutes en 24 heures. Evidemment, la
phase de préparation est rentabilisée s'il y a un gros
volume de
lipsync à produire.
Nous savons aussi gérer des chants, des voix cartoon atypique et
nous
pouvons faire de la détection musicale pour la danse. Nous
savons gérer
les mouvements de langue et de machoire et nous pourrions aussi
gérer
les blinks et l'animation de la glotte qui sont liés au lipsync,
mais
les clients ne l'ont pas encore demandé.
|
|
Xavier Lardy
Lead artist chez
Galilea
|

|
"Pharao's Curse" est un jeu d'aventure à énigmes, qui se
passe en 1936
en Egypte et met en scène des expéditions concurrentes
d'archéologues.
Xavier Lardy travaille sur la conception, le choix des outils et la
réalisation des cinématiques. La chaîne de
production utilisée est
Lightwave avec "projet Messiah" en plugin pour l'animation et Magpie
pour le lipsync.
Comment avez-vous
organisé la production de "Pharao's Curse" ?
En amont, la caméra et le timing général sont
réglés dans Lightwave.
Les scripts sont alors importés dans Messiah pour l'animation de
personnages. En parallèle les voix sont enregistrées et
l'ensemble est
montée dans Premiere ou dans After Effects. Les scripts sont
aussi
envoyés à Magpie avec les vidéo des animations de
personnages pour
donner les timing de gestuels. L'animation faciale est faite par
Frédéric Marzullo qui travaille à distance avec
Magpie. Il y a neuf
personnages principaux à animer. Magpie génère un
script interprété par
Lightwave sous forme de clefs d'animation. Cette organisation nous
permet de découpler l'animation de la gestuelle de l'animation
faciale
et nous fait gagner énormément de temps. Nous l'avions
déjà testé sur
un projet précédent, "Loch Ness" où nous avons
produit 20 à 25 minutes
d'animation faciale, avec aussi une chaîne séparée
3DS Max et Magpie.
Pourquoi avoir choisi Magpie ?
Nous avions testé d'autres solutions à base de
phonèmes mais le
résultat était un peu mou et nécessitait un gros
travail de
préparation. Magpie inclut aussi la possibilité de
générer
automatiquement des phonèmes en fonction d'un texte et d'une
bande-son
mais nous avons préféré prendre le parti pris de
l'animation manuelle.
Depuis un an et demi que nous utilisons Magpie, il a montré sa
productivité. On pose les clefs d'animation par canaux
(sourcils, yeux,
bouche). Grâce à sa visualisation temps réel, on
peut fabriquer très
rapidement des plans. Pour le lipsync, la détection se fait
à l'oreille
et on clic sur une touche pour affecter un phonème un peu comme
en
sténo. On arrive ainsi à faire 2mn30 de lipsync par jour
pour un
personnage. Autre avantage, jusqu'au rendering, on peut revenir en
arrière et modifier les plans. Comme Magpie exporte les
données au
format natif Lightwave mais aussi dans d'autres formats, on peut migrer
facilement en cours de production sur un autre logiciel. Enfin, on
bénéficie d'un très bon support technique. Quant
à Messiah, un de ces
avantages énormes est de permettre de travailler
indépendamment du
mesh, on n'a pas à réassigner les points si on change la
géométrie.
|
Pour en savoir plus :
Famous 3D / Blaze International
famous3d.com
FacTracket, Vuppet Master / X-IST
www.x-ist.de
Face Works, Voice Works / Puppet Works
www.puppetworks.com
3d Me Now / Bio Virtual
www.biovirtual.com
FaceXpress / LifeFX
www.lifefx.com
Facial Studio, Morph-O-Matic / Dio-O-Matic
www.di-o-matic.com/
Fatlips 3D / Yulsoft
www.yulsoft.com
JetaReyes / Infografica
www.reyes-infografica.com
Mimic, Ventriloquist / Lipsinc
www.lipsinc.com
Magpie Pro / Third Wish
www.thirdwishsoftware.com/magpiepro.html
Project:messiah
www.projectmessiah.com
Distributeurs :
Pixel 3D
www.pixel-3d.com
After Systems
www.aftersystems.com
© juin 2002 François Ploye et Pixel SA