Dossier Video sur le Web : Tous les moteurs de recherche ne
mènent pas à Rome
Les moteurs classiques de recherche
sur le web sont spécialisés sur la recherche textuelle.
Mais le nombre d'images fixes et de vidéos accessibles sur
Internet ne cessant d'augmenter, de nouveaux outils d'indexation
vidéos et de recherche apparaissent.
Rechercher une image sur Internet avec un moteur classique qui ne
connait que les noms des fichiers et que les contenus des pages
html peut prendre du temps. Il est facile de trouver des images sur
l'Italie, et même des photos prises à Rome mais quel outil
permet de trouver "les photos de Rome contenant un taxi" ? Le
problème est encore plus crucial concernant une vidéo qui
contient un certain nombre de plans dont peut-être un seul
correspond à la recherche.
Améliorer l'efficacité des recherches est crucial aussi
bien les possesseurs de contenus qui désirent valoriser leurs
fonds (banques de données scientifiques, archives,
télévisions, etc) que les utilisateurs qui veulent
trouver rapidement l'image de leur choix. De nouvelles solutions
techniques sont proposées pour l'indexation, l'extraction de
données et pour la recherche par comparaison de contenu.
MPEG-7, le standard de l'année
L'année 2001 voit arriver les premières
spécifications du format multimédia MPEG-7. Ce format,
qui est basé sur MPEG-4 en terme d'architecture technique,
introduit la notion de description de contenu. Destiné à
indexer le contenu des vidéos numérisées, ce
standard peut être généralisé à tous
types d'images y compris à la description d'images papier. Le
MPEG-7 est soutenu par de grands acteurs de l'indexation des images
comme IBM, Virage, la BBC et l'INA.
La description du contenu se fait sur plusieurs niveaux. Le niveau le
plus bas décrit la forme des objets contenus dans l'image, leurs
tailles, textures, couleurs et trajectoires ainsi que la composition
générale. Les niveaux supérieurs sont
sémantiques et introduisent des descriptions comme "un taxi bleu
se trouve à gauche et à droite en haut des oiseaux
passent dans le ciel" ou comme "un enfant triste regarde la mer
déchaînée". Les outils actuels sont
déjà capables de traiter plus ou moins automatiquement le
niveau le plus bas d'indexation et de recherche de proximités.
Par ailleurs des renseignements de base sont prévus comme le
format de compression, la date de création du document, le prix
et l'information de copyright ainsi que des liens vers des documents
similaires.
La segmentation
Lors de la numérisation d'une vidéo, d'excellents outils
permettent de séparer grâce à une aide
semi-automatique les différents plans du film et d'en extraire
un story-board. Le module Assistant Producer de la gamme d'outils de la
société française Question d'Image offre ainsi un
histogramme bien conçu avec lequel l'utilisateur peut
contrôler le découpage automatique. Renommé pour la
productivité qu'il autorise, il est utilisé par plusieurs
chaînes de télévision (TF1, Antenne 2, Eurosport et
Infosport entre autres) pour indexer en flux tendu les
émissions. La start-up française Manreo propose aussi
depuis peu plusieurs modules dont un outil Hypercast Editor qui offre
de la segmentation semi-automatique ainsi que de l'indexation manuelle.
Analyser les contenus
Plus ambitieux, plusieurs centres de recherche dans le monde
travaillent sur la comparaison visuelle de contenus image,
appliquée aux images fixes mais parfois étendue au cas
des séquences animées. La problématique technique
concernant les images fixes et les séquences animées
comporte de fortes similitudes mais les vidéos sont beaucoup
plus lourdes à analyser et le mouvement rentre en ligne de
compte. En revanche, dans les vidéos, il existe des
éléments spécifiques comme la bande-son, le
générique ou les sous-titres qui peuvent donner des
indications précieuses. La recherche par similarité de
contenu permet aussi de faire l'inverse, par exemple d'exclure les
images ayant un certain contenu pornographique, et de proposer des
filtres familiaux.
L'Université de Columbia a développé plusieurs
prototypes de moteurs d'analyse d'images, incluant les vidéos,
dont Webseek présenté sur leur site. Il comprend un outil
didactique de modifications d'histogramme couleurs accessible en ligne.
L'Université de Berkeley a développé un
modèle plus sophistiqué, Blobworld, qui analyse les
contenus d'images par régions. L'internaute peut lancer des
requêtes en ligne. Le MIT, de son côté, avec
le moteur Foureyes pousse encore plus loin la volonté de faire
participer l'utilisateur. Ce dernier participe en effet à la
préparation de l'analyse en associant des symboles (route, ciel,
immeuble, voiture, etc) à l'image de référence. Un
produit gratuit, Photobook, est disponible sur le net. Utilisant cette
technologie, la société Viisage Technology commercialise
FaceID dédié à la reconnaissance de visages
à des fins sécuritaires.
Enfin, une start-up de l'INRIA, Lookthatup, commercialise un produit
capable d'apprentissage, utilisant des réseaux de neurones
intégrés à l'architecture du système.
L'analyseur améliore ainsi sa base de connaissances. Le
système est utilisé par le site iBazar pour fournir
à l'internaute des objets visuellement proches de celui
recherché et la police française utilise le module
ImageSeeker pour la reconnaissance de criminels. Comme dans le site
iBazar, les meilleurs outils à l'heure actuelle sont mixtes.
Dans un premier temps l'utilisateur lance une requête par
mot-clefs puis à l'intérieur de la liste
sélectionnée affine sa recherche par proximité de
contenu visuel.
Des solutions complètes
Parmi les grandes solutions commerciales se trouvent plusieurs
sociétés américaines de renom. La
société Virage distribue une gamme de modules ouverts
dont le module VideoLogger dédié à la
segmentation, la fabrication de story-board et l'extraction de
données : transcription automatique des voix de la
bande-son ainsi que des sous-titres mais aussi reconnaissance
automatique des visages des présentateurs et des
personnalités connues. Le module Virage est inclus dans la
solution documentaire multimedia Media 360 que propose Ascential,
anciennement Informix Services. Un concurrent de renom est Convera,
issu de la fusion en début d'année d'Excalibur,
spécialisé dans les moteurs de recherche et d'un
département d'Intel. Convera offre aussi une solution
complète de gestion de données multimedia. Il comporte un
module Screening Room Capture de numérisation, de segmentation
et d'extraction de données, et un module Visual RetrievalWare
qui possède son propre algorithme de recherche par
proximité de contenu et reconnaissance de formes.
IBM offre aussi de son côté une solution d'indexation
vidéo, CueVideo complétée par un moteur de
comparaison de contenu, QBIC, devenu une référence. Un
autre système, Mediakey Digital Video Library System, est
commercialisé par Islip Media, créée par des
chercheurs de l'université de Carnegie Mellon. Il est
basé sur les fonctionnalités du projet de recherche
Informedia. Les scènes vidéo sont identifiées de
manière unique à partir d'une analyse aussi bien de la
bande-son que des images : histogrammes couleur, détection des
objets et de leurs trajectoires. Un algorithme de reconnaissance de
visage est incorporé. Enfin, la start-up française
Kinomai, filiale de la société Mathématiques
appliquées spécialisée dans les algorithmes de
traitement complexes d'images militaires, commercialise en fin
d'année un produit destiné aux chaînes de
télévision. L'utilisateur peut aider l'outil, qui
possède un moteur d'intelligence artificielle à base de
réseaux neuronaux, à apprendre à reconnaître
une forme donnée, par exemple un avion ou un visage, en lui
présentant un grand nombre d'images et en le guidant dans son
apprentissage.
De rares portails video
Les moteurs de recherche spécialisés sur la vidéo
sont encore rares. Parmi les moteurs généralistes qui
offrent une option vidéo se trouvent Altavista qui utilise la
technologie Virage et Yahoo qui utilise celle de Convera. Plus simple
technologiquement, le site StreamSearch a recensé de nombreux
fichiers audio et vidéo. Il a fait le pari d'une indexation
manuelle assez détaillée. Un autre site
spécialisé et bien mieux fourni est celui de Singingfish
qui a été racheté l'année dernière
par Thomson Multimedia.
Pour plus d'informations
Assistant Producer / Question d'Image
www.qdi.net
Hypercast Editor / Manreo
www.manreo.com
Webseek / Université de Columbia
www.ctr.columbia.edu/webseek/
Blobworld / Université de Berkeley
elib.cs.berkeley.edu/photos/blobworld
Foureyes / MIT
whitechapel.media.mit.edu/vismod/demos/photobook
FaceID / Viisage
www.viisage.com
Lookthatup
www.lookthatup.com
VideoLogger / Virage
www.virage.com
Screening Room Capture et Visual RetrievalWare / Convera
www.convera.com
CueVision et QBIC / IBM
www.almaden.ibm.com
Mediakey Digital Video Library System / Islip Media
www.islip.com/fprod.htm.
Kinomai
www.kinomai.com
Altavista
www.altavista.com/sites/search/svideo
Yahoo
search.yahoo.com/r/so
StreamSearch
streamsearch.com
Singingfish
www.singingfish.com
© octobre/novembre 2001 François Ploye et Pixel SA