Dossier Video sur le Web : Tous les moteurs de recherche ne mènent pas à Rome

Les moteurs classiques de recherche sur le web sont spécialisés sur la recherche textuelle. Mais le nombre d'images fixes et de vidéos accessibles sur Internet ne cessant d'augmenter, de nouveaux outils d'indexation vidéos et de recherche apparaissent.


Rechercher une image sur Internet avec un moteur classique qui ne connait que les noms des  fichiers et que les contenus des pages html peut prendre du temps. Il est facile de trouver des images sur l'Italie, et même des photos prises à Rome mais quel outil permet de trouver "les photos de Rome contenant un taxi" ? Le problème est encore plus crucial concernant une vidéo qui contient un certain nombre de plans dont peut-être un seul correspond à la recherche.

Améliorer l'efficacité des recherches est crucial aussi bien les possesseurs de contenus qui désirent valoriser leurs fonds (banques de données scientifiques, archives, télévisions, etc) que les utilisateurs qui veulent trouver rapidement l'image de leur choix. De nouvelles solutions techniques sont proposées pour l'indexation, l'extraction de données et pour la recherche par comparaison de contenu.

MPEG-7, le standard de l'année

L'année 2001 voit arriver les premières spécifications du format multimédia MPEG-7. Ce format, qui est basé sur MPEG-4 en terme d'architecture technique, introduit la notion de description de contenu. Destiné à indexer le contenu des vidéos numérisées, ce standard peut être généralisé à tous types d'images y compris à la description d'images papier. Le MPEG-7 est soutenu par de grands acteurs de l'indexation des images comme IBM, Virage, la BBC et l'INA.

La description du contenu se fait sur plusieurs niveaux. Le niveau le plus bas décrit la forme des objets contenus dans l'image, leurs tailles, textures, couleurs et trajectoires ainsi que la composition générale. Les niveaux supérieurs sont sémantiques et introduisent des descriptions comme "un taxi bleu se trouve à gauche et à droite en haut des oiseaux passent dans le ciel" ou comme "un enfant triste  regarde la mer déchaînée". Les outils actuels sont déjà capables de traiter plus ou moins automatiquement le niveau le plus bas d'indexation et de recherche de proximités. Par ailleurs des renseignements de base sont prévus comme le format de compression, la date de création du document, le prix et l'information de copyright ainsi que des liens vers des documents similaires.

La segmentation

Lors de la numérisation d'une vidéo, d'excellents outils permettent de séparer grâce à une aide semi-automatique les différents plans du film et d'en extraire un story-board. Le module Assistant Producer de la gamme d'outils de la société française Question d'Image offre ainsi un histogramme bien conçu avec lequel l'utilisateur peut contrôler le découpage automatique. Renommé pour la productivité qu'il autorise, il est utilisé par plusieurs chaînes de télévision (TF1, Antenne 2, Eurosport et Infosport entre autres) pour indexer en flux tendu les émissions. La start-up française Manreo propose aussi depuis peu plusieurs modules dont un outil Hypercast Editor qui offre de la segmentation semi-automatique ainsi que de l'indexation manuelle.

Analyser les contenus

Plus ambitieux, plusieurs centres de recherche dans le monde travaillent sur la comparaison visuelle de contenus image, appliquée aux images fixes mais parfois étendue au cas des séquences animées. La problématique technique concernant les images fixes et les séquences animées comporte de fortes similitudes mais les vidéos sont beaucoup plus lourdes à analyser et le mouvement rentre en ligne de compte. En revanche, dans les vidéos, il existe des éléments spécifiques comme la bande-son, le générique ou les sous-titres qui peuvent donner des indications précieuses. La recherche par similarité de contenu permet aussi de faire l'inverse, par exemple d'exclure les images ayant un certain contenu pornographique, et de proposer des filtres familiaux.

L'Université de Columbia a développé plusieurs prototypes de moteurs d'analyse d'images, incluant les vidéos, dont Webseek présenté sur leur site. Il comprend un outil didactique de modifications d'histogramme couleurs accessible en ligne. L'Université de Berkeley a développé un modèle plus sophistiqué, Blobworld, qui analyse les contenus d'images par régions. L'internaute peut lancer des requêtes en ligne. Le MIT, de son côté,  avec le moteur Foureyes pousse encore plus loin la volonté de faire participer l'utilisateur. Ce dernier participe en effet à la préparation de l'analyse en associant des symboles (route, ciel, immeuble, voiture, etc) à l'image de référence. Un produit gratuit, Photobook, est disponible sur le net. Utilisant cette technologie, la société Viisage Technology commercialise FaceID dédié à la reconnaissance de visages à des fins sécuritaires.

Enfin, une start-up de l'INRIA, Lookthatup, commercialise un produit capable d'apprentissage, utilisant des réseaux de neurones intégrés à l'architecture du système. L'analyseur améliore ainsi sa base de connaissances. Le système est utilisé par le site iBazar pour fournir à l'internaute des objets visuellement proches de celui recherché et la police française utilise le module ImageSeeker pour la reconnaissance de criminels. Comme dans le site iBazar, les meilleurs outils à l'heure actuelle sont mixtes. Dans un premier temps l'utilisateur lance une requête par mot-clefs puis à l'intérieur de la liste sélectionnée affine sa recherche par proximité de contenu visuel.

Des solutions complètes

Parmi les grandes solutions commerciales se trouvent plusieurs sociétés américaines de renom. La société Virage distribue une gamme de modules ouverts dont le module VideoLogger dédié à la segmentation, la fabrication de story-board et l'extraction de données : transcription automatique des voix de la bande-son ainsi que des sous-titres mais aussi reconnaissance automatique des visages des présentateurs et des personnalités connues. Le module Virage est inclus dans la solution documentaire multimedia Media 360 que propose Ascential, anciennement Informix Services. Un concurrent de renom est Convera, issu de la fusion en début d'année d'Excalibur, spécialisé dans les moteurs de recherche et d'un département d'Intel. Convera offre aussi une solution complète de gestion de données multimedia. Il comporte un module Screening Room Capture de numérisation, de segmentation et d'extraction de données, et un module Visual RetrievalWare qui possède son propre algorithme de recherche par proximité de contenu et reconnaissance de formes.

IBM offre aussi de son côté une solution d'indexation vidéo, CueVideo complétée par un moteur de comparaison de contenu, QBIC, devenu une référence. Un autre système, Mediakey Digital Video Library System, est commercialisé par Islip Media, créée par des chercheurs de l'université de Carnegie Mellon. Il est basé sur les fonctionnalités du projet de recherche Informedia. Les scènes vidéo sont identifiées de manière unique à partir d'une analyse aussi bien de la bande-son que des images : histogrammes couleur, détection des objets et de leurs trajectoires. Un algorithme de reconnaissance de visage est incorporé. Enfin, la start-up française Kinomai, filiale de la société Mathématiques appliquées spécialisée dans les algorithmes de traitement complexes d'images militaires, commercialise en fin d'année un produit destiné aux chaînes de télévision. L'utilisateur peut aider l'outil, qui possède un moteur d'intelligence artificielle à base de réseaux neuronaux, à apprendre à reconnaître une forme donnée, par exemple un avion ou un visage, en lui présentant un grand nombre d'images et en le guidant dans son apprentissage.

De rares portails video

Les moteurs de recherche spécialisés sur la vidéo sont encore rares. Parmi les moteurs généralistes qui offrent une option vidéo se trouvent Altavista qui utilise la technologie Virage et Yahoo qui utilise celle de Convera. Plus simple technologiquement, le site StreamSearch a recensé de nombreux fichiers audio et vidéo. Il a fait le pari d'une indexation manuelle assez détaillée. Un autre site spécialisé et bien mieux fourni est celui de Singingfish qui a été racheté l'année dernière par Thomson Multimedia.

Pour plus d'informations

Assistant Producer / Question d'Image
www.qdi.net
Hypercast Editor / Manreo
www.manreo.com
Webseek / Université de Columbia
www.ctr.columbia.edu/webseek/
Blobworld / Université de Berkeley
elib.cs.berkeley.edu/photos/blobworld
Foureyes / MIT
whitechapel.media.mit.edu/vismod/demos/photobook
FaceID / Viisage
www.viisage.com
Lookthatup
www.lookthatup.com
VideoLogger / Virage
www.virage.com
Screening Room Capture et Visual RetrievalWare / Convera
www.convera.com
CueVision et QBIC / IBM
www.almaden.ibm.com
Mediakey Digital Video Library System / Islip Media
www.islip.com/fprod.htm.
Kinomai
www.kinomai.com
Altavista
www.altavista.com/sites/search/svideo
Yahoo
search.yahoo.com/r/so
StreamSearch
streamsearch.com
Singingfish
www.singingfish.com

© octobre/novembre 2001 François Ploye et Pixel SA