Vous êtes ici :

Le web et les métadonnées

par Tanguy Larher et Katia Milbeau, CNDP,
[2004]

Mots clés : métadonnées

  • Google+
  • Imprimer
Archive

A l’heure actuelle, les utilisateurs d’Internet ont des difficultés à effectuer des recherches et obtiennent des résultats souvent insatisfaisants. A cela, plusieurs raisons : complexité de l’interrogation avec les moteurs, limite des options de recherche de ces moteurs, qualité des bases dans lesquelles sont effectuées les recherches et compétence de l’utilisateur à formuler des requêtes. Mais l’ensemble des dysfonctionnements d’Internet réside surtout dans l’absence de structuration et de classement des données présentes sur le réseau, ce qui empêche le repérage de l’information et l’accès au document. Pourtant, l'utilisation de données sur les données - les métadonnées - a été prévu par les concepteurs du Web. La description des ressources dans l'environnement des réseaux ne relève d'ailleurs plus uniquement du domaine des personnes qui cataloguent, mais, également, de celui des auteurs, des fournisseurs de services et de contenu.

HTML et les métadonnées

HTML - HyperText Markup Language - est le langage de "description" des données du Web. Il est basé sur un système de balises qui décrivent la structuration et la mise en forme du contenu. Il n'est évidemment pas question ici de faire un cours sur ce langage ; néanmoins, il est bon de savoir que certaines balises autorisent maintenant une description des ressources que contient une page Web. Il s'agit des balises META qui permettent de préciser, dans l'entête d'un document HTML, l'auteur de la ressource ainsi que quelques mots clés.
La balise permettant de dire au navigateur "voici une métadonnée" est <META>. Les attributs de cette balise peuvent être : author, copyright, date, description, keywords, refresh....
Deux syntaxes sont possibles pour utiliser les balises <META> :

- <META HTTP-EQUIV="name" CONTENT="content">
- <META NAME="name" CONTENT="content">

Voici un exemple de description de cette page avec les métadonnées HTML :

<META name="Description" content="cette page a trait aux métadonnées sur le Web" > : description de la page
<META name="Keywords" lang="fr" content="HTML métadonnées dublin core" > : mots clés permettant de rendre compte de cette page Web
<META name="Author" content="Tanguy Larher" > : auteur de la page

Bien entendu, le remplissage de ces métadonnées est optionnel et le vocabulaire non normalisé.

Prise en compte de ces métadonnées par les moteurs de recherche

Tous les moteurs de recherche ne prennent pas forcément en compte les balises META. Parfois, ils n'en retiennent que certains attributs. Voici une revue de détail des principaux moteurs :
 

  Prise en compte des balises Critère d'indexation le plus important
Altavista Oui : description, keywords (1024 caractères au maximum) Title
Voila Oui : description, keywords (400 caractères au maximum) Title
Excite Non Title
Yahoo    
Lycos Non Title
Infoseek Oui : keywords (1000 caractères au maximum), description (200 caractères au maximum) Balises META
Webcrawler Non Title et indice de popularité de la page

 


Pour plus d'informations, on se reportera au site Web d'Olivier Andrieu.

Le Dublin Core

Un tel système d’organisation des données existe pourtant depuis longtemps dans l’univers des bibliothèques, mais n’est pas utilisé dans les outils de recherche sur Internet. Ceci tient notamment au fait qu’Internet s’est développé indépendamment du monde de la bibliothéconomie et de la documentation ; et d’autre part, au fait que ce développement "anarchique" n’intéressait pas une profession régie par des règles et des normes profondément ancrées. Cependant, avec la multiplication des ressources électroniques, les bibliothèques ont été obligées de repenser leur rôle et leurs fonctions. Il ne s’agissait plus de posséder et d’organiser une collection locale, mais de fournir un accès à de multiples collections entreposées ailleurs. Il s’agissait également de fournir un accès à des documents stockés sur des supports non traditionnels (numériques). Internet représentait un excellent moyen pour accéder à distance aux catalogues des bibliothèques, et offrait par la même occasion une immense source de documents à intégrer dans ces catalogues. Une réflexion globale a donc été menée sur le moyen de traiter les ressources électroniques en général, les ressources Internet en particulier. L’idée est simple : les ressources doivent être organisées pour être accessibles. Pourquoi ne pas appliquer à ces ressources des techniques qui ont fait leur preuves en bibliothéconomie ? C’est ainsi que de nombreux projets concernant la description bibliographique (catalogage) des ressources électroniques ont vu le jour. Les premières tentatives ont consisté en l’extension des formats bibliographiques existants et l’ajout d’une nouvelle zone au format MARC permettant d’indiquer les adresses électroniques et les façons d’accéder aux documents sur Internet. La difficulté de cette adaptation résidait dans le moyen de repérer et d’extraire les informations relatives aux documents électroniques pour renseigner les champs de description du MARC. L’intégration, à l’intérieur même de ces documents, de données fournissant une description de la page, a donc été envisagée pour faciliter le repérage des informations nécessaires à la création des notices bibliographiques. Or, ces "données relatives à d’autres données", nous l'avons vu, existent déjà dans le langage HTML : il s’agit des "métadonnées" (metadata). Une notice catalographique peut ainsi être considérée comme une métadonnée. La nouveauté consiste à faire figurer, au même endroit, le document primaire (la page HTML) et les informations secondaires relatives à ce document (la notice bibliographique). Dans l’environnement Web, les métadonnées permettent ainsi d’inclure dans une page HTML, sous la forme d’un "en-tête", les données qui décrivent cette page. Ces données sont utilisées directement par certains moteurs de recherche, ce qui permet un repérage et un accès plus rapide à l’information. C’est ainsi que deux mondes distincts – celui de l’Internet et celui de la bibliothéconomie – se sont rencontrés et ont travaillé ensemble à l’amélioration de la technique des métadonnées. L’initiative du Dublin Core est une bonne illustration de cette collaboration. Des professionnels de la bibliothéconomie, de l’informatique, de l’encodage des textes et des réseaux électroniques ont effectué un travail de normalisation pour la définition des éléments de données bibliographiques (métadonnées) à inclure dans les pages Web. Il s’agissait également de donner des outils aux auteurs de pages HTML pour leur permettre de décrire eux-mêmes leurs documents sans avoir une formation sur les normes relatives aux notices bibliographiques. Le Dublin Core est un ensemble simple de quinze éléments qui ne comprend pas seulement des éléments de description formels, comme le titre, l’auteur et l’éditeur, mais  aussi des éléments pour décrire le contenu intellectuel, comme le sujet, la couverture, la description et le langage d’une publication. Il intègre également des éléments relatifs à la propriété intellectuelle. De nombreuses bibliothèques testent aujourd’hui des projets d’implémentation du Dublin Core. La normalisation, la mise en œuvre et surtout la prise en compte effective de ces métadonnées par les différents moteurs de recherche permettront certainement une avancée dans la qualité de l'indexation des données du Web.

Le vocabulaire n'étant pas normalisé, cela n'a évidemment pas abouti à la génération spontanée d'un Internet structuré, d'autant que les moteurs de recherche n'exploitent pas forcément ces éléments de description.

Recherche avancée