Indexer : généralités

L'indexation est l'une des formes de la représentation du contenu des documents.

  • Elle vise à rendre compte sous une forme concise des informations stockées dans un fonds documentaire.
  • Elle permet de faire le lien entre une offre d'informations (le fonds documentaire) et une demande d'informations (les questions des utilisateurs).
  • Elle conduit à élaborer des outils de recherche documentaire : index, bulletins bibliographiques, catalogues, fichiers manuels ou automatisés qui seront ensuite consultés et qui permettront la sélection de documents répondant à une question.

En général, un document est indexé globalement, mais on peut aussi circonscrire, à l'intérieur, une ou plusieurs unités documentaires qui seront traitées à part, comme si elles étaient elles-mêmes des documents, avec un renvoi au document original où elles ont été identifiées. Ce découpage peut correspondre à un article, un chapitre, une carte ou un tableau dans un imprimé, une plage sur un disque, un document sur un site Web etc. Il est fonction du document lui-même et du service que l'on veut rendre (par exemple, un sujet souvent demandé présent dans quelques documents seulement).

Pour sélectionner des unités documentaires à analyser, il s'agit, à ce premier niveau, de déterminer si le contenu de l'information présente dans le document analysé est homogène ou non.

  1. Dans le cas de l'information homogène, la description bibliographique établie pour le document concerné sera uniquement accompagnée d'un résumé et d'une indexation rendant compte de l'information globalement présente.
  2. Dans le cas de l'information hétérogène, deux situations peuvent être observées :
    • Le contenu du document est globalement homogène, mais une ou plusieurs parties traitent de points particuliers à l'intérieur du sujet globalement traité : dans ce cas il pourra être intéressant, à coté de l'établissement d'un résumé et d'une indexation générale, de traiter séparément les unités documentaires spécifiques ;
    • Le contenu du document est fondamentalement hétérogène : dans ce dernier cas, qui se rencontre en général dans les périodiques, il faudra traiter autant de parties composantes (résumés et indexation) que d'unités documentaires déterminées.

En fonction des besoins propres des utilisateurs du centre de documentation concerné (et, éventuellement, des objectifs propres au réseau de dépouillement auquel il peut participer), la spécificité des unités documentaires à analyser sera plus ou moins fine et une éventuelle sélection des unités documentaires déterminées sera effectuée dès ce premier niveau d'analyse.

 

L'indexation avec un thésaurus porte sur le ou les sujets traités dans le document et éventuellement le point de vue sous lequel ce ou ces sujets sont considérés ; ainsi le centre de documentation peut disposer de plusieurs documents sur le chat :

  • du point de vue biologique : la vision nocturne du chat ;
  • du point de vue historique : le chat dans l'Égypte antique ;
  • du point de vue littéraire : le chat dans les poèmes de Baudelaire.

 

L'indexation avec un thésaurus ne rend pas compte :

  • de la forme des documents (bibliographie, interview, rapport, norme) ;
  • de leur genre (conte, roman d'aventures...) ;
  • de leur support physique (diapositive, disque...) ;
  • de leur niveau d'utilisation (CP, collège...) ;
  • de leur domaine d'utilisation (histoire, géologie...).

Toutes ces informations seront indiquées dans d'autres champs de la notice bibliographique lorsqu'ils existent.
Les descripteurs bibliographiediapositiveenseignement élémentairegéologie appartiennent au thésaurus mais ils ne doivent être utilisés que lorsqu'ils représentent le sujet du document.

On n'indexe pas par principe :

  • les œuvres littéraires (prose, poésie, théâtre) ou philosophiques ;
  • les récits autobiographiques.

Mais on peut être tenté d'indexer certaines oeuvres qui ont un centre d'intérêt précis:

  • pour satisfaire les attentes d'un public néophyte ;
  • pour aider les recherches en histoire littéraire ou philosophique ;
  • pour faciliter les animations autour de la lecture.

Cette pratique n'est pas sans inconvénient car elle introduit une ambiguïté, ces mêmes descripteurs devant être utilisés pour désigner, par exemple, une étude sur le thème de la condition ouvrière dans la littérature française du XIXe siècle ; pour éviter la récupération de documents non pertinents, il faudra systématiquement ajouter à l'équation de recherche un critère de forme (roman, oeuvre littéraire ou philosophique) précédé, selon le cas, de l'opérateur ET ou SAUF (ET permettant d'obtenir tous les romans, toutes les oeuvres littéraires ou philosophiques, SAUF permettant de les exclure).
C'est pourquoi, si le système informatique le permet, il semble préférable de créer un champ thème littéraire et/ou philosophique alimenté grâce aux mots-clés d'une liste d'autorité établie avec les enseignants concernés ou le groupe gestionnaire de la banque de données auquel on appartient.

 

Une indexation performante est le résultat d'une analyse de contenu du document qui doit se faire à trois niveaux : niveau conceptuel, niveau du langage naturel, niveau du langage documentaire.

1. Niveau conceptuel

La reconnaissance des concepts suppose une prise de connaissance globale du document.

Pour un document imprimé, on s'appuiera sur :

  • le titre, s'il est significatif ;
  • le sommaire, les sous-titres s'ils existent ;
  • l'introduction, la conclusion du document ;
  • les notions mises en valeur par certains artifices typographiques.

Pour un document audiovisuel, on s'appuiera sur :

  • ses documents d'accompagnement ;
  • l'analyse résultant de son audition ou de son visionnement.

L'indexeur répondra à un certain nombre de questions, celles que poserait un utilisateur :

  • de qui, de quoi parle le document ?
  • de quel point de vue ?
  • quelle zone géographique et quelle période l'information présente dans le document concerne-t-elle ?

Par exemple, un document peut traiter :

  • des enfants handicapés (= quoi ?) ;
  • de leur cursus scolaire (= de quel point de vue ?) ;
  • en France (= où ?).

2. Niveau du langage naturel

Les concepts ainsi définis seront traduits dans un premier temps en mots-clés (handicapé physiqueFrancecursus scolaire).
Multiplier les mots-clés correspondant à un même concept peut être utile : ils constitueront autant d'entrées dans le thésaurus (cursus scolairescolarisation, par exemple).

3. Niveau du langage documentaire

La traduction des concepts représentés par des mots-clés en descripteurs du thésaurus est l'opération d'indexation proprement dite.

 

1. Choix des concepts

Le choix des concepts à représenter repose sur deux règles qui peuvent paraître contradictoires : l'exhaustivité, la sélectivité.

Au nom de l'exhaustivité, tous les concepts pour lesquels le document apporte une information significative doivent être retenus.

Au nom de la sélectivité :

  • les seuls concepts à retenir sont ceux susceptibles d'intéresser l'utilisateur et de lui apporter une information significative sur des centres d'intérêt actuels ou prévisibles ;
  • les sujets peu représentés dans le centre de documentation ou marginaux par rapport aux préoccupations de la majorité des usagers pourraient être analysés moins finement que les autres.

2. Profondeur de l'indexation

La profondeur de l'indexation, c'est-à-dire le nombre de descripteurs affectés à un document, ne doit pas être limitée arbitrairement mais dépendre :

  • de la quantité et de la pertinence de l'information apportée par ce document ;
  • de la nécessité de prendre en compte deux paramètres quelquefois difficiles à concilier : le traitement de son fonds propre parfois très limité, le partage des tâches en réseau avec des centres de documentation dont le fonds est plus riche ;
  • des contraintes imposées par le logiciel documentaire utilisé (certains systèmes informatiques n'autorisent que cinq descripteurs).

3. Qualité de l'indexation

Il est souhaitable, pour améliorer la qualité de l'indexation, de connaître le degré de satisfaction des usagers du centre de documentation et de conduire, avec les enseignants et les élèves, une réflexion sur les problèmes qu'ils rencontrent lors d'une recherche.

Comme l'indexation d'un document, une recherche documentaire se prépare. Dans tous les cas, il est nécessaire de connaître non seulement le langage documentaire utilisé pour savoir formuler sa question mais également les caractéristiques propres du système dans lequel on recherche (nature du fonds, principes d'indexation, fonctionnalités du logiciel utilisé).

La recherche documentaire informatisée est, par essence, multicritère. Elle ne s'élabore pas uniquement à partir du thésaurus : il s'agit de combiner dans une équation de recherche les différents éléments correspondant à une question pour trouver les données répondant précisément aux éléments recherchés.

Ces éléments peuvent être :

  • de même nature (descripteurs par exemple) ;
  • de nature différente (descripteurs, auteurs, type de document, date de publication...) ;
  • combinés au moyen des opérateurs logiques (opérateurs booléens) ET, OU, SAUF.

Outil de recherche hiérarchique et thématique, le thésaurus, peut fournir une aide fructueuse dans l'accès au contenu d'une base documentaire. En explorant les relations de synonymie, de hiérarchie et d'association qu'entretiennent entre eux les concepts du thésaurus, on peut définir, délimiter et élargir le sujet de la recherche. Avoir recours au thésaurus donne par ailleurs la possibilité d'élargir ou de délimiter automatiquement la recherche grâce à la fonction d'autopostage des logiciels documentaires. L'autopostage permet d'étendre la recherche d'un terme générique à ses termes spécifiques (et vice versa) et d'un descripteur à ses termes associés, multipliant ainsi les chances d'accéder à l'information dont on a besoin.