Vous êtes ici :

  • Google+
  • Imprimer

Introduction

Jusqu'à la fin de la dernière décennie, le schéma qui se trouvait derrière la notion de langage documentaire était que le langage utilisé à l'indexation devait être le même que celui utilisé à la recherche. En outre la plupart des spécialistes de la question  pensaient que des langages documentaires de type différent (par exemple RAMEAU et Motbis pour ne citer qu'eux) ne pouvaient en aucun cas être compatibles. La grande nouveauté en ce domaine est apparue avec la norme américaine ANSI-NISO Z39.19:2005 dans les annexes de  laquelle on trouvait des exemples d'interopérabilité entre LCSH (équivalent américain de RAMEAU) et le thésaurus ERIC (équivalent américain de Motbis). Cette orientation se retrouve dans la norme  britannique BS 8723:2007 et l'ensemble de la deuxième partie de la  future norme ISO 25964 sera consacrée aux questions d'interopérabilité entre les thésaurus et les autres types de "vocabulaires contrôlés" (listes de vedettes matières, mais aussi listes d'autorités de noms, taxonomies, classifications, etc.,): cela se comprend fort bien si  l'on se place dans la perspective d'une recherche fédérée d'information documentaire portant sur des ressources totalement hétérogènes au niveau des systèmes d'indexation utilisés. C'est en  plus une approche extrêmement pragmatique dans la mesure où elle s'appuie sur l'indexation documentaire préalablement établie et évite  de passer son temps à utiliser des procédures de ré-indexation  physique de l'indexat initial(avec tous les risques d'approximation que cela peut comporter). On passe donc d'une logique dans laquelle les divers types de langages documentaires sont a priori incompatibles à une approche dans laquelle  il est possible de s'appuyer sur l'interopérabilité des diverses  représentations d'un même concept dans des systèmes de représentation des connaissances hétérogènes quels que soient les outils d'indexation et les langues utilisées (à condition, bien entendu que ces outils d'indexation et ces langues soient bien identifiés)

Mots-clés, conceptualisation, contextualisation et repérage de l’information pertinente (du triomphe de Google au projet de Web sémantique du W3C)

Ces dix dernières années ont vu, avec le triomphe de Google, celui que certains jugent concomitant, de la suprématie de la recherche par mots-clés en texte intégral allié à l’hypertexte inhérent au World Wide Web. Cela implique-t-il qu’il est devenu inutile de décrire des documents et d’analyser leur contenu en utilisant des structures de représentation (métadonnées, formats bibliographiques) et des systèmes de représentation de concepts (langages documentaires-vocabulaires structurés) existants et largement utilisés ?
Cela pourrait se révéler bien maladroit si l’on se réfère à l’intérêt mais aussi aux limites bien connues depuis longtemps de systèmes de repérage de l’information uniquement fondés sur une approche non structurée du texte intégral : toute modification de la question posée entraine une modification aléatoire des réponses qui ne permet en aucun cas de repérer les informations pertinentes non trouvées (silence documentaire).
Il convient en tout cas de bien noter que les évolutions actuelles, mises en œuvre par les gestionnaires du Web eux-mêmes (le W3C), vers un « Web 3.0 » ou « Web sémantique » [Cf. l’article « Web sémantique » de Wikipédia
Ouvre ce lien externe dans une nouvelle fenêtrehttp://fr.wikipedia.org/wiki/Web_s%C3%A9mantique], semblent aller dans un sens tout à fait différent. En effet les 3 outils mis en œuvre par le W3C dans cette optique : 

  • RDF (Ressource Description Framework), pour la structuration générale (Framework) du dispositif ;
  • OWL (Ontology Web Language), pour la mise en œuvre d’ontologies adaptées aux divers domaines des connaissances ;
  • SKOS (Simple Knowledge Organization System), pour la mise en œuvre de la conceptualisation et de l’interopérabilité entre les langages documentaires préexistants),
    s’orientent tout au contraire vers un renouveau de l’information documentaire structurée : pour plus d’information sur l’historique, l’organisation et les buts du web sémantique, l’on pourra utilement se référer à l’article de Bernard Vatant « Web sémantique et web social : un mariage de raison ». – Documentaliste, n° 1, 2009, p. 59-60 et à celui de Nigel Shadbolt et Tim Berners-Lee « L’émergence de la science du WEB ». – Pour la Science, n° 159, mai 2009, p. 74-79.

Tout ceci pour indiquer que vouloir aujourd’hui remettre en cause le bien fondé de données documentaires contrôlées et interopérables serait très certainement bien regrettable et irait en tout cas à l’encontre de tout ce qui se prépare par ailleurs : voulons nous aujourd’hui rejouer le combat du minitel contre internet ?

L’approche traditionnelle des langages documentaires

Les langages documentaires classiques (classifications, listes de vedettes-matière, thésaurus) sont fondés sur le postulat d’un outil commun servant à la fois au documentaliste lors de la phase d’indexation des références documentaires (issue elle-même de l’opération d’analyse documentaire) et aux utilisateurs de la base de données documentaire lors de leurs recherches de références documentaires pertinentes. Le but commun de ces différents langages documentaires est à la fois de lutter contre la trop grande richesse du langage naturel (synonymies génératrices de silence documentaire et donc d’augmenter le taux de rappel) et ses ambiguïtés (polysémies / homographies génératrices au contraire de bruit documentaire, si elles ne sont pas prises en compte et donc d’augmenter le taux de pertinence).
Par delà ce schéma général, il est néanmoins important de bien différencier des logiques d’organisation et d’accès à l’information spécifiques suivant que l’on utilise l’un ou l’autre de ces grands types de langages documentaires :

  • les classifications décimales, dont le prototype a été la Classification Décimale de Dewey, sont apparues à partir de la fin du 19e siècle et sont a priori fondées sur une organisation des connaissances en classes, c’est à dire sur une approche disciplinaire de ces connaissances (en CDU comme en Dewey, un concept n’existe pas indépendamment des différents points de vue sous l’angle desquels il peut être envisagé). Dans cette même optique, l’on peut dire qu’une indexation issue d’une classification privilégie les domaines d’utilisation des documents concernés par rapport aux divers concepts ; 

  •  les listes d’autorités de matières, dont le prototype a été la liste de vedettes-matière de la Bibliothèque du Congrès des Etats-Unis (Library of Congress Subject Headings = LCSH) élaborée à partir de 1914 et qui a été à la base à la fois des listes LAVAL (au Québec à partir des années 1940) et RAMEAU(en France à partir des années 1980) privilégient au contraire une approche pluridisciplinaire d’étude de concepts précis  et sont fondées sur la notion de sujet ;

  • enfin les thésaurus, dont le prototype est apparu aux Etats-Unis à l’extrême fin des années 1950 et dont l’énorme développement a correspondu avec celui de l’informatique et des équations de recherche booléennes, ont permis de bénéficier à la fois d’une approche conceptuelle et combinatoire, tout en offrant une organisation thématique permettant des extensions automatiques de recherche (autopostage) sur un même thème (= microthésaurus) regroupant des descripteurs représentant des concepts thématiquement en relation hiérarchique ou d’association.

Nouvelle approche de la problématique des vocabulaires contrôlés de représentation de concepts (années 2000)

Avec la publication et le changement d’intitulé de la norme américaine ANSI/NISO Z39.19 (dont la première édition avait été publiée en 1974 et dont l’intitulé, « Guidelines for the Construction, Format, and Management of Monolingual Thesauri » n’avait pas changé pendant 30 ans), le nouvel intitulé de la version 2005, (« Guidelines for the Construction, Format and Management of Monolingual Controlled Vocabularies »), n’était évidemment pas du domaine de l’anecdote. La notion même de « Vocabulaire contrôlé » qui est définie dans cette norme comme fédératrice de l’ensemble des langages et nomenclatures documentaires existants (listes terminologiques d’autorités, listes de synonymes, taxonomies mono ou polyhiérarchiques, thésaurus) est délibérément envisagée dans l’optique de l’interopérabilité entre les divers outils terminologiques existants et dans la perspective de leur double utilisation à la fois dans des références bibliographiques classiques mais aussi dans l’établissement de métadonnées. De la même façon l’importance accordée à la résolution des problèmes d’ambiguïté (1er principe d’élaboration indiqué) est, de toute évidence, liée à l’interopérabilité des outils de repérage de l’information à mettre en œuvre.

L’émergence de la notion d’interopérabilité (= interoperability) en français et en anglais (situation fin 2006)

La notion d’interopérabilité est une notion relativement émergente en France. Bien que le terme « interopérabilité » apparaisse souvent dans des documents en français accessibles sur Internet, il est loin d’être aussi communément usité que son équivalent anglophone, « interoperability » : une recherche effectuée sur Google le 31 décembre 2006 sur le terme « interopérabilité » et sur son équivalent anglophone, « interoperability » donnait respectivement 1.310.000 pages en français (dont 1.070.000 Pages : France) pour « interopérabilité »  contre 17.900.000  pages pour « interoperability ».
De la même façon si l’on consultait les dictionnaires du CILF (Conseil international de la langue française - Ouvre ce lien externe dans une nouvelle fenêtrehttp://www.cilf.org/bt.fr.html) on ne trouvait pas le terme recherché alors que la consultation du « Grand Dictionnaire Terminologique »  (Office québécois de la langue française - Ouvre ce lien externe dans une nouvelle fenêtrehttp://www.oqlf.gouv.qc.ca/ressources/gdt.html) apportait un résultat positif comportant l’équivalence indiquée et la définition suivante : « Capacité que possèdent des systèmes informatiques hétérogènes à fonctionner conjointement, grâce à l'utilisation de langages et de protocoles communs, et à donner accès à leurs ressources de façon réciproque. Notes : L'interopérabilité implique qu'un programme tournant sur un système ouvert fonctionnera également sur un autre système. L'interopérabilité a besoin de plus qu'une bonne connectivité technique puisqu'elle nécessite l'utilisation d'éléments comme des interfaces de programmation et des formats de données standardisés. L'interopérabilité définie ici est l'interopérabilité technique, mais il en existe d'autres types dont l'interopérabilité sémantique qui est associée à un mode de description de l'information contenue dans une base de données (cette description forme les métadonnées)». De même, si l’on consultait la base de données « RAMEAU » de la BNF une recherche portant sur « Vedette matière RAMEAU contient  interopérabilité » donnait pour seul et unique résultat la construction « Interconnexion de réseaux (télécommunications) » qui pointait vers 16 notices bibliographiques de la base BN-OPALE+ dont  une seule comportait le terme « interopérabilité » dans les mots du titre. Par contre une recherche effectuée sur « Titre contient interopérabilité » le 31 décembre 2006, permettait de trouver 14 références, toutes publiées depuis 1994 (à l’exception de 2 publiées en 1988 et 1989). En ce qui concerne le Sudoc (Système Universitaire de DOCumentation, catalogue collectif des bases de données universitaires françaises) une recherche sur les mots du titre « interopérabilité » ou « inter-opérabilité », effectuée également le 31 décembre 2006, donnait 45 résultats : parmi les références trouvées, 38 soit plus de 80 % de l’ensemble ont été publiées ces 10 dernières années (depuis 1996) et seulement 2 sont antérieures à 1990 (respectivement 1988 et 1989). En fait par delà l’interopérabilité des systèmes informatiques (ou interopérabilité technique), définie dans les années 1980 par le modèle OSI et les divers protocoles de réseaux d’ordinateurs (protocole TCP-IP, protocole HTTP…), les préoccupations actuelles concernent de plus en plus l’interopérabilité des données elles-mêmes et c’est dans ce cadre que se place la problématique de l’interopérabilité terminologique et conceptuelle.

Interopérabilité sémantique et repérage de l'information pertinente (2000-2005)

Depuis le début de la décennie 2000 plusieurs documents, essentiellement d’origine anglo-saxonne ont mis l’accent sur l’intérêt et l’importance de l’interopérabilité en ce domaine.

Pour en savoir plus : François Feyler. De la compatibilité à l'interopérabilité en matière de repérage d'information pertinente : problématique et exemple d'OTAREN – Documentaliste, 28 février 2007, Volume 44, N° 1,  p. 87-89.

Vocabulaires contrôlés (thésaurus, nomenclatures, dispositifs de repérage de l’information) et sources terminologiques accessibles en 2009.

Sources terminologiques utilisées pour OTAREN (et utilisables pour Motbis) :

- Motbis : l'interface de consultation en ligne de MOTBIS 2009
Ouvre ce lien externe dans une nouvelle fenêtrehttp://www.thesaurus.motbis.cndp.fr/site/
- RAMEAU : Recherche autorités RAMEAU
Ouvre ce lien externe dans une nouvelle fenêtrehttp://catalogue.bnf.fr/jsp/recherche_autorites_rameau.jsp?host=catalogue  
- Thésaurus GEMET
Ouvre ce lien externe dans une nouvelle fenêtrehttp://www.lexicool.com/gemet-multilingual-environment-thesaurus.asp?IL=1
- Thésaurus de l’UNESCO
Ouvre ce lien externe dans une nouvelle fenêtrehttp://databases.unesco.org/thesfr/
-Thésaurus de l’ONU (UNBIS. United Nations Bibliographic Information System)
Ouvre ce lien externe dans une nouvelle fenêtrehttp://lib-thesaurus.un.org/LIB/DHLUNBISThesaurus.nsf/$$searchf?OpenForm
- Thésaurus AGROVOC
Ouvre ce lien externe dans une nouvelle fenêtrehttp://www4.fao.org/agrovoc/debut.htm
- Thésaurus EUROVOC
Ouvre ce lien externe dans une nouvelle fenêtrehttp://europa.eu/eurovoc/sg/sga_doc/eurovoc_dif!SERVEUR/menu!prod!MENU?langue=FR
- Thesaurus d'éthique des sciences de la vie
Ouvre ce lien externe dans une nouvelle fenêtrehttp://www.drze.de/BELIT/thesaurus?la=fr
- Portail terminologique « Termsciences » (INIST)
Ouvre ce lien externe dans une nouvelle fenêtrehttp://www.drze.de/BELIT/thesaurus?la=fr

Sources utilisées (Notices d’autorité de noms) pour des entités nommées de type « personnes physiques »

- Recherche autorités BnF
Ouvre ce lien externe dans une nouvelle fenêtrehttp://catalogue.bnf.fr/jsp/recherche_autorites_bnf.jsp?host=catalogue 
-  Catalogue Sudoc (Système Universitaire de Documentation)
Ouvre ce lien externe dans une nouvelle fenêtrehttp://www.sudoc.abes.fr/?COOKIE=U10178,Klecteurweb,D2.1,E776d70f5-0,I250,B341720009+,
SY,A%5C9008+1,,J,H2-26,,29,,34,,39,,44,,49-50,,53-78,,80-87,NLECTEUR+PSI,R194.254.145.253,FN

- CHVK (Catalogue VirtuelSuisse)
Ouvre ce lien externe dans une nouvelle fenêtrehttp://www.chvk.ch/vk_schweiz_fr.html
- Notices d’Autorité de Noms de la Bibliothèque du Congrès (LCNA).
Ouvre ce lien externe dans une nouvelle fenêtrehttp://authorities.loc.gov/cgi-bin/Pwebrecon.cgi?DB=local&PAGE=First
- Manitou – Bouquiner : Catalogue de l’UQAM (Université du Québec A Montréal)
Ouvre ce lien externe dans une nouvelle fenêtrehttp://www.manitou.uqam.ca/manitou.dll?INVITE+source+2_UQAM_0+0+UQAM+commande+16+03+2009+06+03+bouquiner+

D’autres sources terminologiques utilisables

- FranceTerme
Ouvre ce lien externe dans une nouvelle fenêtrehttp://franceterme.culture.fr/FranceTerme/recherche.html
- Grand Dictionnaire terminologique
Ouvre ce lien externe dans une nouvelle fenêtrehttp://www.granddictionnaire.com/btml/fra/r_motclef/index1024_1.asp
- Dictionnaires du CILF
Ouvre ce lien externe dans une nouvelle fenêtrehttp://www.cilf.org/bt.fr.html

Pour aller plus loin

ISO 25964, VIAF et les systèmes de repérage de l’information documentaire pertinente (catalogues virtuels, portails documentaires, etc.).
Le mouvement actuel de mise en œuvre du Web sémantique par l’interopérabilité entre vocabulaires contrôlés de représentation de l’information et le travail de mise en œuvre de l’interopérabilité des vocabulaires contrôlés effectué dans des dispositifs d’équivalences conceptuelles tels qu’OTAREN doivent bien évidemment aller de pair avec la mise en œuvre de l’interopérabilité de la description des ressources documentaires elles-mêmes (UNIMARC, MARC 21, MémoNotices, Dublin Core, LOM, LOM-FR, etc.) au moyen d’une méta structure générique de description de ces métadonnées (Cf. RDF. Resource Description FrameworK du W3C, ISO/IEC 11179-1:2004 Information technology - Metadata registries (MDR) - Part 1: Framework  et ISO/IEC 19763-1:2007 Information Technology – Metamodel Framework for Interoperability, METS (Metadata Encoding and Transmission Standard [http://www.loc.gov/ standards / METS]) et ISO 25577:2008, Information et documentation -- MarcXchange).

Recherche avancée