Vous êtes ici :
par Marie-France Blanquet,
[octobre 2004]
Mots clés : CAPES (certificat d'aptitude au professorat de l'enseignement secondaire) , analyse documentaire
De nombreux textes existent sur l'analyse documentaire. Nous devons citer, en particulier, l'excellent et incontournable ouvrage de :
WALLER, Suzanne. L'analyse documentaire : une approche méthodologique. Paris : ADBS éditions, 1999.
On peut également citer le travail de :
FEYLER, François. L'analyse documentaire : résumer, indexer : techniques, outils, pratiques. Poitiers : CRDP Poitou-Charentes, 1995
ou celui de :
CHAUMIER, Jacques. Le traitement linguistique de l'information. 3ème édition. Paris : Entreprise Moderne d'Edition, 1988.
Par ailleurs, l'Association Française de normalisation a édité quelques normes portant sur cette phase du traitement documentaire.
Association française de normalisation. Recommandations aux auteurs des articles scientifiques et techniques pour la rédaction des résumés : Z 44-004. Paris : AFNOR, 1984.
Association française de normalisation. Principes généraux pour l'indexation des documents : Z 47-102. Paris : AFNOR, 1978.
L'analyse documentaire peut faire l'objet d'une description théorique. C'est ce que nous nous proposons de faire très rapidement dans la première partie de ce cours. Cependant, la théorie ne suffit pas. L'analyse documentaire repose, certes, sur un savoir et sur une compréhension profonde des buts de la documentation mais aussi, principalement, sur un savoir faire mettant en oeuvre ces savoirs complexes.
Le " savoir analyser " entraîne, en effet, sur une voie très large : l'analyse documentaire impose d'avoir une importante culture générale. Elle exige que soient compris le rôle et la place de cette opération intellectuelle dans le processus global d'un système d'information, c'est-à-dire mise en interrelation avec la politique d'acquisition, l'analyse des besoins de l'utilisateur, les modes de diffusion de l'information.
Le " savoir-faire une analyse " répond à la demande de rédaction d'un résumé spécifiquement documentaire (de type indicatif ou informatif), ou non propre à la documentation (digest, extrait, résumé critique.). Ce savoir faire, c'est aussi savoir sélectionner les mots-clés pertinents, c'est-à-dire savoir indexer un texte ou une image ou un document sonore ou multimédia.
C'est dire que l'analyse documentaire repose sur plusieurs qualités essentielles de la part de l'analyste : compétences d'adaptation à un environnement documentaire donné, compétences intellectuelles et matérielles de lecture et d'écriture.
L'analyse documentaire est la première valeur ajoutée que peut donne le documentaliste dans son travail.
C'est pourquoi nous nous tournons résolument, dans la deuxième partie de cet enseignement, vers la pratique en proposant des exercices poursuivant des buts différenciés mais complémentaires.
" L'analyse est l'opération qui consiste à présenter sous une forme concise et précise des données caractérisant l'information contenue dans un document ou un ensemble de documents. "
Association française de normalisation. Vocabulaire de la documentation. Afnor, 1987
Cette définition attire quelques commentaires :
L'analyste fait l'analyse d'un document par rapport à une politique documentaire globale et par rapport au fonds documentaire constitué. Ainsi l'indexation sera établie, certes, en fonction du contenu informatif du document mais également en fonction d'une série de paramètres comprenant l'analyse des besoins de l'utilisateur final, le niveau de spécialisation
du service de documentation concernée et la nature de fonds documentaire constitué.
Cela veut dire qu'un document peut donner lieu à des résumés ou à des indexations différentes à partir du moment où l'on prend en compte le contexte pragmatique dans lequel il va être utilisé. C'est la raison pour laquelle analyse et indexation font souvent l'objet de guide rédigé à l'intention de l'analyste et approprié au seul centre ou service de documentation dans lequel il travaille.
La réponse à cette question se situe à deux niveaux :
Les progrès dans la recherche sur l'utilisation du langage naturel ont débouché sur la création de système permettant la génération de textes ou analyse automatique et des systèmes d'indexation assistée par ordinateur ou automatique. On peut donc se demander si l'analyse documentaire garde sa place au sein des opérations de la chaîne documentaire quand elle est opérée par l'homme puisqu'elle peut être effectuée par la machine. Il nous appartient par ici de résoudre cette problématique que le documentaliste doit cependant connaître. Ce dernier doit impérativement s'informer et se former aux systèmes proposés sur le marché pour en connaître les limites comme les possibilités.
A cette problématique, s'ajoute celle soulevée par l'objectivité et la subjectivité humaine. Le résumé comme l'indexation devraient, à quelques nuances près et dans le même contexte, être les mêmes quel que soit l'analyste. Dans la réalité, on constate d'importantes différences dues à la formation initiale des analystes, mais aussi au manque de formation en documentation dans tous les cas, l'analyse documentaire est une opération coûteuse dont il est difficile de prouver la rentabilité.
Rédiger un résumé et pratiquer l'indexation sont deux opérations complémentaires dont les objectifs diffèrent. Le résumé concerne les documents n°1, n°2, n°3, n°X au sein d'un service de documentation. Ils feront individuellement l'objet d'une condensation.
L'indexation traverse ses individualités pour permettre, d'une part, de mémoriser les textes analysés et, d'autre part, de les retrouver. Les bordereaux s'additionnent dans la base de données bibliographiques ainsi construite.
C'est pourquoi il importe de comprendre la notion de bordereau d'analyse. Ce dernier est divisé en trois zones.
Il importe de souligner qu'un résumé documentaire n'a de sens que s'il est présenté d'abord par sa référence bibliographique. Cela veut dire que le résumé documentaire ne doit, en aucun cas, reprendre des éléments qui y sont déjà donnés : les informations du titre, la personnalité de l'auteur éventuellement ou la date. La description bibliographique constitue, en ce sens, l'introduction de toute analyse documentaire.
Il existe deux grands types de résumés : ceux qui sont spécifiques à la documentaire et ceux qu'un documentaliste peut être appelé à faire, mais que d'autres professionnels effectuent dans le cadre de leur activité professionnelle avec des objectifs différenciés.
Les résumés documentaires sont au nombre de trois : indicatif, informatif ou mixte.
Nous les présentons de façon approfondie :
Les résumés génériques. Ce peut être tout simplement le titre ou le titre amélioré d'un texte, l'analyse critique, l'analyse comparative, le digest, l'état de l'art, la synthèse documentaire. Nous ne les développons pas ici.
Il s'agit de signaler ou d'indiquer d'une manière extérieure et brève les thèmes d'étude. Ce résumé donne une indication sur le type d'information qu'on peut espérer trouver dans le document mais il ne donne pas l'information elle-même. Par exemple, un document déclare que l'histoire de l'informatique commence en Chine avec le boulier. Un autre document déclare que l'histoire de l'informatique commence avec Pascal et sa machine quand le un troisième document la situe avec Von Neumann. Ces trois textes, malgré les importantes différences de point de vue auront le même résumé indicatif : " historique de l'informatique".
Autre exemple : un document affirme qu'il y a 10% d'immigrés en France, un autre, 30% ; le 3ème document 3, 70%. Ils donnent la même indication ou le même type d'information :
" chiffres ou données statistiques sur l'immigration ".
Permettre à l'utilisateur d'effectuer un tri sur les documents qui parlent du thème qui l'intéresse mais pas de son sujet. Ainsi, dans le premier exemple, le mot clé informatique attirera les 3 documents cités. Si l'utilisateur s'intéresse au coût de l'informatique, il comprendra vite qu'aucun de ces 3 documents ne l'intéresse. Il éliminera ces textes et gagnera du temps. Au contraire, s'il prépare un travail sur l'histoire de l'informatique, ces trois textes l'intéressent et grâce à la référence bibliographique, il pourra trouver les documents primaires. Le résumé indicatif n'a donc pas pour vocation de dispenser
De la lecture des documents pertinents. Il est un outil de sélection, de tri.
Ce type de résumé intéresse une catégorie d'utilisateurs qui souhaite l'exhaustivité dans sa recherche d'information. C'est l'enseignant, le chercheur, l'étudiant, le conférencier, le vulgarisateur. qui veut trouver un maximum de documentation pour établir sa propre synthèse sous la forme d'un cours, d'une conférence, d'un devoir, d'une thèse.
Le résumé indicatif ressemble fortement à un sommaire ou à une table de matières quand il s'agit d'une monographie. Il est réalisé à partir des intitulés des paragraphes pour les articles, brevets, normes ou documents techniques. En principe, on ne lit pas un texte dont on veut établir un résumé indicatif. Si le texte est " lisse ", c'est-à-dire sans découpage en chapitres, sous chapitres ou paragraphes, il faut s'efforcer d'en faire une lecture en diagonale en s'aidant au maximum des termes clés.
On peut ici poser un principe théorique : plus un document est scientifique, plus le résumé indicatif sera facile à faire car les titres, sous titres et titres de paragraphes répondent à des critères d'écriture scientifique que nous analyserons dans la deuxième partie. Plus le document est " littéraire " ou ludique, moins il sera fiable (le comble étant représenté par la presse). Ainsi un document scientifique, en principe, n'utilise pas de termes qui renvoient à un sens figuré. Le terme de naufrage, par exemple, ne sera utilisé que dans son sens marin.
Quand Charles de Gaule dit " la vieillesse est un naufrage ", il utilise ce terme comme une image. Le premier texte sera justement indexé naufrage, le second : vieillesse et le terme de naufrage ne sera pas repris dans le résumé indicatif.
Il y a donc un problème lié au langage naturel, caractérisé par sa richesse mais aussi par sa polysémie, à l'origine de " bruit " lors d'une recherche documentaire. Le documentaliste s'efforce de résoudre, d'une part, par le choix des termes choisis lors de la rédaction du résumé et, d'autre part, avec l'utilisation d'outils terminologiques de types thésaurus, lors de l'indexation.
Le résumé indicatif doit être présenté sans alinéa (il constitue un bloc de texte). Il ne doit en principe ne comporter aucune donnée quantitative (c'est de l'information).
La forme concerne aussi le style, la terminologie qui doit être la plus précise possible, ne pas utiliser de sigles ou d'abréviations, l'aspect grammatical (verbes à l'indicatif présent, éviter les formes passives). On n'utilise jamais la première personne, seulement la troisième.
Longueur : elle est fixée par la norme à titre indicatif : 20 à 100 mots.
Outils : un résumé indicatif revient à classifier un texte en différentes parties. C'est pourquoi, le rédacteur de résumé doit s'efforcer de connaître des plans de classification encyclopédique ou spécialisée peuvent grandement aider le rédacteur du résumé. C'est pourquoi, il est toujours utile et formateur de créer l'indice de classification d'un texte analysé.
Ce type de résumé est destiné à remplacer, pour son lecteur, le document original analysé. Lorsque l'utilisateur a lu l'analyse, c'est " comme si " il avait lu le document dans son intégralité. Il faut donc que son contenu reflète fidèlement l'information du document. Et il ne peut être rédigé que par un documentaliste possédant une double compétence : techniques documentaires et connaissances du domaine disciplinaire concerné.
Un documentaliste spécialisé en mathématiques ne pourra pas rédiger de résumé informatif en géographie ou physique, par exemple.
La problématique du résumé informatif est double. Il s'agit de comprendre ce qui n'est pas information dans un texte et de connaître le besoin de l'utilisateur final. Un résumé informatif d'un même texte ne sera pas le même s'il s'adresse à un architecte, à un sociologue, à un médecin ou à un politique. Le documentaliste lit le texte à sa place. Il doit donc se situer en fonction du savoir de l'usager final (c'est souvent un spécialiste) et de son besoin.
La non-information : dans un texte, il y a de nombreux mots ou passages qui n'ont aucune valeur informative. Ce sont, par exemple, les exemples, les images, les illustrations.donnés en appui pour renforcer une information et qui ne prennent sens que par rapport à elle.
Par exemple, un auteur cite le coquelicot pour illustrer l'idée des fleurs des champs, mais il aurait pu parler du bleuet ou du bouton d'or ou retenir le coquelicot n'est alors pas judicieux car le texte ne porte pas cette fleur précise qui n'est là qu'à titre d'illustration.
Les annonces structurelles : dans une première partie, dans une deuxième partie ne constituent pas des informations. Elles peuvent, en effet, être utilisées pour des textes portant sur l'agriculture ou la chimie ou la pédagogie qui utiliseraient le même découpage. Elles ne concernent donc pas le contenu.
Les redondances linguistiques : les définitions ; les redites annoncées par des expressions : autrement dit ou les mots vides : simplement, impérativement, le, des.
L'opinion ou le jugement de valeur. Paris est la capitale de la France représente une information. Paris est la plus belle capitale du monde exprime une opinion. Dans un résumé informatif, l'analyse ne relève, en principe, que l'information. C'est ce qui rend ce type de résumé difficile à faire.
Le résumé informatif repose essentiellement sur le besoin en information de l'utilisateur final. Ce dernier est souvent un expert, un décideur, un homme d'action qui a besoin d'un maximum d'information pour prendre une décision, mais pas le temps de lire la somme des pages qui l'informerait. Le résumé informatif, résumé sur mesure, devient ainsi un outil d'aide à la décision.
Le résumé informatif est en principe destiné à cette catégorie d'utilisateur désignée sous le terme générique de décideur. Il en sait souvent plus que l'analyste. C'est pourquoi il est intéressant de comprendre les notions d'implicite et d'explicite entraînant à réfléchir sur la notion de mot " juste ". Une personne placée face à un objet, un processus, un fait rencontré la première fois a besoin d'une explication. Celle-ci est explicitée dans une définition, par exemple. Par la suite, le terme désigné suffira pour informer. Expliquer, par exemple, le terme d'oxymore revient à donner l'information : figure de style qui réunit deux mots en apparence contradictoire ; un silence éloquent. Par la suite, le seul terme d'oxymore suffira car il inclura, sans avoir besoin de l'expliciter, le savoir devenu implicite : c'est une figure de style. Ainsi les mots, selon les utilisateurs, sont chargés de savoirs implicites qui varient d'une catégorie à l'autre, dépendant de leur formation, leur situation, leur âge.
Le résumé informatif exige que soit maîtrisé par l'analyste le vocabulaire spécialisé de la catégorie d'utilisateurs visés.
Le résumé informatif exige une lecture et une compréhension intégrale et attentive du texte. L'analyste résume ce dernier en respectant la structure physique et informative du texte.
Comme pour le résumé indicatif, le résumé informatif est présenté sans alinéa. Il ne comprend que des termes neutres et doit être le plus objectif possible. Par ailleurs, il importe de respecter la terminologie de l'auteur. " L'emploi de termes techniques exacts et l'apparition judicieuse de mots significatifs pouvant servir de descripteurs, facilitent la bonne indexation du document et sa recherche dans les systèmes automatisés " (AFNOR Z- 44-004).
Longueur : La longueur recommandée varie de 100 à 250 mots (environ une vingtaine de lignes dactylographiées).
Outils : Un bon résumé informatif repose sur une bonne connaissance de la terminologie du domaine concerné. C'est pourquoi l'analyste doit s'appuyer sur un ensemble d'outils terminologiques, au premier rang desquels figure le thésaurus. Il est toujours formateur et enrichissant de s'efforcer d'indexer un texte en traduisant les mots clés du texte analysé par des descripteurs d'un thésaurus spécialisé. Le mot " juste " à utiliser sera souvent le terme le plus spécifique de la hiérarchie dressée.
Il peut arriver qu'un texte traite d'un sujet dans des perspectives différentes et susceptibles d'intéresser plusieurs catégories d'utilisateurs. A ces derniers, on proposera un résumé indicatif pour les parties qui ne le concernent pas et informatif pour la partie traitant de son domaine.
Quel que soit le type de résumé retenu par un documentaliste dans le cadre de ses activités professionnelles, il sera impérativement nécessaire de mémoriser les documents analysés et, pour ce faire, le documentaliste procèdera à l'indexation. Cette dernière représente l'opération qui permet de retrouver les documents enregistrés dans un fonds documentaire. Celle-ci est effectuée lors de l'enregistrement d'un document et lors de l'enregistrement d'une requête.
Il existe plusieurs types d'indexation : en langage naturel ou en langage contrôlé, c'est-à-dire avec un thésaurus. Dans tous les cas, il s'agit d'extraire d'un texte ou d'une question posée par un utilisateur le ou les " bons " mots-clés, c'est-à-dire ceux qui synthétisent au plus près sa demande.
Un mot-clé se caractérise par son autonomie sémantique. C'est un mot plein qui se suffit à lui-même. Par exemple, orientation professionnelle est un mot-clé qu'il suffit de prononcer pour comprendre la demande de l'usager. Par contre, orientation reste trop vague. Le terme de modification ne veut rien dire en soi. Il ne prend son sens qu'accompagné d'un autre terme : modification de programme, par exemple. Choisir un bon mot-clé consiste pour le documentaliste à s'interroger : Que signifie une demande d'information sur le terme de " série " ? Le terme ne se suffit pas à lui-même. Ce n'est dont pas un bon mot-clé. Par contre, publication en séries est un terme clair. On comprend sans ambiguïté ce que recherche l'utilisateur du fonds documentaire interrogé.
L'indexation répond à des règles de forme : les mots sont mis sous leur forme substantivée et canonique. Adjectifs, adverbes, verbes, abréviations ou sigles. en sont exclus.
L'indexation répond principalement à des règles de fonds concernant d'une part, la profondeur et, d'autre part, la coordination des concepts.
Cette distinction est établie en fonction du niveau de spécialisation du service de documentation. Si celui-ci possède un fonds documentaire étendu sur plusieurs disciplines ou encyclopédiques, l'indexation pourra être une indexation superficielle. Plus le service est spécialisé dans un domaine pointu de la connaissance et plus l'indexation devra être précise, c'est-à-dire établie en profondeur. Prenons l'exemple d'un service de documentation portant sur les sciences exactes. Le terme de botanique est déjà en soi suffisamment explicite pour différencier des textes portant sur les mathématiques, la physique, la chimie. Par contre, dans un service de documentation spécialisé dans la botanique, ce terme ne signifie plus rien. Il faudra pratiquer l'indexation en profondeur permettant de différencier des textes portant sur les légumes, les fruits ou les fleurs. Dans un service spécialisé dans les fleurs, il conviendra de pratiquer une indexation plus profonde permettant de distinguer les textes traitant des roses, des violettes ou des lis.
L'indexation n'est donc pas une pratique standard. Elle dépend du contexte pragmatique dans lequel elle est effectuée. C'est ce qui en fait à la fois la valeur et toute la difficulté.
Le choix de la post-coordination entraîne à sélectionner des mots isolés ou " unitermes ". Par exemple, bibliothèque universitaire donnera deux mots-clés : bibliothèque et université. Ce n'est qu'au moment de la recherche documentaire que l'utilisateur intermédiaire ou final bâtira une équation de recherche : bibliothèque ET université qui lui permettra de retrouver des documents abordant ces deux concepts. Au contraire, dans l'indexation pré-coordonnée, l'indexeur enregistrera directement le mot-clé de bibliothèque universitaire. Dans ce dernier cas, l'indexation est plus précise. Elle peut cependant, être source de silence pour des documents qui porteraient sur des bibliothèques construites pour les universitaires. Au contraire, l'indexation post-coordonnée peut être à l'origine de bruit rapportant des textes traitant de bibliothèques non destinées aux universités.
La surindexation caractérise l'attitude du débutant qui a peur d'oublier un terme clé. Dans ce cas, tous les mots pleins d'un texte deviennent pour lui un mot-clé. La sous-indexation est au contraire l'oubli de mots clés caractérisant pourtant le contenu informatif d'un texte. Dans les deux cas, pour éviter bruit et silence, l'analyste doit s'interroger : ce texte apporte-t-il réellement de l'information à un utilisateur qui travaille sur un sujet donné ? La réponse à cette interrogation lui permettra souvent de mieux mesurer la pertinence de son indexation.
Une question récurrente des débutants concerne l'aspect quantitatif de l'indexation. On ne peut répondre à cette question que de façon imprécise puisque l'indexation dépend de la densité informationnelle d'un texte (indépendante de sa longueur). Elle dépend également de la politique documentaire menée et de l'environnement global. Cependant, les spécialistes s'entendent souvent sur le nombre de 6 à 8 mots-clés pour traduire et représenter le contenu informatif d'un document.
Certaines formations incluent parfois une initiation à la lecture rapide. On peut leur emprunter quelques conseils faciles à appliquer.
Le premier concerne le vocabulaire. Les mots inconnus ralentissent la lecture. Le premier conseil porte donc sur l'enrichissement du vocabulaire qui consiste à appliquer, de façon systématique, un principe simple : ne laisser passer aucun terme, au cours d'une lecture d'un texte, dont on ne maîtrise pas le sens. Ce terme mémorisé dans un carnet avec sa ou ses définitions fera l'objet de révisions régulières jusqu'à ce que son sens soit entièrement maîtrisé. Le lecteur sait éventuellement le réutiliser dans un texte écrit ou dans une conversation.
Le second conseil porte sur la diversité des documents et le repérage différencié des informations. On ne lit pas de la même façon un manuel, un article de périodique, une monographie, un brevet, une norme ou un annuaire. Il convient donc de consulter des documents dont les normes diffèrent. Sur tous ces problèmes, on peut travailler à partir des études de François Richaudau : Méthode de lecture rapide ou La lisibilité (Editions Retz). Aujourd'hui, les chercheurs s'intéressent à l'oculométrie, problématique spécifique liée à l'apparition des documents électroniques, en particulier des sites web.
Le troisième conseil ouvre sur des problèmes de culture " spatiale ". Il s'agit, à l'intérieur d'une même série de documents, d'apprendre à se repérer dans l'organisation générique et spécifique de chacun des types de documents concernés. Ainsi, tous les quotidiens placent dans la UNE les informations essentielles. C'est là leur caractéristique générique. Mais cette UNE est présentée de façon spécifique et différente par L'Humanité, La Croix, Le Monde. Les ouvrages de la collection Que sais-je ? ne sont pas présentés de la même façon que ceux d'autres collections de différents éditeurs. Tous les répertoires sur un même sujet, ne répertorient pas les mêmes données.
Par ailleurs, la typographie, les illustrations, les paragraphes, la ponctuation doivent aider l'analyste à saisir le sens d'un texte.
Le quatrième conseil ouvre sur des problèmes relevant à la fois de culture générale et de culture professionnelle. Il s'agit de connaître les identités des producteurs de documents : éditeurs comme auteurs. L'Humanité, par exemple, ne présente pas les mêmes informations que Libération et, pour une information donnée, ne défend pas les mêmes idées ou points de vue. Dans le même ordre d'idée, connaître un auteur, savoir ce sur quoi il travaille, sa qualité ou profession, ce qu'il défend ou, au contraire, attaque, permet de lire plus vite un texte qu'il signe. Connaître un auteur et son oeuvre, l'éditeur qui donne corps à son écrit, se révèle être une assistance très importante lorsque l'on découvre un texte sous sa forme imprimé comme électronique.
Ils appartiennent à trois principales catégories très bien décrites dans l'ouvrage de Suzanne Waller ci-dessus référencé. Nous ne reprenons cette typologie que pour nous situer dans un rapport de difficulté sur la rédaction d'une condensation documentaire.
En 1954, L'UNESCO publie un code de l'écriture scientifique : Guide pour la rédaction des articles scientifiques destinés à la publication. Y sont donnés des conseils pour construire le titre, écrire le texte, dresser les références bibliographiques. De nombreux éditeurs de revues scientifiques s'appuient sur ce texte pour adresser des recommandations aux auteurs désireux de déposer un manuscrit. Ces dernières doivent être lues avec beaucoup d'attention par le documentaliste appelé à analyser des articles publiés dans ce type de revue. Elles permettent de comprendre en particulier, que l'analyse documentaire ne constitue pas un exercice de style ou un devoir littéraire. L'analyste, par exemple, n'a pas peur de répéter autant de fois qu'il est nécessaire, un terme traduisant l'information d'un texte. C'est contraire aux principes d'écriture que donne l'enseignant de français recommandant d'éviter les répétitions. L'analyste n'utilise pas de synonymes ou de quasi-synonymes et encore moins des images pour signifier l'information contenue dans un texte. Ainsi le pétrole vert redevient agriculture dans son résumé comme dans son indexation.
Dans le Guide de l'UNESCO sont données, notamment, les caractéristiques qui spécifient un titre : il doit être concis et aussi informatif que possible. Un titre peut parfois suffire pour résumer un texte. C'est pourquoi on y trouve les mots clés essentiels à retenir dans l'indexation. Dans la cas contraire, il conviendra d'établir un titre amélioré précisant la problématique et /ou la méthodologie utilisée par l'auteur.