Vous êtes ici :

Moteur de recherche

Moteur de recherche

I. Serveur spécialisé permettant l'accès sur le Web à des ressources, à partir de requêtes constituées de mots-clés ou de texte libre et selon différents paramètres.

Ce type d'outil de recherche en ligne explore automatiquement et périodiquement les pages web (et non les sites) et les copie sur des serveurs dédiés. A partir de ceux-ci, des logiciels, appelés spiders ou crawlers, procèdent à une indexation sur tous les mots de la page. Ils constituent ainsi un index qui contient des liens vers les pages web répertoriées.

L'indexation automatique

Fonctionnant automatiquement, le nombre de ressources indexées est largement supérieur à celui qu'offrent les répertoires de sites à partir d'un recensement humain, dans un rapport allant d'un à mille (Hourmant & Rosas, 2002 [1]). Mais cet avantage quantitatif du moteur sur le répertoire est aussi la marque première de sa faiblesse sur le plan qualitatif. L'indexation automatique, en effet, ne porte que sur des chaînes de caractères, traduisant l'incapacité actuelle des moteurs à se saisir et à rendre compte de la portée sémantique de la requête. Si l'utilisateur donne du sens à sa demande, le moteur ne répond, quant à lui, que par la forme des mots. Sous cet aspect, le prix de la pertinence ne peut être décerné qu'aux répertoires de sites puisque, à l'inverse, ils indexent sur le sens. Cependant, la lourdeur consécutive à cette exigence les rend plus généralistes, et moins prompts aux réactualisations nécessaires dans le domaine de l'information. Les moteurs restent ainsi des outils privilégiés pour des recherches très précises et réclamant des mises à jour régulières. Si le nombre de pages indexées par certains moteurs paraît gigantesque (1 milliard pour Aol.fr, 2,2 milliards pour All The Web, plus de 4 milliards pour Google et Yahoo! Search et jusqu'à 5 milliards pour MSN Search), la moisson obtenue est à relativiser au regard des ressources totales du Web, dans un rapport estimé de l'ordre de 1 à 550 (Hourmant & Rosas, 2002 [1] ; Blanquet, 2005 [2]). Toutes les ressources auxquelles les moteurs de recherche n'ont pas accès, pour diverses raisons techniques, constituent ce que l'on appelle le Web profond, ou Web invisible. Les moteurs de recherche offrent sur ce point des particularités qu'il est utile de connaître puisqu'ils utilisent des technologies spécifiques leur permettant de «sonder» le Web selon des exigences portant sur le format des fichiers, la zone géographique, l'ère linguistique ou encore le niveau de spécialisation des domaines considérés. Il importe donc de savoir choisir l'outil de recherche en fonction de ses besoins.

    La page de résultats

C'est donc à partir de l'index constitué par le moteur (certains outils de recherche se distinguent des moteurs pour la raison qu'ils ne disposent pas de bases de données propres), que se fait ensuite l'interrogation. Suite à la requête d'un utilisateur, un logiciel crée alors une page de résultats constituée de la recension de toutes les pages web répondant aux critères de cette requête. Chaque résultat présente le lien vers la page sélectionnée et l'assortit d'extraits situant les mots-clés de la requête dans le contexte de la page ciblée. A ce stade, les moteurs réagissent à nouveau de manières différentes, à partir notamment de la stratégie de présentation des résultats que proposent leurs concepteurs. Le nombre de réponses rapportées de l'index est souvent tel, en effet, qu'un ordre de présentation est nécessaire. Cet ordre d'apparition sur la page de résultats se révèle crucial pour certaines entreprises et secteurs influents (économie, politique, idéologie) et provoque des stratégies de placement plus ou moins répréhensibles [Voir Positionnement payant].

Une typologie sommaire des moteurs d'ordonnancement des résultats fait apparaître deux principaux modes de présentation, l'un opérant au moyen d'un indice de popularité, le second par catégorisation des résultats.

L'indice de popularité est le produit d'un calcul attribuant une valeur au nombre et à la notoriété des liens pointant vers la ressource analysée. Cette technologie est bien sûre utilisée par le chef de file Google, avec son célèbre Page Rank. Au nombre des fonctions présentées par ce moteur, relevons par ailleurs la «copie cachée» qui permet de retrouver des pages disparues du Web [Voir Mobilité du document]. MSN Search et Teoma utilisent également l'indice de popularité. Le premier se distingue par la fraîcheur de son contenu - l'index étant fréquemment remis à jour - ainsi que par la géolocalisation de ses résultats. Le second fonde le calcul de son indice de popularité sur des communautés définies ce qui garantit l'autorité des pages de référence et apporte une valeur ajoutée à la recherche.

Le deuxième groupe, appelé à poursuivre un développement rapide, offre un tri des résultats par thème, appelé catégorisation des résultats. Il est procédé à une analyse statistique des documents (calcul des co-occurrences) afin d'y repérer les mots ou syntagmes significatifs les plus proches des termes de la requête, lesquels vont permettre d'effectuer des regroupements à valeur sémantique. Parmi les outils concernés se trouvent Exalead, Ask Jeeves ou Northern Light, mais encore Aol.fr et sa fonction d'affinage par mots-clés, Wisenut qui ajoute au tri un calcul de pertinence par notation, et Altavista dont la technologie Prisma permet d'affiner la requête par proposition de termes connexes (Asselin, 2005 [3]).

II. Didact. Les retombées économiques de certains critères responsables du calcul de l'ordre de présentation des résultats, tels le positionnement payant, la publicité contextuelle et les liens sponsorisés nécessitent une prise de conscience par l'élève de l'éventuelle stratégie économique du moteur de recherche. Si l'on ajoute à cela le fait que, contrairement à l'opinion, chaque moteur de recherche n'explore qu'une faible partie du Web, il devient important, pour accroître la pertinence de la recherche et limiter la dépendance à certains serveurs à visée monopolistique, de faire connaître et d'utiliser une pluralité d'outils.

Le choix d'un moteur de recherche s'avère donc une nécessité pour qui souhaite faire correspondre de manière raisonnée l'outil au besoin. Ce choix ne peut avoir lieu qu'à partir de connaissances portant à la fois sur les spécificités des moteurs et sur les caractères qu'ils partagent. Ce dernier point, moins enclin à devoir être perpétuellement actualisé, peut faire l'objet d'un travail plus approfondi, au moyen notamment d'une approche conceptuelle distribuée en trois volets distincts. Le mode d'indexation tout d'abord, qui détermine le rapport entre le Web visible et le Web invisible, le mode d'utilisation ensuite, qui appelle à la maîtrise du concept de syntaxe d'interrogation lors de la requête (mot-clé, opérateurs booléens et autres, filtres et fonctions avancées) et enfin le mode de restitution des résultats, dont dépend finalement la pertinence aux yeux de l'utilisateur et de son besoin d'information.

Termes corrélés

Outil de recherche d'informations en ligne - Répertoire de sites - Web - Web invisible - Index - Indice de popularité - Catégorisation des résultats - Page de résultats - Positionnement payant - Requête

[1] HOURMANT, Roger, ROSAS, Joao Luis. Je pense donc je trouve : le site avec tout ce qu’il faut savoir sur la recherche d'information Internet [en ligne]. Tripod, 2002 . Ouvre ce lien externe dans une nouvelle fenêtrehttp://members.tripod.com/joao_luis_rosas/fr/cours/053_metamotores.htm [indisponible le 26/04/2010]
[2] BLANQUET, Marie-France. Web invisible, caché ou profond : son intérêt documentaire. In E-ProfsDocs.  CRDP Aix-Marseille, 2005. Disponible à l'adresse : Ouvre ce lien externe dans une nouvelle fenêtrehttp://eprofsdocs.crdp-aix-marseille.fr/IMG/pdf/d01.pdf
[3] ASSELIN, Christophe. Intelligence-Center.com  [en ligne]. Paris : 2005. Disponible à l'adresse : Ouvre ce lien externe dans une nouvelle fenêtrehttp://c.asselin.free.fr/index.htm

Recherche avancée