logo BDSP

Blog du site

Suggestion de mots-clés

drogue-tagsLa recherche par facettes

La recherche par facettes est aujourd'hui considérée comme un moyen efficace permettant à des non-spécialistes de la recherche de l'information de naviguer au sein d'un corpus de documents.

L'idée générale est de partir d'une question "naïve" posée par un utilisateur (par exemple "drogue") et de proposer à l'utilisateur de façon automatique différents angles sous lesquels ce sujet peut être abordé (dépendance, lutte, produits, réglementation, risques associés, etc.) dans le but de lui permettre de lancer une requête mieux ciblée.

C'est un peu ce qui se passe dans un centre de documentation : le documentaliste va "faire parler son client" afin de cerner au mieux son sujet de recherche et ensuite l'orienter vers les documents les plus pertinents. Cela suppose de bien connaître le fonds documentaire et le champ thématique de l'utilisateur, de poser les bonnes questions... C'est bien sûr un processus itératif : on cerne la question petit à petit.

Les moteurs de recherche probabilistes, dont la recherche par facettes est l'un des outils, tentent de modéliser ce comportement : la recherche devient un processus itératif au cours duquel on affine progressivement les résultats de recherche obtenus. Par opposition, dans un système purement booléen comme sur l'ancien site BDSP, la recherche procède plutôt de l'essai/erreur : on lance une recherche, si les résultats ne sont pas bons, on revient en arrière, on essaie une autre requête et ainsi de suite.

Traditionnellement, de tels systèmes reposent sur des calculs statistiques un peu compliqués qui prennent en compte la fréquence des mots dans les documents pour fournir à l'utilisateur de nouveaux termes de recherche.

La cas de la base documentaire de la BDSP

Dans le cas de la BDSP, c'est beaucoup plus simple car nous disposons d'une armée d'experts qui, depuis des années, établit systématiquement pour chaque document présent dans la base documentaire la liste des facettes les plus représentatives de ce document...

Je parle ici, vous l'aurez compris, des mots-clés que les documentalistes attribuent à chaque document.  En principe,  ces mots-clés servent à trouver des notices : on tape un mot-clé et le système indique les documents qui le contiennent.

Mais on peut aussi faire l'inverse : si on a des notices pertinentes on peut par simple comptage déterminer les mots-clés les plus souvent utilisés.

Comment ça marche ?

Le système que nous avons mis en place est très simple : une fois que les réponses obtenues ont été affichées, une nouvelle recherche est lancée pour déterminer les 50 notices les plus pertinentes par rapport à la question posée par l'utilisateur.

Un comptage est alors effectué pour inventorier le nombre d'occurrences de chaque mot-clé BDSP au sein de ces 50 notices.

Certains mots-clés sont cependant ignorés :

  • Les mots-clés présents dans plus de 10% des notices de la base sont ignorés. Ces mots-clés, très souvent utilisés, ne constituent pas de bons "discriminants" permettant d'affiner la recherche. C'est le cas pour des descripteurs comme "France", "Etats-unis", "Homme", "Epidémiologie", etc.
  • Les dates et périodes éventuelles sont également ignorées.
  • Enfin, les mots-clés déjà présents dans la requête de l'utilisateur ne sont bien sur pas proposés comme suggestions.

La liste obtenue est ensuite affichée sous la forme d'un nuage de tags, en se limitant aux 25 mots-clés les plus fréquents.

Ce nuage de tags n'est pas toujours affiché : pour certaines requêtes (par exemple : "Date:2008", "TypDoc:article", "CodLang:FRE"...) suggérer des mots-clés n'a pas de sens. Le critère que nous avons pris en compte pour savoir s'il faut ou non suggérer des mots-clés repose sur l'examen de la requête de l'utilisateur : si celle-ci contient des termes probabilistes (i.e. c'est vraiment une recherche), on affiche le nuage de tags. Si par contre elle ne contient que des critères booléens (i.e. des filtres) comme dans les exemples donnés ci-dessus, on n'affiche rien.

Utilisation

Chaque mot-clé présent dans le nuage de tags est un lien qui, par défaut, relance une nouvelle recherche de la forme MotsCles=tag.

Si le navigateur supporte javascript, le fait de cliquer sur ces liens ouvre un "popup" qui permet à l'utilisateur de choisir ce qu'il veut faire de ce mot-clé. Via ce menu, il va pouvoir :

  • Lancer une nouvelle recherche sur le mot-clé choisi,
  • Restreindre les réponses à ce mot-clé (cela conserve la requête en cours et la croise en ET avec le mot-clé choisi),
  • Exclure ce mot-clé de la recherche en cours (la requête en cours est relancée avec en plus une clause "SAUF ce mot-clé").

A chaque fois que la requête est relancée, un nouveau nuage de tags est généré. Comme la requête contient de nouveaux critères, les mots-clés suggérés vont être de plus en plus précis : on retrouve le processus itératif "d'affinage" de la recherche que j'évoquais plus haut.

Evaluation

Les premiers tests que nous avons effectués semblent plutôt concluants : les mots-clés suggérés sont en général pertinents et permettent de mettre en avant des descripteurs auxquels on n'aurait pas forcément pensé en première approche.

Par ailleurs, le fait de pouvoir relancer une nouvelle recherche en seulement deux clics permet un gain de temps appréciables et constitue un outil très simple d'utilisation pour un utilisateur non professionnel n'ayant jamais entendu parler de descripteurs ou de thesauri.

Cependant, il y a des cas où cela ne fonctionne que moyennement : en fait, tout dépend de la pertinence des 50 premières notices étudiées. Si par exemple, l'utilisateur lance une recherche sur un sujet qui n'est pas (ou mal) couvert dans la Bdsp, les réponses obtenues ne seront pas pertinentes et les mots-clés suggérés ne le seront pas non plus.

Il y a aussi quelques "faux-amis". Par exemple sur des requêtes de la forme "conduite à risque", le système a tendance à focaliser autour du mot-clé "Conduite automobile" qui n'est qu'un aspect de la question... Cela dit, il propose aussi "Facteur risque", "Prise de risque", "Conduite égard toxique"... mais en moins gros et dans ce cas précis, il peut être utile d'exclure justement le terme "Conduite automobile" de la recherche.

Globalement, il nous a semblé que le système était plus souvent utile que "préjudiciable" et que le meilleur moyen pour en faire l'évaluation consistait à vous proposer de le tester.

Autre utilisation possible...

Une utilisation "marginale" du système consiste à l'utiliser pour "profiler" (comme dans les séries TV !) une recherche donnée...

Dans certains cas, cela semble fonctionner assez bien... Quelques exemples :

Bon, j'arrête de jouer et je me remets au travail, à vous de tester !


Publié par Daniel Ménard le 24 avril 2009 à 12:44:37 (dernière modification le 24 avril 2009 à 18:08:06).

Laisser une réponse