Correcteur orthographique
Le site de test dispose désormais (que ce soit dans la base documentaire ou dans le service offres d'emploi) d'un correcteur orthographique qui propose automatiquement sur la première page de résultats une version corrigée de la requête lorsque celle-ci contient des fautes de frappe ou d'orthographe :
Le correcteur se base sur les mots présents dans les notices de la base et non pas sur un dictionnaire externe qu’on aurait importé :
- Cela présente un avantage : il connaît le vocabulaire propre à notre secteur d’activité comme “aladie de creutfel jacob”, “rayons yonisants”, la revue “krankempflegue” ou les “Centers for diseaze control and prevantion” (il connaît même “Hélène Fagerazi”, c’est pour dire !)
- Par contre, si la base de données contient des mots mal orthographiés (et elle en contient…) ceux-ci ne seront pas corrigés car le système ne corrige que les mots qu’il ne connaît pas (par exemple, le mot “épidémologie” n’est pas corrigé parce qu’il existe une notice dans la base contenant ce mot mal orthographié).
- De manière similaire, un mot mal orthographié mais qui correspond à un nom d’auteur ou à un sigle ou tout simplement à un mot existant dans une autre langue ne sera pas corrigé (exemples : “consommation taba”, “Center Marmottan” ou “educacion pour la santé”).
Techniquement, c’est une approche probabiliste, ici encore, qui est utilisée. Lorsque le système détecte un mot qu’il ne connaît pas, il va rechercher dans la base les mots ayant une orthographe proche de celle du mot inconnu et proposer comme correction le mot ayant la fréquence la plus élevée au sein de la base c’est-à-dire celui qui apparaît le plus souvent dans les notices (pour ceux que ça intéresse, l’algorithme utilisé est décrit ici).
Si la requête de l’utilisateur contient plusieurs mots mal orthographiés, une suggestion sera apportée pour chacun, mais sans qu’il y ait de corrélation entre les différentes suggestions proposées (par exemple pour “chicungunia ile de la éunion”, le système propose “chikungunya ile de la union”).
La “tolérance” du système est pour le moment fixée à 2, ce qui signifie qu’il autorise un maximum de deux “fautes” par mot (caractère en trop, manquant ou incorrect et permutation de deux caractères adjacents). C’est ce qui fait qu’il est capable de corriger automatiquement “chicungunia” mais pas “chicunghunia”. On pourrait être tenté d’augmenter cette tolérance, mais dans ce cas, la pertinence des suggestions proposées décroît alors assez rapidement.
Bien qu’imparfait, on trouve que le correcteur mis en place ne fonctionne pas trop mal, mais, comme pour le reste, on attend vos remarques et réactions.
Bons tests !
