Infos

Exalead, un moteur français et sémantique pour Gallica

Vous qui explorez régulièrement les rayons numériques de la Bibliothèque Nationale de France sur son site Gallica, attendez-vous à un changement générationnel. Rassurez-vous, rien de la présentation du site ne changera, la forme de Gallica est déjà très agréable. Non, c'est sur le fond que gronde la Révolution : Gallica va adopter un nouveau moteur de recherche. Et malgré son nom à consonance anglosaxonne, Exalead est bien français Madame ! C'est une filiale du groupe Dassault Systèmes qui équipe déjà de nombreux sites institutionnels français parmi lesquels l’INA, le CNRS, les Journaux Officiels et France 24.

D'ici la fin de l'année, Exalead doit prendre le relais comme outil de recherche interne. Avec ce nouveau moteur sous le capot, -on parle désormais de moteur d’indexation et de recherche sémantique CloudView, l'accès à Gallica devrait s'en trouver dopé. En naïf généalogiste, vous avez déjà tenté votre chance en tapant tout simplement votre nom dans l'actuel outil de recherche. Et parmi les 1,3 million de documents numérisés, livres, journaux, cartes postales, manuscrits ou cartes, vous obtenez soit aucun résultat, soit trop de résultats.

La promesse d'Exalead est "d'augmenter la pertinence des résultats et d'offrir une navigation plus simple et plus confortable favorisant les liens entre différents documents", écrit Arnaud Beaufort, directeur des services et des réseaux à la BnF sur le blog C-Culture. Outre un classique correcteur orthographique, le moteur inclut une fonction de "désambiguïsation" permettant d’affiner une recherche en distinguant les termes pouvant prêter à confusion, notamment les homonymes (avocat, le métier et avocat, le fruit). Suggestif, Exalead prendra en compte les requêtes des autres utilisateurs pour proposer un résultat plus pertinent.

Et sémantique alors ? Ce terme signifie que le moteur prend en compte le fond du contenu indexé et non pas simplement la forme, contrairement à la recherche plein-texte. On parle alors d'extraction de concept, elle permet à l’utilisateur lorsqu’il effectue une requête ou lorsqu’il consulte un document de se voir proposer d’autres documents ou d’autres concepts dont le contenu sémantique ou logique est proche. Cela permet de "passer du général au particulier et inversement et d'offrir une navigation transverse dans Gallica".

Concrètement, vous devriez voir surgir de Gallica des noms propres, des noms de lieux, des noms d’organismes, des citations, des rapprochements intelligents. Car Exalead est un petit malin, il sait que Saint Louis est Louis IX. Enfin, le résultat de votre recherche ne devrait plus être désarçonnant : il sera classé en ensembles cohérents. Ces efforts conjugués à une meilleure indexation sur le Web pourraient bien à nouveau doper les audiences de Gallica. Le portail est consultée en moyenne quotidiennement par 25.000 visiteurs et a déjà connu une progression de 85 % de son audience en 2010 passant de 4 à 7,5 millions de visites.

Lire aussi :

Retrouvez-nous sur Facebook et Twitter

Commentaires