MyHeritage annonce 5 milliards de données historiques

Catégorie : Médias Web, France  |  le 30 Avril 2014 par Guillaume de Morant

Le portail généalogique MyHeritage annonce avoir atteint le cap des 5 milliards de données historiques en seulement deux ans et s'attend à dépasser les 7 milliards d'ici la fin 2014. Ces 5,18 milliards de données sont des actes de naissance, de mariage, de décès, des recensements, des documents d’immigration, militaires et autres. Elles comprennent notamment tous les recensements américains disponibles entre 1790 et 1940, une collection de journaux historiques de plusieurs pays du monde et d'importantes collections de photos de pierres tombales.

L'intérêt de cette annonce est toutefois à relativiser pour la généalogie française. En effet, très peu de données proviennent de sources françaises et elles sont majoritairement anglo-saxonnes et sont donc intéressantes pour des généalogistes français recherchant leurs ancêtres étrangers. MyHeritage a entamé des négociations avec différents départements français et services d'archives pour obtenir le droit de numériser et/ou d'indexer les données d'intérêt généalogique, sans pour l'instant obtenir de résultat. Pour rappel, la société française NotreFamille a déjà signé trois contrats avec les archives départementales du Rhône, de la Vendée et le 28 avril 2014, avec la Savoie.

Les technologies utilisées par MyHeritage pour croiser les informations permettent des rapprochements, notamment grâce au moteur SuperSearch à Smart Matching, Record Matching et Record Detective. Elles donnent par exemple la possibilité à l'utilisateur de recevoir des alertes automatiques dès que les bases historiques sont susceptibles de contenir des documents relatifs à des personnes présentes dans son arbre.

Le compte de 5,18 milliards est calculé comme suit : dans les collections structurées, chaque nom est compté comme une donnée. Si un acte de mariage désigne la mariée et le marié, cela fait deux données. Les variantes ne sont pas comptées dans les cas où la même personne se trouve sous plusieurs noms. Dans les arbres généalogiques, chaque profil est considéré comme une donnée, même quand il est disponible en plusieurs langues (il y en a 40 disponibles). Chaque photo est prise en compte comme une seule donnée. Dans les collections non structurées (par exemple, les pages de journaux), chaque page est comptée comme une seule donnée.

1 commentaire

Florent Dessault le 1 Mai 2014 à 16h54

En France, c'est Geneanet qui a de loin de plus de données intéressantes ! Quant aux alertes automatiques, Geneanet fait ça depuis longtemps avec une précision inégalée !

Plan du site La Revue française de Généalogie