RNTI

MODULAD
Construction automatique d'un graphe de connaissances géo-historiques à partir de textes encyclopédiques anciens
In EGC 2026, vol. RNTI-E-42, pp.25-36
Résumé
Les encyclopédies anciennes, comme celle de Diderot et d'Alembert (1751-1772), offrent une ressource précieuse pour étudier l'évolution des savoirs géographiques, mais leur ampleur complique toute analyse manuelle. Cet article présente une méthode automatique de construction d'un graphe de connaissances géo-historiques à partir de ces textes. Nous proposons des ontologies spatiale et de provenance adaptées au corpus et introduisons un gold standard de 2 750 articles géographiques. Le pipeline combine apprentissage supervisé et grands modèles de langage pour la classification d'articles, le typage d'entités et l'extraction de relations spatiales. Les performances atteignent F1 = 92% pour les relations et F1 > 97% pour la classification, aboutissant à un graphe RDF de 35 000 entités et 46 000 relations. Ce travail ouvre la voie à l'analyse computationnelle des savoirs géographiques anciens. Données, modèles et code sont disponibles sur HuggingFace 1 et Gitlab 2.