Construction automatique d'un graphe de connaissances géo-historiques à partir de textes encyclopédiques anciens
Résumé
Les encyclopédies anciennes, comme celle de Diderot et d'Alembert
(1751-1772), offrent une ressource précieuse pour étudier l'évolution des savoirs
géographiques, mais leur ampleur complique toute analyse manuelle. Cet article
présente une méthode automatique de construction d'un graphe de connaissances
géo-historiques à partir de ces textes. Nous proposons des ontologies
spatiale et de provenance adaptées au corpus et introduisons un gold standard
de 2 750 articles géographiques. Le pipeline combine apprentissage supervisé et
grands modèles de langage pour la classification d'articles, le typage d'entités et
l'extraction de relations spatiales. Les performances atteignent F1 = 92% pour
les relations et F1 > 97% pour la classification, aboutissant à un graphe RDF de
35 000 entités et 46 000 relations. Ce travail ouvre la voie à l'analyse computationnelle
des savoirs géographiques anciens. Données, modèles et code sont
disponibles sur HuggingFace 1 et Gitlab 2.