RNTI

MODULAD
Évaluation des capacités de réponse de larges modèles de langage (LLM) pour des questions d'historiens
In EGC 2024, vol. RNTI-E-40, pp.155-166
Résumé
Les larges modèles de langage (LLM) tels que ChatGPT ou Bard ont bouleversé la recherche d'informations et conquis le public par leur facilité à générer des réponses sur mesure en un temps record, qu'importe le sujet. Dans cet article, nous analysons les capacités de différents LLM à produire des réponses sur des faits historiques en français avec fiabilité, exhaustivité et suffisamment de pertinence pour être directement exploitables ou extractibles. Pour cela, nous avons élaboré un banc d'essai constitué de multiples questions d'histoire. Ces dernières sont de différents types, thématiques et de niveaux de difficulté variables. Notre évaluation des réponses fournies par dix LLM, que nous avons jugés pertinents, montre de nombreuses limites sur le fond comme dans la forme. Au-delà d'un taux de précision globalement insuffisant, nous mettons en évidence le traitement inégal du français ou encore des problèmes de loquacité et d'inconstance des réponses fournies par les LLM.