Normalisation à base de règles: une stratégie efficiente pour l'extraction d'évènements fondée sur des LLMs
Résumé
Dans cet article, nous explorons l'intégration d'un traitement symbolique
des sorties d'un LLM pour obtenir une extraction d'événements à haute
granularité. Nous montrons que la faiblesse des LLM dans la production d'informations
structurées, souvent soulignée dans la littérature, peut être surmontée
en concevant une fonction d'appariement (hybridation) adaptée au domaine.
Afin d'appuyer cette affirmation, nous comparons les résultats d'une méthode
d'apprentissage en contexte avec notre approche hybride et nous montrons que
cette dernière permet d'obtenir des résultats supérieurs (+6,3 %) sur un nouvel
ensemble de données, de triplets sujet-prédicat-objet dans le domaine médical
(681 triplets pour 200 phrases). Ce résultat est obtenu en laissant le LLM
(Llama-3) libre de générer les types de prédicats avec lesquels il est le plus familier,
et en appliquant a posteriori une fonction de normalisation. Outre l'amélioration
de l'explicabilité et de la contrôlabilité de la sortie, l'intervention d'une
telle fonction (qui a été mise en oeuvre en cinq jours) permet de réduire de moitié
les émissions de gaz à effet de serre induites par le traitement du corpus.