Reconnaissance de sections et d'entités dans les décisions de justice : application des modèles probabilistes HMM et CRF
Résumé
Une décision de justice est un document textuel rapportant le dénoue-
ment d'une affaire judiciaire. Les juristes s'en servent régulièrement comme
source d'interprétation de la loi et de compréhension de l'opinion des juges.
La masse disponible de décisions exige des solutions automatiques pour aider
les acteurs du droit. Nous proposons d'adresser certains des défis liés à la re-
cherche et l'analyse du volume croissant de décisions de justice en France dans
un projet plus global. La première phase de ce projet porte sur l'extraction d'in-
formation des décisions dans l'objectif de construire une base de connaissances
jurisprudentielles structurant et organisant les décisions. Une telle base facilite
l'analyse descriptive et prédictive de corpus de décisions. Cet article présente
une application des modèles probabilistes pour la segmentation des décisions et
la reconnaissance d'entités dans leur contenu (lieu, date, participants, règles de
loi, ...). Nos tests montrent l'avantage d'approches basées sur les champs aléa-
toires conditionnels (CRF) par rapport à des modèles plus simples et rapides
basés sur les modèles cachés de Markov (HMM). Nous présentons ici les as-
pects techniques de la sélection et l'annotation du corpus d'apprentissage, et la
définition de descripteurs discriminants. La spécificité des textes est importante
et doit être prise en compte lors de l'application de méthodes d'extraction d'in-
formation dans un domaine spécifique.