RNTI

MODULAD
Reconnaissance de sections et d'entités dans les décisions de justice : application des modèles probabilistes HMM et CRF
In EGC 2017, vol. RNTI-E-33, pp.201-212
Résumé
Une décision de justice est un document textuel rapportant le dénoue- ment d'une affaire judiciaire. Les juristes s'en servent régulièrement comme source d'interprétation de la loi et de compréhension de l'opinion des juges. La masse disponible de décisions exige des solutions automatiques pour aider les acteurs du droit. Nous proposons d'adresser certains des défis liés à la re- cherche et l'analyse du volume croissant de décisions de justice en France dans un projet plus global. La première phase de ce projet porte sur l'extraction d'in- formation des décisions dans l'objectif de construire une base de connaissances jurisprudentielles structurant et organisant les décisions. Une telle base facilite l'analyse descriptive et prédictive de corpus de décisions. Cet article présente une application des modèles probabilistes pour la segmentation des décisions et la reconnaissance d'entités dans leur contenu (lieu, date, participants, règles de loi, ...). Nos tests montrent l'avantage d'approches basées sur les champs aléa- toires conditionnels (CRF) par rapport à des modèles plus simples et rapides basés sur les modèles cachés de Markov (HMM). Nous présentons ici les as- pects techniques de la sélection et l'annotation du corpus d'apprentissage, et la définition de descripteurs discriminants. La spécificité des textes est importante et doit être prise en compte lors de l'application de méthodes d'extraction d'in- formation dans un domaine spécifique.