RNTI

MODULAD
Construction d'un corpus annoté en genre par apprentissage zero-shot.
In EGC 2023, vol. RNTI-E-39, pp.353-360
Résumé
Afin de s'adapter au mieux au jeune public plus à l'aise avec les nouvelles technologies, une association a développé une application de webchat permettant à toute personne de partager ses angoisses. Plusieurs milliers de conversations anonymes ont ainsi été réunies et forment un corpus inédit de récits sur la détresse humaine, les violences sociales. Nous présentons dans cet article une méthodologie de production d'un modèle d'apprentissage permettant un étiquetage automatique en genre d'un corpus de texte en français. La méthode repose sur l'utilisation d'une combinaison d'un algorithme de classification Zero-Shot, d'une validation humaine et d'un apprentissage supervisé. Nous montrons que cette méthode permet de préannoter efficacement un corpus volumineux en présentant quelques résultats expérimentaux, validé par des experts.