RNTI

MODULAD
Extension et adaptation des modèles de langues pour la classification de corpus en santé animale
In EGC 2023, vol. RNTI-E-39, pp.531-538
Résumé
Nous présentons EpidBioBERT, un classifieur de documents de bio-surveillance épidémiologique. Notre modèle, entraîné sur un corpus qui contient des articles de presse sur les épidémies de maladies animales, a pour objectif de distinguer les documents pertinents et non pertinents pour une tâche d'extraction d'informations. Nous adoptons un modèle de langue biomédical pré-entraîné avec une approche de réglage fin, en nous concentrant sur les descripteurs thématiques épidémiologiques, à savoir la maladie, l'hôte, le lieu et la date. Nous expérimentons l'impact de chaque descripteur sur le classifieur dans le cadre d'études d'ablation. Nous comparons également notre approche biomédicale pré-entraînée avec un modèle de langue général.