Extraction d'informations sur les workflows scientifiques à partir de la littérature
Résumé
Les workflows scientifiques offrent aux bioinformaticiens un cadre pour représenter, échanger et assurer la reproductibilité de leurs pipelines d'analyses. Ils sont décrits dans la littérature (texte) et/ou stockés dans des dépôts de workflows (code). Un enjeu majeur pour tendre vers une meilleure réutilisation des workflows par des tiers est de reconstruire le lien entre la documentation (texte) et l'implémentation (code) du workflow. A partir du texte intégral d'articles décrivant des workflows en anglais, nous proposons une méthode de modélisation et d'extraction d'informations des composants des workflows. Nous présentons un corpus de 24 articles annotés à l'aide d'un schéma comportant 16 entités et 10 relations. Nous utilisons ce corpus pour entraîner et évaluer des modèles statistiques d'extraction d'information sur les workflows. Nous montrons la faisabilité de la tâche comme première étape vers l'intégration d'information concernant les workflows issus de la littérature et des dépôts de workflows.