RNTI

MODULAD
Construction d'attributs pour l'extraction de connaissances à partir de séquences biologiques
In AAFD 2008, vol. RNTI-A-2, pp.107-134
Abstract
Dans cet article nous étudions un problème de prétraitement de données : la construction d'attributs décrivant des séquences biologiques. Afin d'assurer l'extraction de connaissances à partir de séquences biologiques (ADN, ARN et protéines), tout système de fouille de données (datamining) se confronte à la représentation non habituelle de ce type de données. Une séquence biologique est représentée, en structure primaire, par une chaîne de caractères. La construction d'attributs décrivant les séquences biologiques est une étape de prétraitement inévitable. Dans cet article, nous étudions les méthodes existantes de construction d'attributs décrivant des séquences biologiques, notamment, celles qui se basent sur les n-grammes, l'arbre de suffixes généralisés et les modèles de Markov cachés. Notre contribution dans cet axe a été la proposition de la méthode des descripteurs discriminants et la présentation d'une étude comparative approfondie de ces méthodes en les appliquant à des problèmes biologiques typiques comme la reconnaissance de sites promoteurs des gènes de E. Coli, la reconnaissance de sites de jonction de Primate et la classification des protéines. Une confrontation des résultats de chaque méthode avec la banque de motifs Pfam sera aussi présentée.