Construction d'attributs pour l'extraction de connaissances à partir de séquences biologiques
Abstract
Dans cet article nous étudions un problème de prétraitement de
données : la construction d'attributs décrivant des séquences biologiques. Afin
d'assurer l'extraction de connaissances à partir de séquences biologiques (ADN,
ARN et protéines), tout système de fouille de données (datamining) se confronte
à la représentation non habituelle de ce type de données. Une séquence
biologique est représentée, en structure primaire, par une chaîne de caractères.
La construction d'attributs décrivant les séquences biologiques est une étape de
prétraitement inévitable. Dans cet article, nous étudions les méthodes existantes
de construction d'attributs décrivant des séquences biologiques, notamment,
celles qui se basent sur les n-grammes, l'arbre de suffixes généralisés et les
modèles de Markov cachés. Notre contribution dans cet axe a été la proposition
de la méthode des descripteurs discriminants et la présentation d'une étude
comparative approfondie de ces méthodes en les appliquant à des problèmes
biologiques typiques comme la reconnaissance de sites promoteurs des gènes
de E. Coli, la reconnaissance de sites de jonction de Primate et la classification
des protéines. Une confrontation des résultats de chaque méthode avec la
banque de motifs Pfam sera aussi présentée.