Fouille de données du génome à l'aide de modèles de Markov cachés
Résumé
Nous décrivons un processus de fouille de données en bioinfor-
matique. Il se traduit par la spécification de modèles de Markov cachés
du second-ordre, leur apprentissage et leur utilisation pour permettre une
segmentation de grandes séquences d'ADN en différentes classes qui tra-
duisent chacune un état organisationnel et structural des motifs d'ADN
locaux sous-jacents. Nous ne supposons aucune connaissance a priori sur
les séquences que nous étudions. Dans le domaine informatique, ce tra-
vail est dédié à la définition d'observations structurées (les k-d-k-mers)
permettant la localisation en contexte d'irrégularités, ainsi qu'à la des-
cription d'une méthode de classfication utilisant plusieurs classifieurs.
Dans le domaine biologique, cet article décrit une méthode pour prédire
des ensembles de gènes co-régulés, donc susceptibles d'avoir des fonctions
liées en réponse à des conditions environnementales spécifiques.