Fouille de données du génome à l'aide de modèles de Markov cachés

Sébastien Hergalant, Bertrand Aigle, Pierre Leblond, Jean-François Mari

In AEGC 2005, vol. RNTI-E-5, pp.319-328

Résumé

Nous décrivons un processus de fouille de données en bioinfor- matique. Il se traduit par la spécification de modèles de Markov cachés du second-ordre, leur apprentissage et leur utilisation pour permettre une segmentation de grandes séquences d'ADN en différentes classes qui tra- duisent chacune un état organisationnel et structural des motifs d'ADN locaux sous-jacents. Nous ne supposons aucune connaissance a priori sur les séquences que nous étudions. Dans le domaine informatique, ce tra- vail est dédié à la définition d'observations structurées (les k-d-k-mers) permettant la localisation en contexte d'irrégularités, ainsi qu'à la des- cription d'une méthode de classfication utilisant plusieurs classifieurs. Dans le domaine biologique, cet article décrit une méthode pour prédire des ensembles de gènes co-régulés, donc susceptibles d'avoir des fonctions liées en réponse à des conditions environnementales spécifiques.

Aperçu Voir bibtex

Télécharger