Prédiction de solubilité de molécules à partir des seules données relationnelles
Résumé
La recherche de médicaments passe par la synthèse de molécules candidates
dont l'efficacité est ensuite testée. Ce processus peut être accéléré en
identifiant les molécules non solubles, car celles-ci ne peuvent entrer dans la
composition d'un médicament et ne devraient donc pas être étudiées. Des techniques
ont été développées pour induire un modèle de prédiction de l'indice de
solubilité, utilisant principalement des réseaux de neurones ou des régressions
linéaires multiples. La plupart des travaux actuels visent à enrichir les données
de caractéristiques supplémentaires sur les molécules. Dans cet article, nous étudions
l'intérêt de la construction automatique d'attributs basée sur la structure
intrinsèquement multi-relationnelle des données. Les attributs obtenus sont utilisés
dans un algorithme d'arbre de modèles, auquel on associe une méthode
de bagging. Les tests réalisés montrent que ces méthodes donnent des résultats
comparables aux meilleures méthodes du domaine qui travaillent sur des attributs
construits par les experts.