Caractérisation et extraction de biclusters de valeurs similaires avec l'analyse de concepts triadiques
Résumé
Le biclustering de données numériques est devenu depuis le début des
années 2000 une tâche importante d'analyse de données, particulièrement pour
l'étude de données biologiques d'expression de gènes. Un bicluster représente
une association forte entre un ensemble d'objets et un ensemble d'attributs dans
une table de données numériques. Les biclusters de valeurs similaires peuvent
être vus comme des sous-tables maximales de valeurs proches. Seules quelques
méthodes se sont penchées sur une extraction complète (i.e. non heuristique),
exacte et non redondante de tels motifs, qui reste toujours un problème difficile,
tandis qu'aucun cadre théorique fort ne permet leur caractérisation. Dans le présent
article, nous introduisons des liens importants avec l'analyse formelle de
concepts. Plus particulièrement, nous montrons de manière originale que l'analyse
de concepts triadiques (TCA) propose un cadre mathématique intéressant et
puissant pour le biclustering de données numériques. De cette manière, les algorithmes
existants de la TCA, qui s'appliquent habituellement à des données binaires,
peuvent être utilisés (directement ou après quelques modifications) après
un prétraitement des données pour l'extraction désirée.