Génération de données binaires groupées à partitionnement contrôlé et évaluation de l'impact des méthodes de réduction de dimension sur ce partitionnement
Résumé
Les données binaires (deux valeurs possibles) sont utilisées
dans plusieurs domaines de recherche tel que la modélisation des protéines
en bio-informatique En particulier, certains problèmes impliquent
des données binaires à partitionner. Un grand nombre de problèmes potentiellement
solubles par apprentissage statistique ne peuvent l'être faute
à la faible disponibilité des données réelles. Ce problème est encore plus
visible dans le cas de l'apprentissage non supervisé, et notamment pour les
tâches de partitionnement. D'où l'intérêt de pouvoir générer des données
binaires dont le partitionnement est contrôlé, comme proposé dans cet article.
Cet article détaille une méthode de génération de données binaires
partitionnées, et présente de manière illustrative une comparaison de l'effet
d'algorithmes de réduction de la dimension sur les caractéristiques du
partitionnement généré.