RNTI

MODULAD
Génération de données binaires groupées à partitionnement contrôlé et évaluation de l'impact des méthodes de réduction de dimension sur ce partitionnement
In EGC 2021, vol. RNTI-E-37, pp.341-348
Résumé
Les données binaires (deux valeurs possibles) sont utilisées dans plusieurs domaines de recherche tel que la modélisation des protéines en bio-informatique En particulier, certains problèmes impliquent des données binaires à partitionner. Un grand nombre de problèmes potentiellement solubles par apprentissage statistique ne peuvent l'être faute à la faible disponibilité des données réelles. Ce problème est encore plus visible dans le cas de l'apprentissage non supervisé, et notamment pour les tâches de partitionnement. D'où l'intérêt de pouvoir générer des données binaires dont le partitionnement est contrôlé, comme proposé dans cet article. Cet article détaille une méthode de génération de données binaires partitionnées, et présente de manière illustrative une comparaison de l'effet d'algorithmes de réduction de la dimension sur les caractéristiques du partitionnement généré.