Prédiction de défauts dans les arbres du parc végétal Grenoblois et préconisations pour les futures plantations
Résumé
Nous décrivons dans cet article notre réponse au défi EGC 2017. Une
analyse exploratoire des données a tout d'abord permis de comprendre les distri-
butions des différentes variables et de détecter de fortes corrélations. Nous avons
défini deux variables supplémentaires à partir des variables du jeu de données.
Plusieurs algorithmes de classification supervisée ont été expérimentés pour ré-
pondre à la tâche numéro 1 du défi. Les performances ont été évaluées par va-
lidation croisée. Cela nous a permis de sélectionner les meilleurs classifieurs
uni-label et multi-label. Autant sur la tâche uni-label que multi-label, le meilleur
classifieur dépasse les références d'environ 2%. Nous avons également exploré
la tâche numéro 2 du défi. D'une part, des règles d'association ont été recher-
chées. D'autre part, le jeu de données a été enrichi avec des connaissances telles
que des données climatiques (pluviométrie, température, vent) ou des données
taxonomiques dans le domaine de la botanique (famille, ordre, super-ordre). En
outre, des données géographiques et cartographiques sont exploitées dans un
outil de visualisation d'une partie des données sur les arbres.