Modélisation probabiliste de collections textuelles et distributions de mots
Résumé
Nous examinons dans cet article les liens entre modèles probabilistes
de documents textuels et observations empiriques sur la distribution des mots
au sein d'une collection. Nous proposons une caractérisation formelle de ces
observations, et introduisons la distribution beta négative binomiale. Cette distribution
(connue sous diverses dénominations mais dont la dérivation que nous
proposons est nouvelle) permet de rendre compte des observations empiriques
et fournit un modèle non paramétrique dont le bon comportement est validé en
catégorisation de textes.