RNTI

MODULAD
Modélisation probabiliste de collections textuelles et distributions de mots
In AAFD 2009, vol. RNTI-A-3, pp.1-20
Résumé
Nous examinons dans cet article les liens entre modèles probabilistes de documents textuels et observations empiriques sur la distribution des mots au sein d'une collection. Nous proposons une caractérisation formelle de ces observations, et introduisons la distribution beta négative binomiale. Cette distribution (connue sous diverses dénominations mais dont la dérivation que nous proposons est nouvelle) permet de rendre compte des observations empiriques et fournit un modèle non paramétrique dont le bon comportement est validé en catégorisation de textes.