Précédent : Modèles linéaires généralisés et
hétéroscédasticité Remonter : Résultats nouveaux
Suivant : Estimation non paramétrique
Participants : Claudine Robert, Véronique Venditti, Gilles
Celeux.
À l'inverse de la démarche classique de la modélisation statistique, la recherche d'un modèle par application du principe de maximum d'entropie (PME) suppose en premier lieu de choisir les quantités statistiques que l'on juge essentielles pour résumer l'information apportée par un jeu de données. Ce principe propose ensuite de choisir comme modèle la loi maximisant l'entropie parmi les lois vérifiant les contraintes ainsi imposées. Le PME est le thème de la thèse que Véronique Venditti a soutenue en juillet 1998 à l'université Joseph Fourier. Dans cette thèse, divers aspects du PME en modélisation statistique ont été étudiés au travers d'une part d'une étude théorique et didactique et d'autre part d'une illustration de l'emploi du PME en tant que principe de modélisation.
Cette année la recherche a porté sur l'application du PME pour la modélisation d'une variable présentant une distribution empirique très particulière et ne correspondant visiblement à aucune loi classique. Les données utilisées proviennent du service de gériatrie du CHU de Grenoble, et sont constituées de 2234 durées de séjour[Del97]. Nous avons envisagé différentes familles d'observables, en augmentant progressivement la taille de l'information utilisée dans le but d'observer le comportement des modèles de maximum d'entropie ainsi obtenus. Pour déterminer les modèles les plus adéquats, nous avons comparé les effectifs empiriques et les effectifs estimés par les différents modèles, pour des intervalles de temps de longueurs prédéfinies. Par la technique de validation du half-sampling, et en testant ces écarts par un test du Khi-2, nous avons choisi deux modèles performants mettant en évidence deux stratégies différentes d'application du PME. Nous avons retenu d'une part un modèle obtenu sur une transformation logarithmique des données, en utilisant comme information les six premiers moments de la variable. D'autre part nous avons retenu un modèle obtenu sur les données non transformées, mais à partir d'observables plus complexes (une association entre les trois premiers moments et les trois premiers moments de l'inverse de la variable). Cette application a permis de mettre en évidence les problèmes numériques afférents à l'application du PME et ses liens avec les méthodes développées en optimisation et en analyse convexe au travers de la dualité[Lem93]. Les outils algorithmiques sont donc à rechercher au sein de ces méthodologies.