![]()
Précédent : Problèmes inverses et ondelettes
Remonter : Techniques de résolution déterministes et
Suivant : Régression multivariable par splines
ANOVA
D. Girard a poursuivi l'étude des versions randomisées de validation croisée et d'autres critères dans plusieurs directions, notamment :
- Les résultats de Härdle, Hall et Marron (1988) sur la performance asymptotique (vitesse de convergence) de la validation croisée (CV) ou de la GCV, et ses propres résultats sur la GCV randomisée (1992), ont été étendus à un cadre plus général. D'autre part, la légère détérioration inévitable due à la randomisation est précisément interprétée [11]. Par exemple, une pratique auparavant courante était de réduire le coût (d'un facteur k) de la CV exacte, simplement en ne considérant les omissions que d'un point sur k (donc seulement n/k tests leave-one-out parmi les n tests possibles). Ce travail montre que déjà avec k=2, la vitesse de convergence devient moins bonne que celle de la GCV randomisée utilisant 2 simulations (qui réduit, elle, le coût d'un facteur n/3).
- Une (la ?) question primordiale pour l'intérêt pratique de
ces techniques est bien sûr: ``Peut-on se fier au choix fourni
par la validation croisée pour le problème en main?''. Suite à la
première réponse partielle donnée dans l'article de
Computational Statistics (``si les choix (randomisés)
obtenus ont une grande variabilité alors la validation croisée
exacte est elle-même très questionnable''; heuristique qui a été
étendue à un contexte non-linéaire dans le rejoinder
[12] de la discussion de cet
article), on a montré que l'on peut même obtenir un estimateur
``consistant'' pour la distribution du paramètre validation
croisée (et donc des intervalles de confiance pour le paramètre
optimal) et ceci uniquement par simulation d'une certaine
variante de la GCV randomisée [45]. Une amélioration très récente de
cette méthodologie permet d'étendre son domaine
d'application.