Projet : IS2

previous up next contents
Précédent : Modèles à structure cachée Remonter : Fondements scientifiques Suivant : Identification non paramétrique et systèmes


     
Modèles linéaires généralisés et hétéroscédasticité



Participants : Christian Lavergne, Catherine Trottier, Yann Vernaz.

Mots clés : Modèles linéaires généralisés, hétéroscédasticité, structure exponentielle, modèles à effets aléatoires, modèles ARCH .

Résumé :

La régression a pour objet la modélisation et l'étude de la relation entre une variable dite réponse et une ou plusieurs autres variables dites explicatives ou régresseurs. Dans ce cadre, choisir un estimateur revient à minimiser une distance entre un modèle et des observations. À la base, il y a la régression linéaire et la méthode des moindres carrés. Cette notion, connue de tout statisticien, s'appuie sur trois hypothèses fondamentales. La première est le lien linéaire qui existe entre la variable réponse et les variables explicatives. La deuxième réside dans la loi de probabilité des erreurs supposée gaussienne. La troisième est l'homoscédasticité du modèle: la variance des observations est indépendante des variables explicatives. Afin de relâcher deux des hypothèses fortes de la régression linéaire, la loi des erreurs et l'homoscédasticité, diverses théories se sont développées en parallèle.

Nous donnons ici la définition de plusieurs types de modèles généralisant le modèle linéaire et qui font l'objet de recherches dans le projet IS2.

Les modèles linéaires mixtes.
Un modèle linéaire mixte ( L2M) est défini par la donnée d'un vecteur aléatoire Y de dimension n:
Y = X$\displaystyle \beta$ + U$\displaystyle \xi$ + $\displaystyle \epsilon$,
U étant une matrice connue de dimension n x q fixée et $ \xi$ un vecteur aléatoire de Rq non observé. Les distributions des variables aléatoires $ \xi$ et $ \epsilon$ sont supposées gaussiennes. La matrice X de dimension n x p, de rang p est connue, et le vecteur p-dimensionnel $ \beta$ ainsi que les variances des $ \xi$et $ \epsilon$ sont les paramètres inconnus du modèle.


Les modèles linéaires généralisés.
Un modèle linéaire généralisé ( GLM) est défini par la donnée:
i)
d'un vecteur aléatoire Y de dimension n ayant des composantes indépendantes et dont la fonction de vraisemblance pour une réalisation y = (y1,..., yn) s'écrit:
 
Ly($\displaystyle \theta$,$\displaystyle \phi$) = $\displaystyle \prod^{n}_{i=1}$exp{$\displaystyle {\frac{y_i \theta_i - b(\theta_i)}{a( \phi)}}$ + c(yi,$\displaystyle \phi$)},     (2)

a, b et c sont des fonctions réelles données et $ \theta$ le paramètre d'intérêt.
ii)
d'un prédicteur linéaire $ \eta$ relié à l'espérance mathématique E(Y) = $ \mu$ par une fonction g:
$\displaystyle \eta$ = g($\displaystyle \mu$);
la fonction g étant la fonction de lien du modèle.
Le prédicteur linéaire $ \eta$ est défini dans le cas d'un GLM par la donnée d'une matrice X de dimension n x p, de rang p, appelée matrice du plan d'expérience, et d'un vecteur p-dimensionnel $ \beta$, paramètre inconnu du modèle, tel que $ \eta$ = X$ \beta$.


Les modèles ARCH (auto-régressifs conditionnellement hétéroscédastiques).
Un processus stochastique réel $ \varepsilon_{t}^{}$, t $ \in$ Z est dit ARCH(p) s'il est défini par une équation du type:
$\displaystyle \varepsilon_{t}^{}$ = utht avec ht2 = $\displaystyle \alpha_{0}^{}$ + $\displaystyle \sum_{i=1}^{p}$$\displaystyle \alpha_{i}^{}$$\displaystyle \varepsilon_{t-i}^{2}$
$ \alpha_{i}^{}$ est un paramètre inconnu positif pour i = 0, ... , p et (ut)t $\scriptstyle \in$ Z est une suite de variables aléatoires à valeurs réelles, indépendantes, équidistribuées, de moyenne nulle et de variance un.

On appelle modèle à erreur ARCH un modèle de la forme:

yt = $\displaystyle \mu_{t}^{}$($\displaystyle \theta$) + $\displaystyle \varepsilon_{t}^{}$ où $\displaystyle \varepsilon_{t}^{}$ est un processus ARCH,
et $ \theta$ $ \in$ Rk est un paramètre inconnu.


Les modèles linéaires généralisés mixtes.
Un GL2M est défini par la donnée d'un vecteur de réponse y et d'une composante aléatoire $ \xi$ de Rq non observée, telle que la vraisemblance conditionnelle de y sachant $ \xi$, soit celle d'un GLM avec comme prédicteur linéaire:
$\displaystyle \eta_{\xi}^{}$ = X$\displaystyle \beta$ + U$\displaystyle \xi$,
U étant une matrice de dimension n x q fixée. La distribution de la variable $ \xi$ est supposée gaussienne.


Les modèles GLM-ARCH.
Un modèle GLM-ARCH d'ordre q est défini par la donnée d'un vecteur de réponse y = (y1,..., yt,..., yT) et d'une suite de prédicteurs aléatoires:
$\displaystyle \eta_{t}^{}$ = (X$\displaystyle \beta_{0}^{}$)t + $\displaystyle \beta_{1}^{}$g(Yt - 1) + $\displaystyle \beta_{2}^{}$g(Yt - 2) + ... + $\displaystyle \beta_{q}^{}$g(Yt - q)   pour   t > q,
les valeurs initiales $ \eta_{1}^{}$,..., $ \eta_{q}^{}$ étant fixées, de sorte que la vraisemblance conditionnelle de y sachant le passé soit celle d'un GLM avec comme prédicteur linéaire $ \eta_{t}^{}$.



previous up next contents
Précédent : Modèles à structure cachée Remonter : Fondements scientifiques Suivant : Identification non paramétrique et systèmes