Précédent : Approches variationnelles et à base
Remonter : Résultats nouveaux Suivant :
Actions régionales,
nationales et internationales
Mots clés : mosaïques, chromaKey, mouvements de la main, synthèse de vues, stéréoscopie multivue .
Étant donné une image I d'une personne et la
connaissance de la direction
de la lumière,
nous souhaitons créer une image de la même personne pour laquelle
la lumière vient d'une autre direction. Ceci est accompli en
trois étapes en utilisant une base de données de photos d'un
autre visage prises sous différentes illuminations :
S'il existe dans la base de données des photos prises avec
les directions de lumière
et
nous les
utilisons telles qu'elles sont. Sinon, nous avons développé
une méthode d'interpolation qui nous permet de les
synthétiser à partir des images qui sont dans la base. À
partir de ces deux images et de la fonction de réponse de la
caméra utilisée, nous estimons pixel par pixel le rapport
entre les quantités de lumière reçues et changeons les
couleurs des pixels dans l'image I conformément à ces
rapports.
La méthode d'interpolation est fondée sur une décomposition en composantes principales des images dans la base. Suite à cette décomposition, nous ajustons des modèles analytiques aux relations entre la direction de la lumière et les coordonnées des images correspondantes exprimées dans le repère des axes (ou composants) principaux. Finalement, l'interpolation est effectuée à l'aide de ces modèles analytiques.
[a]
![]() ![]() ![]() |
Les figures 10 et 11 montrent un exemple. Soit l'image de la figure 10(a) pour laquelle la lumière vient de la gauche. On souhaite obtenir cette même image avec une lumière venant d'en haut a gauche. On utilise donc les deux images de la figure 11 pour obtenir le résultat de la figure 10(b). Pour comparaison, nous avons mis une image du même visage avec l'éclairage en haut à gauche (figure 10(c)).
Participants : Philippe Renaut, Olivier Faugeras, Thierry
Viéville.
On s'attaque au problème de l'analyse du mouvement 3D et de la structure le long de longues séquences vidéo que l'on souhaite segmenter en volumes spatio-temporels homogènes, stabiliser de façon à réduire la disparité ne contenant pas d'information de structure dans chaque volume identifié et dans lesquelles on veut détecter les événements tels qu'objets mobiles ou obstacles proches, qui nécessiteront un traitement ultérieur spécifique pour finalement reconstruire la forme 3D de certains objets d'intérêt. Tenant compte du fait que ces données ont été acquises dans le cas non-calibré avec des variations des paramètres intrinsèques de la caméra et des objets mobiles dans la scène, on se propose d'attaquer le problème en mettant au point un module de prétraitement qui rende valide à la fois l'utilisation des équations au premier ordre du mouvement, que l'on revisite ici pour en montrer tout l'intérêt, et qui prépare automatiquement le flot de données à des traitement ultérieurs, manuels ou interactifs, sur un ensemble réduit et prétraité de données.
Dans le cadre du projet européen HPCN-Epsis - EP 2348, nous avons développé une approche et mis en oeuvre un logiciel permettant de calibrer une caméra et de suivre sa trajectoire 3D à des fins d'insertion dans les images perçues de modèles 3D virtuels. Après une première phase initiale de calibration qui permet de récupérer les paramètres intrinsèques de la caméra à partir d'un sous-ensemble de points 3D et de leur projection 2D, on fait usage du logiciel X Vision, support pour les applications de vision en temps réel, développé à New Haven, Yale University, et en particulier de son algorithme de suivi 2D, pour suivre la projection 2D des points 3D considérés.
Le suivi de cet ensemble de points 2D (3 ou plus) sur les images successives permet, en minimisant une somme de carrés de fonctions non linéaires des variables de position et de localisation, de calculer la trajectoire de la caméra et d'utiliser son modèle numérique pour projeter d'éventuels éléments graphiques dans la scène. Afin de rendre plus robuste le résultat du suivi 2D, on contraint les points suivis à correspondre à la projection des points 3D.
Une première implémentation a permis le suivi en temps réel du mouvement d'une caméra Indycam, déplacée manuellement.
Une deuxième implémentation travaillant en différé sur des séquences d'images préenregistrées a été utilisée sur des séquences réalisées par Radamec.
Ce travail a fait l'objet du rapport technique D3420 relatif à la tâche T340 : 3D Motion and Structure from Motion du projet HPCN-Epsis EP 2348
Dans le cadre du projet européen HPCN-Epsis - EP 2348, nous avons développé et réalisé une plateforme logicielle permettant de construire un modèle d'un studio donné, et de segmenter par la suite tout acteur (ou objet volumique) évoluant dans ce studio.
Cette application, de grande importance dans le domaine du cinéma et des effets spéciaux, est une première étape vers le développement d'une approche principalement géométrique pour le problème de la segmentation d'acteurs pouvant évoluer devant un fond texturé, non nécessairement bleu comme le contraignent les méthodes classiques issues de la Blue screen technology.
L'idée retenue est d'utiliser plusieurs caméras synchrones ( 3 actuellement) afin de construire un modèle fiable du studio vide. Ce modèle est alors comparé pour segmentation avec le modèle du studio observé durant les performances des acteurs. La construction du modèle, constitué principalement de plans, est réalisé off-line et de manière interactive à l'aide d'une estimation très fine des homographies reliant les plans des murs et du sol entre les différentes vues des caméras.
En cours d'utilisation, l'application de ces homographies permet de transférer les images issues des caméras auxiliaires vers l'image issue de la caméra de référence. Une comparaison par un score de corrélation permet alors de vérifier si les points observés par la caméra de référence appartiennent au studio vide ou à celui d'un objet volumique évoluant dans le studio.
Une première implémentation a été réalisée en utilisant des enregistrements monochromes avec du matériel local.
Une deuxième implémentation s'est appuyée sur un enregistrement réalisé chez Symah Vision et a conduit à un logiciel et à sa notice technique d'utilisation
La figure 16 montre en haut la vue initiale du studio vide et en bas, les vues des 2 caméras auxiliaires transférées pour comparaison avec l'image de référence : les pixels appartenant aux murs et au sol du studio se correspondent mais pas ceux appartenant à l'acteur. C'est ce qui va permettre de segmenter correctement l'acteur, indépendemment de son ombre et des conditions de lumières qui peuvent changer entre les instants off line et on line.
Ce travail a fait l'objet d'un rapport technique relatif à la tâche T350 : Pattern Key System du projet HPCN-Epsis EP 2348
|
Notre but ici est de faire comprendre à l'ordinateur les mouvements d'une personne filmée par plusieurs caméras. Les applications sont multiples: interface homme-machine par le geste (« souris 3D »), surveillance automatique de lieux sensibles (comme les banques), analyse et construction de preuves à partir de vidéos amateurs (projet européen Improofs).
La méthode choisie consiste à extraire des informations des images, et à les mettre en correspondance avec un modèle 3D de ce que l'on cherche à localiser (main, personne, ...).
Ce modèle est un système d'objets rigides (sphères, pavés, cônes tronqués) articulés entre eux. Un tel choix a deux avantages : il est assez simple à manipuler, et il offre suffisamment de précision pour être comparé aux informations tirées des images.
Pour extraire ces informations (ou primitives), deux voies ont été suivies jusqu'à présent:
Dans chacun de ces deux cas, on va ensuite créer des forces entre le modèle 3D et les primitives de l'image. Un algorithme rapide de calcul de la dynamique du modèle articulé soumis à ces forces va faire converger celui-ci vers la position estimée de l'objet suivi (pour plus de détails, voir [[24]]). On contourne ainsi la difficulté d'avoir à minimiser sur un grand nombre de degrés de liberté.
On suppose que le modèle a été initialisé dans une configuration proche de celle cherchée. Dans une séquence d'images vidéo, on prendra la position précédente mise à jour par un filtre de Kalman. Les paramètres du modèle 3D sont initialisés à la main dans les premières images.
Des tests encourageants ont été effectués sur des modèles de
doigts (8 degrés de liberté (ddl)), de mains (27 ddl) et de
personnes (20 ddl) (voir figures 5.3.5).
![]() |