Précédent : Résultats nouveaux Remonter :
Résultats nouveaux
Suivant : Manipulation d'objets vidéo
Participants : Stéphane Pateux, Claude Labit.
Dans un schéma de codage orienté-régions de séquences vidéo, le choix de la segmentation à utiliser pour le codage est un sujet d'études essentiel. Les travaux précédement menés au sein du projet étaient issus de travaux d'analyse du mouvement 2D+t qui n'avaient pas été forcément adaptés en terme d'efficacité de codage. Nous avons alors entrepris d'étudier les différents coûts intervenants dans un schéma de codage orienté-régions et d'effectuer une optimisation globale du coût de description à l'aide d'un formalisme MDL (Minimum Description Length) (travaux de thèse de S. Pateux).
Afin d'effectuer l'optimisation du coût de description global, un algorithme de segmentation et d'estimation du mouvement associé a été développé. Cet algorithme est basé sur une technique d'étiquetage d'une sur-segmentation initiale d'une image. L'étiquetage est réalisé par l'intermédiaire d'opérations de fusions de régions et de relaxation d'étiquettes attachées aux régions. L'ordonnancement de ces opérations est controlé à l'aide d'un critère de type débit-distorsion. Ce même critère est utilisé afin de retenir le meilleur mouvement pour une région issue d'une fusion de deux régions, parmi une sélection de plusieurs mouvements proposés.
En observant que la complexité de la segmentation est liée à la qualité de décodage souhaitée, une extension de cet algorithme a également été étudiée afin d'étendre le schéma de codage orienté-régions proposé à un schéma de codage hiérarchique. Pour ce faire, une segmentation hiérarchique emboitée est construite afin de pouvoir obtenir le meilleur compromis débit distorsion pour les différents niveaux de qualité proposés
Les tests réalisés sur plusieurs séquences vidéo montrent un gain significatif par rapport aux normes de codage existantes (MPEG1,2 pour la vidéo et H261,3 pour la visiophonie). Ce gain se traduit en terme de rapport signal à bruit (gain de l'ordre de 1 à 2 dB par rapport aux normes de codage les plus récentes), mais également en terme de qualité visuelle (limitation des effets de bloc, stabilité de la qualité, netteté des images même en présence de mouvement).
Ce volet d'études se prolonge actuellement au sein du projet exploratoire RNRT Osiam (voir section 7)
a.
b.
c.
Segmentation de l'image 41 de la séquence foreman pour
différents niveaux de qualité de codage: a) 32.5 dB, b) 34.3 dB,
c) 36.8 dB.
image 10 | image 100 |
![]() |
![]() |
MPEG2 | MPEG2 |
![]() |
![]() |
codage région | codage région |
![]() |
![]() |
L'étude de thèse de L. Bonnaud a visé la conception d'algorithmes de suivi temporel d'objets multiples - avec gestion d'occultations spatio-temporelles éventuelles - dans une séquence vidéo. Ce thème conduit naturellement à l'exploration de techniques d'interpolation temporelle utilisant les trajectoires de ces objets. La difficulté essentielle réside en la gestion des trajectoires multiples et le suivi des objets tout au long de la séquence en assurant une bonne localisation spatiale de leurs frontières ainsi qu'une bonne stabilité temporelle de la représentation et du suivi. Ceci doit s'accompagner d'une gestion locale des zones de découvrement et de recouvrement multiples qui apparaissent lors du suivi temporel des objets vidéo.
Les points essentiels de cette recherche ont porté: 1) sur la définition d'une représentation des cartes de segmentation spatio-temporelle adaptée à la prise en compte d'objets multiples et de leurs interactions générant des zones d'occultation et des zones de découvrement; 2) sur la conception d'un algorithme de suivi temporel associé permettant d'améliorer des modes interpolatifs de recontruction d'images basés régions (et non pas uniquement pixels ou blocs de pixels comme dans le cadre MPEG actuel).
La représentation de la segmentation que nous avons adoptée n'est plus constituée comme précédemment des contours fermés des régions définis par des splines,mais de frontières ouvertes entre régions, approximées polygonalement. Elle est composée par l'ensemble des points multiples de la carte de segmentation (points où trois régions ou plus sont adjacentes) ainsi que par l'ensemble des frontières reliant ces points multiples et des frontières fermées (boucles isolées). Cette nouvelle représentation est non redondante et plus efficace, car chaque frontière est stockée et ajustée une seule fois au lieu de deux. Une arborescence permet de traiter le cas des régions incluses dans une autre (région à trous).
L'algorithme de suivi temporel reprend les grandes lignes de celui developpé lors des années précédentes (prédiction et ajustement des mouvements de la texture des régions et des frontières), tout en ayant été adapté à notre nouvelle représentation. La prédiction du mouvement des régions est inchangée (filtrage de Kalman), par contre son ajustement se fait par une estimation robuste du mouvement. Les plus grands changements interviennent pour les frontières. La prédiction d'une frontière entre deux régions se fait grâce au mouvement de la texture de l'une de ces deux régions. Le choix de la bonne région se fait selon un critère de mouvement reposant sur l'erreur de reconstruction sur la partie de l'image balayée par le mouvement supposé de la frontière, critère qui est différent selon qu'il s'agit d'une occultation ou d'un découvrement. L'ajustement global d'une frontière se fait toujours par un mouvement affine frontière par frontière, par contre son ajustement local prend en compte les interactions entre frontières au niveau des points multiples.
Suivi temporel d'une segmentation à 10 régions sur la séquence
Flowergarden : images 1 et 29.
Image 3 interpolée par une technique orientée régions, sur la
base de la segmentation précédente. Même image codée à 35 dB à
partir de l'image interpolée.
Participants : Gwenaëlle Marquant, Hervé LeFloch, Claude
Labit, Stéphane Pateux.
Mots clés : Echantillonnage régulier et irrégulier, maillages actifs, mouvement, maillage hiérarchique, scalabilité .
Les outils de type ``grilles actives'' ou ``maillages actifs'' sont de plus en plus utilisés dans les domaines de la compression et de la manipulation des images numériques. Ils peuvent être utilisés dans le domaine du codage intra-image 2D (compression fractale, compression par DCT adaptative, compression par sous-échantillonnage adaptatif et interpolation par éléments finis), dans le domaine de la compression de séquences d'images 2D par estimation et compensation du mouvement (les maillages peuvent dans ce cas indifféremment être utilisés dans un cadre général ou dans des approches orientées Vidéo-Objet). Les maillages sont aussi largement utilisés dans les domaines de la modélisation 2D et 3D (par exemple les maillages triangulaires dans la définition de la norme MPEG-4 SNHC). C'est dans ce contexte général d'utilisation des maillages adaptatifs que se situe notre recherche.
En ce qui concerne les maillages irréguliers, nous avons continué à développer des outils mis en oeuvre par Hervé Le Floch lors de son travail de thèse . Nous effectuons une triangulation de Delaunay à partir d'un échantillonnage irrégulier d'une scène effectué sur la base d'un placement des noeuds majoritairement sur les zones de forts gradients spatiaux. La division successive d'une même image suivie de phases de relaxation pour optimiser la position et la valeurs des sommets des triangles conduit a une bonne représentation d'une image fixe, représentation obtenue par interpolation par facettes planes. Cette triangulation est ensuite suivie au cours d'une séquence à l'aide d'une projection à t + 1 du champ dense du mouvement entre t - 1 et t à partir des noeuds à l'instant t, puis en optimisant à nouveau les positions pour minimiser l'erreur de reconstruction.
Nous étudions actuellement la spécification et le suivi de maillages hiérarchiques. Les diverses motivations sous-jacentes en sont: la densité du maillage à controler spatialement et dynamiquement, la qualité des maillages en termes de régularité, de topologie, de stabilité temporelle, de compacité de représentation et de complexité de manipulations. Ces diverses propriétés apparaissent primordiales pour la génération de modéles scalables d'objets Vidéo maillés. En outre, cette nouvelle approche se veut être compatible avec l'approche ``objet''(VOP) afin de permettre un accés direct aux différents éléments d'une scène visuelle.
Mots clés : géométrie projective, géométrie épipolaire, mouvement, disparité, reconstruction, objets vidéo .
Dans le cadre des applications multimédia liées à la TV3D (télévision en relief), nous avons poursuivi des activités sur la reconstruction de vues, originales ou intermédiaires, à partir de séquences vidéo monoculaires ou stéréoscopiques. Nous proposons d'utiliser les relations géométriques induites par le modèle de projection perspective des caméras pour exprimer les redondances spatiotemporelles entre images.
La thèse de Lionel Oisel en reconstruction d'objets vidéo par géométrie projective se déroule dans le cadre d'une action CTI-Cnet, (en association avec le projet Syntim de l'Inria Rocquencourt et l'équipe Sim de l'INT). Ce travail algorithmique se décompose en trois phases distinctes. La première phase porte sur l'estimation d'un champ de mouvement dense respectant la contrainte épipolaire. Cette dernière est identifiée par l'extraction de points singuliers, suivie d'une mise en correspondance et une estimation robuste de la matrice fondamentale (stage de Laurent Faussurier). L'estimation du champ de mouvement s'appuie sur les approches robustes différentielles développées par P. Pérez et E. Mémin (Projet Vista) pour l'obtention d'un champ régularisé avec respect des discontinuités. L'algorithme fournit ainsi un indice réel de discontinuité en chaque point du champ. L'incompatibilité de l'approche différentielle avec le traitement de points de vues éloignés (nécessaire pour une bonne estimation de la matrice fondamentale) est résolue par une approche multi-résolution.
La deuxième phase d'étude consiste à approximer la scène observée par un ensemble de régions planes. A partir d'un maillage initial arbitraire et du champ dense de mouvement précédemment calculé, un processus itératif de rafinage du maillage est réalisé afin que les facettes correspondent à un même modèle homographique de mouvement.
L'étape précédente permet la synthèse de nouveaux points de vues, si on fournit la matrice fondamentale associée. La génération d'une nouvelle image à partir de la spécification d'un point de vue nécessite la connaissance des paramètres de prise de vue dans un repère euclidien. La troisième phase actuellement en cours est donc la reconstruction euclidienne explicite de la scène à partir du maillage 2D, sous la forme d'un maillage 3D triangulaire texturé, pouvant être visualisé interactivement.
La thèse de F Galpin qui s'engage, en poursuite de ces travaux, se propose d'explorer la stabilité ou cohérence temporelle de ces reconstructions par prise en compte de la contrainte de rigidité des objets. Issue de cette analyse compléte de la séquence vidéo, une représentation robuste de la scène, adaptée à une application de navigation 3D, est recherchée.
![]() |
![]() |
(a) | (b) |
---|---|
![]() |
![]() |
(c) | (d) |
![]() |
![]() |
(e) | (f) |