Projet : TEMICS - Contents of Codage et codage conjoint source-canal

Mots clés : compression, codage et décodage robustes, contrôle de congestion, descriptions multiples, scalabilité, transformations en ondelettes, multi-ondelettes, transformations par bases de fonctions redondantes, quantification, théorie débit-distorsion, régulation, progressivité, codes correcteurs, modélisation stochastique, estimation Bayesienne, inférence probabiliste, propagation de croyance, principe turbo, modèles de canal, Internet, mobilité, qualité de service .

Résumé :

Les travaux ont porté sur le codage à bas débit basé d'une part sur une représentation par régions de la vidéo et basé d'autre part sur un modèle 3D de la scène. Nous avons par ailleurs développé un algorithme de codage robuste et de codage conjoint adapté à une transmission du signal vidéo sur l'Internet avec pertes de paquets. Ces mécanismes ont été développés d'abord dans un cadre de transmission point-à-point (unicast) puis étendus à une transmission multi-point (multicast) caractérisée par une hétérogénité des canaux de transmission. Afin d'adapter le signal vidéo aux caractéristiques du canal, nous avons développé des modèles de prédiction de bande passante et des modèles de régulation du débit des données à transmettre, qui tiennent compte des contraintes en termes de délais caractérisant des signaux multimédia temps-réel. Dans le domaine des communications sur des liens sans fils, en collaboration avec le projet SIGMA2, une modélisation sous forme d'automate stochastique d'un codeur statistique a permis de développer un algorithme de décodage robuste de codes à longueurs variables. Le décodage repose sur des techniques d'estimation Bayesienne. Un décodeur conjoint source-canal, mettant en oeuvre le principe turbo (ou de propagation de croyance) et les techniques d'estimation Bayesienne, a aussi été testé sur des sources théoriques de Gauss-Markov.

Codage orienté régions, modèles 3D et textures

Nous avons développé un schéma de compression de signaux vidéo basé sur une modélisation 3D de la scène. Ce schéma est destiné à coder à bas débit des scènes fixes telles que le fond fixe (ou l'image panoramique). Le schéma développé suit une structure I-P-B (Intra-Prédit-Bidirectionnel) classique. La séquence vidéo est représentée par un ensemble d'images clés codées en mode I, par un ensemble de modèles 3D valides entre 2 images-clés, et par une suite des positions de la caméra [23]. Une image intermédiaire entre 2 images-clés est reconstruite par projection du modèle 3D texturé par une image-clé, sur le point de vue de la caméra. L'information correspondante peut être soit transmise (images de type P) ou interpolée (images de type B). Les informations à transmettre (modèles 3D, positions caméra) sont issues de l'analyse automatique de la séquence présentée dans la section 6.1.2. Une comparaison quantitative (mesure de PSNR) et qualitative (qualité visuelle subjective) avec des schémas de codage normalisés (MPEG et H.263+), sur des séquences réelles d'intérieur et d'extérieur, a montré la validité de cette approche pour des débits de l'ordre de 100 kbit/s (format CIF) (voir figure 9). Noter que cette approche permet, par rapport aux schémas normalisés, de reconstruire d'autres points de vue de la scène.

**Figure 9:** Codage par modèles 3D: comparaison avec MPEG-2; Au même débit notre codeur donne un PSNR similaire mais une qualité visuelle supérieure et des fonctionalités de navigation dans la scène.
$\begin{figure} \begin{center} \psfig {figure=figuretemics/tree.eps,width=11cm}\end{center}\end{figure}$

Codage robuste et scalable, et régulation de débit associée

L'algorithme adaptatif de choix de modes de codage (intra ou inter), développé en 1999, a été enrichi de modèles débit-distorsion fiables des performances de la quantification. Ces modèles permettent une régulation fine du débit et un compromis optimum entre les performances en compression et la résistance aux pertes de paquets, dans un cadre de codage vidéo à base de prédiction temporelle (MPEG ou H.26x) [35]. L'algorithme a été étendu à un mode de représentation scalable (scalabilité de type SNR, c'est-à-dire en rapport signal à bruit) ou multi-niveaux des signaux vidéo [36]. En plus de la distorsion due à la quantification et de la distorsion induite par le canal sur chaque niveau de scalabilité, il tient compte des dépendances entre les niveaux de scalabilité et de l'effet de propagation des pertes inter-niveaux. Une technique de dissimulation des pertes a en outre été développée afin de minimiser l'impact de la propagation des pertes entre les niveaux de scalabilité.

L'optimisation de la qualité de service passe aussi par l'adaptation dynamique du débit des signaux compressés à la bande passante du réseau de transmission. Les réseaux de transmission à qualité de service non garantie sont en effet non stationnaires et caractérisés par des variations de bande passante, de taux de pertes, et de délais. Il est donc nécessaire de mettre en place dans les schémas de codage des modèles de prédiction de bande passante et de régulation du débit des signaux transmis. Les approches de contrôle de débit (ou de congestion) publiées à ce jour ne tiennent pas compte des caractéristiques débit-distorsion des signaux et de leur contrainte de délai. Un modèle de régulation de débit qui s'adapte à la fois aux modèles débit-distorsion des signaux compressés, à leur contrainte de délai maximum, et à divers modèles de prédiction de la bande passante disponible sur le réseau, a été développé. Cette étude a permis également de révéler certaines faiblesses dans les approches de prédiction de bande passante dites « TCP-compatible » publiées à ce jour (estimation du processus de pertes, hypothèse sur la taille fixe des paquets non valide pour des signaux vidéo). Ce modèle de régulation de débit a d'abord été validé dans un cadre de transmission point-à-point.

Dans un contexte de transmission multi-point, un contrôle de congestion (ou de débit) réactif et précis peut exiger un nombre élevé de niveaux de scalabilité, aboutissant à des performances de compression moindres. Ce problème peut être contourné en adaptant dynamiquement le débit de chaque niveau de scalabilité sous contrainte d'un débit global constant. Dans notre approche, cette adaptation dynamique du débit est réalisée par une optimisation débit-distorsion conjointe des paramètres de quantification et des modes de codage, associée à un modèle de régulation hybride émetteur-récepteur [36]. Le modèle de régulation hybride est associé à un mécanisme de classification (ou de clustering). La classification repose sur des métriques relatives aux taux de pertes ou aux délais perçus par les différents récepteurs de la liaison multi-point et permet de mettre en place une prédiction de bande passante par groupe de récepteurs. Le mécanisme de classification a été développé par le projet PLANETE. Le modèle de prédiction de bande passante repose sur des principes dits de « TCP-compatibilité », en d'autres termes sur des équations modélisant le trafic des connexions TCP, afin d'obtenir un partage équitable de la bande passante du réseau entre les données multimédia et les applications téléinformatiques. Cette approche s'inspirant des concepts de réseaux actifs permet d'adapter, de manière dynamique et avec une granularité suffisamment fine, le débit reçu par chacun des récepteurs aux conditions de transmission qu'il perçoit. L'approche permet ainsi une utilisation optimale de la bande passante pour l'ensemble des récepteurs de la session multi-point.

Les algorithmes ci-dessus sont aussi étudiés dans un environnement de différenciation de services. En particulier, un mécanisme de marquage sémantique des données contenues dans un flux vidéo compressé est étudié afin de garantir un traitement différencié de ces données au niveau des mécanismes de gestion des files d'attente à l'étude pour une évolution de l'Internet vers une offre de services différenciés.

Allocation de débit conjointe source/canal pour transmission vidéo sur Internet

Les techniques de contrôle de congestion et de codage robuste permettent d'adapter les flux vidéo transmis aux caractéristiques du réseau, et ceci afin de contribuer à l'amélioration de la qualité de la transmission et de minimiser l'impact des erreurs ou des pertes sur la qualité du signal reconstruit. Néanmoins, il s'avère souvent nécessaire de faire appel à des techniques complémentaires de correction de pertes, afin d'accroître la qualité apparente de la transmission. Le problème posé est alors le partage de la bande passante prédite entre le débit utile (des données vidéo) et le débit de redondance. Nous avons développé un mécanisme d'allocation de débit conjoint source-canal : connaissant la probabilité effective des pertes après décodage, la répartition de débit entre la source et la redondance (ou codage de canal) est réalisée de manière à minimiser la distorsion globale (source+canal) [14]. Cet algorithme vient conditionner les taux de rendements des codes correcteurs d'erreurs utilisés et contrôler la corrélation à introduire ou à maintenir au niveau de la représentation compressée des données vidéo. Cette optimisation globale de la chaîne de communication, incluant codage de source et codage de canal, avec une protection inégale des différentes portions de flux vidéo, permet un gain en terme de qualité (PSNR) du signal reconstruit. Cet algorithme a été étendu à un mode de représentation scalable des signaux vidéo et adapté au contrôle de congestion hybride émetteur/récepteurs associé au mécanisme de classification évoqué ci-dessus [29].

Décodage conjoint source-canal

Cette étude est menée en collaboration avec le projet SIGMA2 (Éric Fabre). Les objectifs de forte compression conduisent à l'utilisation de codes statistiques à longueurs variables. Ces codes sont très sensibles au bruit, une erreur pouvant entraîner une dé-synchronisation du décodeur. Une modélisation sous forme d'automates stochastiques des codeurs à longueurs variables a permis de construire un algorithme de décodage robuste de codes à longueurs variables (codes d'Huffman) et de codes à longueurs variables réversibles (RVLC). Le décodage basé sur une estimation Bayesienne permet de réduire fortement les taux d'erreurs symboles et d'accroître la capacité de resynchronisation du décodeur mesurée à l'aide de la distance de Levenshtein . La modélisation sous forme de chaînes de Markov des dépendances entre les symboles de source d'une part, et entre les bits de la séquence codée par le code à longueur variable d'autre part, fournit un cadre naturel à l'introduction de petits mots de synchronisation permettant une synchronisation « douce » du décodeur. Par rapport à des codes auto-synchronisants, ces mots de synchronisation ne doivent pas vérifier les conditions de préfixe des codes à longueurs variables et présentent donc une redondance moindre. L'application du principe turbo (ou de propagation de croyance) entre le décodeur de codes à longueurs variables et le décodeur de canal utilisés en alternance selon une structure série a permis d'atteindre des taux d'erreurs symboles très faibles pour des taux d'erreurs bits au niveau du canal de l'ordre de 5 x 10^-2. Les algorithmes ont été testés sur des sources de Gauss-Markov. L'intégration de ces décodeurs au sein d'un décodeur vidéo est en cours afin de valider les approches sur des signaux réels.

Codage conjoint source-canal

Participants : Zhikui Chen, Christine Guillemot, Thomas Guionnet, Xavier Hénocq, Stéphane Pateux, Gagan Rath.

Les communications sans fil sont caractérisées par des transmissions fortement bruitées avec des erreurs ponctuelles ou en rafales. L'approche classique qui consiste à considérer les deux problèmes du codage de source et de la protection (codage de canal) de manière séparée et à mettre en cascade le codeur de source, conçu pour un canal sans perte, avec des codes correcteurs d'erreurs (ex: codes convolutionnels, turbo codes, correction par anticipation, ...) s'avère sous-optimale. Malgré les bonnes performances des codes correcteurs d'erreurs, les contraintes d'un système réel (complexité, délai de décodage,...) conduisent à des taux d'erreurs résiduels non négligeables. Il est donc apparu nécessaire d'optimiser les deux opérations de codage (source et canal) conjointement.

Les opérateurs de compression ont été conçus à ce jour de manière d'une part à décorréler le signal (transformations) et d'autre part à optimiser les performances débit-distorsion de quantification. Le codage de canal a pour objectif l'ajout de redondance dans le train binaire transmis sur le réseau afin de pouvoir corriger les erreurs de transmission. Dans le modèle utilisant des codes correcteurs associés aux flux vidéo transmis, les performances du système de communication peuvent aussi être améliorées par la mise en place de techniques de décodage conjoint source-canal où une connaissance a priori des statistiques de la source est exploitée au niveau du décodage de canal (voir section 6.2.4). Il est aussi possible d'introduire de la redondance directement dans le flux compressé, en concevant des codeurs de source qui puissent s'adapter à des caractéristiques et modèles du canal variant dans le temps. On peut par exemple concevoir des transformations et des quantificateurs maintenant une quantité « contrôlée » de corrélation ou d'informations redondantes. Cette idée est à l'origine des méthodes de codage par descriptions multiples et des transformations redondantes (comme par exemple les bancs de filtres sur-échantillonnés, ou les transformées multi-ondelettes). Noter que le codage par descriptions multiples est une extension du codage avec critère de fidélité, suivant la théorie débit distorsion, au cas multi-canal.

Nous avons étudié les principes de codage par descriptions multiples, en considérant d'une part les transformées multi-ondelettes et d'autre part la quantification redondante. Pour répondre à des objectifs supplémentaires de transmission progressive des signaux à des fins d'adaptation du débit aux caractéristiques variables du canal de transmission, nous avons mis en place un schéma de codage d'images fixes à descriptions multiples qui s'inspire des concepts de progressivité de JPEG2000. Nous avons également démarré une étude consistant à transposer certains concepts de la théorie des codes correcteurs au niveau des transformations multi-résolutions utilisées dans les schémas de compression.

Régulation de débit pour la transmission d'images satellitaires sur canal à débit fixe

Nous avons mis en place un schéma de régulation locale basé sur une transformée en ondelettes de l'image, une classification automatique de ces coefficients d'ondelettes et une transmission progressive de l'information. Notre technique permet d'améliorer la qualité locale sur l'image en faisant en sorte que les zones d'intérêt, définies via la classification, soient codées en priorité. Pour ce faire, nous avons développé une méthode de pondération optimale des coefficients d'ondelettes, pondération qui intervient préalablement à un codage de type EZW (embedded Zerotree Wavelet). Les poids, appliqués aux coefficients d'ondelettes, dépendent des filtres de synthèse utilisés lors de la transformation en ondelettes et de l'appartenance ou non du coefficient à une zone d'intérêt. Ces zones d'intérêt sont mises en évidence en intégrant la gêne effective liée à l'apparition de deux artéfacts caractéristiques d'un codage basé ondelettes. Nous définissons de ce fait deux zones d'intérêt, l'une relative aux zones de fortes transition et l'autre relative aux zones uniformes. Les résultats obtenus sur l'image Gênes sont illustrés sur les figures 10 et 11. La carte de classification présente les zones de fortes transitions en gris et les zones uniformes en noir. Pour un taux de compression de 6, nous comparons nos résultats à ceux obtenus par l'algorithme EZW sans classification. Les images reconstruites sont visualisées après zoom et égalisation d'histogramme. Nous pouvons remarquer une atténuation des rebonds sur les digues ainsi que sur la piste d'atterrissage (bas de l'image).