Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR FORMATTING VIDEO SEQUENCE FRAMES
Document Type and Number:
WIPO Patent Application WO/2006/015979
Kind Code:
A1
Abstract:
The invention relates to a method and device for formatting video sequence frames or a group of pictures (GOP), wherein the inventive method consists in using an appropriate mixing desk for regularly arranging the most significant frames provided with spaces therebetween, in filling said spaces with less significant frames and in encoding the thus obtained new sequence.

Inventors:
LAMY-BERGOT CATHERINE (FR)
BERGERON CYRIL (FR)
Application Number:
PCT/EP2005/053911
Publication Date:
February 16, 2006
Filing Date:
August 09, 2005
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
THALES SA (FR)
LAMY-BERGOT CATHERINE (FR)
BERGERON CYRIL (FR)
International Classes:
H04N7/26; H04N7/50; (IPC1-7): H04N7/26
Foreign References:
EP1406450A12004-04-07
Other References:
MAREK DOMANSKI, LUKASZ BLASZAK, SLAWOMIR MACKOWIAK: "AVC VIDEO CODERS WITH SPATIAL AND TEMPORAL SCALABILITY", PROCEEDINGS OF PCS 2003, SAINT-MALO, FRANCE, April 2003 (2003-04-01), pages 1 - 6, XP002332616
BLASZAK L ET AL: "SCALABLE VIDEO COMPRESSION FOR WIRELESS SYSTEMS", 14 March 2002, PROCEEDINGS OF URSI. NATIONAL SYMPOSIUM OF RADIO SCIENCE, PAGE(S) 336-340, XP001205212
CONKLIN G J ET AL: "A COMPARISON OF TEMPORAL SCALABILITY TECHNIQUES", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, IEEE INC. NEW YORK, US, vol. 9, no. 6, September 1999 (1999-09-01), pages 909 - 919, XP000848855, ISSN: 1051-8215
See also references of EP 1779669A1
Attorney, Agent or Firm:
Dudouit, Isabelle (31-33 avenue Aristide Briand, CX ARCUEIL, FR)
Download PDF:
Claims:
REVENDICATIONS
1. Méthode pour mettre en forme de trames d'une séquence vidéo ou groupement d'images GOP caractérisée en ce qu'elle comporte au moins les étapes suivantes : utiliser une table de mélange adaptée pour o arranger régulièrement les trames d'importance la plus élevée en laissant des intervalles entre elles, o remplir les intervalles ainsi formés par des trames de moindre importance, et o coder la nouvelle séquence ainsi obtenue. Méthode selon la revendication 1 caractérisée en ce que l'étape de mélange des trames est effectuée avant l'étape de codage et la table de mélange est transmise au codeur pour insérer l'ordre de décodage dans les trames. Méthode selon la revendication 1 caractérisée en ce que l'étape de mélange des trames est effectuée avant l'étape de codage et en ce que le flux de données codées est transmis à un décodeur vidéo puis à un désentrelaceur pour obtenir le groupement d'images initial. Méthode selon la revendication 1 caractérisée en ce que l'étape de mélange des trames et de codage se font simultanément. Méthode selon la revendication 1 caractérisée en ce que l'étape de mélange comporte au moins les étapes suivantes : o choisir la première trame Intra comme milieu d'un groupement d'images et les parties restantes comme des sousgroupements d'images, o pour chaque sousgroupement d'images, répéter les étapes suivantes : prendre comme trame de référence le milieu d'un sous groupement d'images GOP et définir 2 sous groupements d'images restants ; le milieu d'un groupement d'images étant défini à partir de la partie entière de la valeur (taille du GOP+1 )/2, comme le nombre entier égal ou le plus proche inférieur à la partie entière de (taille du GOP+1)/2. Utilisation de la méthode selon l'une des revendications 1 à 5 au codage H.264/MPEG4 AVC. Dispositif de mise en forme de trames d'une séquence vidéo ou groupement d'images caractérisé en ce qu'il comporte au moins les éléments suivants : o un entrelaceur (1 ) adapté pour arranger les trames d'importance les plus élevées régulièrement en laissant des intervalles entre elles et remplir ces intervalles avec des trames de moindre importance, o un codeur (2) comportant la table de mélange utilisée, le codeur étant adapté à insérer l'ordre de décodage dans les trames. Dispositif de codage décodage caractérisé en ce qu'il comporte un dispositif selon la revendication 7 et un décodeur vidéo (3). Dispositif de mise en forme de trames d'une séquence vidéo comportant au moins les éléments suivants : o un entrelaceur (5) adapté pour arranger les trames d'importance les plus élevées régulièrement en laissant des intervalles entre elles et remplir ces intervalles avec des trames de moindre importance, o un codeur vidéo (6) adapté à coder la séquence obtenue par l'étape précédente. Dispositif de codage décodage caractérisé en ce qu'il comporte un dispositif de mise en forme selon la revendication 8 et un décodeur vidéo (7) pour décoder la séquence après transmission par un canal, et un désentrelaceur (8) adapté à retrouver la séquence initiale. Dispositif de mise en forme de trames vidéo ou de groupements d'images caractérisé en ce qu'il comporte au moins un codeur (9) adapté pour arranger les trames d'importance les plus élevées régulièrement en laissant des intervalles et à remplir ces intervalles avec des trames de moindre importance, et à insérer l'ordre de décodage dans les trames. Dispositif selon l'une des revendications 7 à 11 caractérisé en ce que le codeur ou le décodeur est de type H.264/MPEG4 AVC.
Description:
PROCEDE DE MISE EN FORME DE TRAMES D'UNE SEQUENCE VIDEO

L'invention concerne un procédé de mise en forme de trames d'une séquence vidéo afin d'obtenir de la granularité (en anglo-saxon scalibity) temporelle. Dans la suite de la description, on désigne sous le terme « granularité » la capacité d'un flux vidéo à être décodé au choix avec une finesse plus ou moins importante. De manière indifférente, on emploie le mot trame ou image pour désigner un même objet. L'invention s'applique par exemple dans le contexte du standard H.264/MPEG-4 AVC .

Granularité dans un standard vidéo. Un flux de données compressées selon une méthode assurant la granularité, ou en anglo-saxon « a scalable compressed bit-stream », contient plusieurs sous-ensembles imbriqués. Chacun de ces sous- ensembles représente le contenu vidéo initial pour une résolution spatiale particulière (conduisant à des variations de la taille de l'image), une résolution temporelle (conduisant à des variations de débit de trame vidéo) ou une résolution en qualité visuelle (conduisant à des variations des paramètres de quantification). Chacun de ces sous ensembles est supposé correspondre à une compression efficace de l'information qu'elle contient. La figure 1 schématise un exemple de granularité temporelle. Les intérêts de la granularité sont multiples. Avec la granularité, il est possible de répondre à différents besoins ou capacités sans nécessiter une réévaluation des conditions de transmission à chaque instant. En particulier, du point de vue du codeur, l'intérêt est que la vidéo peut être compressée une seule fois, pour être utilisée plus tard à différents débits; du point de vue du fournisseur de services, l'intérêt réside dans la possibilité de commuter à un débit différent selon les capacités de largeur de bande du lien, et du point de vue de l'utilisateur, l'intérêt réside dans le fait que ce dernier peut facilement changer ses exigences et sa demande en temps réel pour l'adapter aux besoins courants. Dans un contexte de communication sans fil, où la largeur de bande et le débit utile disponible peuvent changer rapidement du fait des conditions de transmission de canal, du réseau existant pour la transmission et de la présence possible des autres utilisateurs et des interférences, la « capacité d'offrir de la granularité » est en train de devenir une propriété importante. H.264/MPEG-4 AVC

Les études au niveau du groupe des experts de codage vidéo (VCEG) de I1ITU-T ont commencé en 1999 pour établir un nouveau standard vidéo capable d'offrir une compression plus efficace que les solutions existantes, tout en présentant un niveau de complexité raisonnable pour son implémentation et finalement être facilement utilisable pour des applications réseau, en particulier les réseaux sans fil et internet. Le consortium MPEG a proposé au groupe des experts VCEG de créer un partenariat pour établir un standard commun, désigné sous le nom H.264 ou MPEG-4 AVC (codage vidéo avancé). La version finale du document ITU JVT-G050 spécifie seulement les aspects du codage vidéo. A l'heure actuelle, les principales applications de la norme H .264 sont : • les services duplex temps-réel de la voix, par exemple la vidéoconférence sur des réseaux câblés ou sans fil (tel que l'UMTS Universal Mobile Télécommunication System), avec un débit inférieur à 1 Mb/s et un faible délai d'attente ; > les services vidéo de bonne qualité et de qualité élevée pour la transmission en diffusion (« streaming ») satellite, xDLS, ou DVD, où le débit est compris entre 1 et 8 Mb/s et le délai d'attente peut être important ; > les flux de qualité plus faible pour des services vidéo avec un débit plus faible telles que les applications Internet (avec un débit inférieur à 2Mb/s et un délai d'attente qui peut être important). La figure 2 représente les trois profils définis par le standard H.264 et les outils principaux implémentés pour chaque profil : • Le profil de base ou en anglo-saxon Baseline, qui est particulièrement bien adapté à la vidéoconférence, la vidéo sur IP et les applications de mobilité. Il intègre seulement le codage par les trames ou segments I (Intra) et P (prédites) et quelques outils de protection d'erreurs. • Le profil « principal » ou en anglo-saxon Main qui est adapté à la télévision et à la diffusion vidéo ou Broadcasting et des applications avec délai d'attente important. Il intègre en particulier un mode entrelacé (pour les applications télé), des trames B, le codage entropie arithmétique.

• Le profil « étendu » ou "X" (en anglo-saxon « extended ») qui est adapté au « streaming » sur différents canaux, en particulier les canaux sans fil. Il intègre en particulier des solutions adaptives en débit et des outils de protection d'erreurs. Le standard H.264 bien qu'apparaissant intéressant et apte à remplacer d'autres standards plus connus présente quelques inconvénients majeurs lorsqu'il est utilisé dans des applications à canal variable : il ne comprend en effet pas de capacité de « granularité », mis à part l'emploi éventuel des trames B dans le profil principal ou le profil étendu pour de la granularité temporelle. Numérotation des trames et ordre de décodage II existe actuellement deux solutions de numérotation des trames vidéo dans le standard H264/MPEG-4 AVC. La première solution, qui repose sur des « numéro de trame » ou en anglo-saxon « frame_num » correspond à l'ordre de décodage des unités d'accès dans le flux. Ce paramètre est décodé à partir de chaque en-tête d'un segment d'image et augmente dans l'ordre de décodage des unités d'accès. Il n'indique pas nécessairement l'ordre d'affichage final que le décodeur utilisera. La seconde solution désignée habituellement par le terme « POC » pour numéro d'apparition de l'image ou en anglo-saxon « Picture Order Count » correspond à l'ordre d'affichage des trames décodées (ou champs) qui sera utilisé par le décodeur. Elle est obtenue comme suit : o Chaque trame codée est associée à deux paramètres POC correspondant respectivement à un numéro d'apparition champ haut et à un numéro d'apparition champ bas désignés en anglo-saxon « topfieldordercnt » et « bottomfieldordercnt », o Chaque champ codé est associé à un paramètre « POC », appelé pour un champ supérieur « topfieldordercnt » et pour un champ inférieur « bottomfieldordercnt ». La différence entre les deux paramètres numéro d'apparition haut « top order count et pour le numéro d'apparition bas « bottom order count » est donnée par le paramètre « delta_POC bottom » qui par défaut est égal à zéro. En pratique, avec des modes non entrelacés, la différence Delta_Poc_bottom est égale à zéro. Le standard actuel H.264 permet d'obtenir la valeur du paramètre POC pour trois types : - type 0 : le paramètre POC est envoyé explicitement dans chaque partie d'en-tête, - type 1 : le paramètre POC dépend de l'ordre de décodage (frame_num) et des incréments indiqués dans la séquence des paramètres de réglage, avec une différence envoyée seulement si il n'y a pas de changement espéré dans l'ordre, - type 2 : l'ordre d'affichage est le même que l'ordre de décodage. Le procédé selon l'invention modifie notamment la valeur du paramètre POC, il utilise donc le type O. Pour les 2 autres types (1 et 2), l'ordre d'affichage est directement ou indirectement dérivé par le numéro de trame ou « frame_num ».

Dans le cas du standard, le paramètre TopFieldOrderCnt

(TopFOC) de type 0 est obtenu comme suit :

TopFieldOrderCount = POCMsb+POCLsb où les lettres Msb correspondent

au bit le plus significatif et les lettres Lsb au bit le moins significatif, où

POCLsb est envoyé dans chaque en-tête d'une sous partie ou segment de

l'image et où le paramètre POCMsb est incrémenté lorsque le paramètre

POCLsb atteint sa valeur maximum. ISJ Un exemple de résultat d'arrangement pour l'ordre d'affichage

obtenu par réarrangement du POC est donné dans la table 1

########################### IS ISJJ###################### #N° trame#Type#POC lsb#TopFOC#ordre d'apparition* ################################################# # 0 # I # # # 2 # # 1 # P # 3 # 3 # 3 # # 2 # P # 1 # 1 # 1 # # 3 # P # 4 # 4 # 4 # # 4 # P # 0 # 0 # 0 # # 5 # I # 0 # 0 # 5 # # 6 # P # 3 # 3 # 8 # # 7 # P # 1 # 1 # 6 # # 8 # P # # # 7 # # 9 # I # 0 # 0 # 9 # #######################################################

Référence multiple et éloignée

Contrairement aux standards précédents de codage vidéo qui

étaient utilisés en mode simple référence, c'est-à-dire où la prédiction

d'apparition est faite uniquement en utilisant une image précédente donnée,

le standard H.264 permet d'utiliser jusqu'à 32 trames différentes comme

références pour chaque segment P (ou en anglo-saxon P-slice) et jusqu'à 64

trames différentes pour chaque segment B (ou B-slice). Les images qui sont

codées et décodées, et disponibles pour servir de références sont

mémorisées dans une mémoire contenant les images décodées (DPB en anglo-saxon decoded picture buffer). Elles sont référencées soit comme une image à référence proche mieux connue sous l'expression « short term référence picture », indexée en fonction du PicOrderCount, ou comme une image à référence éloignée, mieux connue sous l'expression « long term référence picture », indexée en fonction du compteur d'image de référence éloignées LongTermPicNum. Lorsque la mémoire DPB est pleine, seul le terme à référence proche le plus ancien est retiré de la mémoire. Les références « Long term » ne sont pas éliminées, excepté par une commande explicite dans le flux de bits.

L'invention concerne une méthode pour mettre en forme des trames d'une séquence vidéo ou groupement d'images GOP caractérisée en ce qu'elle comporte au moins les étapes suivantes : utiliser une table de mélange adaptée pour o arranger les trames d'importance la plus élevée régulièrement en laissant des intervalles entre elles, o remplir les intervalles par des trames de moindre importance, et o coder la nouvelle séquence ainsi obtenue.

L'invention présente notamment comme avantage d'être entièrement compatible avec le standard H.264/MPEG-4 AVC. Le standard H.264 peut utiliser le mode de granularité temporelle proposé sans avoir à adapter des fonctionnalités actuellement standardisées, et ce pour tous les profils définis, en particulier pour le profil de base. En utilisant la présente invention, un codeur H.264 offrira les performances de granularité temporelle à des coûts réduits ou sans coût en terme de redondance en comparaison avec un flux de données ne pouvant offrir de granularité mieux connu sous l'expression « codestream non scalable ». D'autres caractéristiques et avantages de la présente invention apparaîtront mieux à la lecture de la description qui suit d'un exemple donné à titre illustratif et nullement limitatif annexé des figures qui représentent : o La figure 1 une illustration de la « granularité » temporelle, o La figure 2 les profils existants du standard H.264, o Les figures 3, 4 et 5 trois variantes de mise en œuvre du procédé, o Les figures 6, 7 deux exemples d'un cas de groupement d'images comprenant 7 trames, o La figure 8 une comparaison du rendement visuel obtenu avec des procédés selon l'art antérieur ou avec le procédé selon l'invention,

o Les figures 9, 10 et 11 des exemples d'application de la méthode pour des groupements d'images de taille différente.

L'invention repose notamment sur l'utilisation des deux systèmes de numérotation des trames proposés par le standard H.264, le premier pour coder efficacement les données et le deuxième pour transmettre les données selon le niveau de raffinement dans la séquence vidéo. Le principe consiste notamment à mélanger les trames, en réarrangeant les trames les plus importantes (trames qui seront décodées pour les débits les plus faibles) de manière régulière et à remplir les intervalles entre les trames les plus importantes avec les trames de moindre importance (trames qui seront décodées seulement avec les trames de débit le plus élevé) et à coder cette nouvelle séquence comme si c'était une séquence classique. Ce mode de mélange permet, en premier, d'obtenir une granularité temporelle et une prédiction récursive sans requérir à l'utilisation de trames B et en second, de positionner les trames de référence de façon régulière dans la séquence (incluant la première trame intra). Ceci peut conduire à un gain de compression et un gain de restitution visuelle ou en anglo-saxon « rendering » dans le cas de masquage ou en anglo-saxon « concealment », comme les trames sont systématiquement plus proches que leur référence. Granularité temporelle à travers le réarranqement de la trame

Comme mentionné ci-dessus, un algorithme de codage vidéo avec granularité temporelle permet l'extraction par le décodeur vidéo de séquences à différentes résolutions temporelles à partir d'un flux binaire initial. Pour permettre une telle « granularité », comme illustré à la figure 1 dans un groupe d'images ou GOP, on définit plusieurs niveaux d'importance correspondant chacun à un nombre de trames consécutives qui peuvent être décodées comme un groupe indépendamment du reste de la séquence vidéo. Sur la figure 1 , trois niveaux d'importance sont représentés ; le niveau de base avec un flux de données à faible débit, un premier niveau de raffinement avec trois trames ou images à débit moyen, un second niveau de raffinement pour des trames à débit élevé.

La granularité temporelle est ainsi obtenue en décodant un nombre plus ou moins important de sous-ensembles du GOP. En pratique, si les niveaux d'importance variables sont distribués dans le temps de manière égale ou sensiblement égale, la granularité temporelle naturelle conduit à associer le débit d'images avec le nombre de sous-ensembles décodés.

Le procédé selon l'invention consiste notamment à introduire la caractéristique de granularité temporelle pour un flux de données codées selon une méthode qui ne permet pas, a priori, d'obtenir de la granularité (en anglo-saxon « a priori non scalable codestream ») en réarrangeant les trames dans un groupement d'images GOP de façon telle qu'elles soient distribuées aussi régulièrement que possible. Les trames les plus importantes (qui correspondront aux trames décodées du débit le plus faible) sont distribuées régulièrement (au sens temporel) dans la trame. Les espaces ainsi formés entre ces trames, reçoivent les trames de moindre importance. Les trames dites de moins grande importance correspondent à celles qui sont dans les différents niveaux de raffinement Par niveau d'importance on désigne ici des trames qui, par exemple, peuvent être codées avec un niveau de précision plus faible (correspondant notamment à des paramètres de quantification plus élevés). La séquence ainsi réordonnée peut ensuite être codée de façon classique, par exemple par un codeur de type H.264/MPEG-4 AVC et décodée ensuite par le décodeur du même standard. Une distribution régulière possible peut correspondre au positionnement de la trame intra ou trame I au milieu du groupement d'images GOP et à une répartition régulière des autres trames prédites ou trames P. Une compatibilité totale ou quasi totale est obtenue du côté décodeur en forçant le codeur à utiliser comme valeurs POC l'ordre de décodage initial. Différentes variantes de mise en œuvre de la méthode selon l'invention peuvent être réalisées, dont trois sont données à titre illustratif et nullement limitatif. Elles sont schématisées aux figures 3, 4 et 5. La figure 3 schématise une variante où l'opération de réarrangement des trames est appliquée directement sur la séquence vidéo à l'aide de moyens d'entrelacement π ou 1 précédent le codeur, 2, H.264. Par exemple, sur cette figure le groupe comporte 7 images numérotées 1 , 2, 3, 4, 5, 6 et 7 (séquence S1 ) qui sont réordonnées après la première étape d'entrelacement en une séquence S2 = 4, 2, 6, 1 , 3, 5 et 7 correspondant sur la figure à la renumérotation A, B, C, D, E, F, G. Le codeur H.264 code cette séquence S2, par exemple en prenant comme trame Intra A et en prédisant les 6 autres au moyen de trames P correspondant à B,..., G. Le codeur reçoit aussi des informations de la table de réarrangement ou d'entrelacement utilisée, pour permettre l'insertion de l'ordre de décodage correct dans les champs POC. Le flux de code H 264 transmis par l'intermédiaire du canal de transmission 4 est totalement compatible avec le standard et directement décodé par tout décodeur 3 compatible avec le standard H264/MPEG-4-AVC. Cette version présente comme avantage d'être mise en œuvre directement avec un décodeur H.264 avec une modification mineure du codeur.

La figure 4 représente une autre variante de réalisation où l'opération de réarrangement des trames est appliquée directement sur une séquence vidéo S1 =1 , 2, 3, 4, 5, 6 et 7 avec des moyens d'entrelacement 5 pour donner une séquence S2 = 4, 2, 6, 1 , 3, 5 et 7. La séquence S2 est codée par un codeur vidéo 6 par exemple de type H.264 qui n'est pas modifié en fonctionnement normal. Le flux codé S'2 est ensuite transmis par le canal 4 et décodé par tout décodeur vidéo standard 7. Après décodage, la séquence passe par des moyens de désentrelacement 8 afin de retrouver la séquence initiale S1. Cette variante de mise en œuvre présente comme avantage d'être applicable à tout codeur vidéo, mais l'inconvénient de nécessiter une modification du côté émetteur et du côté récepteur par l'insertion d'un dispositif d'entrelacement et de désentrelacement. La figure 5 schématise une autre variante de mise en œuvre où l'opération de réarrangement des trames est effectuée sur la séquence vidéo à coder au sein d'un codeur modifié 9 adapté pour effectuer l'opération d'entrelacement et qui connaît la table de mélange utilisée. Le codeur H.264 ainsi modifié effectue le codage de la séquence vidéo S1. Lors de l'opération de codage, selon l'ordre spécifié par la table de mélange, l'ordre de décodage initial est inséré dans les champs POC. La séquence codée est reçue après transmission par le canal de transmission 4 avant d'être décodée par tout décodeur 10 compatible avec le standard H264/MPEG-4- AVC, qui utilisera les informations contenues dans les champs POC de la séquence vidéo transmise pour remettre les données dans l'ordre initial. Cette variante présente l'avantage d'être transparente vis à vis de la source vidéo et le décodeur vidéo, et d'être applicable à tout codeur de type H.264 qui peut être adapté à effectuer les opérations d'entrelacement au niveau groupement d'images. La figure 6 représente un exemple de mise en œuvre pour un groupement d'images ou GOP comprenant 7 trames désignées par leurs références temporelles initiales {1 , 2, 3, 4, 5, 6, 7}. Le principe de l'opération de mélange est de distribuer de manière appropriée les trames, afin que le procédé de codage adopté soit performant. Pratiquement, en considérant que toutes les trames Ti précédant une trame donnée Td peuvent être utilisées comme référence pour cette trame considérée, l'intérêt est de construire le diagramme de réarrangement des trames de manière régulière, par exemple avec la première image de référence (nécessairement codée en intra) au milieu du GOP. On place ensuite au milieu des deux sous-trames situées de part et d'autre de la trame Intra le second niveau de référence et ainsi de suite. De cette façon, la première trame codée correspond nécessairement à une trame I ou Intra, mais n'est pas nécessairement la première trame du groupement d'images. Pour les trames d'importance les plus élevées (premier niveau d'importance), l'efficacité de codage n'est pas optimal, puisque la séparation entre la trame de prédiction et la trame de référence dans l'ordre initial du GOP peut être plus grand. Ceci peut être compensé par le fait que les trames les plus tardives devraient offrir un meilleur niveau de compression, puisqu'elles sont plus proches de la trame Intra (diminution de la distance séparant la trame de référence et la trame prédite). Dans le cas où l'on souhaite absolument utiliser une trame Intra comme première image décodée, le réarrangement des trames selon la figure 7 peut aisément être adopté. La figure 8 représente un exemple de performances pour le rendement visuel total obtenues avec un procédé selon l'art antérieur (courbe en pointillés) et en mettant en œuvre le procédé selon l'invention (courbe en traits pleins) pour un groupement de 7 trames. Ces résultats correspondent à l'étude de l'évolution de la mesure objective de rendu visuel ou PSNR (Peak Signal to Noise Ratio) pour un groupe d'images de sept trames. L'image considérée est la séquence 'Foreman' de référence fournie par NTU-T à un taux de rafraîchissement de 15 trames/s avec pour cible un débit global de 64 kbits/s. Dans le premier cas (courbe en traits pointillés), on trouve l'évolution de PSNR obtenue sur les sept trames par un codage/décodage H.264 classique, correspondent à un ordre IPPPPPP avec un paramètre de quantification QP égal à 31 pour la trame Intra et à 34 pour les trames prédites, ce qui donne un débit final de 63,98 kbits/s. La seconde courbe (en traits pleins) montre l'évolution de PSNR pour les sept trames obtenues avec application de l'invention selon la table de mélange donnée par la Figure 6. Les trois niveaux ont été codés respectivement avec les paramètres de quantification suivants : QP=31 pour le premier niveau (trame I), QP=33 pour le niveau de raffinement 1 (trames P) et QP=38 pour le niveau de raffinement 2, ce qui a permis d'obtenir un débit final de 63,03kbits/s. Comme prévu, on observe sur cette seconde courbe que les trois trames les plus importantes ont des valeurs de PSNR meilleures que celles des quatre autres trames (correspondant au second niveau de raffinement), mais aussi que cela est obtenu sans dégradation du PSNR moyen de la séquence puisque cette seconde séquence présente un PSNR moyen de 33,54 dB contre 33,42 dB pour la séquence classique, alors que cette séquence classique a un débit légèrement supérieur. Le procédé décrit dans l'invention offre donc de la granularité temporelle sans coût (voire avec gain), soit en terme de débit, soit en terme de dégradation de la qualité visuelle. La figure 9 représente la généralisation de la méthode pour des groupements d'images ou GOP de taille différentes. En pratique, on peut mettre en œuvre la méthode de la façon suivante : o Choisir la première trame de référence Intra comme le milieu du groupement d'images ou GOP et les parties restantes comprenant plusieurs trames comme des sous-groupements d'images ou sous- GOP, o pour chaque sous-GOP répéter les étapes suivantes : prendre comme trame de référence le milieu du sous groupement d'images GOP et définir 2 sous groupements d'images restants comme les parties restantes. Le milieu d'un groupement d'images est par exemple défini à partir de la partie entière de la valeur (taille du GOP+1 )/2, c'est-à- dire comme le nombre entier égal ou le plus proche inférieur à (taille du GOP+1 )/2.

La figure 9 donne l'exemple pour un groupement d'images de 15 trames et la figure 10 pour un groupement d'images de 12 trames. Sans sortir du cadre de l'invention, il est possible de généraliser cette approche et de définir un diagramme de mélange correspondant à une division du rendement entre chaque niveau de raffinement par une valeur n différente de 2. Ceci amène à placer la première trame Intra à un endroit autre que le milieu du groupement d'images. Dans ce cas, on a un premier niveau qui sera à n-1 images réparties régulièrement, avec la trame I une de ces n-1 images (par exemple la première), et le reste correspondant à des images prédites. Ces n-2 images prédites qui apparaissent au premier niveau de scalabilité ont le même niveau d'importance que la trame I, elles font partie des " trames d'importance la plus élevée ". On procède ainsi de suite pour les niveaux suivants, pour lesquels le nombre de trames de référence de trames à chaque niveau est choisi égal à n-1 , conduisant à une valeur moyenne mi = partie entière de la valeur E [i(taille du GOP+1 )/n] pour i=1 ,...,n-1.

La figure 10 représente un exemple pour une division du rendement cible n=3 entre chaque niveau. Dans l'exemple, la première trame (7-A) est l'Intra alors que les 19 autres trames sont des trames prédites de type P. La méthode selon l'invention est utilisable par exemple dans les applications suivantes : o le cas où un décodeur vidéo n'est pas capable de décoder avec un débit suffisant le flux de code qu'il reçoit et choisit de présenter seulement une version dégradée à un débit plus faible, o le cas où le codeur est informé que la largeur de bande disponible initialement est réduite et qu'il lui faut agir en fonction, soit en sacrifiant certaines des dernières images, soit en réduisant la qualité visuelle de ces dernières images, dernières images qui se trouvent être les moins importantes par construction grâce à l'invention.