Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
IMAGE ENCODING METHOD AND EQUIPMENT FOR IMPLEMENTING THE METHOD
Document Type and Number:
WIPO Patent Application WO/2016/083709
Kind Code:
A1
Abstract:
The invention proposes a method for encoding a first image in a set of images, in which the first image is cut into blocks, each block being encoded according to one from a plurality of encoding modes comprising at least one temporal correlation prediction encoding mode using a plurality of images from the set of images. The method comprises, for a current block of the first image: determining a first motion estimation vector of the current block, determining a value of a visual distortion metric for a temporal correlation prediction encoding mode, the visual distortion metric using a distance between a first temporal prediction vector of the current block pointing to the second image and the first motion estimation vector of the current block, and using the value of the visual distortion metric to encode the current block.

Inventors:
AGYO ZINEB (FR)
MONNIER MATHIEU (FR)
THIESSE JEAN-MARC (FR)
LARBIER PIERRE (FR)
Application Number:
PCT/FR2015/053148
Publication Date:
June 02, 2016
Filing Date:
November 20, 2015
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ATEME (FR)
International Classes:
H04N19/109; H04N19/52; H04N19/11; H04N19/139; H04N19/147; H04N19/19; H04N19/573
Foreign References:
EP1806931A22007-07-11
US20050025249A12005-02-03
US20080253457A12008-10-16
US20140307788A12014-10-16
Other References:
QI JI ET AL: "Efficient rate-distortion optimization for HEVC using SSIM and motion homogeneity", 2013 PICTURE CODING SYMPOSIUM (PCS), IEEE, 8 December 2013 (2013-12-08), pages 217 - 220, XP032567053, DOI: 10.1109/PCS.2013.6737722
GUILLAUME LAROCHE ET AL: "RD Optimized Coding for Motion Vector Predictor Selection", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, IEEE SERVICE CENTER, PISCATAWAY, NJ, US, vol. 17, no. 12, 1 December 2008 (2008-12-01), pages 1681 - 1691, XP011234848, ISSN: 1051-8215
CHUOHAO YEO ET AL: "On rate distortion optimization using SSIM", 2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2012) : KYOTO, JAPAN, 25 - 30 MARCH 2012 ; [PROCEEDINGS], IEEE, PISCATAWAY, NJ, 25 March 2012 (2012-03-25), pages 833 - 836, XP032227256, ISBN: 978-1-4673-0045-2, DOI: 10.1109/ICASSP.2012.6288013
G.J. HAN ET AL: "Overview of the High Efficiency Video Coding (HEVC) Standard", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 1 January 2012 (2012-01-01), pages 1 - 1, XP055045358, ISSN: 1051-8215, DOI: 10.1109/TCSVT.2012.2221191
GARY J. SULLIVAN ET AL.: "Overview of the High Efficiency Video Coding (HEVC) Standard", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, vol. 22, no. 12, December 2012 (2012-12-01)
J. LUBIN ET AL., SARNOFF JND VISION MODEL, 1997
"Digitial video quality metric based on human vision", JOURNAL OF ELECTRONIC IMAGING, vol. 10, no. 1, January 2001 (2001-01-01), pages 20 - 29
Z. WANG ET AL.: "Video Quality Assessment Based on Structural Distorsion MEasurement", IEEE SIGNAL PROC. IMAGE COMMUNICATION, vol. 19, no. 2, February 2004 (2004-02-01), pages 121 - 132
ZENG ET AL.: "Charactérizing Perceptual Artifacts in Compressed Video Streams", HUMAN VISION AND ELECTRONIC IMAGING XIX, PROC. SPIE, vol. 9014
Attorney, Agent or Firm:
CABINET PLASSERAUD (FR)
Download PDF:
Claims:
REVENDICATIONS

1 . Procédé d'encodage d'une première image dans un ensemble d'images, dans lequel la première image est découpée en blocs, chaque bloc étant encodé selon un parmi une pluralité de modes de codage comprenant au moins un mode de codage de type à prédiction par corrélation temporelle utilisant une pluralité d'images de l'ensemble d'images, le procédé comprenant, pour un bloc courant de la première image : déterminer un premier vecteur d'estimation de mouvement du bloc courant, le premier vecteur d'estimation de mouvement pointant sur un bloc corrélé au bloc courant dans une deuxième image de l'ensemble d'images distincte de la première image et précédemment codée selon une séquence prédéfinie d'encodage des images de l'ensemble d'images; déterminer une valeur d'une métrique de distorsion visuelle pour un mode de codage de type à prédiction par corrélation temporelle, la métrique de distorsion visuelle utilisant une distance entre un premier vecteur de prédiction temporelle du bloc courant pointant sur la deuxième image et le premier vecteur d'estimation de mouvement du bloc courant; utiliser la valeur de la métrique de distorsion visuelle pour l'encodage du bloc courant.

2. Procédé d'encodage selon la revendication 1 , comprenant en outre : déterminer une pluralité de N vecteurs d'estimation de mouvement du bloc courant, N étant un entier supérieur ou égal à deux, chaque vecteur d'estimation de mouvement pointant respectivement sur un bloc corrélé au bloc courant dans N images respectives distinctes de la première image et précédemment codées selon la séquence d'encodage, et distinctes deux-à-deux ; dans lequel la métrique de distorsion visuelle utilise en outre des distances respectives entre un vecteur de prédiction temporelle du bloc courant pointant sur une parmi les images respectives et un parmi la pluralité de N vecteurs d'estimation de mouvement du bloc courant pointant sur l'une parmi les images respectives.

3. Procédé selon l'une des revendications précédentes, dans lequel la métrique de distorsion visuelle pour le mode de codage de type à prédiction par corrélation temporelle utilisant N images de l'ensemble d'images, N étant un entier supérieur ou égal à 1 , est de la forme : ∑i=1 dist(vtii, vMEii), où dist(vt i, vME i) est une distance entre un ième vecteur d'estimation de mouvement, VME,Î parmi N vecteurs d'estimation de mouvement pointant respectivement sur un bloc corrélé au bloc courant dans N images respectives deux-à-deux distinctes, distinctes de la première image et précédemment codées selon la séquence d'encodage, et un jème vecteur de prédiction temporelle, vti parmi N vecteurs de prédiction temporelle du bloc courant, pointant sur la même image que le vecteur d'estimation de mouvement

VME,i -

4. Procédé selon l'une des revendications précédentes, dans lequel la métrique de distorsion visuelle pour le mode de codage de type à prédiction par corrélation temporelle utilisant N images de l'ensemble d'images, N étant un entier supérieur ou égal à 1 , est de la forme :

C x λ x MblocSize x∑f=1 (Ki x dist vt i>

C est une constante de normalisation, λ est un coefficient multiplicateur de Lagrange, dist(vt i, vME i) est une distance entre un ième vecteur d'estimation de mouvement, VME,Î parmi N vecteurs d'estimation de mouvement pointant respectivement sur un bloc corrélé au bloc courant dans N images respectives deux-à-deux distinctes, distinctes de la première image et précédemment codées selon la séquence d'encodage, et un ième vecteur de prédiction temporelle, vti parmi N vecteurs de prédiction temporelle du bloc courant, pointant sur la même image que le vecteur d'estimation de mouvement

VME,i >

Kt est un degré de confiance du ieme vecteur d'estimation de mouvement vMEii, et

Mbiocsize est une constante de normalisation déterminée en fonction de la taille du bloc courant.

5. Procédé selon l'une quelconque des revendications précédentes, dans lequel la pluralité de modes de codage comprend en outre un mode de codage à prédiction par corrélation spatiale de type Intra.

6. Procédé selon l'une quelconque des revendications précédentes, dans lequel le mode de codage de type à prédiction par corrélation temporelle utilisant une pluralité d'images de l'ensemble d'images est de type utilisant une prédiction de mouvement à partir d'images précédemment codées ou de type utilisant un vecteur prédicteur prédéterminé sélectionné à partir de blocs voisins du bloc courant précédemment codés.

7. Procédé selon l'une quelconque des revendications précédentes, dans lequel la métrique de distorsion visuelle inclut un facteur de confiance dans l'estimation de mouvement.

8. Procédé selon la revendication 7, dans lequel le facteur de confiance est déterminé relativement à l'inverse d'une mesure de corrélation entre le bloc courant et son déplacement selon un vecteur d'estimation de mouvement.

9. Procédé selon l'une quelconque des revendications précédentes, comprenant en outre : déterminer une pluralité de valeurs d'un critère de décision pour respectivement différents modes tests de codage du bloc courant, le critère de décision comprenant la métrique de distorsion visuelle ; et sélectionner un mode de codage correspondant à un minimum des valeurs respectives du critère de décision pour les différents modes tests de codage du bloc courant. 10. Procédé selon la revendication 9, dans lequel le critère de décision est de la forme : J' = D + ÀR + D', où D est une métrique de distorsion introduite par l'encodage mesurant la corrélation entre le bloc courant et le bloc prédit, λ est un coefficient multiplicateur de Lagrange, R représente un débit de codage, et D' est une métrique de distorsion visuelle. 1 1 . Procédé selon la revendication 10, dans lequel la métrique D' de distorsion visuelle est, pour un mode test de codage de type à prédiction par corrélation temporelle utilisant deux images de l'ensemble d'images, de la forme : D' = C x λ x MblocSize x (Klo x dist(vL0t, vL0ME)), où C est une constante de normalisation, λ est le coefficient multiplicateur de Lagrange, dist(vL0t, vL0ME) est une distance entre le premier vecteur de prédiction temporelle, vL0t, et le premier vecteur d'estimation de mouvement, vL0ME , KL0 est un degré de confiance du premier vecteur d'estimation de mouvement vL0ME , et Mbiocsize est une constante de normalisation déterminée en fonction de la taille du bloc courant.

12. Procédé selon la revendication 10, dans lequel la métrique D' de distorsion visuelle est, pour un mode test de codage de type à prédiction par corrélation spatiale, une constante prédéterminée.

13. Dispositif d'encodage d'images comprenant : une interface d'entrée configurée pour recevoir une première image d'un ensemble d'images; une unité d'encodage d'images, couplée de manière opérationnelle à l'interface d'entrée, et configurée pour :

• découper la première image en blocs

• encoder chaque bloc selon un parmi une pluralité de modes de codage comprenant au moins un mode de codage de type à prédiction par corrélation temporelle utilisant une pluralité d'images de l'ensemble d'images selon le procédé de l'une quelconque des revendications 1 à 12.

14. Programme d'ordinateur, chargeable dans une mémoire associée à un processeur, et comprenant des portions de code pour la mise en œuvre des étapes d'un procédé selon l'une quelconque des revendications 1 à 12 lors de l'exécution dudit programme par le processeur. 15. Ensemble de données représentant, par exemple par voie de compression ou d'encodage, un programme d'ordinateur selon la revendication 14.

16. Support de stockage non-transitoire d'un programme exécutable par ordinateur, comprenant un ensemble de données représentant un ou plusieurs programmes, lesdits un ou plusieurs programmes comprenant des instructions pour, lors de l'exécution desdits un ou plusieurs programmes par un ordinateur comprenant une unité de traitement couplée de manière opérationnelle à des moyens mémoire et à un module d'interface entrées/sorties, conduire l'ordinateur à encoder une première image découpée en blocs selon le procédé de l'une quelconque des revendications 1 à 12.

Description:
PROCEDE D'ENCODAGE D'IMAGE ET EQUIPEMENT POUR LA MISE EN ŒUVRE DU

PROCEDE

La présente invention se rapporte à un procédé d'encodage d'image et un dispositif pour la mise en œuvre de ce procédé. Elle s'applique notamment au codage d'images d'un flux vidéo.

Les données vidéo font en général l'objet d'un codage source visant à les compresser afin de limiter les ressources nécessaires à leur transmission et/ou à leur stockage. Il existe de nombreux standards de codage, tels que H.264/AVC, H.265/HEVC et MPEG-2, qui peuvent être utilisés à cette fin.

On considère un flux vidéo comprenant un ensemble d'images. Dans les schémas de codage classique, les images du flux vidéo à encoder sont typiquement considérées selon une séquence d'encodage, et chacune est divisée en ensembles de pixels eux aussi traités séquentiellement, par exemple en commençant en haut à gauche et en finissant en bas à droite de chaque image.

L'encodage d'une image du flux est ainsi effectué en divisant une matrice de pixels correspondant à l'image en plusieurs ensembles, par exemple des blocs de taille fixe 16 x 16, 32 x 32 ou 64 x 64, et en encodant ces blocs de pixels selon une séquence de traitement donnée. Certains standards, comme le H.264/AVC, prévoient la possibilité de décomposer des blocs de taille 16 x 16 (appelés alors macro-blocs) en sous-blocs, par exemple de taille 8 x 8 ou 4 x 4, afin d'effectuer les traitements d'encodage avec une granularité plus fine.

La techniques existantes de compression vidéo peuvent être divisées en deux grandes catégories : d'une part la compression dite « Intra », dans laquelle les traitements de compression sont effectuées sur les pixels d'une unique image ou trame vidéo, et d'autre part la compression dite « Inter », dans laquelle les traitements de compression sont effectuées sur plusieurs images ou trames vidéo. Dans le mode Intra, le traitement d'un bloc (ou ensemble) de pixels comprend typiquement une prédiction des pixels du bloc effectuée à l'aide de pixels causaux (précédemment codés) présents dans l'image en cours d'encodage (dite « image courante »), auquel cas on parle de « prédiction Intra ». Dans le mode Inter, le traitement d'un bloc (ou ensemble) de pixels comprend typiquement une prédiction des pixels du bloc effectuée à l'aide de pixels issus d'images précédemment codées, auquel cas on parle de « prédiction Inter » ou de « compensation de mouvement » (en anglais « motion compensation »).

Ces deux types de codage sont utilisés dans les codées vidéo existants (MPEG2, H.264/AVC, HEVC) et sont décrits pour le codée HEVC dans l'article intitulé « Overview of the High Efficiency Video Coding (HEVC) Standard », par Gary J. Sullivan et al., IEEE Transactions on Circuits and Systems for Video Technology, vol. 22, No. 12, Dec. 2012.

Cette exploitation des redondances spatiales et/ou temporelles permet d'éviter de transmettre ou de stocker la valeur des pixels de chaque bloc (ou ensemble) de pixels, en représentant certains au moins des blocs par un résiduel de pixels représentant la différence (ou la distance) entre les valeurs de prédiction des pixels du bloc et les valeurs réelles des pixels du bloc prédit. L'information des résiduels de pixels est présente dans les données générées par l'encodeur après transformée (par exemple, de type DCT) et quantification afin de réduire l'entropie des données générées par l'encodeur.

Il est souhaitable de réduire autant que possible les informations additionnelles générées par la prédiction des pixels et présentes en sortie de l'encodeur afin d'augmenter l'efficacité d'un schéma de codage/compression à un niveau de distorsion donné. A l'inverse, on peut aussi chercher à réduire ces informations additionnelles pour augmenter l'efficacité d'un schéma de codage/compression à un niveau de débit de sortie de l'encodeur donné.

Un encodeur vidéo effectue typiquement un choix de mode d'encodage correspondant à une sélection de paramètres d'encodage pour un ensemble de pixels traité. Cette prise de décision peut être implémentée en optimisant une métrique de débit et distorsion, les paramètres d'encodage sélectionnés par l'encodeur étant ceux qui minimisent un critère débit-distorsion. Le choix du mode d'encodage a alors un impact sur les performances de l'encodeur, à la fois en termes de gain de débit et de qualité visuelle.

En effet, un mauvais choix de mode de codage peut entraîner des artefacts qui se traduisent par une dégradation de la qualité visuelle perçue. Les méthodes de calcul basées sur l'optimisation débit-distorsion permettent de réduire le débit en sortie de l'encodeur, néanmoins parfois aux dépens du rendu visuel.

La distorsion est en effet calculée à l'aide de métriques dites « objectives », telles que la somme des différences absolues (en anglais « Sum of Absolute Différences », ou SAD) ou l'erreur quadratique moyenne (en anglais « Mean Square Error », ou MSE), qui s'avèrent être très faiblement corrélées avec la qualité perceptuelle. En effet, certains procédés de compression vidéo peuvent améliorer la qualité visuelle alors qu'ils dégradent les métriques objectives.

Des métriques de distorsion basées sur la perception visuelle ont été proposées comme alternatives aux mesures mathématiques objectives. Ces métriques utilisent une modélisation des propriétés psycho-visuelles connues du système visuel humain, et sont appelés métriques HVS (de l'anglais « Human Visual System »). On peut citer comme exemples de métrique HVS la métrique JND (de l'anglais « Just Noticible Différence ») décrite dans l'article « Sarnoff JND vision model », J. Lubin et al., T1A1 .5 Working Group Document, T1 Standards Committee, 1997, la métrique DVQ (de l'anglais « Digital Video Quality ») décrite dans l'article « Digitial video quality metric based on human vision », Journal of electronic imaging , vol. 10, n° 1 , January 2001 , pp. 20 - 29, ou encore la métrique VSSIM (de l'anglais « Video Structural Similarity Index ») décrite dans l'article « Video Quality Assessment Based on Structural Distorsion MEasurement », Z. Wang et al., I EEE Signal Proc. Image Communication, vol. 19, n°2, Feb. 2004, pp. 121 - 132.

Ces méthodes de mesure de la distorsion visuelle (aussi appelée « distorsion subjective ») ont l'inconvénient d'être très complexes, et ne sont pas envisageables en pratique dans un encodeur. Elles sont par exemple trop coûteuses en calcul pour être mises en œuvre dans un encodeur vidéo temps-réel. Elles ne sont utiles qu'à la fin de l'encodage pour estimer a posteriori la qualité visuelle d'une vidéo encodée/compressée en utilisant des métriques objectives.

Une autre métrique de distorsion subjective, c'est-à-dire basée sur la perception visuelle, a été proposée par A. Bhat et al. dans l'article « A new perceptual quality metric for compressed video », avec l'ambition d'intégrer l'utilisation de la métrique de qualité perceptuelle proposée dans un algorithme de choix de mode de codage d'un codée vidéo de type H.264/AVC. La métrique proposée dans l'article se calcule comme suit :

MOS Pbloc = 1 - k bl0C (MSE bl0C ) (1 )

où MOSp moc est la qualité perceptuelle du bloc traité, k Moc une constante calculée en fonction de la présence de détails dans le bloc, et MSE bl0C l'Erreur Quadratique Moyenne. Cette métrique s'appuie sur le principe que les artefacts auront tendance à être plus visibles sur les zones sans détails, et se base donc uniquement sur les caractéristiques locales du bloc traité.

Il existe ainsi un besoin pour un procédé d'encodage d'image amélioré dans la prise en compte du mouvement dans un ensemble d'images ou un flux vidéo à encoder.

Un objet de la présente invention est de proposer un procédé d'encodage d'image amélioré dans la prise en compte du mouvement.

Un autre objet de la présente invention est de proposer un procédé d'encodage d'image par blocs permettant prendre en compte le mouvement quelle que soit la nature du bloc traité.

Selon un premier aspect, il est proposé un procédé d'encodage d'une première image dans un ensemble d'images, dans lequel la première image est découpée en blocs, chaque bloc étant encodé selon un parmi une pluralité de modes de codage comprenant au moins un mode de codage de type à prédiction par corrélation temporelle utilisant une pluralité d'images de l'ensemble d'images, le procédé comprenant, pour un bloc courant de la première image : déterminer un premier vecteur d'estimation de mouvement du bloc courant, le premier vecteur d'estimation de mouvement pointant sur un bloc corrélé au bloc courant dans une deuxième image de l'ensemble d'images distincte de la première image et précédemment codée selon une séquence prédéfinie d'encodage des images de l'ensemble d'images; déterminer une valeur d'une métrique de distorsion visuelle pour un mode de codage de type à prédiction par corrélation temporelle, la métrique de distorsion visuelle utilisant une distance entre un premier vecteur de prédiction temporelle du bloc courant pointant sur la deuxième image et le premier vecteur d'estimation de mouvement du bloc courant; et utiliser la valeur de la métrique de distorsion visuelle pour l'encodage du bloc courant.

Le procédé proposé permet de prendre en compte le mouvement dans un ensemble d'images à encoder, et ce quelle que soit la nature du bloc. En particulier, le procédé proposé permet la prise en compte du mouvement sans se limiter aux caractéristiques locales du bloc traité. La qualité visuelle du mode d'encodage considéré est quantifiée sous forme d'une distorsion, ce qui permet d'améliorer les choix de l'encodeur pour tous les modes et également éviter les problèmes de skip abusif.

De plus, le procédé proposé présente l'avantage de proposer une détermination de distorsion visuelle qui n'impacte pas significativement la complexité des calculs effectués par l'encodeur. Ainsi, le procédé proposé a l'avantage d'une mise en œuvre peu complexe, d'une complexité de calcul très faible, et d'une vitesse d'exécution rapide qui autorise notamment son intégration dans une solution d'encodage temps-réel sans impact significatif. Il permet ainsi notamment d'améliorer de façon globale la qualité du codage au sein d'une image appartenant à une séquence vidéo.

Le procédé proposé convient particulièrement bien, bien que de façon non exclusive, pour l'encodage ou la compression d'une image d'une séquence d'images selon un schéma du type H.261 , MPEG-1 Part 2, H.262, MPEG-2 Part 2, H.264, AVC, MPEG-4 Part 2, H. 265, HEVC (High Efficiency Video Coding) ou SHVC (Scalable HEVC). Mais il convient aussi pour l'encodage d'images selon tout schéma d'encodage vidéo opérant sur des images découpées en blocs dans lequel les blocs sont encodés selon une pluralité de modes de codage comprenant au moins un mode de codage de type à prédiction par corrélation temporelle utilisant une pluralité d'images du flux vidéo à encoder.

Le procédé proposé pourra avantageusement être mis en œuvre dans les cas où le mode de codage de type à prédiction par corrélation temporelle utilisant une pluralité d'images de l'ensemble d'images est de type utilisant une prédiction de mouvement à partir d'images précédemment codées (type de mode de codage référencé dans certains codeurs vidéo sous l'appellation « Inter ») ou de type utilisant un vecteur prédicteur prédéterminé sélectionné à partir de blocs voisins du bloc courant précédemment codés (type de mode de codage référencé dans certains codeurs vidéo sous l'appellation « Skip »).

Dans une mise en œuvre particulière du procédé proposé, le procédé comprend en outre : déterminer une pluralité de N vecteurs d'estimation de mouvement du bloc courant, N étant un entier supérieur ou égal à deux, chaque vecteur d'estimation de mouvement pointant respectivement sur un bloc corrélé au bloc courant dans N images respectives distinctes de la première image et précédemment codées selon la séquence d'encodage, et distinctes deux-à-deux. Dans cette mise en œuvre particulière, la métrique de distorsion visuelle utilise en outre des distances respectives entre un vecteur de prédiction temporelle du bloc courant pointant sur une parmi les images respectives et un parmi la pluralité de N vecteurs d'estimation de mouvement du bloc courant pointant sur ladite une parmi les images respectives.

La prise en compte de deux ou plus vecteurs d'estimation de mouvement et de deux ou plus vecteurs de prédiction correspondants respectivement aux vecteurs d'estimation de mouvement permet d'affiner la mesure de distorsion visuelle pour le mode de codage considéré et de mieux prendre en compte le mouvement dans l'ensemble d'images.

Dans une mise en œuvre particulière du procédé proposé, la métrique de distorsion visuelle pour le mode de codage de type à prédiction par corrélation temporelle utilisant N images de l'ensemble d'images, N étant un entier supérieur ou égal à 1 , est de la forme : ∑ =1 dist(v t i , v ME i ), où dist{ t i , v ME i ) est une distance entre un i ème vecteur d'estimation de mouvement, v MEii parmi N vecteurs d'estimation de mouvement pointant respectivement sur un bloc corrélé au bloc courant dans N images respectives deux-à- deux distinctes, distinctes de la première image et précédemment codées selon la séquence d'encodage, et un i ème vecteur de prédiction temporelle, v ti parmi N vecteurs de prédiction temporelle du bloc courant, pointant sur la même image que le vecteur d'estimation de mouvement v MEii .

Dans une mise en œuvre particulière du procédé proposé, la métrique de distorsion visuelle pour le mode de codage de type à prédiction par corrélation temporelle utilisant N images de l'ensemble d'images, N étant un entier supérieur ou égal à 1 , est de la forme : C x λ x M blocSize (K t x dist( t i , v ME i j, où C est une constante de normalisation, λ est un coefficient multiplicateur de Lagrange, dist(v t i , v ME i ) est une distance entre un i ème vecteur d'estimation de mouvement, v MEii parmi N vecteurs d'estimation de mouvement pointant respectivement sur un bloc corrélé au bloc courant dans N images respectives deux-à-deux distinctes, distinctes de la première image et précédemment codées selon la séquence d'encodage, et un i ème vecteur de prédiction temporelle, v ti parmi N vecteurs de prédiction temporelle du bloc courant, pointant sur la même image que le vecteur d'estimation de mouvement v MEii , K t est un degré de confiance du i eme vecteur d'estimation de mouvement v MEii , et M blocSize est une constante de normalisation déterminée en fonction de la taille du bloc courant.

La pluralité de modes de codage peut en outre comprendre un mode de codage à prédiction par corrélation spatiale de type Intra.

Dans une mise en œuvre particulière du procédé proposé, la métrique de distorsion visuelle inclut un facteur de confiance dans l'estimation de mouvement. Cela permet de pondérer l'impact de l'estimation de mouvement sur la mesure de distorsion visuelle. L'estimation de mouvement peut en effet générer des vecteurs plus ou moins précis selon la qualité de l'estimateur utilisé ou bien dans des circonstances particulières (source vidéo très bruité, objet apparaissant ou disparaissant d'une image à l'autre). Avantageusement, le facteur de confiance sera déterminé relativement à l'inverse d'une mesure de corrélation entre le bloc courant et son déplacement selon un vecteur d'estimation de mouvement.

Dans un mode particulier de réalisation, le procédé proposé comprend en outre : déterminer une pluralité de valeurs d'un critère de décision pour respectivement différents modes tests de codage du bloc courant, le critère de décision comprenant la métrique de distorsion visuelle ; et sélectionner un mode de codage correspondant à un minimum des valeurs respectives du critère de décision pour les différents modes tests de codage du bloc courant.

Le procédé proposé peut ainsi s'inscrire dans le cadre d'une optimisation d'un critère de décision à partir de laquelle un mode de codage du bloc courant est sélectionné par l'encodeur.

Le critère de décision peut avantageusement être choisi de la forme : ]' = D + ÀR + D', où D est une métrique de distorsion introduite par l'encodage mesurant la corrélation entre le bloc courant et le bloc prédit, λ est un coefficient multiplicateur de Lagrange, R représente un débit de codage, et D' est une métrique de distorsion visuelle.

La qualité des optimisations débit-distorsion classiquement mises en œuvre dans les encodeurs peut ainsi être améliorée en intégrant à un critère de décision débit- distorsion mesurant une distorsion objective une mesure de distorsion subjective telle que proposée ci-dessus. Cette mesure de distorsion visuelle (ou distorsion subjective) se base sur le mouvement de l'image, et peut être utilisée pour influencer automatiquement le choix de l'encodeur et éviter les artéfacts qui ne sont pas détectables par des mesures de distorsion objective.

Pour un mode test de codage de type à prédiction par corrélation temporelle utilisant deux images de l'ensemble d'images, la métrique D' de distorsion visuelle peut avantageusement être choisie de la forme :

D' = C x λ x M blocSize x {K L0 x dist(vL0 t , vL0 ME )),

où C est une constante de normalisation, λ est le coefficient multiplicateur de Lagrange, dist(vL0 t , vL0 ME ) est une distance entre le premier vecteur de prédiction temporelle, vL0 t , et le premier vecteur d'estimation de mouvement, vL0 ME , K L0 est un degré de confiance du premier vecteur d'estimation de mouvement vL0 ME , et M blocSize est une constante de normalisation déterminée en fonction de la taille du bloc courant.

Pour un mode test de codage de type à prédiction par corrélation temporelle utilisant trois images de l'ensemble d'images, la métrique D' de distorsion visuelle peut avantageusement être choisie de la forme :

D' = C x λ x M blocSize x {K L0 X dist(vL0 t , vL0 ME ) + K L1 x dist(vLl t , vLl ME )), où C est une constante de normalisation, λ est le coefficient multiplicateur de Lagrange, dist(vL0 t , vL0 ME ) est une distance entre le premier vecteur de prédiction temporelle, vL0 t , et le premier vecteur d'estimation de mouvement, vL0 ME , K L0 est un degré de confiance du premier vecteur d'estimation de mouvement vL0 ME , dist(vLl t , vLl ME ) est une distance entre le deuxième vecteur de prédiction temporelle, vLl t , et le deuxième vecteur d'estimation de mouvement, vll ME , K L1 est un degré de confiance du deuxième vecteur d'estimation de mouvement vL0 ME et M blocSize est une constante de normalisation déterminée en fonction de la taille du bloc courant.

Pour un mode test de codage de type à prédiction par corrélation spatiale, la métrique D' de distorsion visuelle peut être avantageusement définie comme étant une constante prédéterminée.

Selon un deuxième aspect, il est proposé un dispositif d'encodage d'images comprenant une interface d'entrée configurée pour recevoir une première image d'un ensemble d'images, et une unité d'encodage d'images, couplée de manière opérationnelle à l'interface d'entrée, et configurée pour encoder chaque bloc selon un parmi une pluralité de modes de codage comprenant au moins un mode de codage de type à prédiction par corrélation temporelle utilisant une pluralité d'images de l'ensemble d'images selon le procédé proposé.

Selon un autre aspect, il est proposé un programme d'ordinateur, chargeable dans une mémoire associée à un processeur, et comprenant des portions de code pour la mise en œuvre des étapes du procédé proposé lors de l'exécution dudit programme par le processeur, ainsi qu'un ensemble de données représentant, par exemple par voie de compression ou d'encodage, ledit programme d'ordinateur.

Un autre aspect concerne un support de stockage non-transitoire d'un programme exécutable par ordinateur, comprenant un ensemble de données représentant un ou plusieurs programmes, lesdits un ou plusieurs programmes comprenant des instructions pour, lors de l'exécution desdits un ou plusieurs programmes par un ordinateur comprenant une unité de traitement couplée de manière opérationnelle à des moyens mémoire et à un module d'interface entrées/sorties, conduire l'ordinateur à encoder une première image découpée en blocs selon le procédé proposé.

D'autres particularités et avantages de la présente invention apparaîtront dans la description ci-après d'exemples de réalisation non limitatifs, en référence aux dessins annexés, dans lesquels :

La figure 1 est un schéma illustrant l'architecture d'un codeur pour la mise en œuvre du procédé proposé ;

Les figures 2a, 2b, et 2c sont des diagrammes illustrant des modes de prédiction Intra ;

- La figure 3 est un diagramme illustrant une détermination de vecteur médian pour le codage en mode de prédiction Inter ;

Les figures 4a et 4b sont des diagrammes illustrant le procédé proposé selon différents modes particuliers de l'invention ; Dans la description détaillée ci-après de modes de réalisation de l'invention, de nombreux détails spécifiques sont présentés pour apporter une compréhension plus complète. Néanmoins, l'homme du métier peut se rendre compte que des modes de réalisation peuvent être mis en pratique sans ces détails spécifiques. Dans d'autres cas, des caractéristiques bien connues ne sont pas décrites en détail pour éviter de compliquer inutilement la description.

Le procédé proposé peut être mis en œuvre par tout type d'encodeur d'image d'un ensemble d'images utilisant un mode de codage de type à prédiction par corrélation temporelle utilisant une pluralité d'images de l'ensemble d'images, comme par exemple un codée vidéo conforme aux standards H.264/AVC, H.265/HEVC, et/ou MPEG-2.

En référence à la figure 1 , l'encodeur 100 reçoit en entrée 109 un flux vidéo d'entrée 101 comprenant une pluralité d'images à traiter pour effectuer l'encodage du flux. L'encodeur 100 comprend un contrôleur 102, couplé de manière opérationnelle à l'interface d'entrée 109, qui pilote une unité d'estimation de mouvement 1 10 et une unité de prédiction 104 pour les prédictions Inter et Skip, ainsi qu'une unité de prédiction de mode Intra 103. Les données reçues sur l'interface d'entrée 109 sont transmises en entrée des unités de prédiction de mode Intra 103, d'estimation de mouvement 1 10, de prédiction Inter/skip 104 et du contrôleur 102. L'ensemble contrôleur 102, unité d'estimation de mouvement 1 10, unité de prédiction 104 pour les prédictions Inter et Skip, et unité de prédiction de mode Intra 103 forme une unité d'encodage 1 1 1 couplée de manière opérationnelle à l'interface d'entrée 109.

L'unité de prédiction de mode Intra 103 génère des données de prédiction Intra 107 qui sont fournies en entrée d'un codeur entropique 105. L'unité d'estimation de mouvement 1 10 génère quant à elle des données d'estimation de mouvement qui sont fournies au contrôleur 102 ainsi qu'à l'unité de prédiction des modes Inter/skip 104 pour les besoins de la prédiction en mode Inter. L'unité de prédiction de modes Inter/skip 104 génère des données de prédiction Inter ou Skip qui sont fournies en entrée du codeur entropique 105. Par exemple, les données fournies au décodeur pour une prédiction de type Inter peuvent comprendre un résiduel de pixels et des informations concernant un ou plusieurs vecteurs de mouvement. Ces informations relatives à un ou plusieurs vecteurs de mouvement peuvent comprendre un ou plusieurs indices identifiant un vecteur prédicteur dans une liste de vecteurs prédicteurs connue du décodeur. Les données fournies au décodeur pour une prédiction de type Skip ne comporteront typiquement pas de résiduel de pixels, et pourront aussi comprendre des informations identifiant un vecteur prédicteur dans une liste de prédicteurs connue du décodeur. La liste de vecteurs prédicteurs utilisée pour le codage de type Inter ne sera pas nécessairement identique à la liste de vecteurs prédicteurs utilisée pour le codage de type Skip. Le contrôleur 102 génère des données de contrôle 108 qui sont aussi fournies en entrée du codeur entropique 105.

Le contrôleur 102 est configuré pour piloter l'unité de prédiction de mode Intra 103 et l'unité de prédiction de modes Inter/skip 104 afin de contrôler les données de prédiction qui sont respectivement fournies en entrée du codeur entropique 105 par l'unité de prédiction de mode Intra 103 et l'unité de prédiction de modes Inter/skip 104. En fonction du schéma d'encodage mis en œuvre par l'encodeur 100, le contrôleur 102 peut en outre être configuré pour sélectionner parmi les différents types de mode de prédiction (mode Intra, mode Inter ou mode Skip en fonctions des modes de codage implémentés dans l'unité d'encodage 1 1 1 ) celui pour lequel des données de prédiction seront transmises au codeur entropique 105. Ainsi, le schéma d'encodage peut comprendre une décision pour chaque ensemble d'image traité visant à choisir le type de prédiction pour lequel des données seront transmises au codeur entropique 105. Ce choix sera typiquement mis en œuvre par le contrôleur, pour décider de l'application du mode de prédiction Inter, du mode de prédiction Intra ou du mode de prédiction Skip au bloc en cours de traitement. Cela permet de commander l'envoi au codeur entropique de données de prédiction Intra 107 ou bien de données de prédiction Inter ou Skip 106 en fonction de la décision prise par le contrôleur 102.

L'encodeur 100 peut être un ordinateur, un réseau d'ordinateurs, un composant électronique, ou un autre appareil comportant un processeur couplé de manière opérationnelle à une mémoire, ainsi que, selon le mode de réalisation choisi, une unité de stockage de données, et d'autres éléments matériels associés comme une interface de réseau et un lecteur de support pour lire un support de stockage amovible et écrire sur un tel support (non représentés sur la figure). Le support de stockage amovible peut être, par exemple, un disque compact (CD), un disque vidéo/polyvalent numérique (DVD), un disque flash, une clé USB, etc. En fonction du mode de réalisation, la mémoire, l'unité de stockage de données ou le support de stockage amovible contient des instructions qui, lorsqu'elles sont exécutées par le contrôleur 102, amènent ce contrôleur 102 à effectuer ou contrôler les parties interface d'entrée 109, prédiction en mode Intra 103, prédiction en mode Inter/skip 104, estimation de mouvement 1 10 et/ou traitement de données des exemples de mise en œuvre du procédé proposé décrits dans les présentes. Le contrôleur 102 peut être un composant implémentant un processeur ou une unité de calcul pour l'encodage d'images selon le procédé proposé et le contrôle des unités 109, 1 10, 103, 104, 105 de l'encodeur 100.

En outre, l'encodeur 100 peut être mis en œuvre sous forme logicielle, comme décrit ci-dessus, auquel cas il prend la forme d'un programme exécutable par un processeur, ou sous forme matérielle (ou « hardware »), comme un circuit intégré spécifique application (ASIC), un système sur puce (SOC), ou sous forme d'une combinaison d'éléments matériels et logiciels, comme par exemple un programme logiciel destiné à être chargé et exécuté sur un composant de type FPGA (Field Programmable Gâte Array). Les SOC {System On Chip) ou système sur puce sont des systèmes embarqués qui intègrent tous les composants d'un système électronique dans une puce unique. Un ASIC {Applicatrion-specific Intergrated Circuit) est un circuit électronique spécialisé qui regroupe des fonctionnalités sur mesure pour une application donnée. Les ASIC sont généralement configurés lors de leur fabrication et ne peuvent être que simulés par l'utilisateur. Les circuits logiques programmables de type FPGA (Field-Programmable Gâte Array) sont des circuits électroniques reconfigurables par l'utilisateur.

Un encodeur peut également utiliser des architectures hybrides, comme par exemple des architectures basées sur un CPU+FPGA, un GPU (Graphics Processing Unit) ou un MPPA (Multi-Purpose Processor Array).

L'image en cours de traitement est divisée en blocs ou unités de codage (en anglais « Coding Unit », ou CU), dont la forme et la taille sont déterminées en fonction notamment de la taille de la matrice de pixels représentant l'image, par exemple en macroblocs de forme carrée de 16 x 16 pixels. On forme ainsi un ensemble de blocs pour lequel on définit une séquence de traitement (aussi appelé « parcours de traitement »). Dans le cas de blocs de forme carrée, on peut par exemple traiter les blocs de l'image courante en commençant par celui situé en haut à gauche de l'image, suivi de celui immédiatement à droite du précédent, jusqu'à arriver à la fin de la première ligne de blocs pour passer au bloc le plus à gauche dans la ligne de blocs immédiatement en-dessous de cette première ligne, pour terminer le traitement par le bloc le plus en bas et à droite de l'image.

On considère ainsi un « bloc courant » (parfois dénommé « bloc d'origine »), c'est- à-dire un bloc en cours de traitement dans l'image courante. Le traitement du bloc courant peut comprendre le partitionnement du bloc en sous-blocs, afin de traiter le bloc avec une granularité spatiale plus fine que celle obtenue avec le bloc. Le traitement d'un bloc comprend par ailleurs la prédiction des pixels du bloc, en exploitant la corrélation spatiale (dans la même image) ou temporelle (dans les images précédemment codées) entre les pixels. Lorsque plusieurs types de prédiction, comme par exemple une prédiction de type Intra, une prédiction de type Inter, et/ou une prédiction de type skip sont implémentés dans l'encodeur, la prédiction des pixels du bloc comprend typiquement la sélection d'un type de prédiction du bloc et d'informations de prédiction correspondants au type sélectionné, l'ensemble formant un jeu de paramètres d'encodage.

La prédiction du bloc de pixels traité permet de calculer un résiduel de pixels, qui correspond à l'écart entre les pixels du bloc courant et les pixels du bloc de prédiction, et est transmis dans certains cas au décodeur après transformée et quantification.

Pour coder un bloc courant, plusieurs modes de codage sont ainsi possibles et il est nécessaire d'inclure dans les données générées par l'encodage des informations de codage 106-108 signalant le choix de mode de codage qui a été effectué lors de l'encodage et selon lequel les données ont été encodées. Ces informations de codage 106-108 peuvent comprendre notamment le mode de codage (par exemple le type particulier de codage prédictif parmi les codages « Intra » et « Inter », ou parmi les codages « Intra », « Inter » et « Skip »), le partitionnement (dans le cas d'un ou plusieurs blocs partitionnés en sous-blocs), ainsi qu'une information de mouvement 106 dans le cas d'un codage prédictif de type « Inter » ou « Skip » et un mode de prédiction Intra 107 dans le cas d'un codage prédictif de type « Intra ». Comme indiqué ci-dessus pour les modes de codage « Inter » et « Skip », ces deux dernières informations peuvent elles aussi prédites afin de réduire leur coût de codage, par exemple en exploitant les informations des blocs voisins du bloc courant.

On décrit ci-après des exemples de modes de prédiction « Intra », « Inter » et « skip », afin de faciliter la compréhension de la mise en œuvre du procédé proposé pour un codage vidéo utilisant ces modes de prédiction.

Comme indiqué ci-dessus, le codage prédictif en mode « Intra » inclut une prédiction des pixels d'un bloc (ou ensemble) de pixels en cours de traitement à l'aide des pixels précédemment codés de l'image courante. Il existe différents modes de codage prédictif de type « Intra », dont certains sont décrits ci-après :

Dans le mode de prédiction « Intra » dit « DC » (pour « Discrète Continuous »), on utilise les valeurs des pixels voisins du bloc courant appartenant à des blocs qui ont été précédemment codés, et on calcule une moyenne des valeurs de ces pixels voisins. Le bloc prédictif est construit en utilisant pour chaque pixel la valeur moyenne obtenue.

Par exemple, si l'on considère un bloc 200 de 8x8 pixels tel que celui illustré sur la figure 2a, on utilise les deux ensembles de 8 pixels voisins 201 , 202 du bloc voisin disposé à gauche du bloc courant et du bloc voisin disposé au-dessus du bloc courant. On calcule une valeur moyenne M des valeurs de ces 16 pixels, que l'on utilise pour remplir les valeurs des pixels du bloc prédictif 200.

Dans le mode de prédiction « Intra » dit « V » (pour « Vertical »), on utilise les valeurs des pixels voisins du bloc courant appartenant à au bloc voisin disposé au-dessus du bloc courant, lorsque ces pixels voisins ont été précédemment codés, et on recopie la valeur de chaque pixel voisin pour les pixels de la colonne correspondante dans le bloc prédictif.

Par exemple, si l'on considère un bloc 210 de 8x8 pixels tel que celui illustré sur la figure 2b, on utilise par exemple l'ensemble de 8 pixels voisins 21 1 du bloc voisin disposé à gauche du bloc courant, dans le cas où le parcours de codage des blocs est tel que ce bloc a déjà été codé. On recopie la valeur de chacun des 8 pixels voisins dans la colonne correspondante du bloc prédictif 210.

Dans le mode de prédiction « Intra » dit « H » (pour « Horizontal »), on utilise les valeurs des pixels voisins du bloc courant appartenant à au bloc voisin disposé à gauche ou à droite du bloc courant, lorsque ces pixels voisins ont été précédemment codés, et on recopie la valeur de chaque pixel voisin pour les pixels de la ligne correspondante dans le bloc prédictif.

Dans le mode de prédiction « Intra » dit « VL » (pour « Vertical-Left »), on utilise les valeurs des pixels voisins du bloc courant appartenant au bloc voisin disposé immédiatement au-dessus et au-dessus à droite du bloc courant, lorsque ces pixels voisins ont été précédemment codés, et on recopie la valeur de chaque pixel voisin pour les pixels de la colonne correspondante dans le bloc prédictif.

Par exemple, si l'on considère un bloc 220 de 8x8 pixels tel que celui illustré sur la figure 2c, on utilise par exemple l'ensemble de 8 pixels voisins 221 des deux blocs voisins disposés respectivement immédiatement au-dessus et au-dessus sur la droite du bloc courant, dans le cas où le parcours de codage des blocs est tel que ces blocs voisins, ou au moins les pixels voisins considérés, ont déjà été codés. On recopie la valeur de chacun des 8 pixels voisins dans la colonne correspondante du bloc prédictif 220 selon une direction de projection diagonale gauche comme illustré sur la figure 2c.

Le standard de codage vidéo H.264/AVC prévoit 9 modes de prédiction intra (dont les modes de prédiction DC, H, V, VL décrits ci-dessus). Le standard de codage vidéo HEVC prévoit quant à lui un nombre plus important de 35 modes de prédiction intra.

Ces standards de codage vidéo prévoient par ailleurs des cas particuliers pour effectuer une prédiction intra. Par exemple, le standard H.264/AVC autorise le découpage de blocs de 16x16 pixels en blocs plus petits, dont la taille peut aller jusqu'à 4x4 pixels, afin d'augmenter la granularité du traitement de codage prédictif.

Comme indiqué ci-dessus, l'information du mode de prédiction Intra est prédite afin de réduire son coût de codage. En effet, la transmission dans le flux encodé d'un index identifiant le mode de prédiction Intra présente un coût d'autant plus élevé que le nombre des modes de prédiction utilisables est important. Même dans le cas du codage H.264/AVC, la transmission d'un index entre 1 et 9 identifiant le mode de prédiction intra utilisé pour chaque bloc parmi les 9 modes possibles s'avère être chère en termes de coût de codage.

On calcule ainsi un mode le plus probable, noté MPM (en anglais « Most Probable Mode »), qui est utilisé pour coder sur un minimum de bits le mode de prédiction Intra le plus probable. Le MPM est le résultat de la prédiction du mode de prédiction Intra utilisé pour coder le bloc courant.

Lorsque le mode Intra est sélectionné pour l'encodage du bloc courant, on pourra transmettre au décodeur typiquement le résiduel de pixels et le MPM.

Le codage prédictif en mode référencé pour certains codeurs vidéo sous l'appellation « Inter » inclut une prédiction des pixels d'un bloc (ou ensemble) de pixels en cours de traitement à l'aide de pixels issus d'images précédemment codées (pixels qui ne sont donc pas issus de l'image courante, au contraire du mode de prédiction Intra).

Le mode de prédiction Inter utilise typiquement un ou deux ensembles de pixels situés dans une ou deux images précédemment codées afin de prédire les pixels du bloc courant. Cela dit, on peut envisager pour un mode de prédiction Inter l'utilisation de plus de deux ensembles de pixels situés respectivement dans des images précédemment codées distinctes deux-à-deux et dont le nombre est supérieur à deux. Cette technique, appelée compensation de mouvement, fait intervenir la détermination d'un ou de deux vecteurs, dits vecteurs de mouvement, qui indiquent respectivement la position de l'ensemble ou des ensembles de pixels à utiliser pour la prédiction dans l'image ou les images précédemment codées (parfois appelées « images de référence »). En référence à la figure 1 , les vecteurs utilisés pour le mode « Inter » sont à choisir par l'encodeur 100 par le biais de l'unité d'estimation de mouvement 1 10 et de l'unité de prédiction des modes Inter/Skip 104. La mise en œuvre de l'estimation de mouvement au sein de l'encodeur 100 pourra donc prévoir, selon les cas, la détermination d'un seul vecteur d'estimation de mouvement (noté « L0 » dans la suite) ou bien de deux vecteurs d'estimation de mouvement (notés « L0 » et « L1 » dans la suite) qui pointent vers des images potentiellement différentes.

Le ou les vecteurs d'estimation de mouvement générés en sortie de l'unité d'estimation de mouvement 1 10 seront fournis à l'unité de prédiction des modes Inter/Skip 104 pour la génération de vecteurs de prédiction Inter. Chaque vecteur de prédiction Inter pourra en effet être généré à partir d'un vecteur d'estimation de mouvement correspondant.

On décrit ci-après plus en détails l'estimation de mouvement pour un bloc courant selon des modes de réalisation.

L'estimation de mouvement peut consister à étudier le déplacement des blocs entre deux images en exploitant la corrélation temporelle entre les pixels. Pour un bloc donné dans l'image courante (le « bloc courant » ou « bloc d'origine »), l'estimation de mouvement permet de sélectionner un bloc le plus ressemblant (dénommé « bloc de référence ») dans une image précédemment codée, dite « image de référence », en représentant le mouvement de ce bloc par exemple avec un vecteur à deux dimensions (déplacement horizontal, déplacement vertical).

Le procédé d'estimation de mouvement est non normatif et est donc susceptible de différer d'un encodeur à un autre.

Par exemple, le procédé d'estimation de mouvement pourra comprendre la recherche dans une zone plus ou moins étendue de l'image de référence, par exemple définie à partir du bloc de l'image de référence correspondant au bloc d'origine dans l'image d'origine, afin de tester la ressemblance du bloc d'origine avec un nombre plus ou moins grand de blocs candidats de l'image de référence.

La corrélation entre un bloc et son déplacement selon un vecteur d'estimation de mouvement peut être calculée à l'aide de la Somme des Différences Absolues (SAD) :

SAD =∑ x y \ Pxy - V ' xy \ H )

où p xy est le pixel à la position (x, y)du bloc d'origine et p' xy le pixel à la position

(x, y) du bloc de référence. Une SAD faible sera interprétée comme une indication que les deux blocs sont très ressemblants. Le vecteur issu de l'estimation de mouvement, correspondant au bloc de l'image de référence le plus proche du bloc d'origine parmi les blocs candidats testés dans l'image de référence, pourra servir de base à la détermination du vecteur de prédiction Inter. En effet, selon les implémentations, le procédé de prédiction Inter pourra inclure des optimisations visant à sélectionner un vecteur distinct du vecteur issu de l'estimation de mouvement, afin d'avoir une prédiction la moins coûteuse possible pour le mode qui est testé.

Cette optimisation peut par exemple comprendre le test d'un ou de plusieurs vecteurs autour du vecteur issu de l'estimation de mouvement susceptibles de donner un meilleur résultat en fonction de l'objectif poursuivi. Dès lors, le vecteur utilisé pour la prédiction Inter eu égard à une image de référence donnée ne sera pas nécessairement identique au vecteur issu de l'estimation de mouvement pour cette image de référence.

Lorsque le mode Inter est sélectionné pour l'encodage du bloc courant, on pourra transmettre au décodeur typiquement le résiduel de pixels (calculé pour chaque vecteur de prédiction Inter en fonction des pixels du bloc courant et des pixels du bloc vers lequel pointe le vecteur de prédiction Inter considéré) et des informations concernant le ou les vecteurs de prédiction Inter correspondant.

Cependant, le ou les vecteurs de prédiction Inter peuvent représenter un coût important dans les encodeurs vidéo. Certains encodeurs réduisent ce coût de codage en exploitant les vecteurs des blocs voisins du bloc en cours d'encodage. Cette optimisation fait intervenir une prédiction du/des vecteurs de prédiction Inter, à l'instar de la prédiction du mode de prédiction Intra dans le cas d'un codage prédictif du bloc en mode Intra.

Comme indiqué ci-dessus, les informations concernant chaque vecteur de prédiction Inter pourront ainsi être réduites en taille en transmettant, à la place des coordonnées du vecteur par exemple, un indice d'un vecteur prédicteur dans un dictionnaire connu de l'encodeur et du décodeur, et un résiduel quantifiant la distance entre le vecteur de prédiction et le vecteur prédicteur.

Par exemple, dans les codeurs de type H.264/AVC, un vecteur prédicteur médian mv pred est utilisé pour prédire le vecteur à coder mv.

z mv = mv— mv pred (2)

Seul le résiduel £ mi7 est transmis dans le flux encodé, de manière à fortement réduire les coûts de codage.

La figure 3 illustre la détermination d'un vecteur prédicteur correspondant dans l'exemple illustré au médian entre les vecteurs de blocs voisins précédemment codés. En référence à la figure 3, le bloc courant (en cours d'encodage) 241 est entouré de quatre blocs voisins 242a, 242b, 242c, 242d précédemment encodés et de trois blocs voisins 243a, 243b, 243c restant à coder.

L'exemple présenté suppose un parcours d'encodage des blocs de l'image tel que, pour chaque bloc en cours d'encodage, les blocs situés à gauche ou au-dessus du bloc courant ont déjà été encodé, de sorte que, sur la figure 3, les blocs voisins 242a, 242b, 242c, 242d précédemment encodés sont situés à gauche 242a ou au-dessus 242b, 242c, 242d du bloc courant 241 . Le vecteur prédicteur mv pred 244 du bloc courant 241 correspond au médian entre les vecteurs respectifs 245a, 245b, 245c, 245d des blocs précédemment codés 242a, 242b, 242c ou 242a, 242b, 242d lorsque le bloc 242c n'est par exemple pas disponible (par exemple dans le cas où le bloc 242c est encodé selon un codage prédictif en mode Intra). Un mauvais vecteur prédicteur résultera en un surcoût de codage pour le bloc courant 241 . Dans un autre cas particulier où uniquement un ou deux blocs voisins sont codés en mode Inter, le standard H.264/AVC prévoit une règle permettant d'utiliser un des vecteurs disponibles dans la mesure où le médian n'est pas calculable.

Par ailleurs, certains codeurs utilisent, parfois dans le cadre du mode de prédiction « Inter », un mode référencé dans certains codeurs video sous l'appellation « Skip » dans lequel, comme dans le cas du mode Inter, le bloc courant est prédit à l'aide de pixels issus d'images précédemment codées (une ou deux images, voire plus en fonction de l'implémentation). Le mode Skip est d'ailleurs parfois présenté comme un sous-mode du mode Inter, du fait qu'il correspond à un mode de prédiction « Inter » sans transmission (ou génération dans le flux encodé) de vecteur de prédiction ni de résiduel de pixels.

Le mode Skip trouve à s'appliquer lorsque le résiduel de pixels est suffisamment faible pour qu'il soit considéré inutile de le transmettre dans le flux de sortie du codeur. On transmettra donc seulement des informations sur les vecteurs de prédiction Inter, et le bloc indiqué par un vecteur dans l'image de référence sera copié pour générer le bloc courant.

D'autre part, dans une optique de réduction maximale du coût de codage, le ou les vecteurs de prédiction utilisés pour ce mode ne seront typiquement pas transmis au décodeur, et seront déduits par le décodeur à partir d'une liste prédéterminée de vecteurs possibles (appelés, de même que pour le mode « Inter », « vecteurs prédicteurs »), ce qui permettra par exemple de transmettre seulement la position du prédicteur (par exemple un indice de position dans la liste des vecteurs prédicteurs) au lieu de transmettre sa valeur (comme par exemple ses coordonnées). Ainsi, par exemple, dans ce mode de codage, on sélectionne directement un vecteur prédicteur dans une liste prédéterminée connue du décodeur, la sélection du vecteur prédicteur s'effectuant à partir de blocs voisins du bloc courant qui ont été précédemment codés. Comme indiqué ci-dessus, dans les cas où les modes Skip et Inter mis en œuvre dans le codeur utilisent l'un et l'autre une liste de vecteurs prédicteurs, les listes respectives de vecteurs prédicteurs, que ce soit de par leur taille ou de par leur contenu respectif, ne seront pas nécessairement identiques.

Parmi les modes Inter, Intra, et Skip décrits ci-dessus à titre d'exemple, un mode donné peut avoir un coût faible mais générer un artefact visuel, qui se manifeste le plus souvent par un effet de blocs, comme indiqué dans l'article de Zeng et al. intitulé « Charactérizing Perceptual Artifacts in Compressée! Video Streams », Human Vision and Electronic Imaging XIX, Proc. SPIE, vol. 9014. Ce défaut peut subvenir lorsque le vecteur attribué à un bloc ne représente pas le mouvement réel, par exemple d'une portion d'image contenant le bloc en mouvement sur une séquence d'images. Il se manifeste dans ce cas par une discontinuité aux frontières des blocs et peut produire des faux contours ou des blocs entiers mal positionnés.

Dans le cas où une meilleure qualité visuelle est recherchée, il peut être préférable de choisir un mode avec un coût plus élevé mais qui ne génère pas d'artefacts visuels.

Les défauts sont d'autant plus visibles lorsque le mode choisi est un mode Skip, car l'absence de résiduel fait que dans le cas où le vecteur de Skip est mauvais d'un point de vue de la qualité visuelle, le décodeur va copier tel quel un bloc qui est mauvais. Le mode Skip étant un mode qui ne coûte pas très cher de par le peu d'informations générées en sortie de l'encodeur, l'algorithme de sélection du mode de codage utilisé par l'encodeur peut avoir tendance à trop choisir ce mode pour réduire le débit vidéo, ce faisant aux dépens de la qualité visuelle.

De même, en fonction de l'algorithme de sélection de vecteur de prédiction Inter utilisé, l'encodeur peut décider de choisir un vecteur de prédiction Inter trop éloigné du vecteur obtenu par l'estimation de mouvement (par exemple dans le cas où le vecteur choisi nécessite un coût de codage plus faible que le vecteur issu de l'estimation de mouvement), mais cet éloignement peut produire un mouvement incohérent avec le mouvement original de la vidéo, et donc générer un effet de blocs caractéristique d'un artéfact visuel indésirable.

Selon un aspect, une méthode de sélection de mode de codage est proposée, qui quantifie la « qualité visuelle » d'un mode testé sous forme d'une distorsion pour ainsi améliorer visuellement les choix de l'encodeur pour tous les modes testés et également éviter les problèmes de Skip abusif décrits ci-dessus.

Dans un mode de réalisation, on utilise une métrique de distorsion visuelle qui reflète la qualité visuelle du mode testé en complément ou comme alternative aux métriques de distorsion objectives telles que la somme des différences absolues (SAD) ou l'erreur quadratique moyenne (MSE). Pour un mode de codage de type à prédiction par corrélation temporelle, comme par exemple un mode de codage de type Inter ou Skip tels que ceux décrits ci-dessus, qui met en œuvre une détermination d'un vecteur d'estimation de mouvement et d'un vecteur de prédiction, la métrique de distorsion visuelle proposée utilise une distance entre le vecteur de prédiction temporelle et le vecteur d'estimation de mouvement correspondant à une même image de référence.

On donne ci-après des exemples de métriques de distorsion visuelle qui révèlent qu'une métrique de distorsion visuelle ainsi définie s'avère peu coûteuse en calculs et peut dès lors s'intégrer au sein même d'un algorithme de sélection de mode de codage d'un codeur d'images ou d'un codée vidéo, capable de travailler en mode temps-réel ou quasi temps-réel.

La figure 4a est un diagramme illustrant le procédé proposé selon différents modes particuliers de l'invention.

On envisage le cas d'une image issue d'un ensemble d'images, par exemple une séquence d'images, et découpée en blocs, dont l'encodage est effectué par encodage des blocs, chaque bloc étant encodé selon un parmi une pluralité de modes de codage comprenant au moins un mode de codage de type à prédiction par corrélation temporelle utilisant une pluralité d'images de la séquence d'images .

En référence à la figure 4a, on considère 301 a le codage d'un bloc courant selon un mode de codage de type à prédiction par corrélation temporelle utilisant une pluralité d'images de la séquence d'images. En d'autres termes, le procédé d'encodage du bloc courant comprend un traitement de codage du bloc selon un mode de codage de type à prédiction par corrélation temporelle, parfois dénommé « mode test » ou « mode candidat ». L'encodage du bloc courant peut en effet, selon les implémentations, comprendre des tests de différents modes de codage, d'un même type (Inter, Intra, et/ou Skip) ou bien de types différents, afin de sélectionner un mode considéré comme optimal.

Pour le mode de codage à prédiction temporelle testé, on détermine 302a un vecteur d'estimation de mouvement du bloc courant, noté vL0 ME . Cette détermination d'un vecteur d'estimation de mouvement comprend la sélection dans la séquence d'images d'une image de référence encodée précédemment à l'image courante (selon une séquence d'encodage des images de la séquence) vers laquelle le vecteur d'estimation de mouvement du bloc courant pointe.

On détermine 303a ensuite un vecteur de prédiction de test pour le bloc courant, noté vL0 t , qui pointe vers l'image de référence sélectionnée lors de l'estimation de mouvement.

On calcule 304a ensuite un écart entre le vecteur de d'estimation de mouvement vL0 ME et le vecteur de prédiction de test vL0 t , ce qui fournit une valeur de métrique de distorsion visuelle pour le mode testé.

On utilise 305a cette valeur de métrique de distorsion visuelle pour l'encodage du bloc courant, par exemple pour sélectionner un mode de codage du bloc courant.

Dans un mode particulier de réalisation, la détermination d'une valeur de la métrique de distorsion visuelle peut faire intervenir une pluralité de vecteurs d'estimation de mouvement et de vecteurs de prédiction correspondants, comme illustré sur la figure 4b qui montre l'utilisation de deux vecteurs d'estimation de mouvement et deux vecteurs de prédiction.

En référence à la figure 4b, on considère 301 b le codage d'un bloc courant selon un mode test de codage de type à prédiction par corrélation temporelle utilisant une pluralité d'images de la séquence d'images. Pour le mode de codage à prédiction temporelle testé, on détermine 302b, 306b des premier et deuxième vecteurs d'estimation de mouvement du bloc courant, notés respectivement vL0 ME et vLl ME . Ces déterminations de vecteurs d'estimation de mouvement peuvent être effectuées en parallèle, ou bien à la suite l'une de l'autre. Elles comprennent respectivement la sélection dans la séquence d'images d'une première et d'une seconde image de référence, chacune encodée précédemment à l'image courante (selon une séquence d'encodage des images de la séquence) vers laquelle les vecteurs d'estimation de mouvement du bloc courant pointent respectivement.

On détermine 303b, 307b ensuite des premier et deuxième vecteurs de prédiction de test pour le bloc courant, notés respectivement vL0 t et vLl t , respectivement associés aux vecteurs d'estimation de mouvement en ce qu'ils pointent respectivement vers les première et deuxième images de référence sélectionnées lors de l'estimation de mouvement.

On calcule 304b ensuite un premier écart entre le premier vecteur de d'estimation de mouvement vL0 ME et le premier vecteur de prédiction de test vL0 t , et un deuxième écart entre le deuxième vecteur de d'estimation de mouvement vLl ME et le deuxième vecteur de prédiction de test vLl t , et on détermine une valeur de métrique de distorsion visuelle pour le mode testé à partir de ces premier et deuxième écarts.

On utilise 305b cette valeur de métrique de distorsion visuelle pour l'encodage du bloc courant, par exemple pour sélectionner un mode de codage du bloc courant.

En fonction de l'implémentation du codeur, les procédés décrits ci-dessus en référence aux Figures 4a et 4b peuvent être mis en œuvre dans le cadre d'un procédé d'encodage qui sélectionne un mode d'encodage pour le bloc courant après avoir testé une pluralité de modes d'encodage et sélectionné parmi les modes testés un mode d'encodage considéré comme optimal au regard d'un critère prédéterminé (parfois dénommé « critère de décision locale »). Dans ce cas, la métrique de distorsion visuelle définie ci-dessus pourra être utilisée pour sélectionner le mode d'encodage optimal en étant intégrée au critère de décision locale.

Dans un mode particulier de réalisation, on prend ainsi en compte la qualité visuelle du mode testé en introduisant une métrique de distorsion visuelle dans un critère de décision locale (c'est-à-dire pour l'encodage du bloc courant). L'optimisation débit- distorsion consiste en effet habituellement à minimiser un critère de décision locale. Un exemple conventionnel d'un tel critère, noté /, est donné ci-après : J = D + ÀR , où D désigne la distorsion, λ est un multiplicateur de Lagrange et R désigne le débit associé au codage de la décision estimée.

Le critère de décision locale est évalué pour une pluralité de modes de codage disponibles, par exemple pour chaque mode de codage disponible, et le mode minimisant le critère est sélectionné. Dans le critère /, la distorsion D peut être calculée à l'aide de métriques dites « objectives » telles que la SAD (1 ) définie ci-dessus ou l'Erreur Quadratique Moyenne (MSE) :

MSE = ^∑ x y (p xy - p' xy ) 2 (3)

où p xy est le pixel à la position (x, y) du bloc d'origine et p' xy le pixel à la position

(x, y) du bloc de référence et n le nombre de pixels dans le bloc.

Le critère conventionnel J = D + ÀR, reposant sur une détermination de la distorsion utilisant des métriques objectives, n'inclut dès lors pas de prise en compte de la qualité visuelle du mode testé.

Dans ce mode particulier de réalisation, le critère de décision locale / est modifié pour y introduire une mesure de distorsion visuelle (aussi appelée « distorsion subjective »). Par exemple, le critère / est modifié en un critère amélioré, noté /', énoncé ci-après : J' = D + D' + ÀR (4) où D est la distorsion objective, D' est la distorsion subjective, λ le multiplicateur de Lagrange et R le débit de codage.

Le choix de mode de codage effectué sur la base du critère modifié J' permet à l'encodeur de prendre en compte la qualité visuelle dans sa décision. Selon un mode particulier de réalisation, on calcule pour chaque mode testé la valeur d'un critère d'optimisation débit-distorsion incluant une mesure de distorsion subjective, comme par exemple le critère J' énoncé ci-dessus, et on sélectionne le mode de codage minimisant ce critère pour l'encodage du bloc courant.

Les modes testés peuvent inclure plusieurs modes correspondant à un même type de prédiction, par exemple parmi les types Inter, Intra, et/ou Skip décrits ci-dessus. En particulier, on peut tester plusieurs vecteurs de prédiction Inter candidats identifiés par un algorithme de prédiction Inter générant une pluralité de vecteurs candidats (par exemple de

1 à 10 vecteurs candidats) à partir du vecteur issu de l'estimation de mouvement. Chaque vecteur candidat pourra représenter un mode testé distinct de sorte qu'il y aura plusieurs modes candidats testés pour la prédiction de type Inter.

Le choix de mode de codage pourra donc comprendre la sélection de paramètres d'encodage du bloc courant correspondant à un type de prédiction parmi les types de prédiction (Inter, Intra, et/ou Skip) disponibles pour l'encodage.

Dans un mode de réalisation, la distorsion subjective D' mesure, pour une prédiction de type Inter ou Skip, la distance entre le vecteur de prédiction et le vecteur issu de l'estimation de mouvement. De cette manière, on choisit le mode avec le coût le plus faible possible tout en restant cohérent avec le mouvement de l'image. Plus le vecteur de prédiction du mode de type Inter ou Skip testé est éloigné du vecteur de l'estimation de mouvement, plus il est considéré « mauvais » visuellement, et donc plus grande sera la distorsion subjective D', ce qui désavantagera le mode testé et ainsi favorisera des modes qui seront plus « corrects » visuellement.

On décrit ci-après des exemples de métrique de distorsion visuelle applicables aux modes de codage de type à prédiction temporelle, par exemple aux modes des types

Inter et Skip décrits ci-dessus. Dans un mode particulier de réalisation, pour les modes de codage qui utilisent une prédiction temporelle à partir d'une image précédemment codée, la distorsion visuelle (ou subjective) peut être mesurée grâce à une métrique, notée D', de la forme :

D' = dist(vL0 t , vLQ ME ) (5).

dist(vL0 t , vL0 ME ) est la distance entre le vecteur de prédiction temporelle en cours de test « vL0 t », et le vecteur obtenu par l'estimation de mouvement « vL0 ME ».

Il existe plusieurs manières pour définir la distance entre deux vecteurs v^x^ y et v 2 (x 2 , y 2 ).

Dans un mode particulier, on utilise la distance euclidienne définie par la formule suivante :

distOi, v 2 ) = ( x i _ % 2? + (yi _ y 2? ( 6 )

Dans un autre mode particulier de réalisation, la métrique de distorsion visuelle D' définie ci-dessus peut être adaptée au cas d'un mode de codage qui utilise une prédiction temporelle à partir de deux images précédemment codées, pour prendre la forme suivante :

D' = dist(vL0 t , vLQ ME ) + dist(vLl t , vLl ME ) (7).

dist(vL0 t , vLQ ME ) est la distance entre le premier vecteur de prédiction temporelle en cours de test « vL0 t », et le premier vecteur obtenu par l'estimation de mouvement « vL0 ME ».

dist(yLl t , vLl ME ) est la distance entre le deuxième vecteur de prédiction temporelle en cours de test « vLl t », et le deuxième vecteur obtenu par l'estimation de mouvement « vLl ME ».

Les deux distances dist(vL0 t , vLQ ME ) et dist(yLl t , vLl ME ) peuvent être déterminées selon la formule de calcul de la distance euclidienne énoncée ci-dessus.

La formulation de la métrique de distorsion visuelle ci-dessus peut être généralisée au cas d'un mode de codage utilisant une prédiction temporelle à partir de N images précédemment codées, N étant un entier supérieur ou égal à 1 , selon la formule suivante :

D' =∑ =i (dist(v t i , v ME i j, (8), où dist( t i , v ME i ) est une distance entre un i ème vecteur de prédiction temporelle en cours de test, v ti , et un i ème vecteur obtenu par l'estimation de mouvement, v MEii , les deux vecteurs v ti et v MEii pointant sur une même image parmi les N images précédemment codées. Dans un mode de réalisation particulier, chaque distance entre un vecteur de prédiction temporelle et le vecteur d'estimation de mouvement correspondant utilisée dans la détermination de la métrique de distorsion visuelle D' est pondérée d'un facteur de confiance dans la qualité de l'estimation de mouvement, et par conséquent dans le vecteur d'estimation de mouvement qui en résulte.

L'estimation de mouvement peut en effet donner des vecteurs plus ou moins précis selon la qualité de l'estimateur. Il peut arriver parfois que même un bon estimateur de mouvement se trompe, par exemple dans le cas d'une source vidéo très bruitée, ou lorsqu'un objet apparaît ou disparait d'une image à une autre (dans ce cas le bon vecteur n'existe pas).

Ce mode de réalisation prévoit donc un facteur qui définit l'exactitude du vecteur d'estimation de mouvement utilisé, ce qui a l'avantage de permettre de pondérer l'influence du vecteur d'estimation de mouvement utilisé dans le calcul de la distorsion visuelle.

Ainsi, chacune des métriques de distorsion visuelle D' définies ci-dessus peut intégrer dans un mode de réalisation particulier un facteur multiplicatif de chaque distance vecteur de prédiction - vecteur de mouvement représentant la confiance que l'on peut avoir dans la qualité de l'estimation de mouvement ayant généré le vecteur de mouvement.

Par exemple, pour un mode de codage utilisant une prédiction temporelle à partir d'une image précédemment codée, la métrique de distorsion visuelle pourra prendre la forme : D' = K L0 x dist(vL0 t , vL0 ME ) (9), et pour un mode de codage utilisant une prédiction temporelle à partir de deux images précédemment codées, la métrique de distorsion visuelle pourra prendre la forme : D' = K L0 x dist(vL0 t , vLQ ME ) + K L1 x dist(yLl t , vLl ME ) (10), où K L0 et K L1 sont respectivement les degrés de confiance des vecteurs d'estimation de mouvement vL0 ME et vLl ME .

Dans un mode de réalisation particulier, le calcul d'un degré de confiance de vecteur d'estimation de mouvement se base sur l'inverse de la corrélation entre le bloc courant et son déplacement selon le vecteur d'estimation de mouvement. Cette corrélation peut par exemple être calculée à l'aide de la Somme des Différences Absolues (SAD), comme expliqué ci-dessus.

Dans un mode de réalisation particulier dans lequel on calcule la valeur d'une métrique de distorsion objective pour un mode testé de codage utilisant une prédiction temporelle (par exemple de type Inter ou Skip) à l'aide d'un calcul de SAD, on peut se baser sur le résultat de calcul de SAD obtenu pour le vecteur d'estimation de mouvement en utilisant la fonction inverse.

Ainsi, le degré de confiance sera d'autant plus élevé que la SAD calculée sera faible, et inversement.

Le degré de confiance utilisé pourra donc être de la forme :

)

Les exemples de métrique de distorsion visuelle définis ci-dessus peuvent en outre, dans un autre mode de réalisation particulier, intégrer un coefficient multiplicateur de Lagrange, noté λ. Ce coefficient, avantageusement choisi propre à l'encodeur, permet de prendre en compte le débit de codage de l'image. Il sera de préférence choisi d'autant plus grand que le débit disponible est faible. L'utilisation de ce coefficient permet de pondérer l'impact de la métrique de distorsion visuelle D' sur le choix du mode de codage en fonction du débit de codage disponible. Si ce débit est faible, on peut vouloir que l'encodeur tienne compte de la métrique de distorsion visuelle, et prenne des décisions de mode de codage favorisant une faible distorsion visuelle. A l'inverse, si ce débit est élevé, on peut vouloir que le la métrique de distorsion visuelle n'ait pas un fort impact sur les décisions de mode de codage prises par l'encodeur ou, autrement dit, que l'encodeur ne prenne pas trop en compte la métrique de distorsion visuelle. De fait, à haut débit, les artefacts visuels sont moins présents, alors qu'ils sont plus courants à bas débit.

Par exemple, pour un mode de codage utilisant une prédiction temporelle à partir d'une image précédemment codée, la métrique de distorsion visuelle pourra prendre la forme : D' = λ x K L0 x dist(vL0 t , vL0 ME ) (12), et pour un mode de codage utilisant une prédiction temporelle à partir de deux images précédemment codées, la métrique de distorsion visuelle pourra prendre la forme : D' = λ x (K L0 x dist(vL0 t , vL0 ME ) + K L1 x dist(yLl t , vLl ME )) (13), où K L0 et K L1 sont respectivement les degrés de confiance des vecteurs d'estimation de mouvement vL0 ME et vll ME , et où λ est un coefficient multiplicateur de Lagrange.

Dans un autre mode de réalisation particulier, les exemples de métriques de distorsion visuelle définis ci-dessus peuvent intégrer une constante de normalisation, notée Meiocksize, afin de permettre une comparaison de distorsion visuelle pour des blocs de tailles différentes. Certains codées permettent en effet d'utiliser des tailles de blocs différentes. C'est le cas par exemple du codée HEVC, qui permet d'utiliser des tailles de blocs allant de 64 pixels x 64 pixels à 8 pixels x 8 pixels (blocs de taille 64 pixels x 64 pixels, 32 pixels x 32 pixels, 16 pixels x16 pixels, ou 8 pixels x 8 pixels). Le codée H.264/AVC permet aussi d'utiliser des blocs de taille 16x16 ou 8x8.

Dans ce cas, il est souhaitable de prendre en compte la taille du bloc afin d'obtenir des distorsions qui sont comparables lorsqu'on compare les coûts de deux blocs qui n'ont pas la même taille par exemple.

Par exemple, pour un mode de codage utilisant une prédiction temporelle à partir d'une image précédemment codée, la métrique de distorsion visuelle pourra prendre la forme : D' = M Bl0Cksize x λ x K L0 x dist(vL0 t , vL0 ME ) (14), et pour un mode de codage utilisant une prédiction temporelle à partir de deux images précédemment codées, la métrique de distorsion visuelle pourra prendre la forme : D' = M Bl0Cksize x l x (K L0 x dist(vL0 t , vL0 ME ) + K L1 dist(vLl t , vLl ME )) (15), où K L0 et K L1 sont respectivement les degrés de confiance des vecteurs d'estimation de mouvement vL0 ME et vLl ME , λ est un coefficient multiplicateur de Lagrange, et Bi0Cfcsize est une constante de normalisation choisie en fonction de la taille du bloc en cours d'encodage.

Dans un autre mode de réalisation particulier, les exemples de métriques de distorsion visuelle définis ci-dessus peuvent intégrer une constante de normalisation, notée C, afin d'obtenir une valeur de métrique de distorsion visuelle D' qui soit comparable à une autre mesure de distorsion (par exemple la mesure de distorsion objective du critère J' énoncé ci-dessus) prise en compte dans le critère de décision locale. Cette constante peut être déterminée de manière empirique, par exemple en pratiquant des tests avec le codeur considéré et en choisissant la constante qui convient au plus grand nombre de cas possibles.

Par exemple, pour un mode de codage utilisant une prédiction temporelle à partir d'une image précédemment codée, la métrique de distorsion visuelle pourra prendre la forme : D' = C x Bi0Cfcsize x l x K L0 x dist(vL0 t , vLQ ME ) (16), et pour un mode de codage utilisant une prédiction temporelle à partir de deux images précédemment codées, la métrique de distorsion visuelle pourra prendre la forme : D' = C x Bi0Cfcsize x l x (K L0 x dist(vL0 t , vL0 ME ) + K L1 x dist(vLl t , vLl ME )) (17), où K L0 et K L1 sont respectivement les degrés de confiance des vecteurs d'estimation de mouvement vL0 ME et vll ME , λ est un coefficient multiplicateur de Lagrange, Bi0Cfcsize est une constante de normalisation choisie en fonction de la taille du bloc en cours d'encodage, et C est une constante de normalisation choisie en fonction des valeurs des autres métriques de distorsion prises en compte dans le critère de décision locale.

Là encore, l'expression de la métrique de distorsion visuelle peut être généralisée au cas d'un mode de codage utilisant une prédiction temporelle à partir d'une pluralité de N images précédemment codées, N étant un entier supérieur ou égal à deux, auquel cas la métrique de distorsion visuelle pourra prendre la forme : D' = C x λ χ M blocSize x

∑ι = ί ί x dist(v t i , v ME i j (18), où C est une constante de normalisation, λ est un coefficient multiplicateur de Lagrange, dist(v t i , v ME i ) est une distance entre un i ème vecteur d'estimation de mouvement, v MEii parmi N vecteurs d'estimation de mouvement pointant respectivement sur un bloc corrélé au bloc courant dans N images respectives deux-à-deux distinctes, distinctes de la première image et précédemment codées selon la séquence d'encodage, et un i ème vecteur de prédiction temporelle, v ti parmi N vecteurs de prédiction temporelle du bloc courant, pointant sur la même image que le vecteur d'estimation de mouvement v MEii , K t est un degré de confiance du i eme vecteur d'estimation de mouvement v MEii , et M blocSize est une constante de normalisation déterminée en fonction de la taille du bloc courant.

Le mouvement n'entrant pas en compte pour coder un bloc en mode Intra, une valeur de distorsion qui dépendrait du mouvement n'a donc pas lieu d'être déterminée pour ce mode. Néanmoins, une distorsion subjective D' doit quand même être prise en compte dans le critère de décision locale utilisé, afin de pourvoir comparer les différents coûts obtenus pour les modes testés, sans favoriser un mode par rapport à un autre.

Dans un mode particulier de réalisation, une distorsion subjective D' est ajoutée à la distorsion objective D pour obtenir un coût de mode Intra selon la formule (4) ci-dessus {]' = D + D' + ÀR ). Le coût du mode Intra, calculé par le critère de décision locale à minimiser ]' = D + D' + ÀR, peut ainsi être rendu comparable aux coûts des autres modes. Cette valeur de distorsion subjective définie pour les modes Intra présente l'avantage d'éviter de favoriser le mode Intra aux dépens d'autres modes de codage testés sur un même critère de décision locale. On pourra par exemple utiliser pour le mode Intra une distorsion D' d'une valeur fixe obtenue de manière empirique.

On décrit ci-après un exemple de mise en œuvre du procédé proposé dans le cas d'un encodeur utilisant des modes de prédiction de type Intra, Inter et Skip tels que définis par le standard HEVC.

L'exemple présenté correspond au cas d'une décision entre les deux modes Skip et Intra pour un bloc donné. Le procédé proposé est appliqué pour calculer le coût de chaque mode.

L'algorithme de sélection de mode de l'encodeur peut par exemple tester le mode Skip, le mode Inter et le mode Intra pour choisir le meilleur mode.

Test du mode Skip :

En référence à la figure 1 , l'estimation de mouvement 1 10 fournit un ensemble de vecteurs de mouvement de la forme {ν ΜΕι0ι ... v MEiN ) avec N le nombre d'images référence possibles pour ce bloc. L'unité de prédiction Inter/Skip 104 génère une liste de candidats pour le mode Skip, appelés candidats de prédiction Skip, de la forme {cand 0 , ... cand K ] où K est le nombre de candidats et où chaque candidat est de la forme candi = (Ρί,ο < - Puv) avec N le nombre d'images référence possibles.

Pour chaque candidat de prédiction Skip candi, l'unité d'encodage 1 1 1 effectue les opérations suivantes :

Calcul du débit de codage R .

Calcul de la distorsion objective D .

Calcul de la distorsion subjective D' en utilisant la formule (18) ci-dessus et l'ensemble de vecteurs issus de l'estimation de mouvement.

N

D' Î = C X À X M blocSize x ^ (KJ x dist pi j ,

7 = 0

La distorsion subjective sera élevée si le vecteur de prédiction est éloigné du vecteur de l'estimation de mouvement.

Calcul du coût obtenu pour ce vecteur de prédiction en utilisant la formule (4) ci- dessus {]' = D + D' + ÀR ).

L'unité d'encodage 1 1 1 compare ensuite les coûts de tous les candidats de prédiction testés, et sélectionne celui qui correspond au coût le plus faible. Ce coût sera celui du mode Skip pour le bloc courant. Le vecteur de prédiction Skip choisi avec cette méthode est celui qui donne le meilleur résultat visuel.

Test du mode Inter : En référence à la figure 1 , l'estimation de mouvement 1 10 fournit un ensemble de vecteurs de mouvement de la forme {v MEiQl ... v MEiN ) avec N le nombre d'images référence possibles pour ce bloc. L'unité de prédiction Inter/Skip 104 génère une liste de vecteurs possibles pour le mode Inter, appelés vecteurs de mouvement Inter, de la forme {VM 0 , ... VM K ] où K est le nombre de vecteurs à tester et où chaque vecteur est de la forme VMi = ( i 0 , ... v i N ) avec N le nombre d'images référence possibles.

Pour chaque candidat de mouvement Inter MV t , l'unité d'encodage 1 1 1 effectue les opérations suivantes :

Calcul du débit de codage R.

Calcul de la distorsion objective D.

Calcul de la distorsion subjective D' en utilisant la formule (18) ci-dessus et l'ensemble de vecteurs issus de l'estimation de mouvement.

N

D' Î = C X À X M blocSize X ^ (KJ X dist(MVij, % EJ ))

7=0

La distorsion subjective sera élevée si le vecteur de prédiction est éloigné du vecteur de l'estimation de mouvement.

Calcul du coût obtenu pour ce vecteur de prédiction en utilisant la formule (4) ci- dessus {]' = D + D' + R ).

L'unité d'encodage 1 1 1 compare ensuite les coûts de tous les vecteurs de mouvement Inter testés, et sélectionne celui qui correspond au coût le plus faible. Ce coût sera celui du mode Inter pour le bloc courant.

Test du mode Intra :

On suppose qu'il existe plusieurs directions Intra possibles pour le bloc courant.

Pour chaque direction possible, l'unité d'encodage 1 1 1 effectue les opérations suivantes :

Calcul du débit de codage R.

Calcul de la distorsion objective D.

Calcul de la distorsion subjective D' qui est égale à une constante empirique :

D' = Cst Intra (19)

Calcul du coût obtenu pour cette direction Intra en utilisant la formule (4) ci-dessus

(J' = D + D' + ÀR ).

L'unité d'encodage 1 1 1 compare ensuite les coûts de toutes les directions Intra, et sélectionne la direction qui correspond au coût le plus faible. Ce coût sera celui du mode

Intra pour le bloc courant.

Les coûts des modes Inter, Skip et Intra sont ensuite comparés par l'unité d'encodage 1 1 1 pour décider du meilleur mode. Dans le cas où le meilleur vecteur de prédiction Skip obtenu est « mauvais » visuellement, le coût du mode Skip sera élevé, et l'unité d'encodage choisira de coder le bloc selon le mode de codage Intra ou Inter pour un meilleur rendu visuel si le coût du mode Skip est supérieur au coût des modes Intra et Inter.

En fonction du mode de réalisation choisi, certains actes, actions, événements ou fonctions de chacune des méthodes décrites dans le présent document peuvent être effectués ou se produire selon un ordre différent de celui dans lequel ils ont été décrits, ou peuvent être ajoutés, fusionnés ou bien ne pas être effectués ou ne pas se produire, selon le cas. En outre, dans certains modes de réalisation, certains actes, actions ou événements sont effectués ou se produisent concurremment et non pas successivement.

Bien que décrits à travers un certain nombre d'exemples de réalisation détaillés, le procédé d'encodage proposé et l'équipement pour la mise en œuvre du procédé comprennent différentes variantes, modifications et perfectionnements qui apparaîtront de façon évidente à l'homme de l'art, étant entendu que ces différentes variantes, modifications et perfectionnements font partie de la portée de l'invention, telle que définie par les revendications qui suivent. De plus, différents aspects et caractéristiques décrits ci- dessus peuvent être mis en œuvre ensemble, ou séparément, ou bien substitués les uns aux autres, et l'ensemble des différentes combinaisons et sous combinaisons des aspects et caractéristiques font partie de la portée de l'invention. En outre, il se peut que certains systèmes et équipements décrits ci-dessus n'incorporent pas la totalité des modules et fonctions décrits pour les modes de réalisation préférés.