Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD OF EVALUATING AT LEAST ONE DEFECT OF QUALITY IN A DATA SIGNAL, ASSOCIATED DEVICE AND COMPUTER PROGRAM
Document Type and Number:
WIPO Patent Application WO/2013/068676
Kind Code:
A1
Abstract:
Method of evaluating at least one defect of quality in a data signal, associated device and computer program. The invention relates to a method of evaluating at least one defect of quality of a carrier signal bearing data intended to be restored to a recipient, said signal comprising at least one video component and one audio component. Such a method comprises the following steps, implemented on at least one sample of said signal: - detection of at least one defect in the video component of the sample and calculation of a duration associated with said at least one defect; - assigning of a class of defect to said at least one defect detected at least as a function of its associated duration; - according to the class of defect assigned, obtaining of a result of searching for at least one defect in the audio component at the instants corresponding to the sample; - decision to confirm the detection of a defect of quality in the sequence at least as a function of the result of the search for a defect in the audio component.

Inventors:
WYCKENS EMMANUEL (FR)
COLOMES CATHERINE (FR)
LEHY ULRICH (FR)
Application Number:
PCT/FR2012/052512
Publication Date:
May 16, 2013
Filing Date:
October 30, 2012
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
FRANCE TELECOM (FR)
International Classes:
H04N17/04; H04N17/00
Domestic Patent References:
WO2006103327A12006-10-05
Foreign References:
EP1244312A12002-09-25
EP2112835A12009-10-28
EP1804519A12007-07-04
Other References:
PASTRANA-VIDAL ET AL: "Métrique perceptuelle de rupture de fluidité vidéo sans référence", CONFERENCE CORESA, XX, XX, 26 May 2004 (2004-05-26), XP002354701
Attorney, Agent or Firm:
FRANCE TELECOM/OLNC/OLPS/IPL/PAT (FR)
Download PDF:
Claims:
REVENDICATIONS

1. Procédé d'évaluation d'au moins un défaut de qualité d'un signal porteur de données destinées à être restituées à un destinataire, ledit signal comprenant au moins une composante vidéo et une composante audio, ledit procédé étant caractérisé en ce qu'il comprend les étapes suivantes, mises en œuvre sur au moins un échantillon dudit signal :

- détection d'au moins un défaut sur la composante vidéo de l'échantillon et calcul d'une durée associée audit au moins un défaut;

- affectation d'une classe de défaut audit au moins un défaut détecté au moins en fonction de sa durée associée;

- selon la classe de défaut affectée, obtention d'un résultat de recherche d'au moins un défaut sur la composante audio aux instants correspondant à l'échantillon ;

- décision de confirmer la détection d'un défaut de qualité sur la séquence au moins en fonction du résultat de la recherche de défaut sur la composante audio.

2. Procédé d'évaluation d'au moins un défaut de qualité selon la revendication 1, caractérisé en ce que l'étape de détection comprend, suite à la détection d'un défaut sur la composante vidéo, une sous-étape de rejet du défaut détecté si sa durée associée est inférieure à un premier seuil de détection perceptuel prédéterminé.

3. Procédé d'évaluation d'au moins un défaut de qualité selon la revendication 1, caractérisé en ce que l'étape de décision comprend une sous-étape de cumul des durées associées aux défauts d'image de même classe détectés, une sous-étape de rejet desdits défauts de même classe, si leur durée cumulée est inférieure à un deuxième seuil de détection perceptuel prédéterminé.

4. Procédé d'évaluation d'au moins un défaut de qualité selon la revendication 1, caractérisé en ce que l'étape de détection est destinée à détecter des défauts de type gel d'images, en ce qu'elle comprend une étape de calcul d'une valeur de similitude entre des images de l'échantillon et une étape de comparaison de la valeur de similitude calculée à un seuil prédéterminé.

5. Procédé d'évaluation d'au moins un défaut de qualité selon la revendication 4, caractérisé en ce que la classe de gel d'image détecté appartient à un groupe comprenant au moins :

- un micro-gel ;

- un gel classique ;

- un effet de postproduction ;

- un macro-gel.

6. Procédé d'évaluation d'au moins un défaut de qualité selon la revendication 5, caractérisé en ce que l'étape d'obtention d'un résultat de recherche d'un défaut dans la composante audio est mise en œuvre pour un défaut de type gel d'image dont la classe appartient au groupe comprenant au moins :

- micro-gel ;

- gel classique :

- effet de postproduction.

7. Procédé de détection d'une dégradation de qualité selon la revendication 5, caractérisé en ce que l'étape d'obtention d'un résultat de recherche d'un défaut dans la composante audio n'est pas mise en œuvre pour un défaut de type gel d'image dont la classe appartient au groupe comprenant au moins :

- macro-gel.

8. Procédé d'évaluation d'au moins un défaut de qualité selon la revendication 1, caractérisé en ce que l'étape de détection est destinée à détecter des défauts de type bloc, en ce qu'elle comprend une étape de calcul d'une valeur de taux de bloc entre des images de l'échantillon et une étape de comparaison de la valeur calculée à un seuil prédéterminé.

9. Dispositif d'évaluation d'au moins un défaut de qualité d'un signal porteur de données destinées à être restituées à un destinataire, ledit signal comprenant au moins une composante vidéo et une composante audio, ledit dispositif étant caractérisé en ce qu'il comprend les moyens suivants, mis en œuvre sur au moins un échantillon d'une séquence d'images dudit signal :

- détection d'au moins un défaut sur la composante vidéo de la séquence d'image et calcul d'une durée associée audit au moins un défaut;

- affectation d'une classe de défaut audit au mois un défaut détecté au moins en fonction de sa durée associée;

- Selon la classe de défaut affectée, obtention d'un résultat de recherche d'au moins un défaut sur la composante audio aux instants correspondant à l'échantillon ;

- décision de confirmer la détection dudit au moins un défaut d'image sur l'échantillon au moins en fonction du résultat de la recherche de défaut sur la composante audio obtenu.

10. Récepteur d'un signal vidéo transmis dans un réseau de télécommunications, ledit signal comprenant au moins une composante vidéo et une composante audio, caractérisé en ce qu'il comprend un dispositif d'évaluation de défauts de qualité selon la revendication 9.

11. Système de distribution d'un signal audiovisuel à au moins un terminal d'utilisateur, ledit système comprenant une pluralité d'équipements nœuds connectés à au moins un réseau de télécommunications, un équipement nœud étant apte à recevoir ledit signal et à le retransmettre à un équipement nœud voisin, ledit système étant caractérisé en qu'au moins un équipement parmi le groupe comprenant la pluralité d'équipements nœuds et l'équipement récepteur comprend le dispositif d'évaluation d'un défaut de qualité selon la revendication 9.

12. Programme d'ordinateur caractérisé en ce qu'il comprend des instructions pour la mise en œuvre d'un procédé d'évaluation de défauts de qualité d'un signal audiovisuel selon l'une des revendications 1 à 8, lorsque ce programme est exécuté par un processeur.

13. Support d'enregistrement lisible par un processeur sur lequel est enregistré un programme comprenant des instructions pour l'exécution du procédé d'évaluation d'un défaut de qualité selon l'une des revendications 1 à 8.

Description:
Procédé d'évaluation d'au moins un défaut de qualité dans un signal de données, dispositif et programme d'ordinateurs associés.

1. Domaine de l'invention

Le domaine de l'invention est celui de l'évaluation de qualité de signaux de données audiovisuelles comprenant au moins une composante vidéo et une composante audio.

L'invention s'applique en particulier aux signaux de données audiovisuelles qui ont subi des dégradations lors de leur transmission sur des réseaux de télécommunications ou lors d'opérations de transcodage.

Aujourd'hui, les contenus audiovisuels sont transmis via des services de vidéo à la demande, vidéo de rattrapage, direct etc. Ces services possèdent des chaines de production et diffusion bien définies avec lesquelles des erreurs peuvent apparaître et se cumuler sur les différents maillons de ces deux chaines.

Selon les systèmes de captation, de contribution, d'encodage, de transmission, de réception, et terminaux audiovisuels employés, les erreurs pourront se traduire par une apparition d'artéfacts sur les composantes audio et vidéo. L'apparition de ces dégradations pourra survenir de manière simultanée sur ces deux composantes.

Les défauts de la composante vidéo se matérialisent souvent par des saccades ou des gels d'images. Les défauts sur la composante audio se manifestent quant à eux par une perte sonore. La durée de ces deux dégradations fluctue de quelques millisecondes à quelques heures. La fréquence d'apparition de ce type d'événement peut également varier au cours du temps. Les défauts peuvent aussi bien avoir une occurrence faible que soutenue selon une échelle temps.

Ces dégradations sont une source d'inconfort pour les utilisateurs finaux, qui les conduit parfois à rejeter le service, si la gêne occasionnée devient trop importante.

Actuellement, les équipements déployés assurant le contrôle automatique de la qualité audiovisuelle effectuent des mesures sur les composantes audio et vidéo de signaux à la sortie du terminal ou des échantillons au niveau du décodeur sans prise de compte du signal référence, car ces derniers sont rendus inaccessibles techniquement ou juridiquement. Ils utilisent des modèles classés comme "sans référence" et produisent des notes qui fluctuent sur une échelle de qualité. Les conclusions des expertises des dispositifs de prédiction "sans référence" ont montré que les performances doivent être fortement améliorées par rapport au ressenti humain.

On connaît du document WO2006/103327 un procédé d'évaluation d'une dégradation de qualité d'un signal audiovisuel basé sur un modèle de prédiction de l'impact de la discontinuité de la fluidité des images sur la qualité subjective. En relation avec la Figure 1, on présente un schéma de principe du procédé d'évaluation en question. Des mesures de discontinuité sont menées en parallèle sur les composantes vidéo et audio du signal à évaluer. Différentes métriques audio et vidéo sont employées pour qualifier différents types de défaut (par exemple les gels d'image, la présence de flous ou encore de blocs dans les images pour la composante vidéo, des pertes sonores pour la composante audio). Un module de décision vidéo prend en compte les résultats des évaluations réalisées à l'aide des différentes métriques et attribue une note de qualité globale à la composante vidéo, à l'aide d' un modèle d'interaction vidéo. Un module de décision audio fait de même pour la composante audio et attribue une note de qualité globale à la composante audio sur la base d'un modèle d'interaction audio. Un module de pondération audio/vidéo prend en compte à la fois la note de qualité globale vidéo et la note de qualité globale audio pour affecter au signal audiovisuel une note de qualité globale. Il s'agit d'une approche dite cognitive car le modèle reproduit le mécanisme de jugement humain par la production de notes sur une échelle de qualité.

2. Inconvénients de la technique antérieure

La technique antérieure calcule la dégradation de la qualité perçue provoquée par chaque rupture de fluidité, et coupure sonore. Les calculs sont effectués de manière disjointe sur les composantes audio et vidéo et sans interaction a priori ou a postériori des résultats obtenus. Cette approche échoue face à des discontinuités artificiellement créées et lorsqu'elles ne sont pas considérées comme perceptibles par le jugement humain. Dans ces cas de figure, des erreurs d'interprétation apparaissent et génèrent de fausses alarmes.

3. Exposé de l'invention

L'invention vient améliorer la situation à l'aide d'un procédé d'évaluation d'au moins un défaut de qualité d'un signal porteur de données destinées à être restituées à un destinataire, ledit signal comprenant au moins une composante vidéo et une composante audio.

Un tel procédé comprend les étapes suivantes, mises en œuvre sur au moins un échantillon dudit signal :

- détection d'au moins un défaut sur la composante vidéo de l'échantillon et calcul d'une durée associée audit au moins un défaut;

- affectation d'une classe de défaut audit au moins un défaut détecté au moins en fonction de sa durée associée;

- Selon la classe de défaut affectée, obtention d'un résultat de recherche d'au moins un défaut sur la composante audio aux instants correspondant à l'échantillon ;

- décision de confirmer la détection d'un défaut de qualité sur la séquence au moins en fonction du résultat de la recherche de défaut sur la composante audio.

Avec l'invention, lorsqu'un défaut est détecté sur la composante vidéo, une classe de défaut lui est affectée. Selon la classe de défaut affectée, le procédé selon l'invention obtient ou non les résultats d'une recherche de défauts sur la composante audio, en vue de confirmer ou infirmer le défaut détecté sur la composante vidéo.

Ainsi le procédé selon l'invention permet d'améliorer l'évaluation de la qualité d'un signal vidéo dégradé en recourant à une détection de défaut sur la composante audio, ce qui lui permet de lever une indétermination sur la détection de dégradation vidéo.

Plutôt que de prendre en parallèle une décision pour la composante vidéo et une décision pour la composante audio comme c'est le cas dans l'art antérieur, le procédé selon l'invention enrichit donc le modèle d'évaluation de qualité vidéo directement à l'aide des résultats de détection des dégradations sur la composante audio.

L'invention propose donc une approche tout-à-fait nouvelle et inventive de l'évaluation des dégradations subies par un signal, qui repose sur l'enrichissement du modèle vidéo utilisé pour évaluer la composante vidéo de ce signal à l'aide des résultats de l'évaluation de la composante audio.

Selon un aspect de l'invention, l'étape de détection comprend, suite à la détection d'un défaut sur la composante vidéo, une sous-étape de rejet du défaut détecté si sa durée associée est inférieure à un premier seuil de détection perceptuel prédéterminé.

Ainsi, seuls les défauts de durée suffisante pour être potentiellement perceptibles par l'utilisateur sont retenus pour les étapes suivantes du procédé. Selon un autre aspect de l'invention, l'étape de décision comprend une sous-étape de cumul des durées associées aux défauts d'image de même classe détectés, une sous-étape de rejet desdits défauts de même classe, si leur durée cumulée est inférieure à un deuxième seuil de détection perceptuel prédéterminé. De cette manière, seuls les défauts d'image d'une classe particulière qui sont effectivement perçus par l'utilisateur, sont conservés pour l'évaluation de la qualité du signal audiovisuel.

Selon un autre aspect de l'invention, l'étape de détection est destinée à détecter des défauts de type gel d'images, en ce qu'elle comprend une étape de calcul d'une valeur de similitude entre des images de l'échantillon et une étape de comparaison de la valeur de similitude calculée à un seuil prédéterminé.

Parmi les défauts susceptibles d'être détectés sur une composante vidéo, on trouve les défauts de type gel d'image. Selon ce mode de réalisation de l'invention, la détection de défauts sur la composante vidéo concerne les défauts de type gel d'image. Un gel d'image est détecté lorsque plusieurs images de la séquence sont suffisamment similaires entre elles.

Selon un autre aspect, la classe de gel d'image détecté appartient à un groupe comprenant au moins :

- un micro-gel ;

- un gel classique ;

- un effet de postproduction ;

- un macro-gel. A un gel d'image détecté est affectée une classe de gel parmi un ensemble de classes de défauts prédéterminés de type gel.

Selon un autre aspect de l'invention, l'étape d'obtention d'un résultat de recherche d'un défaut dans la composante audio est mise en œuvre pour un défaut de type gel d'image dont la classe appartient au groupe comprenant au moins :

- micro-gel ;

- gel classique :

- effet de postproduction.

Pour les classes de défauts d'images énumérés, il existe une indétermination sur le résultat de la détection qui justifie le recours à l'analyse de la composante audio.

Selon un autre aspect de l'invention, l'étape d'obtention d'un résultat de recherche d'un défaut dans la composante audio n'est pas mise en œuvre pour un défaut de type gel d'image dont la classe appartient au groupe comprenant au moins :

- macro-gel.

Pour cette classe de gel d'image, le résultat de la détection sur la composante vidéo est considéré comme suffisamment fiable pour qu'il ne soit pas nécessaire de recourir à la recherche de dégradations sur la composante audio.

Selon un autre aspect de l'invention, l'étape de détection est destinée à détecter des défauts de type effet de bloc, et elle comprend une étape de calcul d'une valeur de taux de blocs par image de l'échantillon et une étape de comparaison de la valeur calculée à un seuil prédéterminé.

Les effets de blocs constituent un autre type de défauts qui sont susceptibles d'être détectés sur une composante vidéo. Selon ce mode de réalisation de l'invention, un défaut de type effet de bloc (« blockiness », en anglais) est détecté lorsque plusieurs images de la séquence ont un taux de bloc suffisamment élevé. L'invention concerne aussi un dispositif d'évaluation d'un défaut de qualité d'un signal, apte à mettre en œuvre le procédé qui vient d'être décrit.

Un tel dispositif peut être intégré à un récepteur de signaux audiovisuels ou à tout autre équipement nœud d'un réseau de télécommunications, tel qu'un système de contribution ou de transcodage audiovisuel. L'invention concerne donc en outre un récepteur d'un signal vidéo transmis dans un réseau de télécommunications, ledit signal comprenant au moins une composante vidéo et une composante audio. Selon l'invention, un tel récepteurl comprend un dispositif d'évaluation de défauts de qualité selon l'invention.

Elle concerne aussi un équipement nœud d'un réseau de télécommunications comprenant un dispositif d'évaluation de qualité selon l'invention.

L'invention concerne également un système de distribution d'un signal audiovisuel à au moins un terminal d'utilisateur, ledit système comprenant une pluralité d'équipements nœuds connectés à au moins un réseau de télécommunications, un équipement nœud étant apte à recevoir ledit signal et à le retransmettre à un équipement nœud voisin. Selon l'invention, au moins un équipement parmi le groupe comprenant la pluralité d'équipements nœuds et l'équipement récepteur comprend le dispositif d'évaluation d'un défaut de qualité qui vient d'être présenté.

L'invention concerne encore un programme d'ordinateur comportant des instructions pour la mise en œuvre d'un procédé d'évaluation de qualité d'un signal audiovisuel tel que décrit précédemment, lorsque ce programme est exécuté par un processeur. Un tel programme peut utiliser n'importe quel langage de programmation. Il peut être téléchargé depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur.

Enfin, l'invention se rapporte à un support de stockage, lisible par un processeur, mémorisant un programme d'ordinateur mettant œuvre le procédé d'évaluation d'au moins un défaut de qualité qui vient d'être décrit.

4. Liste des figures

D'autres avantages et caractéristiques de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation particulier de l'invention, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1 illustre le schéma d'évaluation d'une dégradation de qualité d'un signal audiovisuel selon l'art antérieur;

la figure 2 présente de façon schématique un exemple de système de distribution d'un signal audiovisuel selon l'invention ;

la figure 3 présente de façon schématique la structure d'un dispositif d'évaluation de défauts de qualité d'un signal audiovisuel selon l'invention.

la figure 4 présente de façon schématique le procédé d'évaluation d'un défaut de qualité d'un signal audiovisuel selon l'invention;

la figure 5 présente de façon schématique les étapes du procédé d'évaluation de défauts de qualité d'un signal audiovisuel selon un mode de réalisation de l'invention, selon lequel des défauts de type gels d'images sont évalués ;

la figure 6 présente de façon schématique une représentation graphique d'une image de la composante vidéo d'un signal audiovisuel à évaluer ;

la figure 7 illustre de façon schématique un exemple de perte sonore dans une composante audio d'un flux audiovisuel ;

la figure 8 présente de façon schématique des classes de défauts de type gel d'image prises en compte dans un mode de réalisation de l'invention ;

la figure 9 présente de façon schématique le profil d'un défaut de type micro gel ; et la figure 10 présente de façon schématique une courbe de variation d'une mesure de taux de similitude pour un gel d'image appartenant à la classe des effets de postproduction.

5. Description d'un mode de réalisation particulier de l'invention

Le principe général de l'invention repose sur le recours au résultat de l'analyse du signal audio en cas d'indétermination sur la détection d'au moins un défaut d'image dans la composante audio. 5.1 Système de distribution d'un signal audiovisuel Dans la suite de la description, on considère un signal audiovisuel S comprenant au moins une composante vidéo Cv et au moins une composante audio Ca. Un tel signal S peut être intercepté à n'importe quel stade d'une chaîne de transmission audiovisuelle, entre un équipement émetteur, un équipement nœud du réseau de télécommunications ou un équipement récepteur client.

En relation avec la figure 2, on considère un système de distribution d'un signal audiovisuel S selon l'invention. Un tel système comprend un serveur Serv de distribution du audiovisuel S. Un tel serveur peut être par exemple un serveur de vidéo à la demande ou un serveur de diffusion de contenus audiovisuels en direct. Le signal S est transmis via un réseau de télécommunications 1, qui comprend une pluralité d'équipements nœuds ENl, EN2. Les équipements nœuds ENl, EN2 sont aptes à recevoir le signal S d'un nœud voisin et à le retransmettre à un autre nœud du réseau 1. Le signal S est finalement reçu par au moins un équipement destinataire, par exemple l'équipement récepteur E , qui peut être un terminal client du type terminal mobile ou décodeur TV par exemple.

L'invention peut être mise en œuvre dans n'importe lequel de ces équipements Serv, ENl, EN2, ER qui forment la chaîne de distribution du signal audiovisuel S.

5.2 Exemple de structure d'un dispositif d'évaluation de défauts de qualité

On présente, en relation avec la figure 3, la structure simplifiée d'un dispositif 100 d'évaluation de qualité d'un signal audiovisuel mettant en œuvre l'invention.

Par exemple, le dispositif comprend une mémoire 110 comprenant une mémoire tampon M, une unité de traitement 120, équipée par exemple d'un processeur P, et pilotée par un programme d'ordinateur Pg 130, mettant en œuvre le procédé d'évaluation de qualité selon l'invention.

A l'initialisation, les instructions de code du programme d'ordinateur 130 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 120. L'unité de traitement 120 reçoit en entrée au moins un échantillon d'un signal audiovisuel à évaluer. Le processeur de l'unité de traitement 120 met en œuvre les étapes du procédé d'évaluation de qualité décrit précédemment, selon les instructions du programme d'ordinateur 130. Pour cela, le dispositif comprend, outre la mémoire 110, des moyens d'obtention d'une détection d'au moins un défaut de qualité sur la composante vidéo de l'échantillon, des moyens d'affectation d'une classe de défaut audit au mois un défaut détecté au moins en fonction de sa durée associée, des moyens d'obtention d'un résultat de recherche d'au moins un défaut sur la composante audio aux instants correspondant à l'échantillon selon la classe de défaut affectée et des moyens de décision de confirmer la détection d'un défaut de qualité sur la séquence au moins en fonction du résultat de la recherche de défaut sur la composante audio. Ces moyens sont pilotés par le processeur de l'unité de traitement 120.

Avantageusement, un tel dispositif 100 peut être intégré à au moins un des équipements Serv, EN1, EN2 et E du système de distribution d'un signal audiovisuel selon l'invention.

5.3 Procédé d'évaluation d'un défaut de qualité selon l'invention

En relation avec la figure 4, on présente les étapes du procédé d'évaluation d'un défaut de qualité subi par le signal audiovisuel S selon l'invention. Un tel procédé est avantageusement mis en œuvre par le dispositif 100 qui vient d'être décrit.

On considère un signal S découpé en I échantillons e,, avec I entier non nul, chacun d'une durée T éCh paramétrable, dont la valeur est généralement de 5 à 10 ms.

Le procédé selon l'invention s'applique à un tel échantillon e, du signal.

Un échantillon ei de la composante vidéo Cv comprend Nbl images, avec Nbl entier non nul.

Au cours d'une étape E 1( au moins un défaut d'image Dv j est détecté sur un échantillon e, de la composante vidéo Cv du signal S. Dans la suite, on considère J défauts Dvl à DvJ détectés dans l'échantillon ei, avec J entier non nul. Evidemment, si aucun défaut n'est détecté, il n'est pas nécessaire de mettre en œuvre le procédé selon l'invention.

De façon avantageuse la détection précitée est obtenue par analyse de la composante vidéo sur l'échantillon e,. Un exemple de méthode d'analyse sera détaillé ultérieurement.

Au cours de cette étape E 1( une durée d j du défaut Dvj est calculée, pour chaque défaut Dvj détecté, et lui est associée.

Le défaut Dvj détecté est ensuite identifié au cours d'une étape E 2 , au moins en fonction de la durée d j calculée. Il s'agit de lui affecter une classe de défaut d'image parmi plusieurs classes de défaut prédéterminées Cil à CIK, avec K entier non nul.

Selon la classe de défaut d'image identifiée, une étape E 3 d'obtention d'un résultat d'analyse de la composante audio Ca sur un échantillon eai correspondant à l'échantillon evi, est déclenchée ou non. On comprendra que pour certaines classes de défaut d'image, l'analyse de la composante vidéo seule n'est en effet pas considérée à elle seule comme suffisante pour permettre une identification fiable du défaut détecté.

L'analyse de la composante audio, qui a été, par exemple, menée en parallèle de celle de la composante vidéo, peut conduire à la détection d'éventuels défauts de type audio Dal à DaL, avec L entier non nul, sur la composante audio Ca du signal S. Un exemple de méthode d'analyse de la composante audio sera présentée ultérieurement.

On considère maintenant le résultat d'analyse audio Da, obtenu. Qu'il soit positif (au moins un défaut Dal de type gel audio détecté) ou négatif (aucun défaut de type gel d'image détecté sur l'échantillon audio ea,), il est pris en considération, lors d'une étape E4 de décision. Au cours de cette étape de décision, on considère au moins les défauts d'image Dvj appartenant à des classes Clk, k entier compris entre 1 et K, pour lesquelles le recours au résultat de l'analyse de la composante audio est jugée nécessaire. Ces défauts sont soumis à une sous-étape E 4 1 de confirmation, destinée à confirmer ou à infirmer le défaut Dvj comme un défaut à prendre en considération pour la qualité du signal perçue par l'utilisateur. Selon la classe Clk considérée, il s'agit soit de vérifier qu'un défaut audio a été détecté aux mêmes instants que le défaut Dvj courant, soit au contraire de vérifier qu'il n'y a aucun défaut audio correspondant au défaut Dvj à confirmer. En fonction du résultat de cette vérification, le défaut en question est donc conservé ou rejeté.

Selon un mode de réalisation de l'invention, l'étape de décision E 4 comprend une sous- étape E 4 , 2 de cumul des durées associées à des défauts d'image de même classe et de comparaisons de la durée cumulée obtenue à un seuil. Seuls les défauts de durée cumulée suffisante sont retenus et participent à l'évaluation de la qualité du signal perçue par l'utilisateur. 5.4 Evaluation des défauts de type gel d'image En relation avec la Figure 5, on considère maintenant, à titre d'exemple illustratif et non limitatif, la mise en œuvre du procédé selon l'invention pour la détection de défauts de type gel d'image. La composante vidéo Cv d'un signal audiovisuel S est découpée en échantillons evi, i entier allant de 0 à I, chacun de durée comprise par exemple entre 5 et 10 ms. Le procédé selon l'invention est mis en œuvre pour au moins un échantillon evi. De façon avantageuse il est itéré pour chaque échantillon de la composante vidéo Cv.

Au cours d'une étape ΕΊ, des défauts de type gel d'image sont détectés sur un échantillon evi.

Une méthode de détection des défauts de type gel d'image dans un échantillon evi d'une composante vidéo Cv d'un signal audiovisuel S va maintenant être présentée.

5.4.1 Détection vidéo

On considère un échantillon ev, d'une composante vidéo Cv d'un signal audiovisuel S, représentée dans un espace colorimétrique quelconque. Dans la suite, on se limitera à une représentation colorimétrique en luminance et en chrominance contenant Nbl images, avec Nbl entier strictement positif, et dont la taille de l'image est Vheight*Vwidth . Vheight et Vwidth sont des entiers strictement positifs. En relation avec la figure 6, on note Pk(i,j), le pixel de la k' eme image à la ligne i et à la colonne j, et on note Pprec(i, j) le pixel d'une image précédente de la k' eme image de la vidéo en analyse.

ke [1, Nbl-1], ie [0, Vheight] et je [0, Vwidth].

Un défaut de type gel d'image se caractérise par une rupture de fluidité entre l'image k et l'image voisine P prec de la séquence vidéo.

Une rupture de fluidité est évaluée en calculant la dérivée de luminance et chrominance de la façon suivante :

On note Yk(i,j), Uk(i,j), Vk(i,j) et Yprec(i, j), Uprec(i,j) et Vprec(i, j), les composantes respectivement Y, U et V de Pk(i,j) et Pprec(i, j).

Y représente la luminance du pixel, U la composante à la différence au bleu et V la composante à la différence au rouge du pixel. Soit AP{k, ref)(i,j) la fonction telle que refe [0, Nbl-2], Vke [1, Nbl-1], V ie [0, Vheight] et V je [0, Vwidth] si :

( I Yk (U) - Ypred (i ,j) I > <^Max) I I ( I Uk (U) - U prec (' ,j) I≥ àJMax) I I ( I Vk (i,j) - V pre c (i ,j) I > <¾/Max)

est vrai alors AP(k, vprec(i,j) = 1 (pixel(i,j) différente), sinon AP(k, prec) (i,j) = 0 (pixel(i,j) identique).

ôYMax, ôUMax et ôVMax sont des paramètres entiers et positifs permettant d'ajuster le niveau de similitude entre Pk(i, j) et Pprec(i,j). · ôYMax e [0, 220]

• ôUMax e [0, 220]

• ôVMax e [0, 220]

On considère qu'il y a gel vidéo à la k' eme image entre les images d'indices ref et k, prece [0, Nbl-2] et ke [1, Nbl-1] si et seulement si Vie [0, Vheight] et Vje [0, Vwidth], l'équation suivante est vérifiée :

Vheight Vwidht

∑ ∑ Δ P 0 ' , j)≤ Δ P Max

i=0 =0

APMax est un entier positif qui représente le nombre de différences max acceptées pour considérer que deux images consécutives d'une vidéo sont identiques.

Il y a donc gel sur une séquence de X images consécutives d'une vidéo si et seulement si: refe [0, Nbl-X-1] et Vke [prec+1, ref+X-2]

Vheight Vwidht

∑ ∑ Δ P (k , prec) (i, j)≤ A P Max (1)

i=0 =0

On définit maintenant un taux de similitude entre l'image d'indice k et l'image d'indice prec. Il est noté x(k, ref) et est obtenu de la manière suivante: VheightVwidht

∑ ∑ & P( kt prec ) (i, j)

i = 0 ; = 0

Vheight x Vwidth

Calcul de durée ; suite à la détection d'un gel d'image Dvj, un calcul de la durée dj (en ms) de ce gel est réalisé.

La durée d'un gel d'image est calculée de la façon suivante. Pour une séquence de x images consécutives de l'échantillon ev, de la composante vidéo, on considère l'image précédente precf telle que prece [0, Nbl- x -1], des images k, telles que ke [prec +1, prec+x], X le nombre d'images de la séquence de gel et FPS la fréquence d'affichage de la vidéo. La durée du gel d'image correspond à : t gel FPS

Les résultats de cette détection sont obtenus au cours d'une étape ΕΊ. 5.4.2 Seuillage perceptuel

De façon avantageuse, au cours d'une étape E' 1 2 , la durée du gel d'image détecté peut être comparée à un premier seuil perceptuel τ ρ1 , typiquement de l'ordre de 40 ms et rejeté selon le critère de décision suivant :

Si la durée du gel t ge | est supérieure à 40 ms alors le gel est considéré comme potentiellement perceptible. Si cette condition n'est pas satisfaite la rupture de fluidité n'est alors pas prise en compte.

Un exemple de méthode de détection d'un défaut de type gel audio va maintenant être décrit plus en détails.

5.4.3 Classification des défauts de type gel d'image

Au cours d'une étape E' 2 , une classe de défaut de type gel est affectée à chaque défaut détecté, au moins en fonction de sa durée, parmi un groupe de classes comprenant les défauts suivants :

- Micro gel, Effet de postproduction ;

Gel classique ;

Macro gel.

En relation avec la figure 7, on considère, à titre illustratif, des classes de gels d'image susceptibles d'être détectés dans un échantillon d'une composante audio. Ils sont positionnés sur l'axe temporel en fonction de leur durée typique. Dans un ordre de durée croissante, on trouve le micro gel, l'effet de postproduction, le gel d'image classique et le macro gel.

Dans le contexte de l'invention, ils sont définis comme suit : Le micro gel :

En relation avec la Figure 9, on considère un micro gel de durée tgel, corne étant pseudo périodique de période Τμ.

Il y a micro gel de durée gel si et seulement si : a. Il n'y a pas de mute audio sur la ou les composantes audio associées à la composante vidéo (on le détecte en utilisant le signal audio) pendant la durée

b. tgel ^ [imin ' Îmax ] ^ tgel— & Τμ σ est un réel compris dans l'intervalle [0, 1], il représente le rapport cyclique de la pseudo période d'un gel en deçà de laquelle le gel est considéré comme micro gel.

Τμ est la pseudo période du micro gel ou la durée entre deux débuts de gel. tgel représente la durée du gel vidéo tel que défini précédemment,

ΐιτιϊημ représente la durée minimum du micro gel (~76ms),

représente la durée maximum du micro gel (~350ms),

Avec l'invention, lorsqu'un micro gel est identifié en E' 2 à l'aide de la définition précédente, une analyse de la composante audio est déclenchée, afin de vérifier qu'il n'y a pas de perte audio associée.

Effet de Post production Un gel vidéo de durée t fre e Z e est considéré comme un effet de post production de type "interpub" et donc comme non gênant par l'observateur, si et seulement si: c. Une perte sonore est associée au gel d'image et la durée de la perte sonore satisfaite la relation suivante : T ≥ X *† r

ί mute freeze

T Mute est la durée du mute détectée, a est un pourcentage généralement supérieure ou égal à 80% ( il permet de prendre en compte le décalage audio/vidéo), tjrgeze G [T MinF ^T MaxFF l J ^ ~200ms et T MaxFF ~ls ;

d. xrnoy < x M axi , le taux moyen de similitude entre les différentes images gelées ne dépassent pas le seuil T MaX| P .

En relation avec la figure 10, on présente un exemple de gel d'image présentant des taux de similitude vidéo considérés comme représentatifs d'un effet de post-production.

xrnoy est la moyenne arithmétique des taux de similitudes des images du gel analysé.

On comprend que pour que la classe « effet de post production » soit affectée à un gel d'image, plusieurs conditions doivent être réunies :

Des conditions sur le défaut de type gel d'image lui-même (taux de similitude inférieur à un seuil)

- La conjonction d'un défaut audio de type perte sonore et une condition relative à la durée de la perte sonore par rapport à la durée du gel d'image.

Le gel d'image classique ("freeze", en anglais)

On considère qu'il y a réellement gel d'image d'une durée tpp si et seulement si : a. Ce gel n'est pas un « effet de post production » ;

b. L'analyse audio a conduit à la détection d'une perte sonore associée dont la durée vérifie la relation T ≥ X * f , . Où T M ut e est la durée du mute détecté, a est un

mute l freeze

pourcentage généralement supérieure ou égal à 80%( il permet de prendre en compte le décalage audio/vidéo) ; c. La durée du gel tpp e [tminF, tminM F], où tminF représente la durée minimum d'un freeze et tminMF représente la durée maximum d'un défaut de type gel . Le Macro Gel

Un gel d'image sera directement considéré comme perceptible à lui seul si le temps de gel dépasse la durée t min M F- Dans ce cas de figure, on a affaire à un macro gel et seule la composante vidéo est considérée pour prendre une décision. On n'a donc pas recours à une analyse de la composante audio.

Il en résulte qu'au niveau de l'étape E' 2 , l'identification d'une classe de défaut de type gel d'image parmi la pluralité de classes prédéterminée se fait au moins à partir de la durée calculée et éventuellement en fonctions d'autres mesures.

Par exemple pour le micro gel, elle s'appuie sur la mesure d'une pseudo période du gel détecté et le fait que la durée calculée du gel soit très inférieure à cette pseudo période (rapport cyclique du défaut faible).

En ce qui concerne un défaut de type effet de post production, elle s'appuie sur une mesure de taux de similitude lequel doit rester inférieur à un seuil prédéterminé (les images ne sont pas toujours exactement identiques les unes aux autres).

Le gel classique est identifié à l'aide de sa durée qui doit être supérieure à un seuil prédéterminé.

Le macro gel est lui aussi identifié à l'aide de sa durée qui doit être supérieure à un seuil prédéterminé.

5.4.4 Détection audio

Au cours d'une étape E' 3 , un résultat de détection de défauts audio est obtenu. Selon ce mode de réalisation, un défaut audio de type perte sonore est détecté lorsque le signal audio subit un affaiblissement énergétique avec un niveau d'énergie du signal audio en-deçà d'un certain seuil énergétique sur une période de temps donnée. A chaque défaut détecté est donc associé un niveau d'énergie et une durée.

En relation avec la figure 8, on considère une exemple de profil énergétique d'un signal audio présentant un gel audio ou perte sonore (« mute », en anglais). Dans cet exemple, on considère une méthode de détection de perte sonore basée sur une approche en deux étapes. La première étape consiste à mesurer un affaiblissement énergétique du signal audio dans le temps. La deuxième étape consiste à vérifier que pour les instants où un affaiblissement énergétique a été mesuré, l'énergie du signal audio ne dépasse pas un certain seuil énergétique.

En conséquence, on considère qu'une perte sonore est manifeste lorsque l'affaiblissement énergétique est suffisant pour maintenir l'énergie du signal audio en-deçà d'un certain seuil énergétique sur une période de temps donnée.

La mesure s'emploie sur l'ensemble des canaux audio d'une chaîne à analyser.

La première étape revient à rechercher s'il existe un front descendant.

Le front descendant à l'instant n est pris en compte si et seulement si E„≤ et E n -i > δ' · avec En énergie du signal audio à l'instant n, δ un seuil d'énergie max et δ' un seuil d'énergie min.

La durée de la perte sonore est ensuite calculée de la façon suivante :

On considère que le signal présente une perte sonore pendant une durée t PS si et seulement si cet état commence par un front descendant de mute et que le niveau d'énergie reste inférieur à δ pendant la durée de l'état Mute. s = N Ech x- — (4)

^Ech

N Ech correspond au nombre d'échantillons respectant les conditions précédentes.

F Ech correspond à la fréquence d'échantillonnage du signal audio.

Les résultats de cette détection audio seront pris en considération au cours d'une étape E' 4 de décision, en fonction de la classe du défaut considérée.

5.4.5 Module décisionnel

L'étape de décision E' 4 va maintenant être décrite plus en détails pour ce mode de réalisation particulier. A l'issue des étapes de détection d'au moins un gel d'image sur un échantillon ei et d'analyse de la composante audio, cette étape E' 4 assure la production des résultats sur une fenêtre temporelle d'analyse Nbl correspondant à l'échantillon ei. Il s'agit d'abord pour chaque défaut Dvj identifié de confirmer ou d'infirmer la classe qui lui a été affectée.

Selon la classe du défaut examiné, une telle sous-étape E' 1 de confirmation a recours aux résultats de la détection de défauts audio :

Pour un micro gel, l'absence de perte sonore sur l'échantillon permet de confirmer que le défaut Dvj est un micro gel ;

Pour un défaut Dvj identifié comme un effet de production, la classe sera confirmée si une perte sonore a été identifiée et si elle a une durée qui satisfait la condition exposée précédemment (légèrement inférieure) ;

Pour un défaut de type gel classique, la classe est confirmée si une perte sonore a été identifiée et si elle a une durée qui satisfait la condition exposée précédemment (légèrement inférieure) ;

Pour un défaut de type macro gel, la classe a été confirmée dès l'étape E'2 et le résultat de l'analyse audio n'est pas exploité.

Ensuite, au cours d'une autre sous étape E'4,2, le module décisionnel détermine alors pour chaque échantillon ei d'un flux audiovisuel si les défauts confirmés par E'4,1 sont gênants ou non pour l'utilisateur. Pour chaque défaut d'image confirmé, on considère d'abord sa classe. S'il s'agit d'un effet de postproduction, il est rejeté, car considéré comme non gênant pour l'utilisateur.

Sinon, pour les autres classes :

On considère le groupe de M C ik défauts appartenant à une même classe Clk et on effectue, un cumul T cumU | des durées des défauts de ce groupe, que l'on compare à un deuxième seuil perceptuel τ ρ2 .

cumul / m 2

m=0

Où M C i k est le nombre de défauts confirmés pour la classe Cl k .

On considère qu'en deçà de ce seuil, dont la valeur est de l'ordre de 500ms, les défauts de cette classe de défaut ne sont pas gênants pour l'utilisateur. Tous les défauts d'une même classe Clk peuvent donc être rejetés si leur durée cumulée n'est pas suffisante selon ce critère perceptuel.

Le module décisionnel selon l'invention fournit donc en sortie un nombre réduit de défauts d'image par rapport au nombre de candidats issus de l'étape E'1, correspondant à ceux qui ont réussi les tests des sous-étapes E'41 et E'42.

5.5 Evaluation de défauts de type effet de bloc

Le champ d'application de l'invention ne se limite pas à l'évaluation de défauts d'image de type gel d'images, mais concerne tout autre type de défaut d'image introduit par la transmission d'un flux audiovisuel sur un réseau .En effet, une altération du flux multiplexé a un impact sur les composantes audio et vidéo aux mêmes instants temporels.

Selon un autre mode de réalisation de l'invention, on considère des défauts d'image de type effet de blocs. De façon similaire à la détection de gels d'image, la détection d'effets de bloc ("blockiness effects", en anglais) peut être associée aux résultats d'une évaluation de pertes sonores sur la composante audio associée à la composante vidéo.

En effet, de la même façon que pour les défauts de type gel d'image, les effets de type bloc peuvent présenter des caractéristiques différentes : notamment, Les durées d'effet de bloc peuvent varier entre 20 ms à quelques secondes. D'autre part, un effet de bloc peut être limité à une petite zone de l'image ou à l'inverse concerner l'image entière.

Dans le cas où les effets de bloc sont manifestes, la détection ne pose pas de difficulté particulière et ne nécessite pas le recours au procédé selon l'invention.

En revanche, lorsque les zones spatiales concernées par l'effet de bloc détecté sont petites et/ou lorsque la durée associée à cet effet de bloc est trop faible, le recours à la détection de pertes sonores sur l'échantillon concerné peut permettre de confirmer ou d'infirmer la présence d'effets de blocs gênants dans l'échantillon.

On comprend que de façon similaire à celle présentée pour les défauts d'image de type gel, il est possible d'établir des classes d'effets de blocs prédéterminées, qui se différencient au moins par leur durée et/ou leur étendue spatiale. Ainsi, le procédé selon l'invention peut être appliqué aux défauts de type effets de bloc. Selon une variante, une précédente détection de défauts de type gel sur une période d'analyse commune peut être valablement exploitée par le procédé selon l'invention pour confirmer ou infirmer la présence de défauts de type effets de blocs gênants dans un flux audiovisuel.

L'invention qui vient d'être présentée peut s'appliquer à tout signal audiovisuel à n'importe quel stade de sa chaîne de distribution. Elle permet d'évaluer de façon plus efficace les défauts de qualité engendrés par sa transmission ou étape de transcodage, en fonction de critères perceptuels.