GRIBONVAL, Rémi (7 Rue de l'Armor, Saint-Grégoire, F-35760, FR)
ARBERET, Simon (3bis rue Jules Guesde, Rennes, F-35000, FR)
OZEROV, Alexey (20 boulevard de Chézy, Rennes, F-35000, FR)
BIMBOT, Frédéric (52 rue nationale, Tinteniac, F-35190, FR)
GRIBONVAL, Rémi (7 Rue de l'Armor, Saint-Grégoire, F-35760, FR)
ARBERET, Simon (3bis rue Jules Guesde, Rennes, F-35000, FR)
OZEROV, Alexey (20 boulevard de Chézy, Rennes, F-35000, FR)
| REVENDICATIONS 1. Procédé de séparation de signaux de source à partir d'un signal de mélange (X) correspondant à une combinaison de signaux de source (10), le procédé comportant : une étape d'acquisition du signal de mélange (X) ; une étape d'estimation de caractérisations des signaux de source ( z ) à partir du signal de mélange (X) ; - une étape d'apprentissage de modèles de source Ë à partir des caractérisations des signaux de source (z) ; caractérisé en ce que : les caractérisations des signaux de source (z) sont notamment constituées d'une estimation intermédiaire des signaux de source s enrichies d'informations auxiliaires Ë indicatives des propriétés statistiques locales de ladite estimation intermédiaire ; les modèles de source I décrivent des propriétés statistiques générales des signaux de sources (10) émis par les sources participant au mélange et en ce que le procédé comporte également : une étape d'estimation des signaux de source (s ) à partir du signal de mélange (X), des caractérisations des signaux de source (z) et lesdits modèles de source Ë . 2. Procédé selon la revendication 1 , dans lequel l'étape d'apprentissage des modèles de source Ë tient compte, conjointement aux données de caractérisation des signaux de source (z ), de modèles à priori de source Ë appartenant à une base de données (32). 3. Procédé selon la revendication 2, dans lequel la base de donnée (32) constituée de modèles à priori de source Ë est alimentée de façon itérative par les modèles de source Ë appris à partir des caractérisations des signaux de source (z ). 4. Procédé selon l'une quelconque des revendications 1 à 3, dans lequel l'étape de caractérisation des signaux de source (z) à partir du signal de mélange (X) comprend une sous-étape préliminaire d'estimation des paramètres du mélange (A ). 5. Procédé selon la revendication 4, dans lequel les paramètres estimés du mélange (A ) sont ceux d'un mélange linéaire instantané, d'un mélange anéchoïque ou d'un mélange convolutif. 6. Procédé selon l'une quelconque des revendications précédentes, dans lequel les informations auxiliaires Ë décrivent des densités de probabilités locales. 7. Procédé selon l'une quelconque des revendications précédentes, dans lequel les informations auxiliaires Ë sont indicatives de la précision de l'estimation intermédiaire s . 8. Procédé selon l'une quelconque des revendications précédentes, dans lequel les informations auxiliaires Ë sont, notamment, des estimations des variances de l'erreur entre les signaux de source (10) et leur estimation intermédiaire s . 9. Procédé selon la revendication 8, dans lequel estimations des variances de l'erreur d'estimation de s peuvent prendre les valeurs limites 0 et +∞. 10. Procédé selon l'une quelconque des revendications précédentes, dans lequel les modèles de source Ë sont sélectionnés parmi l'un des modèles suivants : - Modèles de Mélanges de Gaussiennes (MMG), - Modèles de Markov Cachés (MMC), et - Réseaux Bayésiens (RB). 11. Procédé selon l'une quelconque des revendications précédentes, dans lequel les signaux de sources (10) et de mélange (X) sont des signaux sonores. 12. Dispositif de séparation de signaux de source à partir d'un signal de mélange (X) correspondant à une combinaison de signaux de source (10), le procédé comportant : des moyens d'acquisition (12,14,16,18) du signal de mélange (X) des moyens d'estimation de caractérisations (20) des signaux de source ( z ) à partir du signal de mélange (X) des moyens d'apprentissage (30) de modèles de source E à partir des caractérisations des signaux de source (Z) caractérisé en ce que : les caractérisations des signaux de source (Z) sont notamment constituées d'une estimation intermédiaire des signaux de source s enrichie d'informations auxiliaires Ë indicatives des propriétés statistiques locales de ladite estimation intermédiaire les modèles de source Ë décrivent des propriétés statistiques générales des signaux de sources (10) émis par les sources participant au mélange et en ce que le dispositif comporte également : des moyens d'estimation (40) des signaux de source (s ) à partir du signal de mélange (X), des caractérisations des signaux de source (Z) et lesdits modèles de source Ë . 13. Dispositif selon la revendication 12, dans lequel les moyens d'apprentissage (30) des modèles de source Ë tiennent compte, conjointement aux données de caractérisation des signaux de source (Z )1 de modèles à priori de source Ë appartenant à une base de données (32). 14. Dispositif selon la revendication 13, dans lequel la base de donnée (32) constituée de modèles à priori de source Ë est alimentée de façon itérative par les modèles de source E appris à partir des caractérisations des signaux de source (Z). 15. Dispositif selon l'une quelconque des revendications 12 à 14, dans lequel les moyens d'estimation des caractérisations (20) des signaux de source (Z) à partir du signal de mélange (X) comprend des moyens d'estimation (22) des paramètres du mélange [A ). 16. Dispositif selon la revendication 15, dans lequel les paramètres estimés du mélange (A ) sont ceux d'un mélange linéaire instantané, d'un mélange anéchoïque ou d'un mélange convolutif. 17. Dispositif selon l'une quelconque des revendications 12 à 16, dans lequel les informations auxiliaires Ë décrivent des densités de probabilités locales. 18. Dispositif selon l'une quelconque des revendications 12 à 17, dans lequel les informations auxiliaires Ê sont indicatives de la précision de l'estimation intermédiaire s . 19. Dispositif selon l'une quelconque des revendications 12 à 18, dans lequel les informations auxiliaires E sont des estimations des variances de l'erreur entre les signaux de source (10) et leur estimation intermédiaire s . 20. Dispositif selon la revendication 19, dans lequel estimations des variances de l'erreur d'estimation de s peuvent prendre les valeurs limites 0 et +∞. 21. Dispositif selon l'une quelconque des revendications 12 à 20, dans lequel les modèles de source E sont sélectionnés parmi l'un des modèles suivants : - Modèles de Mélanges de Gaussiennes (MMG), - Modèles de Markov Cachés (MMC), et - Réseaux Bayésiens (RB). 22. Dispositif selon l'une quelconque des revendications 12 à 21 , dans lequel les signaux de sources (10) et de mélange (X) sont des signaux sonores. |
DOMAINE TECHNIQUE DE L'INVENTION [0001] La présente invention concerne un procédé et un dispositif d'estimation de signaux de source à partir d'un signal de mélange multicanal éventuellement sous déterminé.
[0002] L'invention se rapporte au domaine technique de l'estimation de signaux de source à partir d'un signal de mélange afin de déterminer les propriétés de ces sources. Plus particulièrement, le procédé et le dispositif d'estimation selon l'invention peuvent être appliqués à des signaux de source sonores, biomédicales (EEG, MEG, ECG), sismiques, ou bien d'images astrophysiques afin d'identifier le nombre de sources, leurs directions et enregistrer un modèle descriptif des propriétés de chaque signal de source. Dans le cadre de l'application de l'invention aux sources sonores, le dispositif et le procédé selon l'invention peuvent plus particulièrement être utilisés pour la séparation automatique des signaux de sources, la prévention des dangers par déclenchement d'alertes, etc.
ETAT DE LA TECHNIQUE ANTERIEURE [0003] L'état de la technique comprend deux approches distinctes permettant d'identifier les signaux issus d'une pluralité de sources et formant un signal de mélange multicanal.
[0004] La première de ces méthodes consiste en une approche spatiale visant à exploiter les propriétés spatiales du mélange pour séparer les signaux de sources. La seconde méthode consiste en une approche à base de modèles de source qui, à défaut de disposer d'informations spatiales sur les signaux de source, utilise des modèles statistiques préalablement appris sur des signaux de source de même type. L'approche spatiale
[0005] Dans le cadre de l'approche spatiale, la séparation de sources est généralement effectuée en deux étapes. Tout d'abord, cette approche spatiale consiste à réaliser une estimation des paramètres du mélange, puis à estimer les propriétés des signaux de source à partir notamment de l'estimation des paramètres du mélange.
[0006] L'estimation des paramètres du mélange nécessite en général de connaître le nombre de sources contenues dans le mélange. À ce titre, la méthode DEMIX a été développée pour estimer de façon automatique le nombre de sources. Connaissant le nombre de sources, les paramètres du mélange peuvent être estimés à l'aide d'une méthode comme DUET (O. Yilmaz and S. Rickard. Blind séparation of speech mixtures via timefrequency masking. IEEE Transactions on Signal Processing. 52(7) :1830 1847. JuIy 2004) ou DEMIX (SL Arberet. R. Gribonval. F. Bimbot. A robust method to count and locate audio sources in a stéréophonie linear anechoic mixture. In ICASSP. 2007)
[0007] L'estimation des propriétés des signaux de source consiste ensuite à chercher une estimation parcimonieuse des sources dans un domaine transformé particulier, compatible avec les paramètres du mélange et les signaux du mélange. Le domaine transformé est en général celui de la transformé de Fourier à court terme (TFCT) qui est parcimonieux pour les signaux audio.
[0008] Deux grandes familles d'approches permettent de distinguer les différentes méthodes d'estimation des sources qui exploitent l'hypothèse de parcimonie. Pour obtenir une estimation parcimonieuse des sources, on utilise un critère de minimisation de la norme Lp sur les coefficients (complexes ou réels) dans le domaine transformé. Une autre approche consiste à déterminer le nombre maximum de sources qui peuvent être actives en même temps, pour un même point temps-fréquence du mélange.
[0009] L'inconvénient principal de cette approche spatiale de séparation de sources est que l'hypothèse de parcimonie sur laquelle elle repose est trop grossière pour estimer correctement les sources dans le cas sous-déterminé. Autrement dit, l'information spatiale n'est pas suffisante.
L'approche à base de modèles de source
[0010] De façon différente, la méthode d'estimation des propriétés de signaux de source par l'approche à base de modèles de source s'appuie sur des informations préenregistrées concernant les modèles statistiques de chacune des sources utilisées. Ainsi, chaque source est représentée par un modèle statistique, comprenant un ensemble de formes spectrales typiques représentatives de la classe sonore à laquelle la source est affectée comme dans la thèse de L. Benaroya (Elie Laurent Benaroya. Séparation de plusieurs sources sonores avec unseul microphone. PhD thesis. Université de Rennes 1.
2003).
[0011] Le principal inconvénient de cette méthode provient du fait qu'elle nécessite d'avoir des connaissances à priori sur chacune des sources figurant dans le mélange. Dès lors, le modèle statistique de chaque source doit être préalablement appris, ce qui est contraignant pour de nombreuses applications. En effet, pour apprendre de tels modèles, il est nécessaire de disposer d'un ensemble de signaux représentatifs des sources du mélange, ce qui n'est pas toujours possible. Par ailleurs, les modèles spectraux obtenus ne sont réalistes que pour l'environnement particulier dans lequel l'enregistrement a été réalisé.
[0012] Un dernier problème non résolu par cette approche est l'appariement des modèles aux directions du mélange. Le problème de l'appariement des modèles aux directions du mélange consiste à reconnaître les sources correspondant à chacune des directions du mélange, afin de faire correspondre le bon modèle à chaque direction du mélange. Dans l'état de l'art cette tâche est généralement faite de façon non automatique par un expert humain.
EXPOSE DE L'INVENTION
[0013] La présente invention vise à pallier les inconvénients de l'état de la technique en proposant une méthode et un dispositif aptes à réaliser une estimation fiable des propriétés de signaux de source dans le cas sous déterminé, c'est-à-dire lorsqu'il y a plus de sources que de capteur, et ce sans avoir nécessairement recours à des informations à priori ou modèle statistique de chaque source.
[0014] Pour ce faire, la présente invention propose d'exploiter, d'une part, les propriétés spatiales du mélange conjointement aux propriétés statistiques des sources et, d'autre part, d'exploiter les propriétés spatiales du mélange afin de pouvoir fournir des caractérisations des signaux de source permettant d'apprendre des modèles statistiques de chacune des sources de façon aveugle, c'est-à-dire sans avoir besoin de recourir à d'autres quantités que le signal du mélange.
[0015] À ce titre, l'invention concerne un procédé de séparation de signaux de source à partir d'un signal de mélange (X) correspondant à une combinaison de signaux de source, le procédé comportant une étape d'acquisition du signal de mélange (X), une étape d'estimation de caractérisations des signaux de source ( z) à partir du signal de mélange (X) et une étape d'apprentissage de modèles de source (I ) à partir des caractérisations des signaux de source (z). Les caractérisations des signaux de source (z) sont notamment constituées d'une estimation intermédiaire des signaux de source ( s ) enrichie d'informations auxiliaires (Ë ) indicatives des propriétés statistiques locales de ladite estimation intermédiaire et les modèles de source (Ë ) décrivent des propriétés statistiques générales des signaux de sources émis par les sources participant au mélange. En outre, le procédé comporte une étape d'estimation des signaux de source (s ) à partir du signal de mélange (X), des caractérisations des signaux de source (z) et des modèles de source (Ë ).
[0016] Avantageusement, l'étape d'apprentissage des modèles de source (Ë ) tient compte, conjointement aux données de caractérisation des signaux de source (z ), de modèles à priori de source (Ë ) appartenant à une base de données. Ainsi, la solution tient compte des informations à priori sur les sources quand elles sont disponibles, par exemple pour l'initialisation de la méthode d'apprentissage des modèles de source. [0017] De préférence, la base de donnée constituée de modèles a priori de source (Ë ) est alimentée de façon itérative par les modèles de source (Ë ) appris à partir des caractérisations des signaux de source ( z ). Il est ainsi possible de réutiliser à l'avenir les modèles de sources pour la présente tâche de séparation de source, ou pour une autre application.
[0018] Avantageusement, l'étape de caractérisation des signaux de source (z ) à partir du signal de mélange (X) comprend une sous-étape préliminaire d'estimation des paramètres du mélange (A ). Il est alors possible d'exploiter la diversité spatiale du mélange, c'est-à-dire, le fait que les paramètres du mélange sont différents pour chacune des sources, ce qui est une information intéressante pour pouvoir séparer les sources.
[0019] De préférence, les paramètres estimés du mélange (A ) sont ceux d'un mélange linéaire instantané, d'un mélange anéchoïque ou d'un mélange convolutif. Selon la façon dont le mélange a été enregistré, il est ainsi possible et préférable de choisir le modèle de mélange le plus adapté parmi ces trois modèles (instantané, anéchoïque, convolutif).
[0020] Avantageusement, les informations auxiliaires (Ë ) décrivent des densités de probabilités locales. L'avantage technique de cette solution est de pouvoir exploiter le fait que les estimations intermédiaires (s ) sont incertaines, à travers un modèle statistique décrivant ces incertitudes. L'utilisation d'outils des statistiques mathématiques peut alors être mise à profit pour l'apprentissage des modèles de source.
[0021] Selon un mode de réalisation avantageux, les informations auxiliaires (Ë ) sont indicatives de la précision de l'estimation intermédiaire (§ ). L'avantage technique de cette solution est de pouvoir apprendre les modèles de source (Ë ) en prenant en davantage en compte les estimations intermédiaires ( s ) pour lesquelles les informations auxiliaires ( E ) indiquent une grande précision. [0022] De préférence, les informations auxiliaires (Ë ) sont, notamment, des estimations des variances de l'erreur entre les signaux de source et leur estimation intermédiaire (s ). Les variances de l 'erreur entre les signaux de source et leur estimation intermédiaire peuvent être mises à profit afin de prendre en compte de façon optimale, lors de l'apprentissage des modèles de source, les estimations intermédiaires ( s ) .
[0023] Avantageusement, les estimations des variances de l'erreur d'estimation de (s ) peuvent prendre les valeurs limites 0 et +∞. On obtient ainsi un modèle binaire très simple sur la précision des estimations intermédiaires. Ce modèle très simple correspond à un formalisme de traitement des données manquantes, pour lequel il existe beaucoup de méthodes disponibles.
[0024] De préférence, les modèles de source (Ë ) sont sélectionnés parmi l'un des modèles suivants : Modèles de Mélanges de Gaussiennes (MMG), Modèles de Markov Cachés (MMC), et Réseaux Bayésiens (RB). L'avantage technique de cette solution est dans le cas du MMG d'exploiter l'hypothèse de la répétition de formes éventuellement spectrales des signaux de source, pour le MMC, d'exploiter l'hypothèse d'une dépendance statistique entre états (correspondant éventuellement à des formes spectrales) successifs correspondant, dans le cas de RB, d'exploiter d'autres hypothèses de dépendance statistique qui peuvent être spécifiques aux signaux de source que l'on souhaite séparer.
[0025] Avantageusement, les signaux de sources et de mélange (X) sont des signaux sonores. La séparation des signaux sonores peut par exemple être utile pour l'indexation audio, le débruitage, le karaoké, les applications musicales.
[0026] L'invention concerne également un dispositif de séparation de signaux de source à partir d'un signal de mélange (X) correspondant à une combinaison de signaux de source, le procédé comportant des moyens d'acquisition du signal de mélange (X), des moyens d'estimation de caractérisations des signaux de source
( Z) à partir du signal de mélange (X), des moyens d'apprentissage de modèles de source (E ) à partir des caractérisations des signaux de source ( Z). Les caractérisations des signaux de source (Z) sont notamment constituées d'une estimation intermédiaire des signaux de source ( s ) enrichie d'informations auxiliaires ( E ) indicatives des propriétés statistiques locales de ladite estimation intermédiaire et les modèles de source ( E ) décrivent des propriétés statistiques générales des signaux de sources (10) émis par les sources participant au mélange. En outre, le dispositif comporte également des moyens d'estimation des signaux de source (S ) à partir du signal de mélange (X), des caractérisations des signaux de source (Z) et des modèles de source (Ë ).
[0027] De préférence, les moyens d'apprentissage des modèles de source ( Ë ) tiennent compte, conjointement aux données de caractérisation des signaux de source (Z) 1 de modèles à priori de source (Ë ) appartenant à une base de données. Il est ainsi possible de prendre en compte des informations à priori sur les sources quand elles sont disponibles, par exemple pour l'initialisation de la méthode d'apprentissage des modèles de source.
[0028] Avantageusement, la base de donnée constituée de modèles a priori de source (Ë ) est alimentée de façon itérative par les modèles de source (Ë ) appris à partir des caractérisations des signaux de source (Z ). De ce fait, il est possible d'utiliser les modèles de sources pour la présente tâche de séparation de source, ou pour une autre application.
[0029] De préférence, les moyens d'estimation des caractérisations des signaux de source ( Z) à partir du signal de mélange (X) comprend des moyens d'estimation (22) des paramètres du mélange ( ^ ). L'avantage technique de cette solution est d'exploiter la diversité spatiale du mélange, c'est-à-dire, le fait que les paramètres du mélange sont différents pour chacune des sources, ce qui est une information intéressante pour pouvoir séparer les sources.
[0030] Avantageusement, les paramètres estimés du mélange (Λ ) sont ceux d'un mélange linéaire instantané, d'un mélange anéchoïque ou d'un mélange convolutif. Selon la façon dont le mélange a été enregistré, il est ainsi possible et préférable de choisir le modèle de mélange le plus adapté parmi ces trois modèles (instantané, anéchoïque, convolutif).
[0031] De préférence, les informations auxiliaires (Ê ) décrivent des densités de probabilités locales. Cette solution permet d'exploiter le fait que les estimations intermédiaires ( s ) sont incertaines, à travers un modèle statistique décrivant ces incertitudes. L'utilisation d'outils des statistiques mathématiques peut alors être mise à profit pour l'apprentissage des modèles de source.
[0032] Selon un mode de réalisation avantageux, les informations auxiliaires (^ ) sont indicatives de la précision de l'estimation intermédiaire ( s ). Les informations auxiliaires ( E ) peuvent ainsi être mises à profit en prenant davantage en compte, lors de l'apprentissage des modèles de source, les estimations intermédiaires
( s ) pour lesquelles les informations auxiliaires ( E ) indiquent une grande précision.
[0033] Avantageusement, les informations auxiliaires ( E ) sont des estimations des variances de l'erreur entre les signaux de source et leur estimation intermédiaire ( s ). Les variances de l 'erreur entre les signaux de source et leur estimation intermédiaire peuvent ainsi être mises à profit afin de prendre en compte de façon optimale, lors de l'apprentissage des modèles de source, les estimations intermédiaires ( s ).
[0034] De préférence, les estimations des variances de l'erreur d'estimation de
( s ) peuvent prendre les valeurs limites 0 et +∞. Cette solution permet d'avoir un modèle binaire très simple sur la précision des estimations intermédiaires. Ce modèle très simple correspond à un formalisme de traitement des données manquantes, pour lequel il existe beaucoup de méthodes disponibles.
[0035] Avantageusement, les modèles de source ( E ) sont sélectionnés parmi l'un des modèles suivants : Modèles de Mélanges de Gaussiennes (MMG), Modèles de Markov Cachés (MMC), et Réseaux Bayésiens (RB). L'avantage technique de cette solution est dans le cas du MMG d'exploiter l'hypothèse de la répétition de formes éventuellement spectrales des signaux de source, pour le MMC, d'exploiter l'hypothèse d'une dépendance statistiques entre états (correspondant éventuellement à des formes spectrales) successifs correspondant, dans le cas de RB, d'exploiter d'autres hypothèses de dépendance statistique qui peuvent être spécifiques aux signaux de source que l'on souhaite séparer.
[0036] De préférence, les signaux de sources (10) et de mélange (X) sont des signaux sonores. La séparation des signaux sonores peut par exemple être utile pour l'indexation audio, le débruitage, le karaoké, les applications musicales.
BREVE DESCRIPTION DES FIGURES
[0037] D'autres caractéristiques et avantages de l'invention ressortiront à la lecture qui suit d'un exemple de réalisation détaillé, en référence aux figures annexées qui représentent respectivement :
- La figure 1 , une représentation schématique d'un exemple de réalisation du dispositif selon l'invention ; la figure 2, un organigramme fonctionnel d'un exemple de réalisation du dispositif selon l'invention.
DESCRIPTION DETAILLEE D'UN MODE DE REALISATION [0038] Selon un exemple de réalisation de l'invention illustré par la figure 1 , le dispositif de séparation de signaux de source est utilisé pour la séparation de signaux sonores.
[0039] À cet effet, l'analyse des signaux est réalisée dans le domaine temps- fréquence, en utilisant la transformée de Fourrier à court terme (TFCT) car ce domaine de représentation est, pour les signaux sonores, plus parcimonieux que le domaine temporel.
[0040] Le dispositif selon l'invention est composé de K sources 10 qui émettent chacune un signal sonore dont la TFCT est notée S(t,f), et tel que : t = 1 , 2, T, f = 1 , 2, OÙ - S(t,f) sont les TFCTs des K sources 10 (avec K>1 ) pour les points (t,f) ;
- 1 = 1 , 2, . . . , T est l'indice de trame temporelle de la TFCT ;
- f = 1 , 2, . . . , F est l'indice de fréquence de la TFCT, (F étant l'indice de la fréquence de Nyquist).
[0041] Ces signaux sonores S(t,f) s'additionnent pour former un signal de mélange X(t,f) enregistré par M' microphones 12. Ces M' microphones peuvent être directement reliés à une unité centrale 14 par le biais de M=M' canaux d'enregistrement 16, ou bien, telle que représentés sur la figure 1 , être reliés à une console de mixage 18 qui mélange les M' signaux captés par ces microphones sur M canaux 16 reliés à une unité centrale 14. Ces canaux d'enregistrement 16 conduisent les signaux d'enregistrement jusqu'à l'unité centrale pour le traitement de l'information.
[0042] Ainsi, le signal de mélange X(t,f) peut être modélisé de la façon suivante :
X(LJ) = A(f)S(tJ), t = 1, 2., ... , T, / = 1, 2 F (1)
- x(t,f)= sont les TFTCs des signaux de mélange de M canaux d'enregistrement 16 (avec M>1) pour les points (t,f) ;
- Λ(/) = [ α * ,m (/)] A m=1 est ' a valeur de la matrice de mélange à la fréquence f. Chaque colonne de cette matrice correspond à une direction du mélange. Les paramètres du mélange A sont dans le cas de cette modélisation l'ensemble des valeurs prises par la matrice de mélange sur l'ensemble des fréquences
A = {i(f)} f . Dans la suite de la description de cet exemple de réalisation, nous considérons pour simplifier une matrice de mélange instantané A = qui, contrairement aux mélanges anéchoïques et convolutifs, ne dépend pas de la fréquence f. Cependant l'invention revendiquée peut être utilisée avec des modèles anéchoïques ou convolutifs en remplaçant dans les équations les symboles A par A(f) et les opérations de transposition de la matrice A par des opérations de transconjugaison.
[0043] II est à noter que le dispositif de mesure selon l'invention peut éventuellement permettre de réaliser une mesure dans un cas sous déterminé, c'est-à-dire lorsque le nombre M de canaux d'enregistrement 16 est inférieur au nombre K de sources sonores 10.
[0044] La figure 2 illustre un organigramme du procédé de caractérisation de signaux de source selon l'invention.
Estimation de caractérisations des signaux de source [0045] Comme représenté sur cet organigramme, le procédé selon l'invention met en oeuvre un module d'estimation de caractérisations 20 des signaux de source (Z ) du signal de mélange X(t,f). Ce module d'estimation de caractérisations 20 des signaux de source est apte à exploiter les propriétés de parcimonie des signaux sonores dans le domaine temps-fréquence, et repose en particulier sur l'hypothèse que, dans le voisinage temps-fréquence de certains points temps-fréquences, une seule source 10 contribue au mélange.
[0046] Ces régions temps-fréquences permettent d'estimer la direction de la source sonore 10 dominante à ces fréquences et de déterminer une estimation de l'énergie des sources 10 en ces points. Une analyse plus détaillée, s'appuyant sur un modèle statistique du mélange dans ces régions, permet d'obtenir une mesure de la qualité d'estimation de la direction locale ainsi qu'une mesure de la qualité de l'estimation de chacune des sources 10.
[0047] Ainsi, le module d'estimation de caractérisations 20 des signaux de source comprend un premier bloc fonctionnel d'estimation des paramètres 22 du mélange λ.
[0048] Ce bloc d'estimation des paramètres 22 du mélange peut être implémenté par l'une quelconque des méthodes suivantes : DEMIX, DUET, TIFROM (F. Abrard and Y. Deville. Blind séparation of dépendent sources using the "time-frequency ratio of mixtures" approach. In ISSPA 2003, Paris, France, JuIy 2003. IEEE.), ou autre.
[0049] Par ailleurs, le module d'estimation de caractérisations 20 des signaux de source comprend également un bloc fonctionnel d'estimation des caractérisations 24 des signaux de source (Z ) connaissant les paramètres du mélange A.
[0050] Le module d'estimation de caractérisations 20 des signaux de source ( Z ) estime les grandeurs suivantes :
- S k (t,f) qui est une estimation intermédiaire de la source k, au point temps-fréquence (t,f) ; qui est une estimation de la variance de l'erreur entre le signal de source k et son estimation intermédiaire S k (t,f) au point temps-fréquence (t,f).
[0051] L'ensemble de ces estimations peut être représenté par les notations suivantes qui sont notamment utilisées sur la figure 2 :
S = [SiJ représente l'estimation intermédiaire des signaux de source ;
∑ = , sont des estimations des variances de l'erreur entre les signaux de source 10 et leur estimation intermédiaire S .
[0052] Le bloc fonctionnel d'estimation de caractérisations 24 des signaux de source (Z ) permet de réaliser une estimation intermédiaire S des sources 10. La méthode d'estimation des sources intermédiaires est inspirée de la méthode DUET où l'on considère que pour chaque point temps-fréquence (t,f) une des sources est dominante, les autres sources sont dénommées sources secondaires. Pour ce faire, dans chaque région temps-fréquence (t, f), la source qui est considérée comme dominante est, comme pour la méthode DUET, celle dont la direction est la plus corrélée avec le vecteur du mélange. L'estimation intermédiaire S de la source dominante peut-être obtenue de la même façon que pour la méthode DUET par la relation suivante :
S k (tJ) = ^X(L f) (4) o
[0053] II est alors possible de modéliser l'estimation de la variance d'erreur d'estimation Σ au point temps-fréquence (t,f) par la relation suivante :
où v 2 (/,/) est la seconde plus grande valeur propre de la matrice de covariance0 empirique R x (t,f) qui est définie à partir des points temps-fréquences contenus dans le voisinage du point (t,f) comme cela est fait dans la méthode DEMIX.
[0054] Pour l'estimation des sources secondaires, le module d'estimation de caractérisations 20 des signaux de source utilise l'estimation intermédiaire de la source dominante S k de la façon suivante :
[0055] De la même façon que précédemment, il est alors possible de modéliser les estimations Σ des variances de l'erreur d'estimation entre les signaux de source 10 et leur estimation intermédiaire (S ) au point temps-fréquence (t,f) par la relation définie à l'équation (5). 0 Système d'apprentissage de modèles de sources
[0056] Le mode de réalisation du procédé illustré par la figure 2 met également en oeuvre un module d'apprentissage 30 de modèles de sources.
[0057] Ce module d'apprentissage 30 présente une entrée connectée au module 20 d'estimation de caractérisations des signaux de source pour utiliser les caractérisations des signaux de source (Z ) décrites précédemment. Il a pour but de modéliser chaque signal de source 1 ^* issu des K sources 10 par un modèle de mélange de Gaussiennes (MMG) \. La structure de ces modèles de mélange de Gaussiennes ^* est décrite dans la publication de A. Ozerov. P. Philippe. F. Bimbot. et R. Gribonval. "Adaptation of bayesian models for single- channel source séparation and its application to voice/music séparation in popular songs." Audio. Speech and Language Processing. IEEE Transactions on [see also Speech and Audio Processing. IEEE Transactions on. vol. 15. no. 5. pp. 1564-1578. JuIy 2007.
[0058] Ces modèles sont des modèles de mélange de Gaussiennes (MMG) Λ = KKL, avecλ * où :
- Q k est le nombre d'états,
- ω k I sont les poids des Gaussiennes, et
- ∑ k i = diagtt σ k 2 ι (fj] J sont les matrices de covariances diagonales des gaussiennes.
[0059] Chaque modèle de source étant appris séparément, par la suite nous omettons l'indice k de la source pour simplifier les notations. Soit Ë(t,f) l'erreur d'estimation spatiale de la source effectuée par le module d'analyse spatiale du mélange :
È(t, f) = S(t, f) - S(t. f) (7)
[0060] Le module d'apprentissage 30 est un algorithme Expectation- Maximization (EM) (décrit ultérieurement) qui est une procédure itérative. En conséquence, les étapes qui suivent décrivent le fonctionnement de l'algorithme pour une itération notée par l'indice de puissance (I). [0061] Une première étape consiste à calculer les poids satisfaisant les relations :
∑M 7ΰ ( 0 = 1
où q(t) est l'état courant du modèle de mélange de Gaussiennes (MMG) et N c ψ;0,Σ) est la densité de probabilité d'une gaussienne complexe circulaire de moyenne nulle et de matrice de covariance Σ .
[0062] Une seconde étape consiste à calculer les densités spectrales de puissance pour l'état de q(t) = i.
[0063] Une troisième étape consiste ensuite à réestimer les poids des Gaussiennes :
,(H-I) _ V (0 ( 0 (13)
[0064] Et enfin, une quatrième étape consiste à réestimer les matrices de covariances :
[0065] L'initialisation des paramètres est effectuée par une procédure de quantification vectorielle à partir de l'estimation intermédiaire S des sources. [0066] Les modèles de sources Λ sont avantageusement stockés dans une base de données 32 susceptible d'être mise à jour ou complétée par des données externes. Ainsi, le module d'apprentissage 30 peut à tout moment réutiliser ces informations préenregistrées.
[0067] Dans l'exemple de réalisation représenté sur la figure 2, le système comporte un bloc fonctionnel d'estimation 22 des paramètres du mélange A à partir du mélange X . Puis l'estimation de caractérisations des signaux de source (Z = {S,∑|) constituées d'une estimation intermédiaire des signaux de source S enrichie des estimations Σ des variances de l'erreur entre les signaux de source 10 et leur estimation intermédiaire S est effectuée par le bloc fonctionnel d'estimation de caractérisations 24 à partir de X et A .
[0068] Les estimations de caractérisations des signaux de source Z sont plus généralement constituées d'une estimation intermédiaire des signaux de source
S enrichie d'informations auxiliaires Θ indicatives des propriétés statistiques locales de ladite estimation intermédiaire. Ces informations auxiliaires Θ décrivent, dans notre exemple de réalisation, des densités de probabilités locales, qui plus spécifiquement sont indicatives de la précision de l'estimation intermédiaire S et plus spécifiquement encore des estimations Θ = Σ des variances de l'erreur entre les signaux de source 10 et leur estimation intermédiaire S .
[0069] Dans notre exemple d'implémentation, les densités de probabilité locales sont celles d'une loi gaussienne, mais on peut utiliser d'autres densités de probabilité, par exemple celles d'une loi mélanges de gaussiennes (MG).
[0070] Les modèles de source sont notés Λ ou Λ sur la figure 2 selon respectivement qu'ils aient été appris par le module 30 ou qu'ils soient considérés comme des connaissances à priori. Comme ils représentent le même objet, nous les notons Λ quand nous décrivons l'objet qu'ils représentent et qu'il n'y a ainsi pas de raison de les différencier. L'apprentissage des modèles de source Λ est effectué par le module 30 à partir de Z . Les modèles de source Λ sont dans notre exemple de réalisation des MMG, mais les modèles de source Λ peuvent être également des Modèles de Markov Cachés (MMC) qui rajoutent des dépendances entre les trames successives, ou bien des réseaux Bayésiens (RB).
[0071] L'estimation des signaux de sources S est finalement obtenue par le module 40 à partir de X , Λ et Z . Dans notre exemple de réalisation les signaux de sources S sont estimés également à l'aide des paramètres du mélange A qui ont notamment été calculés par le module 22 à partir de X (voir la description du module 40 d'estimation des signaux de sources). Les paramètres du mélange A peuvent être recalculés dans le module 40 à partir de X , ou bien, afin d'éviter de faire deux fois le même calcul, être transmis du module 22 au module 40 comme indiqué par la flèche en pointillé sur la figure 2.
[0072] Le module d'apprentissage 30 permet donc d'obtenir, à partir de l'estimation intermédiaire S et des estimations Σ des variances de l'erreur entre les signaux de source 10 et leur estimation intermédiaire ( S), des modèles de sources Λ des k sources 10.
Module d'estimation des signaux de sources
[0073] Le mode de réalisation de l'invention illustré par la figure 2 comporte également un module 40 d'estimation des K signaux de sources 10 analysées.
[0074] Ce module d'estimation 40 des signaux de sources a pour objet de réaliser l'estimation des K sources 10 à partir des données issues des modules de caractérisation 20 des signaux de source et d'apprentissage 30 de modèles de source. Dans le domaine temps-fréquence, obtenu par le calcul de la TFCT, l'équation du signal de mélange est donnée par la relation suivante :
X(t. /) = AS(t, /), (17) [0075] II est ainsi supposé que les sources 10 sont décrites par des modèles de mélange de Gaussiennes λ k = {ω k i ,∑ k i }^ k , comme décrit précédemment.
[0076] Pour estimer les sources, le procédé selon l'invention cherche à minimiser la mesure de distorsion entre la source estimée et la vraie source. Supposons que la source 10 à estimer soit la source S 1 . Puisque la vraie source S 1 n'est pas observée pendant la séparation, la valeur de la mesure de distorsion est remplacée par son espérance conditionnelle calculée par rapport à la source S 1 connaissant le mélange X, la matrice de mélange A et les modèles de source
A = {λ k } k=ι . La source S 1 est donc minimisée par le module d'estimation 40 comme suit :
S 1 = argmin E [d(S{ , S 1 ) |X, A . Λ] (IS)
Si
- < /(_?',,$,) = Ils, -S 1 II 2 est l'Erreur Quadratique Moyenne (EQM) spectrale de S 1 . L'estimateur minimisant l'Erreur Quadratique Moyenne est donnée par :
Si = E [5i|X, A, A] (19)
[0077] L'estimation des sources minimisant l'EQM spectrale des sources est donnée par l'équation du filtrage de Wiener adaptatif :
W 1 (J) = ∑ l (f)A τ (A∑,(f)A τ y et ∑,(f) avec σk 2 ,(f) définie au paragraphe [0061] et y ; ^) sont des probabilités a posteriori des états Z = ^J., du MMG du mélange X résultant des MMG des sources, c'est-à-dire. : (24) avec x{t) = ω , = Y[ω k , t • [0078] II a été montré expérimentalement que parmi les probabilités γ,(t) pour un t donné, il y a souvent une probabilité γ r (t) qui domine largement les autres.
Par conséquent, pour accélérer l'algorithme de séparation, le procédé selon l'invention remplace de façon avantageuse la somme des filtres de WIENER de l'équation s = ∑γ,(tψ,(f)X(t,f) par un seul filtre correspondant à la combinaison
d'états la plus probable : s = w r (f)X(t,f) avec / * = Λrgmaxγ,(t) - i
[0079] Pour accélérer l'algorithme de séparation, le procédé selon l'invention simplifie l'équation (24) du calcul de γ,(t) par une forme factorielle : γ,(t) = où γ k ι (t) sont donnés par l'équation Y 1 Jf) = P(Φ) = α ω k ι N c (S k (t);Ô,∑ k , + ∑,,) -
Next Patent: METHOD FOR EVALUATING THE IMMUNOGENICITY OF PROTEINS
