Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SYSTEM FOR IDENTIFYING SOUNDS BY MEANS OF PARAMETRIC CLASSIFICATION OF DERIVED SERIES
Document Type and Number:
WIPO Patent Application WO/2018/087406
Kind Code:
A1
Abstract:
The present invention relates to a system for identifying sounds, which is based on the description and selection of characterising parameters of the sounds, the production of series derived from classification scores of the sounds, and definitive assignment to a sound class by means of parametric characterisation and classification of the derived series. The invention belongs to the field of electronic technology and communications, specifically for use in information processing systems and filing and recovery systems, inter alia.

Inventors:
CARRASCO MUÑOZ ALEJANDRO (ES)
LUQUE SENDRA AMALIA (ES)
ROMERO LEMOS JAVIER (ES)
BARBANCHO CONCEJERO JULIO (ES)
Application Number:
PCT/ES2017/000139
Publication Date:
May 17, 2018
Filing Date:
November 10, 2017
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
UNIV SEVILLA (ES)
International Classes:
G10L15/00; G10L15/02; G10L15/10
Other References:
MARK LEVY ET AL.: "Structural Segmentation of Musical Audio by Constrained Clustering", IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, vol. 16, no. 2, 1 February 2008 (2008-02-01), pages 318 - 326, XP011200226, ISSN: 1558-7916
XIANGSHENG HUANG ET AL.: "Jensen- Shannon Boosting Learning for Object Recognition", PROCEEDINGS / 2005 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, CVPR 2005, vol. 2, 20 June 2005 (2005-06-20), San Diego , CA, pages 144 - 149, XP010817511, ISBN: 0-7695-2372-2
BARRANCO-LOPEZ V ET AL.: "Entropic texture-edge detection for image segmentation", IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, vol. 31, no. 11, 25 May 1995 (1995-05-25), GB, pages 867 - 869, XP006002856, ISSN: 0013-5194
HE M ET AL.: "Band Selection Based on Feature Weighting for Classification of Hyperspectral Data", IEEE GEOSCIENCE AND REMOTE SENSING LETTERS, vol. 2, 4 January 2005 (2005-01-04), NEW YORK, NY, US, pages 156 - 159, XP011130094, ISSN: 1545-598X
ADRIAN SILVESCU ET AL.: "Combining Super-Structuring and Abstraction on Sequence Classification", NINTH IEEE INTERNATIONAL CONFERENCE ON DATA MINING, 6 December 2009 (2009-12-06), Piscataway, NJ, USA, pages 986 - 991, XP031585433, ISBN: 978-1-4244-5242-2
Download PDF:
Claims:
REIVINDICACIONES

Sistema de identificación de sonidos mediante clasificación paramétrica de series derivadas caracterizado porque comprende:

e. Obtención de series derivadas, p¡, a partir de un ciasificador de sonido que asigna una puntuación que mide la cercanía de cada ventana k a cada clase de i-ésima sonido.

f. Caracterización de cada serie derivada p¡, siendo considerada cada serie derivada, como ventana única de sonido de la que se obtienen un conjunto de parámetros MPEG-7.

g. Selección de características reduciendo ei número de parámetros MPEG-7 que representa a cada serie derivada a partir de ia distancia de Jensen-Shanon corregida

h. Identificación dei sonido aplicando técnicas estándar de minería de datos a los parámetros MPEG-7 seleccionados.

2. Sistema de identificación de sonidos mediante clasificación paramétrica de series derivadas según reivindicación anterior caracterizado porque la selección de características de una ventana de sonido a partir de la distancia de Jensen-Shanon se obtiene cateulando el índice de separabilidad de clases ψβ atendiendo al parámetro MPEG-7 θ-ésimo que comprende:

i) Para cada clase i-ésima. se obtienen los valores del parámetro 0-ésimo en todas las ventanas de sonido pertenecientes a dicha clase.

ii) Para cada clase i-ésima, se calculan las funciones de densidad de probabilidad de los valores del parámetro 0-ésimo en las ventanas de

sonido pertenecientes a dicha clase.

iií) Para cada posible par de ciases i y se calcula ia divergencia de Jensen- Shanon D.¡s que viene dada por

iv) Para cada posible par de clases t y j se calcula la distancia de Jensen- Shanon que viene dada por v) El cálculo del índice de separabiiidad Ψθ como

expresión en la que n es el número de clases de sonidos que se pretenden identificar; y N es ei número de distancias de JensetfeShanon calculadas cuyo vaior viene dado por

3. Sistema de identificación de sonidos mediante clasificación paramétrica de series derivadas según reivindicaciones anteriores caracterizado porque la selección de características de una ventana de sonido a partir de la distancia de Jensen ~Shan©n descrita en la reivindicación 2 es corregida en función de la correlación entre parámetros MPEG- 7 y que comprende: i) El cálculo de la matriz de correlación parámetro-parámetro que está

formada por los elementos que representan la correlación entre ¡os

parámetros i y j. Estos valores se calculan como

expresión en la que representa el valor del parámetro i-ésiroo en la ventana

fe-ésima; es ei valor medio del parámetro ¿-ésimo; y m es ei número tota! de

ventanas.

ti) A partir de la matriz de correlación se calcula la matriz de independencia

entre parámetros definida como

iit) Para cada parámetro se calcula ei índice de separabiiidad Ψ4 siguiendo ei procedimiento apuntado en el apartado anterior,

iv) Se elige como parámetro más relevante aquél con el valor mayor de Se incorpora al conjunto (ordenad©) de parámetros relevantes se elimina del

conjunto de parámetros pendientes de analizar

v) Para cada uno de los y-ésimos parámetros en se calcula la independencia

con respecto a cada uno de los fc-ésirnos parámetros en

vi) Para cada uno de los y-ésimos parámetros en se calcula la independencia

mínima con respecto a definida como

vii) Para cada uno de los y-ésimos parámetros en se calcula la separabilidad

corregida, definida como

vii:) Se elige como parámetro más relevante aquél con el valor mayor de Se incorpora al conjunto (ordenado) de parámetros relevantes S y se elimina del conjunto de parámetros pendientes de analizar

ix) Se iteran ios pasos v) a viii) hasta haber analizado todos los parámetros

Sistema de identificación de sonidos mediante clasificación paramétrica de series derivadas según reivindicaciones anteriores caracterizado porque la selección de características de una serie derivada a partir de la distancia de Jensen-Shanon se obtiene calculando e! índice de separabilidad de ciases ψβ atendiendo ai parámetro MPEG-7 θ-ésimosque comprende:

i) Para cada clase ¿-ésima, se obtienen los valores del parámetro β-ésimo en todas las ventanas de sonido pertenecientes a dicha clase.

ii) Para cada dase .-ésima, se calculan las funciones de densidad de probabilidad de los valores del parámetro 0-ésimo en las ventanas de

sonido pertenecientes a dicha ciase.

iii) Para cada posible par de clases i y | se calcula la divergencia de Jensen- Shanon DjS que viene dada por

iv) Para cada posible par de clases i y / se calcula la distancia de Jensen- Shanon dJS que viene dada por

v) Se calcula el índice de separabilidad Ψ0 como

expresión en la que n es el número de clases de sonidos que se pretenden identificar; y N es el número de distancias de Jensen Shanon calculadas cuyo valor viene dado por

5. Sistema de identificación de sonidos mediante clasificación paramétrica de series derivadas según reivindicaciones 1 y 4 caracterizado porque la selección de características de una serie derivada a partir de la distancia de Jensen - Shanon descrita en la reivindicación 4 es corregida en función de la correlaeiin entre parámetros MPEG- 7 y que comprende i) Ei cálculo de la matriz de correlación parámetro-parámetro qp, que está formada por ios elementos e,j que representan la correlación entre los parámetros i y i Estos valores se calculan como

expresión en la que xik representa ei valor del parámetro i-ésimo en la ventana k-ésima; Ij es el valor medio del parámetro i-ésimo; y m es ei número total de ventanas. ii) A partir de ia matriz de correlación Qp se caicula la matriz de independencia entre parámetros definida cerno

iii) Para cada parámetro se calcula el índice de separabilidad siguiendo el procedimiento apuntado en ei apartado anterior.

iv) Se elige como parámetro más relevante aquél con el valor mayor de %.

Se incorpora al conjunto (ordenado) de parámetros relevantes 52 y se elimina de! conjunto de parámetros pendientes de analizar P. Para cada uno de los j-ésimos parámetros en P, se calcula !a independencia con respecto a cada uno de ios k-ésimos parámetros

en

Vi) Para cada uno de los j-ésimos parámetros en se caicula ia

independencia mínima con respecto a definida como

vii) Para cada uno de ios j-ésimos parámetros en P, se calcula la separabiiidad corregida, definida como

V!fi) Se elige como parámetro más relevante aquél con eí valor mayor de Se incorpora al conjunto (ordenado) de parámetros relevantes y se eiimina de! conjunto de parámetros pendientes de analizar

Se iteran los pasos v) a viii) hasta haber analizado todos ios parámetro

Description:
Sistema de identificación de sonidos mediante clasificación paramétrica de series derivadas

Objeto de la invención La presente invención tiene por objeto un sistema de identificación de sonidos que se basa en la descripción y selección de unos posos parámetros caracterizadores de los mismos, la obtención de series derivadas de puntuaciones de clasificación de los mismos, y ia asignación definitiva a una clase de sonido mediante la caracterización paramétrica y la clasificación de la serie derivada. La invención se encuadra en eí sector de la tecnología electrónica y de las comunicaciones, concretamente de aplicación en sistemas de proceso dé información y sistemas de archivo y recuperación, entre otros.

Estado de la técnica El primer paso en la identificación de sonidos consiste en ia extracción de las características del mismo, es decir, en la obtención un conjunto de parámetros que lo representen. Estos parámetros normalmente toman ia forma de un vector que evoluciona en el tiempo. Para su obtención se pueden utilizar procesos temporales, espectrales, homomórficos, de codificación predictiva lineal, etc. Un resumen de las técnicas de extracción de características de sonidos puede encontrarse en (1].[2] ½ |3]

Muchos de ios procedimientos de extracción de características de un sonido dividen el mismo en fragmentos temporales (ventanas) de una duración muy reducida (típicamente unas pocas centésimas de segundo). De cada una de esas ventanas se obtienen unos pocos parámetros que las caracterizan, estando muy extendido ei uso de los definidos en ia norma MPEG-7 [4] o los derivados de los coeficientes de Mel: MFCCs [5]. Es típico que el número de parámetros extraídos esté en torno a 20.

Frecuentemente, a la fase de extracción le sigue un proceso de construcción de características, es decir, de obtención de parámetros derivados que reflejan comportamientos adicionales del sonido (o de la ventana de sonido). Un conjunto típico de parámetros construidos son aquellos que tratan de representar ia evolución temporal del s©nido. entre los que destacan, por ejemplo, las diferencias de primer y segundo orden Í6],[7]; o el uso conjunto de parámetros de ventanas consecutivas mediante la técnica de las ventanas deslizantes [8].

Los procesos anteriores pueden proporcionar vectores de características con un número elevado de parámetros (varios centenares), lo que incrementa sensiblemente los tiempos de proceso necesarios para la clasificacién de sonidos. Además, la relevancia de cada parámetro én la tarea de clasificación puede ser muy dispar. Es pues habitual que el paso siguiente en el proceso de identificación de sonidos sea la selección de características, es decir, la obtención de un subconjunto de parámetros lo más reducido posible sin que afecte sensiblemente a la capacidad de clasificación posterior. Un resumen de las técnicas utilizadas en la selección de características puede encontrarse en [10],{11]. Dentro de éstas, las técnicas de filtro [12],[13] suelen ser las que presentan una mejor eficiencia computacional.

Una vez extraídas, construidas y seleccionadas las características, se utilizan los vectores resultantes para identificar los sonidos. Para ello se emplean distintas técnicas de clasificación que comparan las características de los sonidos con las de uno o varios patrones. En [14J,[15j pueden encontrarse un buen resumen de las técnicas más habitualmente utilizadas. Entre ellas destacan las basadas en modelos ocultos de Markov [16] que es, además, la técnica recomendada en la norma MPEG-7.

La invención plantea un sistema novedoso y eficiente de identificar un sonido, es decir, de reconocerlo como perteneciente a una clase dentro de un conjunto predeterminado de ellas.

La solución propuesta parte de la extracción de características de ventanas de sonido, basadas en parámetros normalizados MPEG-7 seguida de la construcción de parámetros mediante ventanas deslizantes.

Las características generadas se utilizan para clasificar cada ventana con alguna técnica estándar de minería de datos (árboles de decisión, clasificador bayesiano,... ).

Tanto la utilización de parámetros MPEG-7 como su clasificación por minería de datos han sido ya descritos en la literatura técnica y no forman parte las reivindicaciones de la patente.

Referencias

[1] Lu, L, & Hanjalic, A. (2009). Audio Representaron. In Encyclopedia of Datábase Systems (pp. 160-167). Springer US. [2] Sharan, R. V., & Moir, T. J. (2Q16) An Oven/iew of Applieations and Advancements in Automatic Sound Recognition. N&&mcompuimg:

[3] Cowling, M., & Sitte, R. (2003). Comparison of techniques for environmental sound recognition. Pattern recognition letters, 24(15). 2895-2907.

[4] ¡SO (2001). ISQ/IEC FDIS 15938-4:2001: Information Technology— Multimedia Content Description Interíaoe— Parí 4: Audio

[5] Young, S., Evermann, G., & Gales, M (2012). The HTK book (ZOL).

[6] Sharma, S„ Shukla, A., & Mishra, P. (2014). Speech and Language Recognition using MFCC and DELTA-MFCC. International Journal of Engineering Trends and Technology (IJETT), 12(9), 449-452

[7] Hossan, M. A., Memon, S., & Gregory, M. A. (2Θ10, December). A nomi approaeh for MFCC feature extraction. In Signal Processing and Communication Systems (ICSPCS), 20104th International Conference on (pp. 1-5). IEEE

[8] Chu, C. S J. (1995). Time series segmentatiom A sliding window approaeh. Information Sciences, 85(1), 147-173

[9] Beniwal, S., & Arora, J. (2012). Classifíeátion and feature seiection techniques in data mining. International Journal of Engineering Research & Technology (IJERT), 1(6).

[10] Guyon, /., & Elisseeff, A. (20Θ3). An intmáuction to variable and feature seiection. The Journal of Machine Learning Research, 3, 1157- 1182.

[11] Liu, H., & Motoda, H. (1998). Feature extraction, construction and seiection: A data mining perspeetive. Springer Science & Business Media

[12] Guyon, i, Gunn, S., Nikravesh, M., & Zadeh, L. A. (Eds.). (2008). Feature extraction: foundations and applications (Vol. 207). Springer.

[13] Liu, H. ; Hussain, F., Tan, C. L, & Dash, M. (2002). Discretization: An enabtíng technique Dala mining and knowledge discovery, 6(4), 393-423.

[14] Aggarwal. C. C. (2007). Data streams: models and algorithms (Vol. 31). Springer Science & Business Media.

[15] Fu, T C. (2011). A review on time series data minmg. Engineering Applications of Artificial Intelíigence, 24(1), 164-181.

[16] Rabiner, L R (1989). A tutorial on hidden Markov models and selected appiications in speech recognition, Proceedings of the IEEE, 77(2), 257-286.

Descripción de las figuras

Figura 1.- Diagrama del proceso de clasificación de sonidos objeto de ia invención. Descripción de la invención

La presente invención tiene por objeto un sistema de identificación de sonidos mediante clasificación paramétrica de series derivadas que comprende las siguientes etapas: a. Obtención de series derivadas, p¡, a partir de un clasificador de sonido que asigna una puntuación p,k que mide la cercanía de cada ventana k a cada clase de i-ésima sonido.

b. Caracterización de cada serie derivada p¡. siendo considerada cada serie derivada, como ventana única de sonido de la que se obtienen un conjunto de parámetros MPEG-7

c. Selección de características reduciendo el número de parámetros MPEG-7 que representa a cada serie derivada a partir de la distancia de Jensen-Shanon corregida.

d. Identificación del sonido aplicando técnicas estándar de minería de datos a los parámetros MPEG-7 seleccionados.

La novedad de la invención consiste en los dos siguientes aspectos:

• Selección de características mediante Jensen-Shanon

o Las varias decenas de características generadas son reducidas por un método de selección basado en la distancia de Jensen-Shanon corregida

* Clasificación del sonido a partir de series derivadas o Ei clasificador de ventanas asigna una puntuación (normalmente una probabilidad) para cada ventana y cada clase de sonido. Esto produce un conjunto de series temporales "derivadas", tantas como clases de sonido se deseen clasificar

o Cada una de las series derivadas es caracterizada también mediante parámetros MPEG-7, considerando el conjunto de la serie como una única ventana

Q La clasificación del sonido se realiza aplicando alguna técnica estándar de minería de datos a los parámetros MPEG-7 de la serie derivada Una vez obtenidas y seieccionadas las características de cada ventana de un sonido, el método de clasificación propuesto en la inveeeión es el siguiente

1. A cada ventana fc-ésima, se le aplica una técnica de clasificación que asigna una puntación p ik que mide la cercanía (normalmente la probabilidad) de esa ventana a cada clase t -ésima.

2. Analizando la totalidad de las ventanas del sonido, para cada clase í ' -ésima se obtiene una serie temporal de puntuaciones p¡, o serie derivada.

3. Cada clase i-ésima de puntuaciones p¾ se trata como si fuese una ventana única de sonido (no se segmenta) y de ella se obtienen un conjunto de parámetros MPEG-7

4. Se reduce el número de parámetros que representa a cada serie derivada mediante el mismo método de selección de características basado en la distancia de Jensen-Shanon corregida que se detalla más adelante.

5. Al conjunto del sonido, representado ahora por un pequeño conjunto de parámetros, se le aplica una técnica de clasificación que permite la identificación definitiva con alguna de las clases predeterminadas.

Método de selección basado en la distancia de Jensen-Shanon

El primer paso del método de selección de características propuesto en la invención consiste en determinar la separabiiidad de clases de sonido atendiendo a cada uno de los parámetros. Para el cálculo del índice de separabiiidad de clases Ψ θ atendiendo al parámetro 0-ésimo, se procede de la siguiente forma:

1. Para cada clase /-ésima, se obtienen los valores del parámetro 0-ésimo en todas las ventanas de sonido pertenecientes a dicha clase.

2. Para cada clase (-ésima, se calculan las funciones de densidad de probabilidad de los valores del parámetro 0-ésimo en las ventanas de sonido pertenecientes a dicha clase.

3. Para cada posible par de clases i y ; ' se calcula la divergencia de Jensen- Shanon que viene dada por

4. Para cada posible par de clases ί y j se calcula la distancia de Jensen-Shanon que viene dada por

5. Se calcula el índice de separabilidad Ψ 6 como

expresión en la que n es el número de ciases de sonidos que se pretenden identificar: y N es el número de distancias de Jensen-Shanon calculadas cuyo valor viene dado por

Método de selección basado en la distancia de Jensen-Shanon corregida

El método de selección de características propuesto en la invención utiliza el índice de separabilidad calculado en el apartado anterior, pero lo corrige en función de la correlación entre parámetros. El proceso propuesto es el siguiente:

1. Se calcula la matriz de correlación parámetro-parámetro ρ ρ , que está formada por los elementos que representan la correlación entre los parámetros i y /. Estos valores se calculan como

expresión en !a que x ik representa el valor del parámetro i-ésimo en la ventana fc-ésima; ¾ es el valor medio del parámetro t ' -ésimo; y m es el número tota! de ventanas.

2. A partir de la matriz de correlación g p se calcula la matriz de independencia entre parámetros definida como

3. Para cada parámetro se calcula el índice de separabilidad Ψ ί siguiendo el procedimiento apuntado en el apartado anterior Se elige como parámetro más relevante aquél con el valor mayor de Ψ ι ·. Se incorpora al conjunto (ordenado) de parámetros relevantes Λ y se elimina del conjunto de parámetros pendientes de analizar T.

Para cada uno de los /-ésimos parámetros en y, se calcula la independencia con respecto a cada uno de ios /¿-ésimos parámetros en 31.

Para cada uno de los /-ésimos parámetros en T, se calcula la independencia mínima con respecto a 32 definida como

7. Para cada uno de los /-ésimos parámetros en P, se caicula la separabilidad corregida, definida como

8. Se elige como parámetro más relevante aquél con el valor mayor de K¡, Se incorpora al conjunto (ordenado) de parámetros relevantes X y se elimina del conjunto de parámetros pendientes de analizar 3P.

9. Se iteran ios pasos 5 al 8 hasta haber analizado todos los parámetros: T = 0

Con respecto al estado de la técnica, ia invención propuesta plantea tres ventajas principales:

• La identificación de sonidos mediante clasificación de series derivadas mejora sensiblemente la tasa de éxito en la clasificación de sonidos

• La reducción del número de parámetros en ia caracterización de las ventanas de sonido hace sensiblemente más rápido el proceso de clasificación

• El método de selección de características propuesto permite una más rápida determinación de un subconjunto de parámetros que representan al sonido para su posterior clasificación.

Modo de realización de la invención

Una realización posible del sistema propuesto en la invención es la siguiente.

1. Se registra un conjunt© de sonidos, por ejemplo, utilizando una frecuencia de muestreo de 44.1 kHz y 16 bits de resolución 2. Se eligen un subconjunto de sonido (por ejemplo un 10%) que se consideren significativos de cada una de las ciases que se desean identificar Este subconjunto constituirán los sonidos patrón.

3. En cada patrón se determinan los segmentos que son identificativos de ia ciase que representan.

4. Cada sonido es segmentado en ventanas de corta duración, por ejemplo, de 10 milisegundos.

5. De cada ventana se obtienen diferentes parámetros MPEG-7. El conjunto de ellos puede ser. por ejemplo, el siguiente:

· Potencia total

Potencia relevante, esto es, la comprendida en una determinada banda de frecuencias, por ejemplo, entre 500 Hz. y 5kHz.

Centroide de potencia

Dispersión espectral

· Planitud

Tono

Razón de armonicidad

Frecuencia límite de armonicidad

Frecuencia de los 3 primeros formantes

· Ancho de banda de los 3 primeros formantes

Centroide armónico

Desviación armónica

Dispersión armónica

Variación armónica

6. Mediante el método de selección de características propuesto en la invención, se reduce el número de parámetros eligiendo, por ejemplo, los 5 más significativos.

7. Para cada ventana, se construyen otras características mediante ia técnica de ventana deslizante. Es decir, la ventana se identifica con los 5 parámetros propios más los 5 correspondientes a las ventanas colindantes. Ei tamaño de la ventana deslizante puede ser, por ejemplo de 5. Se caracteriza pues cada ventana mediante 25 (5x5) parámetros.

8. Cada ventana es clasificada por comparación entre sus características y las características de las ventanas de los patrones. El método de clasificación puede ser, por ejemplo, el del árbol de decisión. Este clasificador genera una puntuación de la cercanía de cada ventana a cada ciase (probabilidad de pertenecer a esa clase).

9. La aplicación del clasificador a la secuencia de las ventanas de un sonido produce una serie derivada (puntuaciones) para cada una de las ciases de sonido.

10. Cada una de las series derivadas es considerada como si fuese una ventana única de un sonido y de ella se extraen los parámetros MPEG-7 expresados anteriormente.

11. Mediante el sistema de selección de características propuesto en la invención, se reduce el número de parámetros con ios que se caracteriza cada serie derivada eligiendo, por ejemplo, los 5 más significativos. Si tenemos, por ejemplo, 10 clases, las series derivadas de cada sonido se caracterizan mediante 50 (5x10) parámetros.

12. Cada sonido es clasificado por comparación entre las características de sus series derivadas y las características de las series derivadas de ios patrones. El método de clasificación puede ser, por ejemplo, el del árbol de decisión