Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
EXTRACTION OF AN AUDIO OBJECT
Document Type and Number:
WIPO Patent Application WO/2021/160533
Kind Code:
A1
Abstract:
The invention relates to a method for extracting at least one audio object from at least two audio input signals each containing the audio object. According to the invention, the following steps are provided: synchronising the second audio input signal with the first audio input signal obtaining a synchronised second audio input signal; extracting the audio object by applying at least one trained model to the first audio signal and to the synchronised second audio input signal and outputting the audio object. The invention further provides that the method step of synchronising the second audio input signal with the first audio input signal comprises the following method steps: generating audio signals; analytically calculating a correlation between the audio signals; optimising the correlation vector; and determining the synchronised second audio input signal with the aid of the optimised correlation vector. The invention also provides a system having a control unit which is designed to perform the method according to the invention. A computer program containing program code means is also provided, the program being designed to perform the steps of the method according to the invention.

Inventors:
SCHRÖDER LEON (DE)
ZIEGLER JONATHAN (DE)
Application Number:
PCT/EP2021/052776
Publication Date:
August 19, 2021
Filing Date:
February 05, 2021
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
LAWO HOLDING AG (DE)
International Classes:
G10L25/30; G10L21/0308
Foreign References:
CN110534127A2019-12-03
Other References:
LUO YI ET AL: "FaSNet: Low-Latency Adaptive Beamforming for Multi-Microphone Audio Processing", 2019 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU), IEEE, 14 December 2019 (2019-12-14), pages 260 - 267, XP033718887, DOI: 10.1109/ASRU46091.2019.9003849
Attorney, Agent or Firm:
LICHTI PATENTANWÄLTE PARTNERSCHAFT MBB et al. (DE)
Download PDF:
Claims:
Patentansprüche

1. Verfahren zur Extraktion von mindestens einem Audioob- jekt (11) aus mindestens zwei Audio-Eingangssignalen (al, a2), die jeweils das Audioobjekt (11) enthalten, mit den folgenden Schritten:

— Synchronisieren (VI) des zweiten Audio-

Eingangssignals (a2) mit dem ersten Audio- Eingangssignal (al) unter Erhalt eines synchroni sierten zweiten Audio-Eingangssignals (a2'), — Extrahieren (V2) des Audioobjekts (11) durch die

Anwendung von mindestens einem trainierten Modell auf das erste Audio-Signal (al) und auf das syn chronisierte zweite Audio-Eingangssignal (a2') und

Ausgabe (V3) des Audioobjekts (11) wobei der Verfahrensschritt des Synchronisierens (VI) des zweiten Audio-Eingangssignals (a2) mit dem ersten Audio-Eingangssignal (al) die folgenden Verfahrens schritte umfasst:

— Generieren (V4) von Audio-Signalen (ml, m2) durch Anwendung eines ersten trainierten Operators auf die Audio-Eingangssignale (al, a2),

— Analytische Berechnung (V5) einer Korrelation zwi schen den Audio-Signalen (ml, m2) unter Erhalt ei nes Korrelationsvektors (k), — Optimieren (V6) des Korrelationsvektors (k) mit

Hilfe eines zweiten trainierten Operators unter Er halt eines Synchronisationsvektors (s) und

— Bestimmen (V7) des synchronisierten zweiten Audio- Eingangssignals (a2') mit Hilfe des Synchronisati onsvektors (s).

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der erste trainierte Operator eine insbesondere trai nierte Transformation der Audio-Eingangssignale (al, a2) in einen Merkmalsraum umfasst.

3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass der zweite trainierte Operator mindestens eine Normierung des Korrelationsvektors (k) umfasst.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch ge kennzeichnet, dass der zweite trainierte Operator ins besondere ein iteratives Verfahren mit endlich vielen Iterationsschritten (I) aufweist, wobei insbesondere in jedem Iterationsschritt ein Synchronisationsvektor (s) bestimmt wird.

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Anzahl der Iterationsschritte (I) des zweiten trai nierten Operators benutzerseitig definierbar ist.

6. Verfahren nach einem der Ansprüche 4 oder 5, dadurch gekennzeichnet, dass in jedem Iterationsschritt (i) des zweiten trainierten Operators eine gestreckte Faltung des Audio-Signals (m2) mit mindestens einem Teil des Synchronisationsvektors (s) erfolgt.

7. Verfahren nach einem der Ansprüche 4 bis 6, dadurch ge kennzeichnet, dass in jedem Iterationsschritt eine Nor mierung des Synchronisationsvektors (s) und/oder eine gestreckte Faltung des synchronisierten Audio- Eingangssignals (a2') mit Synchronisationsvektor (s') erfolgt.

8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch ge kennzeichnet, dass der zweite trainierte Operator die Bestimmung mindestens einer akustischen Modellfunktion (M) vorsieht.

9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch ge kennzeichnet, dass das trainierte Modell des Extrahie rens (V2) des Audioobjekts (11) mindestens eine Trans formation des ersten Audio-Eingangssignals (al) und des synchronisierten zweiten Audio-Eingangssignals (a2') jeweils in einen insbesondere höherdimensionalen Dar stellungsraum vorsieht.

10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch ge kennzeichnet, dass das trainierte Modell des Extrahie rens (V2) des Audioobjekts (11) die Anwendung mindes tens einer gelernten Filtermaske auf das erste Audio- Eingangssignal (al) und auf das synchronisierte zweite Audio-Eingangssignal (a2') vorsieht.

11. Verfahren nach einem der Ansprüche 9 oder 10, dadurch gekennzeichnet, dass das trainierte Modell des Extra hierens (V2) des Audioobjekts (11) mindestens eine Transformation des Audioobjekts (11) in den Zeitraum der Audio-Eingangssignale (al, a2) vorsieht.

12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass die Verfahrensschritte des Syn- chronisierens (VI) und/oder des Extrahierens (V2) und/oder der Ausgabe (V3) des Audioobjekts (11) einem einzigen neuronalen Netzwerk zugeordnet sind.

13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass das neuronale Netzwerk mit Soll-Trainingsdaten trainiert wird, wobei die Soll-Trainingsdaten Audio- Eingangssignale (al, a2) und dazu korrespondierende vordefinierte Audioobjekte (16) umfassen, mit den fol genden Trainingsschritten:

- Vorwärtsspeisen (V15) des neuronalen Netzwerks mit den Soll-Trainingsdaten unter Erhalt eines ermit telten Audioobjekts (17),

- Bestimmen (V16) eines Fehlervektors (P) zwischen dem ermittelten Audioobjekt (17) und dem vordefi nierten Audioobjekt (16) und

- Ändern von Parametern des neuronalen Netzwerks durch Rückwärtsspeisen (V18) des neuronalen Netz werks mit dem Fehlervektor (P), falls ein Quali tätsparameter des Fehlervektors (P) einen vordefi nierten Wert übersteigt.

14. Verfahren nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, dass das Verfahren derart ausgestaltet ist, dass es kontinuierlich abläuft.

15. Verfahren nach einem der Ansprüche 1 bis 14, dadurch gekennzeichnet, dass die Audio-Eingangssignale (al, a2) jeweils Teile von insbesondere kontinuierlich eingele senen Audio-Signalen (bl, b2) mit insbesondere vordefi nierten zeitlichen Längen sind.

16. Verfahren nach einem der Ansprüche 1 bis 15, dadurch gekennzeichnet, dass das Verfahren derart ausgestaltet ist, dass die Latenz des Verfahrens höchstens 100 ms, insbesondere höchstens 80 ms, vorzugsweise höchstens 40 ms beträgt.

17. System (10) zur Extraktion eines Audioobjektes (11) aus mindestens zwei Audio-Eingangssignalen (al, a2) mit ei ner Steuereinheit (15), die dazu ausgebildet ist, ein Verfahren nach einem der Ansprüche 1 bis 16 durchzufüh ren.

18. System nach Anspruch 17, dadurch gekennzeichnet, dass ein erstes Mikrofon (13) zum Empfangen des ersten Audi- o-Eingangssignals (al) und ein zweites Mikrofon (14) zum Empfangen des zweiten Audio-Eingangssignals (a2) jeweils mit dem System (10) derart verbindbar sind, dass die Audio-Eingangssignale (al, a2) der Mikrofone (13, 14) der Steuereinheit (15) zuführbar sind.

19. System nach einem der Ansprüche 17 oder 18, dadurch ge kennzeichnet, dass das System (10) als Komponente eines Mischpults (10a) ausgeschaltet ist. 20. Computerprogramm mit Programmcodemitteln, das dazu aus gestaltet ist, die Schritte eines Verfahrens nach einem der Ansprüche 1 bis 16 durchzuführen, wenn das Compu terprogramm auf einem Computer oder einer entsprechen den Recheneinheit ausgeführt wird, insbesondere auf ei ner Steuereinheit (15) eines Systems (10) nach einem der Ansprüche 17 bis 19.

Description:
Extraktion eines Audioobjektes

Die Erfindung betrifft ein Verfahren zur Extraktion von mindestens einem Audioobjekt aus mindestens zwei Audio- Eingangssignalen, die jeweils das Audioobjekt enthalten. Ferner betrifft die Erfindung ein System zur Extraktion ei nes Audioobjektes und ein Computerprogramm mit Programm codemitteln .

Im Sinne der Erfindung sind Audioobjekte Audiosignale von Objekten, wie beispielsweise das Geräusch beim Abschießen eines Fußballs, Klatschgeräusche eines Publikums oder der Vortrag eines Gesprächsteilnehmers. Die Extraktion des Au- dioobjektes im Sinne der Erfindung ist demgemäß die Separa tion des Audioobjekts von übrigen, störenden Einflüssen, die im Folgenden als Störschall bezeichnet sind. Beispiels weise wird bei der Extraktion eines Schussgeräuschs beim Fußballspiel das reine Schussgeräusch als Audioobjekt von den Geräuschen der Spieler und des Publikums separiert, so dass das Schussgeräusch schließlich als reines Audiosignal vorliegt.

Aus dem Stand der Technik sind gattungsgemäße Verfahren be kannt, die Extraktion von Audioobjekten vorzunehmen. Eine grundlegende Herausforderung ist dabei, dass üblicherweise die Mikrofone zur Quelle des Audioobjekts unterschiedlich beabstandet sind. Daher befindet sich das Audioobjekt an unterschiedlichen zeitlichen Positionen der Audio- Eingangssignale, was die Auswertung erschwert und verlang samt.

Es ist bekannt, die Audio-Eingangssignale derart zu syn chronisieren, damit sich das Audioobjekt insbesondere an der jeweils gleichen zeitlichen Position der Audio- Eingangssignale befindet. Dies wird üblicherweise auch als Laufzeitkompensation bezeichnet. Übliche Verfahren nutzen diesbezüglich neuronale Netzwerke. Dabei ist es erforder lich, dass das neuronale Netzwerk auf sämtliche mögliche Mikrofonabstände zur Quelle des Audioobjektes trainiert werden muss. Gerade bei dynamischen Audioobjekten, wie im Falle von Sportveranstaltungen, ist ein effektives Training des neuronalen Netzes aber nicht durchführbar.

Ferner sind gattungsgemäße Verfahren bekannt, bei denen zur Synchronisierung der Audio-Eingangssignale deren Korrelati on, beispielsweise deren Kreuzkorrelation, analytisch be rechnet wird, was zwar die Geschwindigkeit des Verfahrens steigert, aber die Zuverlässigkeit der nachfolgenden Ex traktion des Audioobjekts beeinträchtigt, da die Korrelati on stets unabhängig von der Art des Audioobjekts berechnet wird. Dabei werden aber oft für die nachfolgende Extraktion des Audioobjekts störende Effekte, insbesondere Störschall, verstärkt.

Es ist daher die Aufgabe der Erfindung, die genannten Nach teile aus dem Stand der Technik zu beseitigen und insbeson dere die Zuverlässigkeit der Extraktion des Audioobjektes zu verbessern bei gleichzeitiger Optimierung der Geschwin digkeit des Verfahrens. Die Aufgabe wird gelöst durch ein Verfahren mit den Merkma len des Anspruchs 1, der ein Verfahren zur Extraktion von mindestens einem Audioobjekt aus mindestens zwei Audio- Eingangssignalen vorsieht, die jeweils das Audioobjekt ent halten, mit den folgenden Schritten: Synchronisieren des zweiten Audio-Eingangssignals mit dem ersten Audio- Eingangssignal unter Erhalt eines synchronisierten zweiten Audio-Eingangssignals, Extrahieren des Audioobjekts durch die Anwendung von mindestens einem trainierten Modell auf das erste Audio-Signal und auf das synchronisierte zweite Audio-Eingangssignal und Ausgabe des Audioobjekts, wobei der Verfahrensschritt des Synchronisierens des zwei ten Audio-Eingangssignals mit dem ersten Audio- Eingangssignal die folgenden Verfahrensschritte umfasst: Generieren von Audio-Signalen durch Anwendung eines ersten trainierten Operators auf die Audio-Eingangssignale, analy tische Berechnung einer Korrelation zwischen den Audio- Signalen unter Erhalt eines Korrelationsvektors, Optimieren des Korrelationsvektors mit Hilfe eines zweiten trainierten Operators unter Erhalt eines Synchronisationsvektors und Bestimmen des synchronisierten zweiten Audio- Eingangssignals mit Hilfe des Synchronisationsvektors.

Ferner wird die Aufgabe durch ein System zur Extraktion ei nes Audioobjektes aus mindestens zwei Audio-Eingangs- signalen mit einer Steuereinheit gelöst, die dazu ausgebil det ist, das erfindungsgemäße Verfahren durchzuführen. Überdies wird die Aufgabe durch ein Computerprogramm mit Programmcodemitteln gelöst, das dazu ausgestaltet ist, die Schritte des erfindungsgemäßen Verfahrens durchzuführen, wenn das Computerprogramm auf einem Computer oder einer entsprechenden Recheneinheit ausgeführt wird. Die Erfindung basiert auf der Grundüberlegung, dass durch die analytische Berechnung der Korrelation, beispielsweise der Kreuzkorrelation, die Qualität des extrahierten Audi- oobjekts, also die Signaltrennungsqualität des Verfahrens, verbessert wird. Gleichwohl wird durch die Ausbildung des ersten und des zweiten trainierten Operators eine Möglich keit geschaffen, mit Hilfe von trainierten Komponenten die Zuverlässigkeit der nachfolgenden Extraktion des Audioob- jektes zu verbessern. Insofern stellt die Erfindung ein neuartiges Verfahren dar, das die Extraktion des Audioob- jektes zuverlässig und schnell durchführt. Dadurch ist das Verfahren auch bei komplexen Mikrofongeometrien, wie bei spielsweise großen Mikrofonabständen einsetzbar.

Der erste trainierte Operator kann eine insbesondere trai nierte Transformation der Audio-Eingangssignale in einen Merkmalsraum umfassen, um die nachfolgenden Verfahrens schritte zu vereinfachen. Der zweite trainierte Operator kann mindestens eine Normierung des Korrelationsvektors um fassen, um die Genauigkeit der Berechnung des synchroni sierten zweiten Audio-Eingangssignals zu verbessern. Ferner kann der zweite trainierte Operator eine zur Transformation des ersten trainierten Operators inverse Transformation des synchronisierten zweiten Audio-Eingangssignals, insbesonde re zurück in den Zeitraum der Audio-Eingangssignale, vorse hen.

Vorzugsweise weist der zweite trainierte Operator insbeson dere ein iteratives Verfahren mit endlich vielen Iterati onsschritten auf, wobei insbesondere in jedem Iterations schritt ein Synchronisationsvektor, vorzugsweise ein opti mierter Korrelationsvektor, insbesondere ein optimierter Kreuzkorrelationsvektor, bestimmt werden, was eine Be- schleunigung des erfindungsgemäßen Verfahrens bewirkt. Die Anzahl der Iterationsschritte des zweiten trainierten Ope rators kann benutzerseitig definierbar sein, um das Verfah ren benutzerseitig zu konfigurieren.

In jedem Iterationsschritt des zweiten trainierten Opera tors erfolgt vorzugsweise eine gestreckte Faltung des Audi- o-Signals mit mindestens einem Teil des Synchronisations vektors, insbesondere des optimierten Korrelationsvektors. In jedem Iterationsschritt kann eine Normierung des Syn chronisationsvektors und/oder eine gestreckte Faltung des synchronisierten Audio-Eingangssignals mit dem Synchronisa tionsvektor erfolgen, um die Signaltrennungsqualität des Verfahrens zu verbessern.

In einer weiteren Ausgestaltung der Erfindung sieht der zweite trainierte Operator die Bestimmung mindestens einer akustischen Modellfunktion vor. Im Sinne der Erfindung ent spricht die akustische Modellfunktion insbesondere dem Zu sammenhang zwischen dem Audioobjekt und dem aufgenommenen Audio-Eingangssignal . Damit gibt die akustische Modellfunk tion beispielsweise die akustischen Eigenschaften der Umge bung, wie etwa akustische Reflexionen (Hall), frequenzab hängige Absorptionen und/oder Bandpass-Effekte wieder. Au ßerdem beinhaltet die akustische Modellfunktion insbesonde re die Aufnahmecharakteristik mindestens eines Mikrofons. Insofern ist durch den zweiten trainierten Operator im Rah men der Optimierung des Korrelationsvektors die Kompensati on unerwünschter akustischer Effekte auf das Audiosignal, bedingt etwa durch die Umgebung und/oder die Aufnahmecha rakteristik des mindestens einen Mikrofons möglich. Neben der Kompensation der Laufzeit ist damit auch die Kompensa tion störender akustischer Einflüsse, beispielsweise be- dingt durch den Propagationsweg des Schalls, möglich, was die Signaltrennungsqualität des erfindungsgemäßen Verfah rens verbessert.

Das trainierte Modell zum Extrahieren des Audioobjektes kann mindestens eine Transformation des ersten Audio- Eingangssignals und des synchronisierten zweiten Audio- Eingangssignals jeweils in einen insbesondere höherdimensi- onalen Darstellungsraum vorsehen, was die Signaltrennungs qualität verbessert. Im Sinne der Erfindung weist der Dar stellungsraum eine im Vergleich zu dem in der Regel eindi mensionalen Zeitraum der Audio-Eingangssignale höhere Di- mensionalität auf. Indem die Transformationen als Teile ei nes neuronalen Netzwerks ausgebildet sein können, können die Transformationen spezifisch hinsichtlich des zu extra hierenden Audioobjektes trainiert sein.

Das trainierte Modell des Extrahierens des Audioobjekts kann die Anwendung mindestens einer trainierten Filtermaske auf das erste Audio-Eingangssignal und auf das synchroni sierte zweite Audio-Eingangssignal vorsehen. Die trainierte Filtermaske ist vorzugsweise spezifisch auf das Audioobjekt trainiert.

Das trainierte Modell des Extrahierens des Audioobjekts kann mindestens eine Transformation des Audioobjekts in den Zeitraum der Audio-Eingangssignale vorsehen, um insbesonde re eine vorausgegangene Transformation in den Darstellungs raum rückgängig zu machen.

Die Verfahrensschritte des Synchronisierens und/oder des Extrahierens und/oder der Ausgabe des Audioobjektes sind vorzugsweise einem einzigen neuronalen Netzwerk zugeordnet, um ein spezifisches Training des neuronalen Netzwerks hin sichtlich des Audioobjektes zu ermöglichen. Durch die Aus gestaltung eines einzigen neuronalen Netzwerks wird die Zu verlässigkeit des Verfahrens und dessen Signaltrennungsqua lität insgesamt verbessert.

Vorzugsweise wird das neuronale Netzwerk mit Soll- Trainingsdaten trainiert, wobei die Soll-Trainingsdaten Au- dio-Eingangssignale und dazu korrespondierende vordefinier te Audioobjekte umfassen, mit den folgenden Trainings schritten: Vorwärtsspeisen des neuronalen Netzwerks mit den Soll-Trainingsdaten unter Erhalt eines ermittelten Audioob- jekts, Bestimmen eines Fehlerparameters, insbesondere eines Fehlervektors zwischen dem ermittelten Audioobjekt und dem vordefinierten Audioobjekt und Ändern von Parametern des neuronalen Netzwerks durch Rückwärtsspeisen des neuronalen Netzwerks mit dem Fehlerparameter, insbesondere mit dem Fehlervektor, falls ein Qualitätsparameter des Fehlerpara meters, insbesondere des Fehlervektors, einen vordefinier ten Wert übersteigt.

Das Training ist dabei auf das spezifische Audioobjekt aus gerichtet; mindestens zwei Parameter der trainierten Kompo nenten des erfindungsgemäßen Verfahrens können wechselsei tig voneinander abhängig sein.

Vorzugsweise ist das Verfahren derart ausgestaltet, dass es kontinuierlich abläuft, was auch als "Online-Betrieb" be zeichnet ist. Im Sinne der Erfindung werden dabei ständig, insbesondere ohne Benutzereingabe, Audio-Eingangssignale eingelesen und zur Extraktion von Audioobjekten ausgewer tet. Dabei können beispielsweise die Audio-Eingangssignale jeweils Teile von insbesondere kontinuierlich eingelesenen Audio-Signalen mit insbesondere vordefinierter Länge sein. Dies wird auch als "Buffering" bezeichnet. Besonders vor zugsweise kann das Verfahren derart ausgebildet sein, dass die Latenz des Verfahrens höchstens 100 ms, insbesondere höchstens 80 ms, vorzugsweise höchstens 40 ms beträgt. La tenz ist im Sinne der Erfindung die Laufzeit des Verfah rens, gemessen ab dem Einlesen der Audio-Eingangssignale bis zur Ausgabe des Audioobjektes. Ein Betrieb des Verfah rens ist daher in Echtzeit möglich.

Das erfindungsgemäße System kann ein erstes Mikrofon zum Empfangen des ersten Audio-Eingangssignals und ein zweites Mikrofon zum Empfangen des zweiten Audio-Eingangssignals vorsehen, wobei die Mikrofone jeweils mit dem System derart verbindbar sind, dass die Audio-Eingangssignale der Mikro fone der Steuereinheit des Systems zuführbar sind. Das Sys tem kann insbesondere als Komponente eines Mischpults aus gestaltet sein, mit dem die Mikrofone verbindbar sind. Be sonders vorzugsweise ist das System ein Mischpult. Die Ver bindung des Systems mit dem Mikrofonen kann kabelgebunden und/oder kabellos sein. Das Computerprogramm zur Durchfüh rung des erfindungsgemäßen Verfahrens ist vorzugsweise auf einer Steuereinheit des erfindungsgemäßen Systems ausführ bar.

Weitere Vorteile und Merkmale der Erfindung ergeben sich aus den Ansprüchen und der nachfolgenden Beschreibung, in der Ausgestaltungen der Erfindung unter Bezugnahme auf die Zeichnungen im Einzelnen erläutert sind. Dabei zeigen:

Fig. 1 Ein erfindungsgemäßes System in einer sche matischen Ansicht; Fig. 2 eine Übersicht eines erfindungsgemäßen Ver fahrens in einem Ablaufdiagramm mit modell haften Signalen;

Fig. 3 ein Ablaufdiagramm zum Verfahrensschritt ei ner Synchronisierung von Audio-Eingangs- signalen mit modellhaften Signalen;

Fig. 4 ein Ablaufdiagramm zu einem iterativen Ver fahren der Synchronisierung;

Fig. 5 ein Ablaufdiagramm zum Extrahieren des

Audioobjektes und

Fig. 6 ein Ablaufdiagramm zum Trainieren des erfin dungsgemäßen Verfahrens.

Fig. 1 zeigt eine Ausgestaltung eines erfindungsgemäßen Systems 10 zur Extraktion eines Audioobjektes 11 in einer schematischen Darstellung, wobei das System 10 ein Misch pult 10a ist. Audioobjekte 11 im Sinne der Erfindung sind akustische Signale, die einem Ereignis und/oder einem Ob jekt zugeordnet sind. Im vorliegenden Ausführungsbeispiel der Erfindung ist das Audioobjekt 11 das Geräusch 12 eines abgeschossenen, in Fig. 1 nicht dargestellten Fußballs.

Das Geräusch 12 wird von zwei Mikrofonen 13, 14 aufgenom men, die jeweils ein Audio-Eingangssignal al, a2 erzeugen, so dass die Audio-Eingangssignale al, a2 das Geräusch 12 enthalten. Aufgrund der unterschiedlichen Distanzen der Mikrofone 13, 14 zum Geräusch 12 befindet sich das Geräusch 12 an unterschiedlichen zeitlichen Positionen der Audio- Eingangssignale al, a2. Zusätzlich unterscheiden sich die Audio-Eingangssignale al, a2 aufgrund der akustischen Ei genschaften der Umgebung voneinander und weisen daher je weils auch unerwünschte Anteile auf, die beispielsweise durch die Propagationsstrecken des Schalls bis zu den Mik rofonen 13, 14 etwa in Form von Hall und/oder unterdrückten Frequenzen, verursacht sind, und die im Sinne der Erfindung als Störschall bezeichnet werden. Im Sinne der Erfindung gibt eine erste akustische Modellfunktion Ml die akusti schen Einflüsse der Umgebung und der Aufnahmecharakteristik des Mikrofons 13 auf das aufgenommene Audio-Eingangssignal al des ersten Mikrofons 13 wieder. Das Audio-Eingangssignal al entspricht mathematisch insofern einer Faltung des Ge räuschs 12 mit der ersten akustischen Modellfunktion Ml. Analog gilt dies für eine zweite akustische Modellfunktion M2 und für das aufgenommene Audio-Eingangssignal a2 des zweiten Mikrofons 14.

Die Mikrofone 13, 14 sind mit dem Mischpult 10a verbunden, so dass die Audio-Eingangssignale al, a2 an eine Steuerein heit 15 des Systems 10 übermittelt werden, damit die Steu ereinheit 15 die Audio-Eingangssignale al, a2 auswertet und das Geräusch 12 aus den Audio-Eingangssignalen al, a2 mit Hilfe des erfindungsgemäßen Verfahrens extrahiert und zur weiteren Verwendung ausgibt. Bei der Steuereinheit 15 zur Extraktion des Audioobjektes 11 handelt es sich um einen Mikrokontroller und/oder um einen Programmcodeblock eines entsprechenden Computerprogramms. Die Steuereinheit 15 um fasst ein trainiertes neuronales Netzwerk, das mit Audio- Eingangssignalen al, a2 insbesondere vorwärts gespeist wird. Das neuronale Netzwerk ist dazu trainiert, das spezi fische Audioobjekt 11, also im vorliegenden Falle das Ge räusch 12, aus den Audio-Eingangssignalen al, a2 zu extra hieren und insbesondere von Störschall-Anteilen der Audio- Eingangssignale al, a2 zu trennen. Im Wesentlichen werden dabei die Auswirkungen der akustischen Modellfunktionen Ml, M2 auf das Geräusch 12 in den Audio-Eingangssignalen al, a2 kompensiert .

Fig. 2 veranschaulicht eine Ausgestaltung des erfindungsge mäßen Verfahrens in einer Übersicht als Flussdiagramm mit modellhaften Audio-Eingangssignalen al, a2, an denen das Verfahren durchgeführt wird. In einem ersten Schritt VI er folgt ein Synchronisieren des zweiten Audio-Eingangssignals a2 mit dem ersten Audio-Eingangssignal al, so dass im Er gebnis ein synchronisiertes zweites Audio-Eingangssignal a2' erhalten wird. Im Sinne der Erfindung weist das syn chronisierte zweite Audio-Eingangssignal a2' insbesondere das Geräusch 12 an im Wesentlichen der gleichen zeitlichen Position auf wie das erste Audio-Eingangssignal al, was die nachfolgenden Verfahrensschritte maßgeblich beschleunigt und vereinfacht. Insofern entspricht die Synchronisierung VI der Audio-Eingangssignale al, a2 insbesondere einer Kom pensation der Laufzeitdifferenzen zwischen den Audio- Eingangssignalen al, a2.

Anschließend erfolgt gemäß Fig. 2 das Extrahieren V2 des Geräuschs 12 durch die Anwendung eines trainierten Modells auf das erste Audio-Eingangssignal al und auf das synchro nisierte zweite Audio-Eingangssignal a2', so dass im Ergeb nis das Geräusch 12 als Audiosignal erhalten wird. Das trainierte Modell ist dem neuronalen Netzwerk zugeordnet und ist als ein Teil von diesem auf die Extraktion des spe zifischen Audioobjekts 11, hier des Geräuschs 12, trai niert. Im nachfolgenden Verfahrensschritt erfolgt die Aus gabe V3 des Geräuschs 12 als Audio-Ausgangssignal Z. Die Verfahrensschritte des Synchronisierens VI, des Extra hierens V2 des Geräuschs 12 und dessen Ausgabe V3 sind ei nem einzigen, trainierten neuronalen Netzwerk zugeordnet, so dass das Verfahren als End-to-End-Verfahren ausgebildet ist. Dadurch ist es als Ganzes trainiert und läuft automa tisch und kontinuierlich ab, wobei die Extraktion des Ge räuschs in Echtzeit, also mit einer Latenz von höchstens 40 ms erfolgt.

Fig. 3 zeigt einen Verfahrensablauf des Synchronisierens VI der Audio-Eingangssignale al, a2 in einem Flussdiagramm mit modellhaften Audio-Eingangssignalen al, a2 zur Veranschau lichung der Verfahrensschritte. In einem ersten Verfahrens schritt V4 der Fig. 3 wird ein erster trainierter Operator des neuronalen Netzwerks jeweils auf die Audio- Eingangssignale al, a2 angewendet, um Audio-Signale ml, m2 zu generieren. In einer Ausgestaltung der Erfindung werden die Audio-Eingangssignale al, a2 durch den ersten trainier ten Operator des neuronalen Netzwerks in einen im Vergleich zu den Audio-Eingangssignalen al, a2 höherdimensionalen Merkmalsraum in der Zeitdomäne zu den Audio-Signalen ml, m2 transformiert, um die nachfolgenden Berechnungen zu verein fachen und zu beschleunigen. Je nach Art des Audioobjekts 11 erfolgt bereits bei der Transformation eine Bearbeitung der Audio-Signale ml, m2. Die transformierten Audio-Signale ml, m2 sind in Fig. 3 modellhaft dargestellt.

Im zweiten Verfahrensschritt V5 der Fig. 3 erfolgt die ana lytische Berechnung der Kreuzkorrelation als Korrelation zwischen den Audio-Signalen ml, m2, die mathematisch wie folgt definiert ist: Die Berechnung V5 resultiert in einen Kreuzkorrelationsvek tor k, der modellhaft in Fig. 3 dargestellt ist. Im dritten Verfahrensschritt V6 wird der Kreuzkorrelationsvektor k mit Hilfe eines zweiten trainierten Operators des neuronalen Netzwerks optimiert, wobei mittels des zweiten trainierten Operators die Berechnung der akustischen Modellfunktion M erfolgt, um deren Auswirkungen auf die Audio-Signale ml, m2 zu kompensieren. Der zweite trainierte Operator dient damit beispielsweise als akustischer Filter und sieht im Ausfüh rungsbeispiel der Fig. 3 insbesondere eine Normierung des Kreuzkorrelationsvektors k vor, beispielsweise mittels ei ner Softmax-Funktion. Der dadurch erhaltene Synchronisati onsvektor s ist modellhaft in Fig. 3 dargestellt.

Im vierten Verfahrensschritt der Fig. 3 erfolgt die Berech nung V7 des synchronisierten zweiten Audio-Eingangssignals a2' durch die Faltung des Synchronisationsvektors s mit dem zweiten Audio-Eingangssignal a2.

Das synchronisierte zweite Audio-Eingangssignal a2' ist in Fig. 3 modellhaft dargestellt. Im Vergleich zum ursprüngli chen Audio-Eingangssignal a2 ist erkennbar, dass im hier betrachteten, stark vereinfachten Modell eine Kompensation der Laufzeitdifferenz als zeitlicher Offset erfolgt ist.

Das synchronisierte zweite Audio-Eingangssignal a2' wird anschließend, wie bereits beschrieben, für die Extraktion V2 des Audioobjekts 11 verwendet.

Fig. 4 zeigt eine weitere Ausgestaltung der Synchronisie rung VI der Audio-Eingangssignale al, a2, bei der ein ite- ratives Verfahren zur Beschleunigung der Berechnung vorge sehen ist, wobei die Anzahl der Iterationsschritte I benut zerseitig festgelegt ist. Im ersten Iterationsschritt er folgt eine Berechnung des Korrelationsvektors zwischen den Audio-Signalen ml, m2 ähnlich dem Verfahren gemäß Fig. 3 bis zur Berechnung V7 des synchronisierten Audio- Eingangssignals a2', wobei der Synchronisationsvektor Si des aktuellen Iterationsschritts i aber nun im Rahmen der Optimierung V6 bei jedem Iterationsschritt i mittels der maxpool-Funktion beschränkt wird. Anschließend erfolgt - in jedem Iterationsschritt i - die Berechnung V8 des iterati ven Audio-Signals m2i für die Iterationsstufe i mittels ei ner gestreckten Faltung, die mathematisch wie folgt defi niert ist:

Der Faktor di entspricht dabei dem Maß der Beschränkung des Kreuzkorrelationsvektors für den Iterationsschritt i, wobei die Summierung über den +/- den Faktor di erfolgt. Dieser Vorgang wird so lange wiederholt, bis die benutzerseitig vorgegebene Anzahl an Iterationsschritten I durchgeführt wurde. Schließlich erfolgt eine gestreckte Faltung V9 des Audio-Signals m2 mit dem zuletzt berechneten Synchronisati onsvektor Si, woraufhin das synchronisierte zweite Audio- Signal a2'berechnet und ausgegeben wird V7. Durch die Be rechnung des Synchronisationsvektors s auf der Basis des Teilbereichs der im vorigen Iterationsschritt ermittelten Parameter reduziert sich die Komplexität der Berechnungen, was die Laufzeit des Verfahrens beschleunigt, ohne dessen Genauigkeit zu beeinträchtigen. Fig. 5 zeigt eine Ausgestaltung der Extraktion V2 des Audi- oobjektes 11 aus dem Audio-Eingangssignal al und dem syn chronisierten zweiten Audio-Eingangssignal a2' in einem Flussdiagramm. In einem ersten Verfahrensschritt V10 werden die Audio-Eingangssignale al, a2' durch die Anwendung eines ersten trainierten Modells des neuralen Netzwerks jeweils in einen höherdimensionalen Darstellungsraum transformiert, um die nachfolgenden Berechnungen zu vereinfachen. Bei spielsweise weist das erste trainierte Modell eine gängige Filterbank mit insbesondere einer Terzbandfilterbank und/oder einer Mel-Filterbank auf, wobei die Parameter der Filter durch das vorausgegangene Training des neuronalen Netzwerks optimiert worden sind.

Im zweiten Verfahrensschritt Vll erfolgt die Separation des Audioobjekts 11 von den Audio-Eingangssignalen al, a2' durch Anwendung eines zweiten trainierten Modells des neu ronalen Netzwerks auf die Audio-Eingangssignale al, a2'. Auch die Parameter des zweiten trainierten Modells wurden durch das vorausgegangene Training optimiert und sind ins besondere von dem ersten trainierten Modell des vorangehen den Verfahrensschrittes V10 abhängig. Im Ergebnis dieses Verfahrensschrittes Vll wird das Audioobjekt 11 aus den Au dio-Eingangssignalen al, a2' erhalten und befindet sich noch im höherdimensionalen Darstellungsraum.

Im dritten Verfahrensschritt V12 der Fig. 5 wird das sepa rierte Audioobjekt 11 durch die Anwendung eines dritten trainierten Modells des neuronalen Netzwerks auf das Audioobjekt 11 in den ursprünglichen, eindimensionalen Zeitraum der Audiosignale al, a2 transformiert, wobei die Parameter des dritten trainierten Modells von jenen der üb- rigen trainierten Modelle abhängig sind und durch das vo rausgegangene Training gemeinsam optimiert wurden. Insofern ist das dritte trainierte Modell der Transformation gemäß dem dritten Verfahrensschritt V12 der Fig. 5 funktional als Komplement zur Transformation V10 gemäß dem ersten trai nierten Modell zu sehen. Falls beispielsweise im ersten trainierten Modell des ersten Verfahrensschrittes V10 eine eindimensionale Faltung vorgesehen ist, erfolgt in der Rücktransformation V12 eine transponierte eindimensionale Faltung.

Damit das neuronale Netzwerk das Audioobjekt 11 zuverlässig aus den Audio-Eingangssignalen al, a2 extrahieren kann, muss es vor dem Einsatz trainiert werden. Dies geschieht beispielweise durch die nachfolgend beschriebenen Trai ningsschritte V13 bis V19, die in Fig. 6 in einem schemati schen Ablaufdiagramm gezeigt sind. In den betrachteten Aus führungsbeispielen des erfindungsgemäßen Verfahrens sind die genannten Verfahrensschritte einem einzigen neuronalen Netzwerk zugeordnet und jeweils differenzierbar, so dass mit dem nachfolgend beschriebenen Trainingsverfahren V13 sämtliche trainierten Komponenten spezifisch hinsichtlich des Audioobjekts 11 trainiert werden.

Vordefinierte Audioobjekte 16 werden mittels vordefinierter Algorithmen zu vorgegebenen Audio-Eingangssignalen al, a2 generiert V14. Die vordefinierten Audioobjekte 16 sind stets vom gleichen Typ, so dass das Verfahren spezifisch hinsichtlich eines Typs von Audioobjekten 16 trainiert wird. Die generierten Audio-Eingangssignale al, a2 durch laufen das erfindungsgemäße Verfahren gemäß Fig. 2 und wer den dabei insbesondere durch das neurale Netzwerk vorwärts gespeist V15. Das dadurch ermittelte Audioobjekt 17 wird mit dem vordefinierten Audioobjekt 16 verglichen, um auf dieser Grundlage einen mathematischen Fehlervektor P zu be stimmen V16. Danach erfolgt eine Abfrage V17, ob ein Quali tätsparameter des Fehlervektors P einen vordefinierten Wert unterschreitet und das ermittelte Audioobjekt 17 hinrei chend gut extrahiert wurde.

Überschreitet der Qualitätsparameter den vordefinierten Wert, ist das Abbruchkriterium nicht erfüllt und es wird im nächsten Verfahrensschritt V18 der Gradient des Fehlervek tors P bestimmt und rückwärts durch das neuronale Netzwerk gespeist, so dass sämtliche Parameter des neuronalen Netz werks angepasst werden. Anschließend wird das Trainingsver fahren V13 mit weiteren Datensätzen solange wiederholt, bis der Fehlervektor P einen hinreichend guten Wert erreicht und die Abfrage V17 ergibt, dass das Abbruchkriterium er füllt wurde. Dann wird der Trainingsprozess V13 abgeschlos sen VI9 und das Verfahren kann auf reale Daten angewendet werden. Idealerweise werden als vordefinierte Audioobjekte 16 in der Trainingsphase jene Audioobjekte 11 verwendet, die in der Anwendung des Verfahrens auch ermittelt werden sollen, beispielsweise bereits aufgezeichnete Schussgeräu sche 12 von Fußbällen.