Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR DETERMINING ACOUSTIC FEATURES OF ACOUSTIC SIGNALS FOR THE ANALYSIS OF UNKNOWN ACOUSTIC SIGNALS AND FOR MODIFYING SOUND GENERATION
Document Type and Number:
WIPO Patent Application WO/2004/049302
Kind Code:
A1
Abstract:
The invention relates to a method for determining acoustic features of acoustic signals which indicate the presence or absence of a property of the acoustic signal or of the sound generator, and use of the result of this determination of features for the analysis of unknown acoustic signals for the presence or absence of a defined relevant property, or for modifying sound generation in view of optimizing a defined relevant property.

Inventors:
LANGNER JOERG (DE)
AUHAGEN WOLFGANG (DE)
Application Number:
PCT/DE2003/003738
Publication Date:
June 10, 2004
Filing Date:
November 12, 2003
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
UNIV BERLIN HUMBOLDT (DE)
LANGNER JOERG (DE)
AUHAGEN WOLFGANG (DE)
International Classes:
G10L15/02; G10L17/02; G10L25/48; (IPC1-7): G10L11/00; G10L17/00; G10L15/02
Foreign References:
US5583961A1996-12-10
US6389392B12002-05-14
Other References:
SIVAKUNTARAN P ET AL: "The use of sub-band cepstrum in speaker verification", PROCEEDINGS OF ICASSP 2000, vol. 2, 5 June 2000 (2000-06-05), ISTANBUL, TURKEY, 5-9 JUNI 2000, pages 1073 - 1076, XP010504912
Attorney, Agent or Firm:
Bittner, Thomas (Hollerallee 32, Bremen, DE)
Download PDF:
Claims:
Ansprüche
1. l. Verfahren zur Ermittlung akustischer Merkmale von Schallsignalen, die das Vorliegen oder Nichtvorliegen einer Eigenschaft des Schallsignals oder Schallerzeugers anzeigen, gekennzeichnet durch die separate Bearbeitung zweier Gruppen von Schallsignalen in wenigstens den folgenden Schritten : 1.) Erfassen der Schallsignale und Überführen in computerlesbare AudioDateien, oder Übernahme eines vorab aufgenommenen Schallsignals in Form einer Audiodatei ; 2. ) Erzeugen eines Frequenzspektrums jedes Schallsignals ; 3. ) Erzeugung von Prädiktoren anhand der Spektren beider Gruppen auf Basis der Ener gieanteile in gewählten Frequenzbändern, wobei dies jeweils geschieht für a) die GesamtSpektren und/oder b) die tonhaften Anteile der Spektren, 4. ) Erzeugung von abgeleiteten Prädiktoren durch Produktbildung und Relationenbildung aus den Prädiktoren ; 5.
2. ) Ermittlung der für die zu untersuchende Eigenschaft des Schallerzeugers relevanten akustischen Merkmale durch logistische Regression zwischen den beiden Gruppen mit wenigstens einzelnen der unter Schritten 4 und 5 erzeugten Prädiktoren und abgeleiteten Prädiktoren unter Gewinnung von Regressionskoeffizienten für einzelne Prädiktoren und abgeleitete Prädiktoren, die ein Maß für die Relevanz des jeweiligen Merkmals darstellen, wobei die beiden Gruppen jeweils wenigstens 2 SchallsignalBeispiele enthalten und die erste der beiden Gruppen nur solche Beispiele enthält, die vorab gewonnen wurden und denen durch Messung oder Beurteilung das Vorliegen der zu untersuchenden Eigenschaft zugeordnet wurde, und die zweite Gruppe nur solche Beispiele enthält, die vorab gewon nen wurden und denen durch Messung oder Beurteilung das NichtVorliegen der zu unter suchenden Eigenschaft zugeordnet wurde.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass zwischen Schritt 2 und Schritt 3 eine Bestimmung des Grundtons jedes Spektrums und bei Vorhandensein eines Grundtons ein Transponieren des Spektrums auf einen Referenzton erfolgt, so dass für je de der beiden Gruppen ein Satz nicht transponierter Spektren und ein Satz transponierter Spektren vorliegt, wobei die Schritte 3 bis 5 dann auf die nicht transponierten Spektren und die transponierten Spektren angewendet werden.
4. Verfahren nach Anspruch 1 oder 2, dadurch g e k e n n z e i c h n e t, dass die Ergebnisse aus Schritt 5 angezeigt und vorzugsweise numerisch oder graphisch dargestellt werden. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die in Schritt 2 erzeugten Frequenzspektren als Folge der Signalstärke über der Frequenz Sk (Fk) mit k Wertepaaren ausgedrückt werden.
5. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die in Schritt 2 erzeugten Frequenzspektren auf ein gemeinsames Minimum und einen gemein samen Durchschnittswert normiert werden.
6. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Tonhaftigkeit der Signale der Einzelfrequenzen bestimmt wird, indem festgestellt wird, wie stark der zugehörige Amplitudenwert die Amplituden der Nachbarfrequezen über trifft.
7. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Frequenzbänder logarithmisch äquidistant sind und bei Tonbeispielen vorzugsweise die Breite einer kleinen Terz besitzen.
8. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass mit wenigstens 5, vorzugsweise wenigstens 15, weiter vorzugsweise wenigstens 20 Frequenz bändern pro Schallsignal gearbeitet wird.
9. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Schallsignale eine Länge von ca. 300 bis 1000 ms besitzen oder auf diese Länge verkürzt werden.
10. Verwendung des Ergebnisses der Merkmalsermittlung mit Hilfe des Verfahrens nach ei nem der Ansprüche 1 bis 8 für die Analyse eines unbekannten Schallsignals in Bezug auf die Eigenschaft, die der ersten Gruppe von Schallsignalen aus der Merkmalsermittlung als vorhanden zugeordnet und der zweiten Gruppe als nicht vorhanden zugeordnet wurde.
11. Verwendung nach Anspruch 9, dadurch gekennzeichnet, dass das Schallsignal ein Ton, ein Klang, ein Geräusch oder ein Körperschall, insbesondere eine Vibration ist, ein durch menschliche Sprache erzeugtes Signal, oder ein durch eine Maschine oder ein tech nisches Gerät erzeugtes Schallsignal.
12. Verwendung nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass die zu unter suchende Eigenschaft eine psychische Wirkung eines Tons, eines Klanges oder Geräu sches ist, insbesondere die Eigenschaft"schön","warm","angenehm","heiter", und dass die SchallsignalBeispiele der ersten Gruppe solche sind, denen diese Eigenschaft durch Beurteilung zugeschrieben wird, während die SchallsignalBeispiele der zweiten Gruppe solche sind, denen die jeweilige Eigenschaft gerade nicht zugeschrieben wird.
13. Verwendung nach Anspruch 11, dadurch gekennzeichnet, dass die Schallsignal Beispiele der ersten Gruppe solche eines bestimmten zu erkennenden Sprechers, Sängers oder Instruments und die SchallsignalBeispiele der zweiten Gruppe die wenigstens eines anderen Sprechers sind, wobei die zu untersuchende Eigenschaft die Identität des Spre chers, Sängers oder Instruments ist.
14. Verwendung des Verfahrens nach einem der Ansprüche 1 bis 9 für die Konstruktion von Kontrollinstrumenten, welche prüfen, ob und in welchem Maße die akustischen Merkmale bei den von bestimmten Schallerzeugern ausgehenden Schallsignale vorliegen.
15. Verwendung des Verfahrens nach einem der Ansprüche 1 bis 13 für die iterative Überprü fung bei der Erzeugung von Klängen mit einer bestimmten gewünschten Wirkung.
16. Computerlesbarer Datenträger, auf welchem gespeichert eine Datenstruktur vorliegt, die durch ein Verfahren gemäß einem der Ansprüche 1 bis 8 generiert wurde.
17. Computerlesbarer Datenträger, auf welchem codiert ein Programm zur Durchführung ei nes Verfahrens nach einem der Ansprüche 1 bis 8 vorliegt.
18. Vorrichtung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 8, insbe sondere in den Verwendungen nach einem der Ansprüche 9 bis 12, gekennzeichnet durch wenigstens ein Mikrophon zur Aufnahme der Schallsignale, wenigstens eine feste oder externe Speichereinheit, die ein Datenverarbeitungspro gramm zur Durchführung des Verfahrens auf einem Speichermedium gespeichert ent hält, wenigstens eine Anzeigevorrichtung zur Anzeige des mit dem Verfahren ermittelten Ergebnisses.
Description:
Verfahren zur Ermittlung akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale und Modifikation einer Schallerzeugung Die Erfindung betrifft ein Verfahren zur Ermittlung akustischer Merkmale von Schallsigna- len, die das Vorliegen oder Nichtvorliegen einer Eigenschaft des Schallsignals oder des Schallerzeugers anzeigen, sowie die Verwendung des Ergebnisses dieser Merkmalsermittlung für die Analyse unbekannter Schallsignale auf Vorliegen oder Nichtvorliegen einer bestimm- ten relevanten Eigenschaft, oder für die Modifikation der Schallerzeugung in Bezug auf die Optimierung einer bestimmten relevanten Eigenschaft.

Die Erfindung bezieht sich auf das Gebiet der Schallanalyse im weitesten Sinne. Unter Schall verstehen wir hier musikalische Klänge, Sprachlaute und von Menschen, Tieren oder Gegen- ständen erzeugte Klänge oder Geräusche.

Wichtige Arbeitsfelder der Schallanalyse bilden im Stande der Technik die verschiedenen Systeme zur Sprachanalyse und Spracherkennung sowie Sprachsteuerung technischer Syste- me einerseits als auch die verschiedenen Versuche musikalischer Klanganalyse, sowie ande- rerseits die Maschinendiagnose.

Ein wichtiger Aspekt ist in der Regel die Sicherheit mit der ein Schallerzeuger identifiziert bzw. dem Klang oder Geräusch ein Merkmal zugeordnet werden kann. Dies gilt ganz beson- ders für solche Analyseverfahren, die eine Personenidentifizierung im Rahmen eines Sicher- heitssystems durchführen sollen. Es wurden daher bereits die verschiedensten Merkmale und Kriterien-einzeln oder in Kombination-verwendet, um Schallsignale in Bezug auf den Schallerzeuger oder eine zu untersuchende Eigenschaft es Schallerzeugers charakterisieren zu können.

Aus Der US-PS 5 425 127 ist beispielsweise ein Verfahren zu Spracherkennung bekannt, das mit Breitband-Filtern und den Einhüllenden der Spektren zu den Sprachsignalen arbeitet.

Aus der DE 695 11 602 T2 ist ein Signalquellencharakterisiersystem bekannt, welches für die Steuerung von Autoradios, Freihandtelefonen, Handys und dergleichen eingesetzt werden soll, bei denen ein zu verstärkendes oder zu isolierendes Primärsignal von Fremdsignalquellen getrennt wird. Dieses System arbeitet vorrangig mit Signalfaltungen und Faltungsmischun- gen. Dabei wird Gebrauch davon gemacht, dass das Primärsignal sich aufaddiert während das

Störsignal sich ausmittelt.

Aus der EP 0 297 729 A2 ist ein Verfahren zur Maschinen-Diagnose (bearing failure detec- tion apparatus) auf akustischer Basis bekannt, das allein mit einem Schwellenwert in einem einzigen Frequenzbereich arbeitet. Das Gerät meldet lediglich ein bei einem defekten Lager auftretendes lautes Geräusch.

Aus der US 6 173 613 B1 ist ein spezielles Verfahren zur Maschinendiagnose bekannt, bei dem eine Relation zwischen hohen und tiefen Frequenzanteilen für eine Rissdetektion in Plattenmaterialien verwendet wird.

Bezüglich der Analyse musikalischer Klänge lassen sich die Untersuchungen zur Klangfarbe in zwei große Richtungen einteilen : bei dem einen Forschungsansatz steht die Klangproduk- tion im Zentrum der Betrachtung, bei dem anderen die Klangrezeption, die Klangwirkung.

Ein Schwerpunkt der Untersuchungen zur Klangproduktion ist es, klangliche Besonderheiten von Musikinstrumentengruppen, z. B. den Streichinstrumenten, in Abgrenzung zu anderen Gruppen herauszuarbeiten, dann aber auch eine Differenzierung innerhalb der einzelnen In- strumentengruppen vorzunehmen. Als wichtige klangunterscheidende Parameter wurden in solchen Untersuchungen herausgearbeitet : - die Periodizität bzw. Aperiodizität der Zeitfunktion des abgestrahlten Klanges, - die Hüllkurve des Betragspektrums, - Formanten, also klangprägende Gebiete relativ erhöhter Energie im Spektrum, deren Fre- quenzbereich von der wechselnden Grundfrequenz weitgehend unabhängig ist, - Geräuschanteile, - zeitabhängige Veränderungen des Klangspektrums im quasistationären Abschnitt, - Ein-und Ausschwingvorgänge.

Diese Parameter sind also für die Unterscheidbarkeit von Musikinstrumentengruppen we- sentlich, wobei in der rezeptionsorientierten Klangforschung über den Beitrag, den jeder die- ser Parameter zur Unterscheidbarkeit leistet, Uneinigkeit besteht. So ist beispielsweise im Bereich der Auswertung zeitlicher Information die Rolle von Ein-und Ausschwingvor- gängen umstritten. Diese dürfte wohl am stärksten situationsabhängig sein. Bei isolierten Klängen und einzelnen Klangpaaren kommt den Transienten offensichtlich eine gewisse Be- deutung zu. l G. de Poli und P. Prandoni stellen die Hypothese auf, daß der Einschwingvor- gang bei Instrumentalklängen das einzige Merkmal sei, daß vergleichsweise konstant bliebe

und daher für die Identifikation von zentraler Bedeutung sei, während das Klangspektrum die individuelle Qualität von Klängen bestimmen würde. 2 Andererseits zeigte ein Experiment von Mark Pitt und Robert Crowder, bei dem real erklingende Töne mit vorgestellten, also aus dem Gedächtnis abgerufenen, Klängen verglichen werden sollten, daß der Einschwingvor- gang keinen Einfluß auf das Ähnlichkeitsurteil hatte, sondern nur spektrale Unterschiede eine Rolle spielten. 3 Und auch die experimentellen Ergebnisse Christoph Reuters zur Wiederer- kennbarkeit von manipulierten Instrumentenklängen4 sprechen gegen eine zu hohe Gewich- tung des Einschwingvorganges.

Als besonders schwierig hat es sich erwiesen, Qualitätsparameter eines Instrumentenklanges zu ermitteln. Arbeiten auf diesem Gebiet, zum Beispiel Jürgen Meyers Untersuchungen an Gitarren6 und an Klavieren7 oder Heinrich Dünnwalds Untersuchungen an Violine8, zeigten, daß es keine isolierten physikalischen Parameter sind, die die Klangqualität prägen, sondern daß es sich stets um ein komplexes Zusammenwirken mehrerer Faktoren, z. B. der Aus- geprägtheit einzelner Resonanzen und den Pegelverhältnissen zwischen verschiedenen Fre- quenzbereichen des Spektrums, handelt. Das Problem bestand bisher nun darin, dieses kom- plexe Zusammenwirken mathematisch zu fassen und ein Verfahren zu entwickeln, daß für ganz unterschiedliche Klänge anwendbar ist, Generalisierungen-also z. B. Aussagen über Gemeinsamkeiten von Instrumentengruppen-zuläßt, aber auch die Erfassung individueller Klangbesonderheiten ermöglicht. Die bisherigen Verfahren versuchten, die Komplexität des Problems der klanglichen Qualitätsbestimmung dadurch in den Griff zu bekommen, daß aus der Vielzahl physikalischer Parameter der wichtigste bzw. eine sehr geringe Zahl besonders wichtiger Parameter ausgewählt wurden, also quasi eine Art Datenreduktion vorgenommen wurde. H. Dümlwald z. B. benutzte eine Schablone, die über die graphischen Resonanzkurven von Geigen gelegt wurden und anhand derer Pegelverhältnisse zwischen verschiedenen Fre- quenzbereichen ermittelt werden konnten. Dementsprechend waren die bisherigen Verfahren nur auf einzelne Musikinstrumente ausgerichtet und konnten auch den Einfluss des Spielers auf die Klangqualität nicht berücksichtigen. Untersuchungen zur Klanggestaltung durch In- strumentalisten oder Sänger sind-abgesehen von Jürgen Meyers prinzipiellen Überlegungen9 - zudem bisher nur sehr selten durchgeführt worden, z. B. von Ekkehard Jostl° und von Karel Krautgartnerll an Klarinettisten und von Bram Gätjen an Oboisten, l2 so dass auf diesem Ge- biet ein Mangel an empirischen Daten bestand, der das Austesten neuartiger Analyseverfah- ren, die große Datenmengen verarbeiten können, unmöglich machte.

Ausgehend hiervon liegt der Erfindung die Aufgabe zugrunde, gerade diejenigen akustischen

Merkmale eines Schallsignals zu ermitteln, die in einem bestimmten Zusammenhang relevant sind und hiervon ausgehend Verfahren anzubieten, die die Detektion einer zu untersuchenden relevanten Eigenschaft ermöglichen.

Zur Lösung dieser Aufgabe ist bei einem Verfahren der eingangs genannten Art erfindungs- gemäß vorgesehen, dass die separate Bearbeitung zweier Gruppen von Schallsignalen in we- nigstens den folgenden Schritten erfolgt : 1.) Erfassen der Schallsignale und Überführen in computerlesbare Audio-Dateien ; 2. ) Erzeugen eines Frequenzspektrums jedes Schallsignals ; 3. ) Erzeugung von Prädiktoren für jedes der Spektren beider Gruppen auf Basis a) der Tonhaftigkeit einzelner Frequenzen über Bestimmung des Klang-zu- Geräusch-Verhältnisses, b) der Summen der tonhaften Anteile und der Summen der Energieanteile jeweils in gewählten Frequenzbändern, 4. ) Erzeugung von abgeleiteten Prädiktoren durch Produktbildung und Relationenbildung aus den Prädiktoren ; 5) Ermittlung der für die zu untersuchende Eigenschaft des Schallerzeugers relevanten akusti- schen Merkmale durch logistische Regression zwischen den beiden Gruppen mit wenigstens einzelnen der unter Schritten 3 und 4 erzeugten Prädiktoren und abgeleiteten Prädiktoren un- ter Gewinnung von Regressionskoeffizienten für einzelne Prädiktoren und abgeleitete Prä- diktoren, die ein Maß für die Relevanz des jeweiligen Merkmals darstellen, wobei die beiden Gruppen jeweils wenigstens 2 Schallsignal-Beispiele enthalten und die erste der beiden Grup- pen nur solche Beispiele enthält, die vorab gewonnen wurden und denen durch Messung oder Beurteilung das Vorliegen der zu untersuchenden Eigenschaft zugeordnet wurde, und die zweite Gruppe nur solche Beispiele enthält, die vorab gewonnen wurden und denen durch Messung oder Beurteilung das Nicht-Vorliegen der zu untersuchenden Eigenschaft zugeord- net wurde.

Unter"Prädiktoren"verstehen wir hier Werte-Folgen (Vektoren), die innerhalb des nachste- hend detaillierter erläuterten, erfindungsgemäßen Verfahrens als Grundlage für die Zuerken- nung von Klangeigenschaften ermittelt werden. Jeder dieser Vektoren repräsentiert ein be- stimmtes akustisches Merkmal. Anhand eines Vergleichs vorher ausgewählter"Positiv-und Negativbeispiele"wird zunächst durch statistische Auswertung ermittelt, welche der insge- samt innerhalb des Verfahrens möglichen Prädiktoren für die betreffende untersuchte Eigen- schaft spezifisch relevant sind. Mit Hilfe gerade dieser Prädiktoren werden in den verschiede-

nen Verwendungen unbekannte Schallsignale auf das Vorliegen oder Nicht-Vorliegen der Eigenschaft hin untersucht.

Gegenüber herkömmlichen nur im weitesten Sinne ähnlichen Verfahren zeichnet sich das erfindungsgemäße Verfahren aufgrund der Prädiktorenermittlung durch eine deutlich bessere Nutzung der Daten (Schallspektren) bzw. eine sehr starke Datenkompression aus. Durch die erfindungsgemäße Behandlung der Daten/Spektren wird die darin enthaltene Information be- züglich der Klangqualität optimal genutzt.

Beispielsweise wird in neueren Sprechererkennungsverfahren mit sehr großen Anzahlen von Einzelspektren gearbeitet (z. B. über ca. 4 Minuten alle 10ms ein Einzelspektrum, siehe Seite 263 und 264 im Paper von Julia, Heck & Cheyer 1997) und mit großen Anzahlen von akusti- schen Merkmalen (z. B. mit 2048 Gausschen Komponenten, Seite 264 in erwähntem Paper), wobei jedoch das einzelne Spektrum nicht sehr intensiv ausgewertet wird (lediglich 17 Mel- Cepstrum-Vektoren pro Spektrum). Das Technical Data Sheet zum Nuance Verifier 3.0 (Nuance Communications Inc., U. S. A. ) spricht von dem einem Sprecher zugeordneten , Voiceprint' von ca. 20 kB, dies entspricht einer Zahlenmatrix von mehreren hundert Werten und liefert damit ein Indiz für die große Anzahl der verwendeten Merkmale. Der dort betrie- bene hohe Datenerfassungs-und-bearbeitungsaufwand wird dabei nicht adäquat, oder zu- mindest nicht in einer der Erfindung entsprechenden Weise, ausgenutzt.

Das erfindungsgemäße Verfahren ermittelt genau diejenigen akustischen Merkmale eines Schallsignals, die in einem bestimmten, vorgegebenen Zusammenhang relevant sind und bei Verwendung des Verfahrens zur automatischen Detektion der zu untersuchenden Eigenschaft erforderlich sind.

Das Verfahren ermittelt insbesondere diejenigen akustischen Merkmale eines Klanges, die für bestimmte psychische Wirkungen dieses Klanges relevant sind, für bestimmte Klangeindrük- ke, wie"schön","klar","warm"und dergleichen charakteristisch sind, die zum Identifizieren einer Klangquelle-z. B. eines Sprechers-notwendig sind, oder die über Eigenschaften oder Befindlichkeiten der Klangquelle Auskunft geben. Die Möglichkeiten die das Verfahren er- öffnet, reichen hier von der Untersuchung von Materialeigenschaften von Werkstoffen bis hin zu psychischen Befindlichkeiten von Sprechern.

Vorzugsweise erfolgt zwischen Schritt 2 und Schritt 3 des Verfahrens eine Bestimmung des Grundtons jedes Spektrums und bei Vorhandensein eines Grundtons (bei der Analyse von Klängen oder Signalen mit deutlichen klanghaften Anteilen) ein Transponieren des Spektrums auf einen Referenzton, so dass für jede der beiden Gruppen ein Satz nicht transponierter Spektren und ein Satz transponierter Spektren vorliegt, wobei die Schritte 3 bis 5 dann auf die nicht transponierten Spektren und die transponierten Spektren angewendet werden.

In Weiterbildung der Erfindung können die Ergebnisse aus Schritt 5 angezeigt und beispiels- weise numerisch oder graphisch dargestellt werden. Andernfalls werden sie vor der Weiter- verarbeitung gespeichert. Es bietet sich an, das erfindungsgemäße Verfahren in einem Kom- paktgerät, inklusive Mikrophonen zur Aufnahme der Schallsignale, Datenverarbeitung, Soft- ware und integriertem Monitor, bzw. integrierter Anzeige anzubieten. Die Erfindung kann jedoch auch als Verfahren verwirklicht werden, dass auf vorhandenen Anlagen oder innerhalb größerer Geräte durchgeführt wird.

Die Erfindung wird im folgenden anhand von Ausführungsbeispielen näher erläutert, wobei die Darstellung insbesondere auf eine Abfolge einzelner Schritte Bezug nimmt.

Definitionen : Unter der"Eigenschaft eines Schallsignals"wird diejenige Eigenschaft verstanden, die in einem bestimmten Zusammenhang, insbesondere für die Lösung eines Problems relevant ist.

Eigenschaften in diesem Sinne sind z. B. dass ein musikalischer Klang von Hörern als"schön" empfunden wird ; dass ein Sprachsignal von einem ganz bestimmten Sprecher stammt ; oder dass ein Laufgeräusch von einer defekten Maschine stammt.

Unter den"akustischen Merkmalen eines Schallsignals"wird die Gesamtheit aller physikali- schen Eigenschaften eines Schallsignals verstanden. Akustische Merkmale in diesem Sinne sind z. B. die aufsummierte Schallenergie innerhalb eines bestimmten Frequenzbandes ; die Relation zwischen den aufsummierten Schallenergien verschiedener Frequenzbänder ; oder der Rauschanteil innerhalb eines bestimmten Frequenzbandes.

"Schall"wird im allgemeinsten Sinne verstanden. Hierzu zählen also insbesondere musikali- sche Klänge, Sprachlaute, von Menschen, Tieren oder Gegenständen erzeugte Geräusche.

Die Grenzen des für Menschen hörbaren Frequenz-Bereichs müssen hierbei nicht notwendi- gerweise eingehalten werden. Auch ist das Verfahren nicht notwendigerweise auf Schall be- schränkt, der sich in der Luft fortpflanzt.

Weitere Begriffs-Definitionen erfolgen bei der Beschreibung der einzelnen Schritte.

1. Schritt : Ausgangspunkt für die Anwendung des Verfahrens ist stets eine konkrete Aufgabenstellung welche Eigenschaft eines Schallsignals oder Schallerzeugers untersucht werden soll. Vor Be- ginn des erfindungsgemäßen Verfahrens werden daher eine Reihe von Audio-Aufnahmen von Schallsignalen gewonnen und durch Bewertung oder Messung zwei Kategorien zugeordnet : 1) Pro-Beispiele, in denen die relevante Eigenschaft vorhanden ist (z. B. Beispiele für den "schönen"Ton eines Musikinstruments, für die Sprache eines zu identifizierenden Spre- chers, für die Laufgeräusche einer defekten Maschine) - (erste Gruppe von Schallsignal- Beispielen) ; 2) Contra-Beispiele, in welchen die relevante Eigenschaft gerade nicht vorhanden ist (z. B.

Beispiele für den nicht"schönen"Ton einer Klarinette, für die Sprache anderer Sprecher, für die Laufgeräusche einer einwandfrei funktionierenden Maschine) - (zweite Gruppe von Schallsignal-Beispielen).

Die Gesamtheit der Pro-Beispiele und Contra-Beispiele wird im folgenden unter der gemein- samen Bezeichnung Beispiele oder Schall-Beispiele geführt. Alle Beispiele werden in den nachfolgenden Analyseschritten zunächst gleich behandelt, erst bei der logistischen Regres- sion wird eine Unterscheidung bei der Behandlung der beiden Gruppen erforderlich.

Die Auswahl der Beispiele ist der Aufgabenstellung anzupassen. In der Regel sollten die Pro- Beispiele abgesehen von der einen relevanten Eigenschaft untereinander möglichst verschie- den sein. (So sollten also z. B. die"schönen"Klarinetten-Töne auf verschiedenen Instrumen- ten und von verschiedenen Spielern gespielt sein. Die Sprachbeispiele sollten den zu identifi- zierenden Sprecher bei verschiedenen Wörtern zeigen. ) Für die Auswahl der Contra-Beispiele gilt der gleiche Grundsatz der möglichst großen Verschiedenheit.

Die Gewinnung der Beispiele erfordert unter Umständen vorbereitende Maßnahmen, z. B. ein musikpsychologisches Experiment, in dem Hörer darüber befragt werden, welche Töne sie als

"schön"empfinden. Bei der Maschinendiagnose müßte der tatsächlich vorliegende Zustand für eine Reihe von Maschinen durch nicht-akustische Prüfverfahren ermittelt werden.

Die Anzahl der notwendigen Beispiele hängt von der Aufgabenstellung, insbesondere der Schwierigkeit der Aufgabe und von der gewünschten Zuverlässigkeit des Verfahrens ab.

Grundsätzlich sind wenigstens jeweils 2 Beispiele, vorzugsweise jedoch mindestens 10, bes- ser wenigstens 50 Beispiele zu verwenden.

Die Beispiele werden in einer zeitlichen Länge von 300 bis 1000 ms, insbesondere 400 bis 500 ms benötigt. Sind die vorhandenen Aufnahmen der Schallsignale länger, so können kür- zere Teile herausgeschnitten werden.

Die Tonaufnahmen der ausgewählten Beispiele können in beliebiger Form vorliegen (z. B. auf Audio-Cassette oder Audio-CD). Sie werden dann ggf. digitalisiert und in computerles- bare Form gebracht (z. B. in Dateien im WAV-Format).

Diese Umwandlung ist als solche gängige Technik und wird z. B. von den meisten der han- delsüblichen PC-Soundkarten geleistet.

Als Ergebnis des 1. Schrittes existiert zu jedem der für die vorliegende Aufgabenstellung aus- gewählten Pro-und Contra-Beispiele eine computerlesbare Audio-Datei.

Alle Vorgänge des 1. Schrittes sind gängige Verfahren aus dem Stand der Technik, so dass der Fachmann ohne weiteres in der Lage ist, die zu untersuchenden Schallsignale soweit auf- zubereiten. Auch die Separierung in Pro-und Contra-Beispiele ist als solches eine gängige Prozedur. ( siehe z. B. DE 19630109).

2. Schritt : Die computerlesbaren Audio-Dateien werden nun als Input für ein Spektral-Analyse-Verfah- ren verwendet. Eine solche Spektralanalyse wird auch von zahlreichen herkömmlichen Au- dio-Analyseverfahren-zumeist per FFT, also der Fast-Fourier-Transformation-geleistet (z.

B."Viper"@ der Firma Cortex Instruments). Man erhält also zu jedem der Schall-Beispiele ein Spektrum, praktisch realisiert als eine Zahlen-Folge Sk (und k = 0... kx), wobei jedes Sk, ein Maß für die Stärke/Energie angibt, mit der eine Sinus-Schwingung der Frequenz Fk im Schallsignal des betreffenden Beispiels vertreten ist. Die Frequenzen Fk hängen von der ge-

wählten Auflösung Af ab. Es gilt : Fk= Af k Auflösung, Maximalfrequenzen und Frequenzband-Breite sind variabel und den Erfordernis- sen des Falles anzupassen.

Grundsätzlich sind diese Werte-Auflösung, Maximalfrequenzen, Wertepaarzahl und Fre- quenzband-Breite-variabel und den jeweiligen Erfordernissen anzupassen. Bei allen Auf- gaben, welche die Untersuchung von subjektiv von Hörern empfundenen Eigenschaften be- treffen, sind die Leistungs-Obergrenzen der menschlichen Wahrnehmung zu berücksichtigen (z. B. sollte bezüglich der Maximalfrequenz der Wert von 20000 Hz nicht sehr weit über- schritten werden. ). Bei Aufgabenstellungen, bei welchen es um die Merkmalsdetektion ob- jektiver Eigenschaften geht, können und müssen eventuell diese Grenzen überschritten wer- den, sowohl was die Frequenzauflösung Af als auch was die obere Grenzfrequenz FkX betrifft.

Die Frequenzspektren werden vorzugsweise auf ein gemeinsames Minimum und einen ge- meinsamen Intensitäts-Durchschnittswert normiert.

In einem bevorzugten Ausführungsbeispiel wird jede der von dem Audio-Analyseprogramm für jedes Beispiel gelieferten Zahlenfolgen Sk in zwei Rechenvorgängen einer Normierung unterzogen : a) Es wird separat für jedes Beispiel jedem der Sk ein solcher konstanter Betrag addiert oder subtrahiert, daß das Minimum der so modifizierten Sk null ergibt. b) Es werden anschliessend alle Werte mit einem solchen konstanten Faktor multipliziert, daß der Durchschnittswert über alle Werte für alle Beispiele gleich ist.

Die nach dem zweiten Bearbeitungsvorgang vorliegende Zahlenfolge wird im folgenden mit dem Buchstaben Abenannt.

Da für jedes der i Beispiele ein solches normiertes Spektrum mit k Werten existiert, erhält man also insgesamt eine Matrix Ai, k (i = 1... ix und k = 0... kx) Indiziert man die Zeilen mit i und die Spalten mit k, so entspricht jede Zeile dieser Matrix

einem der insgesamt ix Spektren (die gemäß der vorstehenden Unterschritte a) und b) nor- miert wurden).

Alle Vorgänge des 2. Schrittes zu Spektralanalyse und Normierung sind dem Fachmann ge- läufige Verfahren, die er aufgrund seiner Fachkenntnisse auswählen, durchführen und auch erforderlichenfalls abwandeln kann.

3. Schritt : Auf jedes dieser Spektren werden zunächst die folgenden beiden Prozeduren angewendet : a) Für jede Frequenz Fk ein Maß dafür berechnet, wie stark der zugehörige Amplitudenwert die Amplituden der Nachbarfrequenzen übertreffen. Man könnte dies auch als ein Maß für die "Tonhaftigkeit"der betreffenden Frequenz bezeichnen, da eine besonders stark heraus- stechende Frequenz vom menschlichen Ohr als tonhafter Anteil des Schalles wahrgenommen wird-im Gegensatz zu den übrigen, geräuschhaften Anteilen.

Zu jedem Index (Frequenzwert) k wird ein Wert TONk zwischen 0 und 1 ermittelt, der ein Maß für die Tonhaftigkeit der zugehörigen Sinuskomponente ist. Die Werte TONk sind vor- zugsweise so normiert, daß sie minimal den Wert 0 (bedeutet : rein geräuschhafter Anteil), maximal den Wert 1 erreichen (bedeutet : eindeutig tonhafter Anteil, reine Sinusschwingun- gen). b) Für den Fall, daß es sich bei dem zu untersuchenden Schall um Schall mit einem definier- baren Grundton handelt (wie bei fast allen Tönen musikalischer Instrumente und in den stimmhaften Anteilen von Sprache, aber auch bei vielen Maschinen-Laufgeräuschen) wird das Spektrum optional zusätzlich auf einen gewählten Referenzton Fref transponiert. Hierzu muß zunächst die Frequenz Forig des im Originalsignal vorhandenen Grundtones ermittelt werden.

Hierzu kann auf existierende Software zurückgegriffen werden (z. B."Viper"der Firma Cor- tex Instruments). Ist die Frequenz des Original-Grundtones ermittelt, so kann die folgende Größe berechnet werden : atrans = Fref/Fong Alle Frequenzen Fk des Original-Spektrums werden sodann mit dem Tranpositionsfaktor airans

multipliziert : FTk=atrans-Fk (k=0... kx) Man erhält auf diese Weise ein zweites Spektrum mit denselben Amplituden Ak, jedoch ge- hören zu diesen Amplituden die Frequenzen FTk.

Nunmehr sollen die Energieanteile innerhalb bestimmter Frequnzbänder aufsummiert werden.

Hier sind zunächst diese Frequenzbänder zu definieren, und zwar bezüglich ihrer Breite, ihrer Anzahl und ihrer absoluten Lage.

Breite : Für die Anwendungen auf Musik und Sprache kann vorteilhaft mit logarithmisch äquidistan- ten Bändern gearbeitet werden, d. h. die Frequenzmitten zweier aufeinanderfolgender Bänder (angegeben in Hz) haben stets dasselbe Verhältnis r zueinander. Teilt man eine Oktave (also einen Bereich mit dem Frequenzverhältnis von 2 : 1) in d logarithmisch äquidistante Bänder, so ergibt sich : r = 2 (l/d). In einem bevorzugten Ausführungsbeispiel wurde mit d = 4 gearbeitet, in musikalischer Terminologie also mit"Kleinterzbändern".

Anzahl : Es wird mit wenigstens 5, vorzugsweise wenigstens 15, weiter vorzugsweise wenigstens 20 Frequenzbändern pro Schallsignal gearbeitet.

Lage : Die unterste Bandmitte für die transponierten Spektren ist so gelegt, daß auch ein Bereich unterhalb des Grundtones von 185 Hz erfaßt wird.

Das zu einer Mittenfrequenz gehörige Frequenzband erstreckt sich dann auf die Umgebung der Frequenzmitte mit jeweils einem Radius von einem halben Mittenabstand. Die präzise mathematische Formulierung findet sich in den nachfolgenden Gleichungen zur Bildung der Bändersummen.

Zu jedem der zu analysierenden Beispiele und zu jedem der beiden Spektren werden nun zu den definierten Bändern die Bändersummen gebildet, d. h. es werden die Energieanteile auf- summiert, die innerhalb eines Bandes liegen.

Ni, m = Sum [Ai, k, {k # Ln [MNm]-Ln [d] < Ln [Fk] # Ln [MNm] +Ln [d]}]/ (Anzahl der Summan- den) für (i = 1... ix und m =1... mNx) Ti, m = Sum [Ai, k, {k # Ln [MTm]-Ln [d] < Ln [FTk] # Ln [MTm] +Ln [d]}]/ (Anzahl der Summan- den) für (i = 1... ix und m= 1... mTx) NTONi, m = Sum [TONi, k, {k #Ln[MNm]-Ln [d] < Ln [Fk] # Ln [MNm] +Ln [d]}]/ (Anzahl der Summanden) für (i = 1... ix und m= 1... mNx) T_TONi,m = Sum [TONi, k, fk 1 Ln [MTm]-Ln [d] < Ln [FTk] < Ln [MTm] +Ln [d]}]/ (Anzahl der Summanden) für (i = 1 ... ix und m= 1... mTx) Man erhält also mit diesen vier Matritzen, im folgenden Basis-Matritzen genannt, zu jedem der Beispiele : - die Bändersummen des nicht-transponierten Spektrums (N) - die Bändersummen des transponierten Spektrums (T) - die Bändersummen der tonhaften Anteile des nicht-transponierten Spektrums (NTON) - die Bändersummen der tonhaften Anteile des transponierten Spektrums (T_TON) (Der Begriff"Basis"wird hier nicht im mathematischen Sinne als"Basis eines Vektorraums" verwendet, sondern im Sinne von"Fundament", auf dem alle weiteren Berechnungen beru- hen.) Die Spaltenvektoren in diesen vier Basis-Matritzen werden im folgenden Basis-Prädiktoren genannt. Wegen der Herkunft aus den Basis-Matritzen gibt es vier Typen von Basis- Prädiktoren (N, T, N TON, T TON). Jeder dieser Typen bildet eine Prädiktoren-Gruppe.

Ein Basis-Prädiktor ist also zum Beispiel der Spaltenvektor, der aus den aufsummierten Ener- gieanteilen im 3. Frequenzband des nicht-transponierten Spektrums besteht. Da dieses Auf- summieren für alle vorliegenden Schallbeispiele getrennt durchgeführt wird, besteht der Ba- sis-Prädiktor folglich aus insgesamt ix Elementen, die in der Regel alle verschieden vo- neinander sind.

4. Schritt : Aus diesen Basis-Prädiktoren werden nun auf zwei Arten neue, kombinierte Prädiktoren be- rechnet. Im folgenden wird ein bevorzugtes Ausführungsbeispiel für diese Operation be- schrieben.

I) die Produkte aus Basis-Prädiktoren. Hierbei wird zeilenweise (d. h. für jedes der Beispiele) das Produkt gebildet, z. B. das Produkt aus der 3. und 4. Bändersumme des nicht-transponier- ten Spektrums : ProN0304i = Ni, 3 Ni, 4 (i = 1 ... ix) Oder das Produkt aus den tonhaften Anteilen der 5. und 12. Bändersumme des transponierten Spektrums : ProTTON0512i = TTONi, s-TTONj, i2 (i = 1... ix) Bildet man beispielsweise innerhalb der N-Gruppe alle möglichen Zweier-Produkte, so erhält man eine neue Gruppe von Prädiktoren : die Gruppe aller N-Produkt-Prädiktoren, oder kurz : die Gruppe aller N-Produkte.

Diese Produkt-Bildung erfolgt für alle vier Typen von Basis-Prädiktoren, man erhält also die Gruppen aller 1. N-Produkte 2. T-Produkte 3. N TON-Produkte 4. T_TON-Produkte II) die Relationen zwischen Basis-Prädiktoren. Hierbei werden ganz analog zur Produktbil- dung z. B. die folgenden Relationen gebildet : RelN03_04i = Ni, 3/Ni, 4 (i =1... in) Bildet man beispielsweise innerhalb der N-Gruppe alle möglichen Zweier-Relationen, so er- hält man eine weitere Gruppe von Prädiktoren : die Gruppe aller N-Relationen-Prädiktoren, oder kurz : die Gruppe aller N-Relationen.

Diese Relationen-Bildung erfolgt für alle vier Typen von Basis-Prädiktoren, man gewinnt also die Gruppen aller 1. N-Relationen 2. T-Relationen 3. N TON-Relationen 4. T TON-Relationen Man erhält in diesem Ausführungsbeispiel als Ergebnis des 4. Schrittes also weitere acht Gruppen von Prädiktoren : - die vier Gruppen der Produkte - die vier Gruppen der Relationen Durch die Bereitstellung der vier Gruppen von Basis-Prädiktoren (Schritt 3) und der acht Gruppen von kombinierten Prädiktoren (Schritt 4) erreicht man eine sehr intensive Auswer- tung der in einem einzelnen Spektrum enthaltenen Informationen.

5. Schritt : Nunmehr wird eine Datenanpassung per Logistischer Regression durchgeführt. Die Logisti- sche Regression ist ein gängiges Berechnungsverfahren, das von zahlreichen Statistik- Programmen (z. B. von SPSS) angeboten wird. Eine mathematische Beschreibung findet sich z. B. bei Hosmer & Lemeshow (2000). Bei diesem Verfahren wird berechnet, inwieweit eine abhängige Variable aus einer Reihe von unabhängigen Variablen"erklärt", d. h. auf sie zu- rückgeführt werden kann.

Als abhängige Variable fungiert hierbei eine Zahlenfolge Vi (i = 1... ix), in welcher kodiert wird, ob die zu untersuchende Eigenschaft in dem betreffenden Beispiel vorhanden oder nicht vorhanden ist. Für alle i = 1... ix wird gesetzt : Vi = 1, falls Eigenschaft vorhanden Vi = 0, falls Eigenschaft nicht vorhanden An dieser Stelle kommt also die Unterscheidung von Beispielen und Gegenbeispielen wieder zum tragen.

Als unabhängige Variablen für die Logistische Regression können alle aus den Schritten 1 bis 4 gewonnen Prädiktoren verwendet werden. Die jeweilige Eignung zur Lösung des Problems, d. h. zur"Erklärung"der in Betracht stehenden Eigenschaft wird prädiktorgruppenweise durch einzelne Regressionsrechnungen untersucht.

Als Methode hierbei hat sich bislang die"Vorwärts"-Methode bewährt, verbunden mit einem Aufnahme-Kriterium von 0.1 und einem Ausschluß-Kriterium von 0.05 (Letzteres bedeutet, daß nur Prädiktoren in die Lösung aufgenommen werden, deren Beitrag auf dem 5%-Niveau statistisch signifikant sind). Infolge des Aufnahme-und Ausschluß-Kriteriums/der Signifi- kanz-Bedingungen verringert sich die Zahl der tatsächlich für die Lösung herangezogenen Prädiktoren in der Regel drastisch (auf weniger als ein Drittel der dem Verfahrenen"angebo- tenen"Prädiktoren).

Der jeweilige"Erfolg"kann durch verschiedene, von den Statistikprogrammen gelieferte An- passungsmaße quantifiziert werden. Gearbeitet wurde bislang vornehmlich mit der von SPSS angegebenen Größe"Nagelkerkes r2", welche sich-mit 100 multipliziert-in gewissem Sin- ne als"Varianzaufklärung in %"interpretieren läßt.

Es stellen sich bei diesen Rechnungen diejenigen Prädiktor-Gruppen heraus, die besonders er- folgreich sind. Bei den bisherigen Aufgabenstellungen waren dies die Gruppe der N- Prädiktoren, die Gruppe der N-Produkte, die Gruppe der T-Produkte sowie die Gruppe der NTON-Prädiktoren.

Die erfolgreichsten Prädiktorgruppen sind miteinander zu kombinieren (hierbei sind verschie- dene Varianten zu testen) und auf diese Weise ist die optimale Lösung zu finden. Die opti- male Lösung ist diejenige, welche die maximale Varianzaufkärung unter den vorhandenen Pro-und Contra-Beispiel-Daten bei einer Kreuzvalidierung erreicht, wobei ausschliesslich statistisch mindestens auf 5%-Niveau signifikante Prädiktoren verwendet werden.

Man sollte auch testen, ob aus den ausgewählten Prädiktorgruppen einzelne Prädiktoren ent- fernt werden können, ohne daß sich der Erfolg wesentlich (um mehr als 1% der Varianzauf- klärung) verschlechtert. Dies führt in der Regel zu"sparsameren"Lösungen, die den aufwen- digeren vorzuziehen sind.

Das zur Weiterverarbeitung bestimmte Ergebnis der Regression sind die ausgewählten Prä- diktoren und die zugehörigen Regressions-Koeffizienten. Sind px Prädiktoren Pp (p = 1... px) ausgewählt worden, so erhält man zu jedem dieser Prädiktoren einen Koeffizienten ßp (p = 1 ... px). Hinzu kommt ßo als Koeffizient für die Konstante. (Man beachte hierbei, daß ein Prä- diktor als Spaltenvektor aufzufassen ist, alle ausgewählten Prädiktoren bilden also eigentlich eine Matrix Pip (i = 1... ix und p = 1... px), was oben bei Pp verkürzt dargestellt wird.)

Das Ergebnis des 5. Schrittes besteht in dem Ergebnis der Regressionsrechnung.

Ein Beispiel für ein Ergebnis einer solchen Regressionsrechnung ist in Beispiel A angegeben.

Von der Regressionsrechnung wird erfindungsgemäß grundsätzlich auf zweierlei Art Ge- brauch gemacht : A) Die Regressionskoeffizienten mit den zugehörigen Prädiktoren können verwendet werden zur Voraussage, ob ein neues, bislang nicht untersuchtes Schallsignal eine zu untersuchende, relevante Eigenschaft, die der ersten Gruppe von Schallsignal-Beispielen aus der Merkmal- sermittlung als vorhanden zugeordnet und der zweiten Gruppe als nicht vorhanden zugeordnet wurde, besitzt oder nicht.

Dabei kann das Schallsignal ein Ton, ein Klang, ein Geräusch oder ein Körperschall, insbe- sondere eine Vibration sein, ein durch menschliche Sprache erzeugtes Signal, oder ein durch eine Maschine oder ein technisches Gerät erzeugtes Schallsignal.

Die zu untersuchende Eigenschaft kann insbesondere eine psychische Wirkung eines Tons, eines Klanges oder Geräusches sein, wie beispielsweise die Eigenschaft"schön","warm", "angenehm","heiter", usw.. Die Schallsignal-Beispiele der ersten Gruppe sind dabei solche, denen diese Eigenschaft durch Beurteilung zugeschrieben wird, während die Schallsignal- Beispiele der zweiten Gruppe solche sind, denen die jeweilige Eigenschaft gerade nicht zuge- schrieben wird.

Die Schallsignal-Beispiele der ersten Gruppe sind in einem Ausführungsbeispiel der Erfin- dung solche eines bestimmten zu erkennenden Sprechers und die Schallsignal-Beispiele der zweiten Gruppe sind die wenigstens eines anderen Sprechers, wobei die zu untersuchende Eigenschaft die Identität des Sprechers ist.

Das erfindungsgemäße Verfahren kann weiterhin zur Konstruktion von Kontrollinstrumenten herangezogen werden, welche prüfen, ob und in welchem Maße die akustischen Merkmale bei den von bestimmten Schallerzeugern ausgehenden Schallsignale vorliegen oder nicht.

Sehr geeignet ist das erfindungsgemäße Verfahren u. a. für die Maschinendiagnose. Die Ar- beitsgeräusche einer einwandfrei funktionierenden Maschine können mit dem Klang einer gleichartigen, aktuell zu prüfenden Maschine verglichen und Abweichungen sofort festgestellt

werden. Durch Aufzeichnung von Beispielen ("Negativ-Beispielen") für den Klang bei be- stimmten Maschinenfehlern kann in der Regel sogar eine Zuordnung der Fehlerart erfolgen.

Der Vorteil der Methode liegt u. a. in ihrer Schnelligkeit gegenüber anderen Prüfmethoden ; sie ist daher auch für die Dauerüberwachung von Maschinen geeignet. In entsprechender Weise lässt sich das erfindungsgemäße Verfahren in der Werkstoffprüfung verwenden. Auch hier können gewünschte Werkstoffeigenschaften mit einer Schallcharakteristik korreliert wer- den. Das Werkstück wird zu einer Schallaussendung angeregt, der so im Prüfverfahren er- zeugte Schall wird auf die spezifisch relevanten akustischen Merkmale hin überprüft.

Schließlich kann das erfindungsgemäße Verfahren für die iterative Überprüfung bei der Er- zeugung von Klängen mit einer bestimmten gewünschten Wirkung verwendet werden.

Die Verwendungen des erfindungsgemäßen Merkmals-Analyseverfahrens werden mit Hilfe der nachfolgenden Anwendungsbeispiele näher beschrieben und sind in den Ansprüche ge- kennzeichnet Wie bereits ausgeführt, erfolgt die Verwendung des Ergebnisses der Merkmalsermittlung mit Hilfe des erfindungsgemäßen Verfahrens für die Analyse eines unbekannten Schallsignals in Bezug auf die Eigenschaft oder die Eigenschaften, die der ersten Gruppe von Schallsignalen aus der Merkmalsermittlung als vorhanden zugeordnet und der zweiten Gruppe als nicht vor- handen zugeordnet wurde.

Analyse unbekannter Schallsignale Der Ausgangspunkt ist ein neues, bislang nicht untersuchtes Schallsignal. Für dieses Schallsi- gnal soll durch das Verfahren ermittelt werden, ob eine bestimmte relevante Eigenschaft vor- liegt oder nicht. Zum Beispiel soll herausgefunden werden, ob ein musikalischer Ton als "schön"empfunden werden wird, ein Sprachsignal von einem bestimmten Sprecher stammt oder ob ein Laufgeräusch von einer defekten Maschine stammt.

Hierzu muss das Schallsignal, genauer : ein 400-500ms langer Ausschnitt dieses Signals auf die gleiche Art untersucht werden, wie die Pro-und Contra-Beispiele. Es wird also gemäß der Schritte 1 bis 3 verfahren : 1) Die Tonaufnahme wird in ein computerlesbare Datei umgewandelt.

2) Von dieser Datei wird das (Ausgangs) -Spektrum berechnet.

3) Hieraus werden die beiden Spektren (nicht-transponiert und transponiert) gebildet.

Anhand dieser beiden Spektren werden die Bändersummen berechnet. Man erhält also für das zu untersuchende Beispiel jeweils einen Wert für jeden der Basis-Prädiktoren. Daraus können sodann die Werte für jeden der zusammengesetzten Prädiktoren berechnet werden. (Anders formuliert : Man berechnet für jeden der Prädiktoren, die bislang je aus ix Werten bestanden einen (ix+1)-ten Wert. ) Als Ergebnis des 3. Schrittes waren px signifikante Prädiktoren ermittelt worden. Seien PWertp (p = 1... px) die Werte des zu untersuchenden Beispiels für diese Prädiktoren.

Dann errechnet sich die Wahrscheinlichkeit W dafür, daß das neue Schallsignal die relevante Eigenschaft besitzt gemäß der zentralen Gleichung der Logistischen Regression und unter Verwendung der Hilfsgröße H aus : H = Exp [Sum [ ßp PWertp, {p p = 0... px}]] Es wird gesetzt : PWerto = 1.

W = H/ (1+H) Ist diese Wahrscheinlichkeit größer als eine zu wählende Größe c (0 < c < 1), so wird vor- ausgesagt, daß die relevante Eigenschaft vorliegt. Die geeignete Wahl von c hängt von der konkreten Aufgabenstellung und der spezifischen Situation ab, im Regelfall wird c = 0.5 ge- setzt. Ein höherer Wert für c setzt die Irrtumswahrscheinlichkeit herab, daß fälschlicherweise "Eigenschaft vorhanden"vorausgesagt wird, erhöht jedoch die Irrtumswahrscheinlichkeit da- für, daß fälschlicherweise"Eigenschaft nicht vorhanden"prognostiziert wird. Ein niedrigerer Wert für c als 0.5 erzeugt den umgekehrten Effekt.

Anwendung zur Erzeugung oder Modifizierung von Klängen : Bei der Regression sind zur Voraussage einer bestimmten Schalleigenschaft die Prädiktoren Pp (p = 1... px) als statistisch signifikant ermittelt worden, und es wurde Ihnen ein positiver oder negativer ß-Koeffizient zugewiesen.

Da den einzelnen Prädiktoren konkrete Schallmerkmale zugeordnet sind (so gehört etwa der Prädiktor N3 zu der aufsummierten Energie im 3. Frequenzband des nicht-transponierten Spektrums), lassen sich aus der Regression Schlußfolgerungen für das Erzeugen oder Modifi- zieren von Schall mit der betreffenden Schalleigenschaft ableiten : Der Schallerzeuger ist so einzurichten oder zu modifizieren, daß die zu einem mit positiven ß-Koeffizienten versehe- nen Merkmale gestärkt, die mit einem negativen ß-Koeffizienten versehenen Merkmale abge- schwächt werden.

Beispiel A (Regressionsanalyse) SPSS-Ausdruck"Logistische Regression Fgl/Fg" Die Aufgabenstellung bestand darin, diejenigen akustischen Merkmale zu ermitteln, mit de- nen der Fagottist Nr. 1 unter allen Fagott-Beispielen identifiziert werden kann. Zugrunde la- gen dabei 88 Tonbeispiele dieses Fagottisten (Pro-Beispiele) und 129 andere Fagott-Beispiele (Contra-Beispiele).

In der Tabelle 1 wird u. a. die Größe"Nagelkerkes R-Quadrat"angegeben, diese ist, wie oben bereits erläutert, ein Maß für den Erfolg der Anpassung. Aus der Klassifizierungstabelle (Ta- belle 2) ist zu ersehen, dass 78 von den 88 Fgl-Beispielen korrekt dem Fagottisten zugeordnet werden (88,6 %) und dass von den 129 Nicht-Fgl-Beispielen 122 korrekt als Nicht-Fgl zuge- ordnet werden (94,6 %).

Tabelle 3 zeigt, dass insgesamt 12 Prädiktoren zuzüglich der Konstante für die Regression herangezogen wurden. Diese sind in Spalte 1 aufgeführt. Hierbei bedeutet : TP01. 11 : der Prädiktor, der aus dem Produkt der ersten und elften Bändersumme des trans- ponierten Spektrums gewonnen wurde ; N01 : der Prädiktor, der aus der ersten Bändersumme des nicht-transponierten Spektrums besteht ; N-TON-05 : der Prädiktor, der aus den tonhaften Anteilen der fünften Bändersumme des nicht-transponierten Spektrums besteht.

In Spalte 2 befinden sich die zugehörigen ß-Koeffizienten.

Tabelle 1 -2 Log-Likeli Cox & Snell Nagelkerkes Schritt hood R-Quadrat Quadrat 14 88, 445, 610, 824 Tabelle 2 (Klassifizierungstabellea) Vorhergesagt Beobachtet FG_1 Prozentsatz 0 1 der Richtigen Schritt 14 FG_1 0 122 7 94,6 1 10 78 88,6 Gesamtprozentsatz 92,2

a. Der Trennwert lautet, 500 Tabelle 3 (Variablen in der Gleichung) Regressi-Standard-Wald df Sig. Exp (B) ons-fehler koeffizi- ent B Schritt Tp_01.11 ,887 ,271 10,711 1, 001 2,427 14 Tp_02. 03-1, 732, 413 17,621 1, 000, 177 Tp_02.07 ,560 , 313 3,212 1, 073 1,751 Tp_05. 14-2, 091, 153 16, 628 1, 000, 124 N_01 ,125 , 086 3,417 1, 065 1,133 N07-, 898, 182 24,352 1, 000, 407 N10 1, 449, 256 32,058 1, 000 4,258 N_12 -1,119 , 206 29, 559 1, 000, 327 N_TON_05 -18, 127 6,137 8, 723 1, 003, 000 NTON06-22, 219 6,335 12,301 1, 000, 000 NTON07 17,849 7,989 4,992 1, 025 56465110 N TON_09 64, 054 12,819 24,967 1, 000 6, 58E+27 Konstante 16,084 5,664 8,064 1, 005 9663162,9

Beispiele allgemein Anzahl der Beispiele : Bei den bisherigen Anwendungen wurde gearbeitet mit : ca. 60 Pro-und 130 Contra-Beispielen bei der Identifizierung eines bestimmten musikalischen Ausdrucks ca. 40 Pro-und 140 Contra-Beispielen bei der Identifizierung eines bestimmten Musikers Auflösung : Af= 2.69160 Hz kx=8129 bei der Analyse musikalischer Töne.

Als Maximalfrequenz wurde in den bisherigen Anwendungen gewählt : Fkx = 22 046.90 Hz bei der Analyse musikalischer Töne konstanter Normierungsfaktor : 60 (Für eine Sprachanalyse werden weitgehend dieselben Parameter-Einstellungen empfohlen, jedoch kann die Frequenzobergrenze FkX halbiert und damit auch der Wert kx auf 4065 ver- ringert werden) Berechnung der Tonhaftigkeit mit z. B. nachfolgend angegebenem Mathematica-Programm, ; Ergebnis 0 < TONk < 1 Fref= 185 Hz

Frequenzbänder : Breite : logarithmisch äquidistante Frequenzbänder, d=4 (Kleinterzbänder) Anzahl : für die nicht-transponierten Spektren : mNx = 23 für die transponierten Spektren : mTx = 18 Lage : Als Frequenzmitten (in Hz) wurden bisher gewählt : für die nicht-transponierten Spektren : MNm = 370 # 2 (1/4) # (m-1) (m = 1 ... mNx) für die transponierten Spektren : MTm = 370 # 2(1/4) # (m-1) (m = 1 ... mTx)

Mathematica Programm Mathematica-Programm zur Berechnung der Tonhaftigkeit einer bestimmten Frequenz in einem gegebenen Spekitrum Seien die F [[k]] die Frequenzen des Spektrums (, 7c = 1... kx) mit einer Frequenzauflösung dF (Xf imz Text) von 13. 458/5 Hz. dF = 13.458/5. ; F = Table [dF * (k-1), {k, kx}] Die Index-Grenzen des Bereichs, der für die Berechnung der Tonhaftigkeit einer jeden Frequenz F[[k]] herangezogen wird (diese seien kTonOber und kTonUnter genannt), berechnen sich für jedes k unter Zuhilfenahme der zuvor festzulegenden Größen IntervallFaktorTonInnen und IntervallFaktorTonInnen aus: IntervallFaktorTonInnen = 6/5 ; TonInnenLog = N [Log [IntervallFaktorTonInnen]] ; IntervallFaktorTonAussen = 5/4 ; TonAussenLog = N [Log [IntervallFaktorTonAussen]] ; GrenzenTon [k_] : = Module [ {Obergrenze, Untergrenze, kTonOber, kTonUnter}, Obergrenze = F [[k]] * N [IntervallFaktorTonAussen] ; Untergrenze = F [[k]]/N [IntervallFaktorTonAussen] ; kTonUnter = Min [kx, Ceiling [Untergrenze/dF] + 1] ; kTonOber = Min [kx, Floor [Obergrenze/dF] + 1] ; {kTonUnter, k, kTonOber} ] ; kTonUnter = Table [GrenzenTon [k] [ [l]], {k, kx}] ; kTonOber Table [GrenzenTon [k] [ [311, k, kx)] ; kTonDiff = kTonOber-kTonUnter ; Seien A[[k]] die den Frequenzen F[[k]](k = 1... kx) zugehörigen Amplituden.

Wieviel "Vorherrschaft" einer Frequenz gegenüber der Umgebung besteht, berechnet sich unter Zuhilfenahme der Funktio- nen Gto[x] und NV[k] dann aus: GTon [x] : =WhichE x < TonInnenLog, 1, x < TonAussenLog, (TonAussenLog-x)/ (TonAussenLog-TonInnenLog), x = x, 0] ; NV [k If [ kTonDiff [ [k]] = 0, 0., Sum [GTon [Abs [Flog [[k]]-FLog [[kk]]]] * (A [[k]]-A [[kk]]), {kk, kTonUnter [ [k]], kTonOber [[k]]}] /Sum [GTon [Abs [FLog [[k]]-FLog [[kk]]]], {kk, kTonUnter [ [k]], kTonOber [[k]]}] ] ; Ton = Table [If [k = 1, 0., NV [k]], {k, kx}] ; Jeder Wert Ton[[k]] (k=1 .. kx) gibt also an, wie stark eine Frequenz F[[k]] mit ihrer Amplitude A[[k]] ihre Nachbarschaft "überragt".

Mathematica Programm Auf die Ton[[k]] wird nun eine sigmoide Funktion SigmoTon[x] angewendet, dadurch erhält man Werte zwischen 0 und 1. XNullSigmoTon = 15 ; xEinsSigmoTon = 22 ; BSigmoTon = 0. 25 ; SigmoTon [x_] : = Module [{xNull, xEins, 8, xHalb, A, B, r, c}, xNull = xNullSigmoTon ; xEins = xEinsSigmoTon ; 8 = 8SigmoTon ; xHalb = 0. 5 * (xNull + xEins) ; A Log [1/ (1-8)-1 B = Log [1/8-1] ; r = xHalb * (B-A)/ (xEins * B-xNull * A) ; c =-A/ (r * xEins-xHalb) ; 1/ (1 + Exp [-c * (r * x-xHalb)]) ] ; TON = Table [SigmoTon [ [k]]], {k, kx}] ; Diese Werte TON[[k]] (k = I... kx) bilden das Ma# für die Tohhaftigkeit einer Frequenz F[[k]], so wie es im Verfahren verwendet wird.

Die in der vorstehenden Beschreibung und den Ansprüchen offenbarten Merkmale der Erfin- dung können sowohl einzeln als auch in beliebiger Kombination für die Verwirklichung der Erfindung in ihren verschiedenen Ausführungsformen von Bedeutung sein.

Literatur 'Paul Iverson, Auditory stream segregation by ntusical timbre : effects of static and dynamic acoustic attributes, in : Journal of Experimental Psychology, Human Perception and Performance 21,4 (1995), S. 751-763.

2Giovanni de Poli und Paolo Prandoni, Sonological models for timbre characterization, in : Journal of New Music Research 26 (1997), S. 170-197.

3Mark A. Pitt und Robert G. Crowder, The role of spectral and dynamic cues in imagery for musical timbre, in : Journal of Experimental Psychology, Human Perception and Performance 18,3 (1992), S.

728-738.

4Christoph Reuter, Der Einschwingvorgang nichtperkussiver Musikinstrumente (= Europäische Hoch- schulschriften, Reihe XXXVI Bd. 148), Frankfurt/Main 1995 ; derselbe, Die auditive Diskrimination von Orchesterinstrumenten (= Europäische Hochschulschriften, Reihe XXXVI Bd. 162), Frank- furt/Main 1996.

5 Siehe hierzu auch : Jürgen Meyer, Die Problematik der Qualitätsbestimmutag bei Musikinstrumenten, in : Instrumentenbau-Musik International 31,1977, S. 241-248 6Jürgen Meyer, Akustik der Gitarre in Einzeldarstellungen, Frankfurt/Main 1985.

7 Jürgen Meyer und Werner Lottermoser, Über die Möglichkeiten einer klanglichen Beurteilung von Flügeln, in : Acustica 11,1961, S. 291-297 ; Klaus Wogram und Jürgen Meyer, Akustische Untersu- chungen an Klavieren : 2. Qualitätsbestimmung durch Hörtests, in : Das Musikinstrument 29,1980, S.

1432-1441. sHeinrich Dünnwald, Die Klangqualität von Violinen unter besonderer Berücksichtigung der Herkunft der Instrumente, in : Zum Streichinstrumentenbau des 18. Jahrhunderts. Bericht über das 11. Sym- posium zu Fragen des Musikinstrumentenbaus, Michaelstein, 9. -10. November 1990, Michaelstein 1994, S. 71-82.

9 Jürgen Meyer, Physikalische Aspekte des Geigenspiels. Ein Beitrag zur modernen Spieltechnik und Klanggestaltung. Siegburg 1978 ; derselbe, Physikalische Aspekte des Querflötenspiels. Das Instru- mentalspiel, hg. von Gregor Widholm und Michael Nagy, Wien, München 1989, S. 77-96.

'°Ekkehard Jost, Akustische und psychometrische Untersuchungen an Klarinettenklängen (= Veröf- fentlichungen des Staatl. Instituts für Musikforschung PK, Bd. 1), Köln 1967.

"Karel Krautgartner, Untersuchungen zur Artikulation bei Klarinetteninstrumenten im Jazz, Diss. phil. maschr. Köln 1982.

12Bram Gätjen, Qualitätsmerkmale von Oboenklängen, in : Flöten, Oboen und Fagotte des 17. und 18.

Jahrhunderts (= Bericht über den 1. Teil des 12. Symposiums zu Fragen des Musikinstrumentenbaus Michaelstein, 8. /9. November 1991), Michaelstein 1994, S. 77-85.

13 Hosmer, D. W. & Lemeshow, S. (2000), Applied Logistic Regression, Second Edition. New York : John Wiley & Sons.

14jUlia, L. E., Heck, L. P., Cheyer, A. J. (1997), "A Speaker Identification Agent", Proceedings der AVBPA-Tagung 1997, Crans Montana, Schweiz, S. 261-266