Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
DEVICE AND METHOD FOR ADAPTING ACOUSTIC PATTERNS
Document Type and Number:
WIPO Patent Application WO/2010/105602
Kind Code:
A1
Abstract:
The invention relates to a method for generating a particular acoustic pattern in a spoken text, wherein the method comprises at least the following steps: analyzing a prescribed original acoustic pattern (1), wherein the acoustic pattern is separated into at least two independent voice part signals (3, 5) after the analysis, and special characteristic values are determined in the voice part signals, providing an acoustic pattern copy (2) that is also separated into at least two independent voice part signals (4, 6) after an analysis, wherein the independent voice part signals (4, 6) are generated in a comparable manner, adapting the independent voice part signals of the acoustic pattern copy (2) to the independent voice part signals of the original acoustic pattern (1), and assembling the independently adapted voice part signals of the acoustic pattern copy (2) into a modified acoustic pattern (10).

Inventors:
BECKS HAYO (DE)
Application Number:
PCT/DE2010/000282
Publication Date:
September 23, 2010
Filing Date:
March 15, 2010
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BECKS HAYO (DE)
International Classes:
G10L13/033; G10L13/02; G10L21/00; G10L21/013
Domestic Patent References:
WO2007103520A22007-09-13
WO1993018505A11993-09-16
Foreign References:
US20070192100A12007-08-16
Other References:
None
Attorney, Agent or Firm:
MEYER-THAMER, Ralf (DE)
Download PDF:
Claims:
Titel: Vorrichtung und Verfahren zur Anpassung von Klangbildern

Anmelder: Hayo Becks, Lüttgenglehner Strasse 88, D-41472 Neuss

Patentansprüche

1. Verfahren zur Erzeugung eines bestimmten Klangbildes in einem gesprochenen Text, wobei das Verfahren mindestens die folgenden Schritte aufweist:

Analyse eines vorgegebenen Originalklangbildes (1), wobei nach der Analyse das Klangbild in mindestens zwei unabhängige Sprachteilsignale (3,5) getrennt wird und in den Sprachteilsignalen besondere charakteristische Werte bestimmt werden,

Bereitstellen eines Kopieklangbildes (2), welches ebenfalls nach einer Analyse in mindestens zwei unabhängige Sprachteilsignale (4,6) getrennt wird, wobei die Erzeugung der unabhängigen Sprachteilsignale (4,6) auf vergleichbare Weise geschieht,

Anpassen der unabhängigen Sprachteilsignale des Kopieklangbildes (2) an die unabhängigen Sprachteilsignale des Originalklangbildes (1), und

Zusammenfügen der unabhängigen angepassten Sprachteilsignale des Kopieklangbildes (2) zu einem modifizierten Klangbild (10).

2. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mindestens eines der Sprachteilsignale (3,4,5,6) mit Hilfe der schnellen Fouriertransformation erzeugt wird.

3. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mindestens eines der Sprachteilsignale (3,4,5,6) mit Hilfe der einer linearen Vorauskodierung (linear predictive coding) erzeugt wird.

4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mindestens eines der Sprachteilsignale (3,5) ein Spektralsignal ist, welches mindestens die Informationen über die Formantenfrequenzen und die Bandbreite enthält.

5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mindestens eines der Sprachteilsignale ein Zeitsignal (4,6) ist, welches mindestens die Informationen über die Tonhöhe, die Tonhöhenimpulse und die Stoppkonsonantenimpulse enthält.

6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Kopieklangbild (2) mit Hilfe eines automatischen Übersetzungsmoduls generiert wird, wobei der Text des Originalklangbildes (1) als Übersetzungsvorlage dient.

7. Verwendung des Verfahrens nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Originalklangbild (1) mit einem Kopieklangbild (2) in Übereinstimmung gebracht wird, wobei das Kopieklangbild (2) das Klangbild einer Übersetzung eines Textes darstellt, der dem Originalklangbild (1) zu Grunde liegt.

8. Computersystem mit mindestens einer Datenverarbeitungseinheit und mindestens einem Speicher, dadurch gekennzeichnet, daß die Datenverarbeitungseinheit programmtechnisch so eingerichtet ist, daß sie nach dem Verfahren nach einem der Ansprüche 1 bis 6 arbeitet.

9. Computerprogramm, das Instruktionen aufweist, die zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6 eingerichtet sind.

10. Computerprogrammprodukt welches ein computerlesbares Medium mit Computerprogramm- Code-Mitteln aufweist, bei dem jeweils nach Laden des Computerprogramms ein Computer durch das Programm zur Durchführung des Verfahren nach einem der Ansprüche 1 bis 6 veranlaßt wird.

11. Computerprogrammprodukt, welches ein Computerprogramm auf einem elektronischen Trägersignal aufweist, bei dem jeweils nach Laden des Computerprogramms ein Computer durch das Programm zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6 veranlaßt wird. Titel: Vorrichtung und Verfahren zur Anpassung von Klangbildern

Anmelder: Hayo Becks, Lüttgenglehner Strasse 88, D-41472 Neuss

Zusammenfassung

Verfahren zur Erzeugung eines bestimmten Klangbildes in einem gesprochenen Text, wobei das Verfahren mindestens die folgenden Schritte aufweist:

Analyse eines vorgegebenen Originalklangbildes (1), wobei nach der Analyse das Klangbild in mindestens zwei unabhängige Sprachteilsignale (3,5) getrennt wird und in den Sprachteilsignalen besondere charakteristische Werte bestimmt werden,

Bereitstellen eines Kopieklangbildes (2), welches ebenfalls nach einer Analyse in mindestens zwei unabhängige Sprachteilsignale (4,6) getrennt wird, wobei die Erzeugung der unabhängigen Sprachteilsignale (4,6) auf vergleichbare Weise geschieht,

Anpassen der unabhängigen Sprachteilsignale des Kopieklangbildes (2) an die unabhängigen Sprachteilsignale des Originalklangbildes (1), und

Zusammenfügen der unabhängigen angepassten Sprachteilsignale des Kopieklangbildes (2) zu einem modifizierten Klangbild (10).

(Fig. 2)

Description:
Titel: Vorrichtung und Verfahren zur Anpassung von Klangbildern

Anmelder: Hayo Becks, Lüttgenglehner Strasse 88, D-41472 Neuss

Die vorliegende Erfindung betrifft Vorrichtungen und Verfahren zur Veränderung von Klangbildern, insbesondere menschlichen Klangbildern.

Die menschliche Stimme eines jeden Menschen ist einzigartig, insbesondere was das Klangbild während des Sprechens betrifft. Dieses Klangbild setzt sich aus einer Vielzahl verschiedener Merkmale und Komponenten zusammen, die dann in ihrem Zusammenspiel das endgültige Klangbild der menschlichen Stimme darstellen. Getragen wird das Klangbild aber von den Vokalen. Die menschliche Stimme erzeugt nun das Klangbild unter anderem durch die Lunge, die Stimmbänder und den Vokaltrakt. Die Lunge dient hier als Luftzufuhr und Stütze des Klangbildes. Die Stimmbänder geben den Ton wieder, der dann durch den Vokaltrakt bzw. dessen Form, wie er zur Artikulation eines bestimmten Lautes durch die Muskelbewegungen eingestellt wird, getragen wird. Im Vokaltrakt entstehen die Formanten, also die Konzentration an akustischer Energie in einem bestimmten Frequenzbereich, die dann durch das Resonanzsystem weiter gebildet werden. Diese Vokalformanten sind unabhängig von dem jeweiligen Grundton des Sprechenden. Eine Möglichkeit dieses Klangbild als mathematische Funktion bzw. bildlich darzustellen, wird beispielsweise durch ein Wertetripel bzw. eine Graphik realisiert, welche die Frequenz der Stimme gegen die Lautstärke im Verlauf der Zeit zeigt. Aus dieser so erzeugten matitiematischen Funktion bzw. der graphischen Darstellung des Klangspektrums können dann direkt wichtige charakteristische Elemente dieses Klangspektrums leicht herausgelesen werden. So ist durch einen Vergleich zweier dieser Klangspektren meistens sofort ersichdich, ob es sich bei den Erzeugern dieser Klangspektren um einen identischen Erzeuger handelt. Das Klangspektrum wird nicht nur durch die Frequenz und Lautstärke, sondern auch mittelbar durch die der jeweiligen Stimme innewohnende Dynamik mitgestaltet. Hier ist die Pegelstruktur, die bei gesteigerten Impulsen zu einer höheren Dynamik führt zu nennen. Auch die Länge der Kegelspitzen (also ein Lautstärkewert, beispielsweise gemessen in Dezibel) kann zur Bestimmung der Dynamik herangezogen werden. Kurze Pegelspitzen, erzeugt durch die gesprochenen Explosivlaute, erzeugen eine hohe Dynamik. Weitere die menschliche Stimme charakterisierende Parameter sind im Grundton zu finden, welcher bei Männern in einem Bereich von 15 bis 20 Dezibel liegt. Auch die Länge der ausgesprochenen Laute sind für das jeweilige Klangbild charakteristisch, so dauern Verschlusslaute zwischen 20 bis 30 ms, Zischlaute bis 200 ms an. Die Brummphase beim Aussprechen des „m — Konsonanten" kann bis zu 150 ms und der Geräuschimpuls beim „r" bis zu 40 ms dauern. Die Kenntnis dieser das Klangbild und damit auch das Klangspektrum bestimmenden Charakteristika, erlauben mit Hilfe von Rechenanlagen die Analyse und Manipulation der Klangspektren und sogar die Erzeugung gesprochener Worte aus einem geschriebenen Text heraus.

Stand der Technik sind nun Vorrichtungen, die einen Text in ein gesprochenes Wort umsetzen und so zum Vortragen geschriebener Texte verwendet werden können. Diese gesprochenen Texte sind allerdings in ihrer Klangqualität noch sehr gewöhnungsbedürftig.

Weiterhin gibt es Sprachanalysevorrichtungen mit deren Hilfe man in der Lage ist die Sprache hinsichtlich ihres Klangbildes genau zu untersuchen und diese Analyse dann zur Identifikation der Sprecher zu benutzen.

Auch sind sogenannte Stimmverzerrer bekannt, welche die Stimme und damit auch das Klangbild verändern, so dass es sehr schwer wird den jeweiligen Erzeuger dieses Klangbildes, also den Sprecher zu erkennen. Der Nachteil des Standes der Technik ist es allerdings, dass diese Verzerrer nicht in der Lage sind ein „vernünftiges" natürliches oder auch vorgegebenes Klangbild zu generieren, welches sich für den Zuhörer natürlich anhört, ohne dass es als „Verzerrung" oder computergenerierte Synthese zu erkennen ist. Dadurch ist der Einsatz begrenzt, insbesondere bei Anwendungen in denen eine natürlich klingende Stimme gefordert wird. Es ist allerdings nicht bekannt wie Klangbilder ineinander umgewandelt werden können.

Daher ist es Aufgabe der vorliegenden Erfindung ein Verfahren und eine Vorrichtung bereitzustellen, welche aus einem bereitgestellten Klangbild ein bestimmtes vorgegebenes Klangbild erzeugt. Diese Aufgabe witd erfindungsgemäß gelöst durch ein Verfahren zur Erzeugung eines bestimmten Klangbildes in einem gesprochenen Text, wobei das Verfahren mindestens die folgenden Schritte aufweist:

Analyse eines vorgegebenen Originalldangbildes, wobei nach der Analyse das Klangbild in mindestens zwei unabhängige Sprachteilsignale getrennt witd und in den Sprachteilsignalen besondere charakteristische Werte bestimmt werden,

Bereitstellen eines Kopieklangbildes, welches ebenfalls nach einer Analyse in mindestens zwei unabhängige Sprachteilsignale getrennt wird, wobei die Erzeugung der unabhängigen Sprachteilsignale auf vergleichbare Weise geschieht,

Anpassen der unabhängigen Sprachteilsignale des Kopieklangbildes an die unabhängigen Sprachteilsignale des Originalklangbildes, und

Zusammenfügen der unabhängigen angepassten Sprachteilsignale des Kopieklangbildes zu einem modifizierten Klangbild.

Der Ausdruck „das Klangbild in einem gesprochenen Text" bedeutet im Sinne dieser Anmeldung das Klangbild, welches beim Vortragen eines Textes durch einen Sprecher erzeugt wird. Vortragen des Textes selbst kann sprechen, singen oder jeden mit dem menschlichen Sprachorgan erzeugten Laut bedeuten.

Bei diesem Verfahren wird nun das Originalklangbild, welches es in der Folge zu erzeugen gilt, vorerst einer genauen Analyse unterzogen. Denn nur durch diese Analyse und die damit verbundenen Ergebnisse ist es möglich dieses Klangbild aus einem zweiten Klangbild nachträglich zu erzeugen. Nach der Analyse wird das Originalklangbild in mehrere, aber mindestens zwei getrennte Sprachteilsignale getrennt. Im Sinne dieser Anmeldung wird das Wort Sprachteilsignal nicht nur für das gesprochene, sondern auch für jeden mit dem menschlichen Sprachorgan erzeugten Laut verwendet, so auch für das gesungene Wort oder Ähnliches. Die Trennung in die zwei voneinander unabhängigen Sprachteilsignale kann so verlaufen, dass ein Sprachteilsignal die Informationen zu den Formanten und ihren Formantenfrequenzen enthält und das andere Sprachteüsignal den Ton der gesprochenen Sprache, also die Tonhöhe der Sprache angibt. Eine solche Trennung des Originalklangbildes kann in einem Spektrum und in einem Zeitsignal wiedergegeben werden. Die Formantenfrequenzen, die jeweilige Bandbreite der zu trennenden Signalteile, die Tonhöhe, der Tonhöhenimpuls sowie der Stoppkonsonantenitnpuls stellen, nicht einschränkend zu verstehen, charakteristische Werte der Sprachteilsignale dar.

Das Spektrum, bzw. das Spektralsignal kann beispielsweise mit Hilfe einer linearen Vorauscodierung oder auch mit Hilfe einer schnellen Fouriertransformation berechnet werden. Die lineare Vorauscodierung (linear predictive coding (LPC)) ist ein in der Audiosignalverarbeitung verwendetes Verfahren. Es wird auch in der Sprachverarbeitung verwendetet. Hierbei wird im zu untersuchenden Signal, basierend auf der linearen Verknüpfung vorhergehender Abtastwerte, der nächste Abtastwert geschätzt und dann nur die Differenz (also der Differenzwert) dazu weiter übertragen. Hierdurch wird ein komplexes Signal komprimiert und kann effizient für eine weitere Verarbeitung, möglicherweise eine erneute Datenreduktion, verpackt werden. Anders und bildhafter ausgedrückt, liefert das LPC-Verfahren eine Hüllkurve über ein Spektrum, in welchem das Zentrum der Formanten und die Halbwertsbreite bestimmter Teile des Spektrum, die sogenannten Formantenbänder, leicht zu erkennen sind. Die schnelle Fouriertransformation stellt einen Algorithmus zur Kodierung und Dekodierung von Signalen, also Sprachsignalen auf Frequenzebene dar. So kann man beispielsweise mit der schnellen Fouriertransformation den Grundschwingungsgehalt eines Signals in eine Reihe rein sinusförmiger Anteile zerlegen und so ein leicht bearbeitbares Frequenzspektrum erhalten.

Das zweite Sprachteilsignal, welches den Ton der gesprochenen Sprache angibt, also die Tonhöhe kann ebenfalls durch ein LPC-Verfahren, erzeugt werden. In diesem Fall wird es mit der Funktion des inversen Filterns erzeugt. Dieses Sprachteilsignal ist ein reines Zeitsignal. Dieses Signal weist außerdem noch Informationen über Tonhöhenimpulse, Stoppkonsonantenimpulse und Lärmtransienten auf.

Nachdem nun das Originalklangbild analysiert und in die Sprachsignalteile zerlegt wurde, wird genau das gleiche Verfahren auf ein bereitgestelltes Kopieklangbild angewendet. Hierdurch werden die jeweiligen (Kopie)-Sprachteilsignale erzeugt, die ihren jeweiligen (Original)- Sprachteilsignalen zugeordnet werden können.

In einem letzten Schritt werden die (Kopie) -Sprachteilsignale und (Original)-Sprachteilsignale miteinander verglichen und aneinander angepasst. Daraufhin werden die angepassten (Kopie)- Sprachteilsignale wieder zu einem, gemeinsamen modifizierten Klangbild zusammengefasst, welches nun mit dem Originalldangbild annähernd identisch ist.

Das Anpassen der Sprachteilsignale kann/muss für jedes Sprachteüsignal einzeln durchgeführt werden. So werden bei dem Spektralsignal, also dem Spektrum, welches die Informationen zu den Formanten und den Formantenfrequenzen enthält, hier nur die jeweiligen Formaten geändert. Dies geschieht getrennt von dem anderen Sprachsignal. In dem, nach der Analyse vorliegenden Formantenspektrum, sind die Vokalformanten einzeln zu erkennen und zwar dergestalt, dass die einzelnen Vokale bei verschiedenen Frequenzen aufgelistet sind. Ein Vokal kann durchaus mehr als einen Formanten aufweisen, wobei die einzelnen Formanten selbst auch noch eine gewisse Bandbreite haben. Diese Formanten besitzen also einen Frequenzbereich, in dem sie liegen. So liegt der Vokal „u" mit seinem ersten Formanten in einem Bereich zwischen 250 Hz und 350 Hz, der zweite Formant liegt bei ungefähr 800 Hz. Der Vokal „O" weist Formantenfrequenzwerte von ungefähr 500 Hz und 1000 Hz auf, der Vokal „A" liegt bei 1000 Hz und 1400 Hz. Die einzelnen Vokale können noch mehr als zwei Formanten aufweisen, aber nur die ersten beiden dienen der Verständlichkeit der Vokale. Die weiteren Formanten sind eher für die Artikulationseigenschaften des jeweiligen Sprechers verantwortlich. Der Vollständigkeit liegt eine Tabelle der Vokal-Formant-Zentren am Ende der Beschreibung bei.

Damit die beiden Klangbilder sich in dieser Hinsicht gleichen, müssen die Spektrogramme einander angepasst werden. Dies ist für einen Synthesizer der heutigen Generation, also dem Stand der Technik, zu bewerkstelligen. Je genauer die Anpassung gelingt, je mehr Rechenzeit bei der Anpassung verwendet wird, desto identischer werden die Formanten klingen. Das heißt die Bandbreite, die Resonanzfrequenz und die Lautstärke sind mit dem Originalsprachteilsignal zu vergleichen und auf das Kopiesprachteilsignal zu übertragen. Hierbei ist zu beachten, dass bei der Veränderung eines Klangbildes nicht der gesprochene Text verändert wird.

Das zweite Sprachteilsignal, welches den Ton der gesprochenen Sprache angibt, also die Tonhöhe, wird relativ simpel durch einen Tonhöhenmanipulator, beispielsweise durch einen Tonhöhenfrequenzwandler, an die jeweilige Tonhöhe angepasst. Da dieses Signal den Grundton des Klangbildes angibt, erzeugt eine Anpassung allein schon des Grundtones eine gewisse Ähnlichkeit der Klangbilder. Wichtig bei dieser Veränderung ist es, dass das Sprachsignal, also die Stknme ohne Veränderung ihrer charakteristischen Eigenschaften zu einer anderen Tonhöhe umgewandelt werden kann.

In einer anderen Ausführungsform der Erfindung ist diese dadurch gekennzeichnet, dass mindestens eines der Sprachteilsignale mit Hilfe der schnellen Fouriertransformation erzeugt wird. Die Vorteile dieser Ausführungsform sind weiter oben schon genau beschrieben worden, wobei die jeweilige Geschwindigkeit des anzuwenden Algorithmus bei der Ausführung eine wichtige Rolle spielt. Hier können beispielhaft und nicht einschränkend zu verstehen, die Algorithmen von Cooley und Tukey, sowie der Radix-4- der Winograd, der Primfaktor- und der Goertzel-Algorithmus genannt werden.

In einer anderen bevorzugten Ausführungsform der Erfindung wird mindestens eines der Sprachteilsignale mit Hilfe einer linearen Vorauskodierung (linear predictive coding) erzeugt. Auch dieses Verfahren liegt in vielen Algorithmen vor und ist allgemein bekannt und in seinen Grundzügen weiter oben in der Beschreibung erläutert worden.

In einer weiteren ganz besonderen Ausführungsform der Erfindung ist mindestens eines der Sprachteilsignale ein Spektralsignal, welches so beschaffen ist, dass es mindestens die Informationen über die Formantenfrequenzen und die Bandbreite enthält. Diese beiden Informationen können dann mit Hilfe geeigneter Module verändert und die jeweiligen Werte des anzupassenden (Kopie)-Sprachteilsignales an die Werte der (Original)-Sprachteilsignales angepasst werden.

In einer weiteren bevorzugten Ausführungsform der vorliegenden Erfindung erfolgt die Trennung des Klangbildes so, dass mindestens eines der Sprachteilsignale ein Zeitsignal ist, welches mindestens die Informationen über die Tonhöhe, die Tonhöhenitnpulse und die Stoppkonsonantenimpulse enthält.

In einer ganz besonderen Ausführungsform der Erfindung findet diese Erfindung folgende Verwendung, wobei hier das Originalklangbild mit einem Kopieklangbild in Übereinstimmung gebracht wird, und wobei das Kopieklangbild das Klangbild einer Übersetzung eines Textes ist, der dem Originalklangbild zu Grunde liegt. Anders gesagt kann das Verfahren bei der Synchronisation von Texten, insbesondere bei Hörspielen und Filmen, verwendet werden. Der Zuhörer wird nicht mit einer Stimme konfrontiert, die keinerlei Ähnlichkeit mit der Stimme des Sprechers aufweist, sondern die Ähnlichkeit wird durch das erfindungsgemäße Verfahren nachträglich in das Werk eingebracht.

In einer weiteren ganz besonders bevorzugten Ausfϊihrungsform der vorliegenden Erfindung ist das Verfahren dadurch gekennzeichnet, dass das Kopieklangbild mit Hilfe eines automatischen Übersetzungsmoduls generiert wird, wobei der Text des Originalklangbildes als Übersetzungsvorlage dient. Dieses Verfahren sorgt für eine automatische Synchronisation ohne den Einsatz eines menschlichen Übersetzers, aber unter Beibehaltung des gleichen Klangbildes, nämlich genau dem des jeweiligen Sprechers. Die Sprachforschung ist zur Zeit schon in der Lage Emotionen in einem gesprochenen Text zu erkennen. Die Umsetzung dieser Emotionen, also beispielsweise Freude, Zorn, Aufgebrachtheit und vieles anderes mehr wird durch das vorliegende Verfahren nun auch in das Klangbild übernommen, so dass die automatische Synchronübersetzung unter Beibehaltung eines hohen Grades an Authentizität möglich sein wird. Gleiches gilt nun ebenfalls für die (synchrone) Übersetzung durch einen Sprecher

In einer weiteren Ausfülirungsform der Erfindung wird ein Computersystem mit mindestens einer Datenverarbeitungseinheit und mindestens einem Speicher, dadurch gekennzeichnet, daß die Datenverarbeitungseinheit programmtechnisch so eingerichtet, dass sie nach dem erfindungsgemäßen Verfahren arbeitet. Der Einsatz von computergestützten Systeme ist bei dieser Erfindung ratsam, da die Rechenleistung zur Erstellung der Spektren und Sprachteilsignale sonst nur schwer möglich wäre.

Liste der gemittelten Formantiagen aus dem Vokaldreieck. Tabelle 1

Folgende Beispiele sollen die Verwendung des Verfahrens, allerdings nicht einschränkend zu verstehen, verdeudichen.

Ein amerikanischer Spielfilm wird nach seinem großen Erfolg in den Vereinigten Staaten auch zur Aufführung in Europa freigegeben. Hierfür müssen die Texte der jeweiligen Schauspieler in die einzelnen vorgesehenen Landessprachen übersetzt werden. Die Text wird dann dem Synchronsprecher vorgelegt. Der Sprecher, meist ebenfalls ein Schauspieler liest nun den Text, gleichzeitig während des Abspielens des Filmes vor. Hierbei achtet er darauf, dass die Lippenbewegung und die Sprechpausen des Schauspielers im Film mit dem gesprochenen Text der Übersetzung übereinstimmen. Die Tonaufnahme des gesprochenen Textes des Originalfiltnes des jeweiligen Schauspielers ist nun das Originalklangbild, die Tonaufnahme des gesprochenen Textes des Synchronsprechers, das Kopieklangbild. Dieser gilt es nun an dieses Originalklangbild anzupassen, um ein möglichst authentisches Hörerlebnis zu vermitteln. Dieses Kopie-Klangbild des Synchrontextes wird ebenso wie das Original-Klangbild des Filmes durch das erfindungsgemäße Verfahren in einem ersten Schritt analysiert und dann jeweils in zwei unabhängige Sprachteile getrennt.

Hierzu wird das jeweilige Klangbild jeweils in zwei Sprachteilsignale zerlegt, wobei eines durch ein Spektrum das andere durch ein Zeitsignal beschrieben werden kann.

Die Zerlegung in den Spektralteil des Klangbildes soll in beiden Fällen, also beim Original- und beim Kopieklangbild mit Hilfe der schnellen Fouriertransformation erfolgen. Danach wird das Spektrum weiter bearbeitet und zwar nach einem Verfahren, welches in den Artikeln von K. Hermansen und F.K. Fink „Feature extraction für profoundly deaf people", D.S.P. Group, Institute for Elektronic Systems, Alborg University, September 1993, und von K. Hermansen, P. Rubak und F.K. Fink, „ Spectral sharpening of speach signals using the patran tool", Alborg University beschreiben wurde. Hierbei wkd das Spektrum in eine Vielzahl von parallelen Abschnitten der zweiten Ordnung unterteilt. Die Abschnitte können nun leicht durch 3 Parameter gekennzeichnet werden, nämlich durch den Resonanzwert fo, den Q- Wert und die Potenz des Spektralteils, die ungefähr der Frequenz f 0 entspricht. Mit Hilfe dieser drei Parameter kann das Spektrum manipuliert, also an das Originalspektrum angepasst werden. Zusätzlich weist das Spektrum auch noch die oben genannten Formanten auf, die ebenfalls die Stimme charakterisieren und miteinander in Übereinstimmung gebracht werden müssen. Dieser nicht unwesentliche Informationsgehalt des Sprachsignals kann unabhängig von dem zweiten Sprachteilsignal bearbeitet werden.

Das zweite Sprachteilsignal, nämlich das Zeitsignal beinhaltet die Information über die Tonhöhe der Sprache des jeweiligen Sprechenden. Die Tonhöhe eines Mannes liegt ungefähr bei 100 bis 300 Hz. Die genaue Übereinstimmung der Tönhöhen wird durch einen Tonhöhenwandler vorgenommen. Auch diese Änderungen können unabhängig von dem ersten Sprachteilsignal vorgenommen werden und beeinflussen die dort vorgenommenen Veränderungen nicht. Die so geänderten Sprachteüsignale werden wieder zusammengeführt und bilden dann im Endeffekt zusammen das Origiαalklangbild, allerdings bei Wiedergabe des synchronisierten Textes, ab.

Weisen die Klangbilder der beiden Sprecher auch ohne Bearbeitung schon, große Ähnlichkeiten auf, so vereinfacht dies die Anwendung des erfindungsgemäßen Verfahrens, da die Anpassung nur kleiner Änderungen umfasst und somit die aufzuwendende Rechenleistung nicht so hoch ist. Dies kann eine bedeutende Zeit- und Kostenersparnis bedeuten.

Die Übersetzung eines Interviews entweder synchron, also gleichzeitig zu dem geführten Interview, oder aber auch bei der nachträglichen Bearbeitung mit einer Person des öffentlichen Lebens erfährt ebenfalls nennenswerte Vorteile, falls die Erfindung hier verwendet wird. Die Verwendung der erfindungsgemäßen Vorrichtung und des erfindungsgemäßen Verfahrens gewährleistet nämlich in diesem Fall die Übermittlung der Authentizität und auch der Emotionen des jeweiligen Sprechers. Dies wiederum unterstützt die jeweilige Rede und, da die Information nicht nur durch das gesprochene Wort weitergegeben wird, sondern auch durch Ton, Lautstärke und die hierin vorhandenen Emotionen.

Weiterhin ist es durchaus denkbar, dass die Anpassung der Klangbilder an andere vorgegebene Klangbilder zum Zwecke der Imitation verwendet wird. Die zur Zeit sehr beliebten Karaoke- veranstaltungen werden nun dadurch enorm aufgewertet werden, wenn nicht nur der Titel, sondern auch die Stimme des „Interpreten", also sein Klangbild von dem jeweiligen Vortragenden gewählt werden können.

Im folgenden werden nicht einschränkend zu verstehende Ausführungsbeispiele anhand der Zeichnung besprochen. In dieser zeigt:

Fig. 1 eine schematische mögliche Darstellung der Lage der Vokalformanten zweier unterschiedlicher Sprecher Ia, Ib. Hier sind deutlich die Unterschiede bei den Peaks der Vokalformanten und bei der Frequenzbreite zu sehen. Mit Hilfe des erfϊndungsgemäßen Verfahrens sind die beiden Darstellungen nach der Bearbeitung kaum noch oder im Idealfall nicht mehr zu unterscheiden.

Fig. 2 eine schematische Darstellung Ablaufes der Erfindung, Fig. 1 zeigt schematisch die Lage der Vokalformanten bei zwei unterschiedlichen Personen a , b. Jeder einzelne Vokal ist hier mit seinem wesentlichen Formant angegeben. Die Formanten sind nicht einer bestimmten Frequenz zuzuordnen, sie haben einen Frequenzbereich, der allerdings deutlich zu beiden Seiten hin abklingt. In dieser Figur 1 jedenfalls sind klar die Unterschiede bei den Peaks der Vokalformanten und bei der Frequenzbreite zu sehen. Mit Hilfe des erfindungsgemäßen Verfahrens sind die beiden Darstellungen nach der Bearbeitung kaum noch oder im Idealfall nicht mehr zu unterscheiden.

Fig. 2 zeigt schematisch den Ablauf der Erfindung. Es Hegen zwei Klangbilder vor. Das Oi-iginalklangbild 1 und das zu bearbeitende Klangbild, das Kopieklangbild 2.. Diese beiden Klangbilder werden, wie beschrieben analysiert und in die unabhängigen Sprachteilsignale 3,4,5,6 zerlegt, wobei in diesem Beispiel für jedes Klangbild ein Spektralteil des Klangbildes 3, 4 und ein Zeitsignal 5, 6 generiert wird. Im dem Teil des Sprachteilsignals, der als Spektralteil 3, 4 vorliegt sind unter anderem die Informationen über die Formanten, die Formantenfrequenz, Bandbreite und Ähnliches zu finden. In dem anderen Sprachsignals, dem Zeitsignal sind unter anderem die Informationen über die Tonhöhe aufzufinden. In dem erfinderischen Verfahren werden nun die beiden Sprachteilsignal jeweils paarweise miteinander verglichen, also das Spektrumsprachteilsignal 3 des Originalklangbildes 1 mit Spektrumsprachteilsignal 4 des Kopieklangbildes 2 und Zeitsprachteilsignal 5 den Originalklangbildes 1 mit dem Zeitsprachteilsignal 4 den Kopieklangbildes 2. Anschließend werden die beiden unabhängigen Sprachteilsignale 4, 6 angepasst und zu dem modifizierten Klangbild 10 zusammengefügt.