Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR ENLARGING THE BANDWIDTH OF A NARROW-BAND FILTERED SPEECH SIGNAL
Document Type and Number:
WIPO Patent Application WO/2004/044894
Kind Code:
A1
Abstract:
The narrow-band filtered speech signal is evaluated in relation to the frequency components above a threshold frequency such that a spectral structure is calculated from the narrow-band speech signal time sections, each narrow band voice signal time section is classified as a voiced and/or unvoiced sound, first supplements exhibiting a spectral structure are produced in order to enlarge the narrow-band voice signal in relation to the above sound-type classification thus performed, second additions exhibiting a spectral structure are combined in order to enlarge the narrow-band voice signal based on generally known methods in order to evaluate the statistic properties of the narrow-band voice signal, the two additions and the narrow band spectral structure are combined in such a way that an enlarged spectral structure respectively occurs and a broadband expanded voice signal time section is produced on the basis thereof before a broadband enlarged voice signal is produced from the individual broadband enlarged voice signal time sections.

Inventors:
KLINKE STEFANO AMBROSIUS (DE)
LORENZ FRANK (DE)
Application Number:
PCT/EP2003/011137
Publication Date:
May 27, 2004
Filing Date:
October 08, 2003
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIEMENS AG (DE)
KLINKE STEFANO AMBROSIUS (DE)
LORENZ FRANK (DE)
International Classes:
G10L21/038; G10L15/14; G10L21/0264; (IPC1-7): G10L21/02
Domestic Patent References:
WO2002052545A12002-07-04
WO2002093561A12002-11-21
Foreign References:
US20020128839A12002-09-12
DE10041512A12002-03-14
US5455888A1995-10-03
Attorney, Agent or Firm:
SIEMENS AKTIENGESELLSCHAFT (München, DE)
Download PDF:
Claims:
Patentansprüche
1. Verfahren zur Erweiterung der Brandbreite eines schmalban dig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals, oberhalb einer Grenzfrequenz des schmalbandigen Sprachsignals, bei dem a) das schmalbandige Sprachsignal in Sprachsignalzeitab schnitte unterteilt wird (P0. 1, PO. 2) und jeweils eine spektrale Struktur aus den Sprachsignalzeitabschnitten be rechnet wird (P1. 1, P1. 2, P2.2), b) jeder schmalbandige Sprachsignalzeitabschnitt als ein stimmhafter und/oder stimmloser Laut klassifiziert wird (P2.1, P3.2), dadurch gekennzeichnet, dass c) erste eine spektrale Struktur aufweisende Ergänzungen (EG1) zur Erweiterung des schmalbandigen Sprachsignals in bezug auf die in b) vorgenommene lautartbezogene Klassifi zierung erzeugt werden (P3.1, P4.2), wobei insbesondere zumindest für den Fall des stimmhaften Lautes die Ergän zung unabhängig von dem jeweiligen Laut ist, d) zweite eine spektrale Struktur aufweisende Ergänzungen (EG2) zur Erweiterung des schmalbandigen Sprachsignals ba sierend auf allgemein bekannten Methoden zur Auswertung der statistischen Eigenschaften des schmalbandigen Sprach signals erzeugt werden (P4.1, P6.2), wobei die Ergänzung abhängig von dem jeweiligen Laut ist, e) die erste Ergänzung (EG1) jeweils mit der zweiten Ergän zung (EG2) verknüpft wird (EG3, P5.1, P7.2), f) die spektrale Struktur des schmalbandigen Sprachsignal zeitabschnittes und die spektrale Struktur der verknüpften Ergänzung (EG3) zeitabschnittsweise derart verknüpft wer den (P6.1, P8.2), dass jeweils eine erweiterte spektrale Struktur entsteht, g) auf Basis der erweiterten spektralen Struktur jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt er zeugt wird (P7.1, P9.2, P10.2), h) aus den einzelnen breitbandigen erweiterten Sprachsignal zeitabschnitten ein breitbandiges erweitertes Sprachsignal erzeugt wird (P8.1, P9.1, P10.1, P11. 2, P12.1, P13.2).
2. Verfahren nach Anspruch 1, dadurch gekennzeich net, dass die spektrale Struktur des schmalbandigen Sprachsignalzeitab schnittes durch eine Fouriertransformation berechnet wird und aus der erweiterten spektralen Struktur durch eine inverse Fouriertransformation der breitbandige erweiterte Sprachsig nalzeitabschnitt erzeugt wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeich net, dass die spektrale Struktur des schmalbandigen Sprachsignalzeitab schnittes durch Berechnung des Frequenzgangs eines zum Sprachsignalzeitabschnitt gehörenden LPCSynthesefilters be rechnet wird, aus der erweiterten spektralen Struktur die Ko effizienten eines breitbandigen LPCSynthesefilters berechnet werden, bezüglich der Zeitabschnittdauer den schmalbandigen Sprachsignalzeitabschnitten entsprechende Prädiktionsfehler signalzeitabschnitte eines breitbandigen Prädiktionsfehler signals erzeugt werden (P5.2) und durch Filterung des Prädik tionsfehlersignalzeitabschnittes in dem breitbandigen LPC Synthesefilter jeweils ein breitbandiger erweiterter Sprach signalzeitabschnitt erzeugt wird (P9.2, P10.2).
4. Verfahren nach Anspruch 1, dadurch gekennzeich net, dass die für die als stimmhafte Laute klassifizierten schmalbandi gen Sprachsignalzeitabschnitte jeweils erzeugte erste Ergän zung (EG1) derart erzeugt wird (P3.1, P4.2), dass die Energie dieser Ergänzung (EG1) in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalabschnittes vernachlässigbar ist.
5. Verfahren nach Anspruch 1 oder 4, dadurch gekenn zeichnet, dass die für die als stimmlose Laute klassifizierten schmalbandi gen Sprachsignalabschnitte jeweils erzeugte erste Ergänzung (EG1) derart erzeugt wird (P3.1, P4.2), dass die Energie die ser Ergänzung (EG1) in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalabschnittes nicht vernachlässigbar ist.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die erzeugte erste Ergänzung (EG1) abfällt, exponentiell ab fällt, ansteigt, gleichbleibendes Nullniveau aufweist oder gleichbleibendes Niveau aufweist.
7. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass der aus der erweiterten spektralen Struktur jeweils erzeugte breitbandige erweiterte Sprachsignalzeitabschnitt hochpassge filtert wird (P8.1, P11. 2), der hochpassgefilterte Sprachsig nalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt verknüpft wird (P9.1, P12.2) und aus den einzelnen verknüpften Sprachsignalzeitabschnitten das breitbandige erweiterte Sprachsignal erzeugt wird (P10.1, P13.2).
8. Verfahren nach Anspruch 1, dadurch gekennzeich net, dass die Verknüpfung des ersten Ergänzung (EG1) mit der zweiten Ergänzung (EG2) durch Multiplikation erfolgt.
Description:
VERFAHREN ZUR ERWEITERUNG DER BANDBREITE EINES SCHMALBANDIG GEFILTERTEN SPRACHSIGNALS Verfahren zur Erweiterung der Bandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Tele- kommunikationsgerät gesendeten Sprachsignals Die vorliegende Erfindung betrifft ein Verfahren zur Erweite- rung der Brandbreite eines schmalbandig gefilterten Sprach- signals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals gemäß dem Oberbegriff des Patentan- spruches 1.

Sprachcodierverfahren sind durch ihre unterschiedlichen Band- breiten charakterisiert. So gibt es beispielsweise Schmal- band-Codierer (engl. : narrow-band coder), welche Sprachsigna- le, die im Frequenzbereich bis 4000 Hz liegen, in codierte Sprachsignale umsetzen und Breitband-Codierer (engl. : wide- band coder), welche Sprachsignale, die typischerweise zwi- schen 50 und 7000 Hz liegen, in codierte Sprachsignale umset- zen. Die Sprachsignale, die dem Schmalband-Codierer zugeführt werden, werden dabei in der Regel mit einer geringeren Ab- tastrate abgetastet als die Sprachsignale, die dem Breitband- Codierer zugeführt werden. Dafür ist die Nettobitrate des Schmalband-Codierers in der Regel niedriger als die Nettobit- rate des Breitband-Codierers.

Werden die codierten Sprachsignale verschiedener Bandbreite innerhalb des gleichen Kanalmodus übertragen, so ermöglicht dies die Anwendung verschiedener Raten bei der Kanalcodie- rung, was zu unterschiedlichem Fehlerschutz führt. So ist es bei Anwendung des gleichen Kanalmodus möglich, bei schlechten Übertragungsbedingungen über den Übertragungskanal den schmalbandigen codierten Sprachsignalen im Zuge der Kanalco- dierung mehr redundante Fehlerschutzbits hinzuzufügen als den breitbandigen codierten Sprachsignalen. Daher bietet sich bei variierenden Übertragungsbedingungen die Übertragung von Sprachsignalen über einen Übertragungskanal an, bei der ab-

hängig von den Übertragungsbedingungen die Sprachcodierung zwischen einer breitbandigen und einer schmalbandigen Sprach- codierung umgeschaltet ["Wide-Band"to Narrow-Band"-Switching ("WB/NB"-Switching) ] und die Kanalcodierung, insbesondere die Rate der Kanalcodierung, daran angepasst wird. Empfangsseitig erfolgt eine an die Codierung angepasste Decodierung der co- dierten Sprachsignale.

Bei dem neuen Telekommunikationssystem zur drahtlosen Tele- kommunikation UMTS (Universal Mobile Telecommunications Sys- tem") ist beispielsweise eine Breitband-Codierung standardi- siert worden, um mit den zukünftigen UMTS-Endgeräten eine sehr gute Sprachqualität zu gewährleisten.

Nachteilig bei einem derartigen Ansatz ist, dass ein empfan- gender Teilnehmer insbesondere das plötzliche Umschalten von Breitband-Codierung auf Schmalband-Codierung und den damit verbundenen Qualitätsverlust als äußerst störend empfindet.

Dieses sogenannte"WB/NB-Switching"-Problem kann auch bei der Handover-Situation in Telekommunikationssystemen zur drahtlo- sen Telekommunikation mit mehreren Basisstationen und Mobil- teilen, wobei die Basisstationen unterschiedlichen Telekommu- nikationsteilsystemen zugeordnet sind und die Mobilteilen in- nerhalb des Systems für ein teilsystemübergreifendes Roaming als Dual-Mode-Mobilteilen ausgebildet sind, auftreten : Ausgangspunkt der Betrachtungen ist eine bestehende breitban- dige Gesprächsverbindung zwischen einer Basisstation und ei- nem Mobilteil. Wenn nun für das Mobilteil bzw. den Ge- sprächsteilnehmer eine Übergabe (Handover) an eine andere Ba- sisstation durchgeführt wird, kann der Fall eintreten, dass die übernehmende Basisstation zu einem Teilsystem gehört, welches den breitbandigen Sprachservice nicht unterstützt.

Aus diesem Grunde wird dann auf die schmalbandige Codierung und Decodierung zurückgeschaltet.

Auch in diesem Szenario wird der empfangende Teilnehmer ins- besondere das plötzliche Umschalten von Breitband-Codierung auf Schmalband-Codierung und den damit verbundenen Qualitäts- verlust als äußerst störend empfinden.

Basisstationen, die wie oben beschrieben keine breitbandige Gesprächsverbindung unterstützen, sowie andere Telekommunika- tionsendgeräte, welche lediglich Schmalband-Codierung oder analoge Sprachsignalübertragung im Bereich von typisch 300 bis 3400 Hz ermöglichen, sind noch weit verbreitet, da die bisher bekannten Telekommunikationssysteme Sprachsignale bis- her im Allgemeinen mit einer Bandbreite von etwa 3,1 kHz zwi- schen 3400 Hz und 300 Hz übertragen, da die Verständlichkeit der Kommunikation trotz der damit gegebenen Bandbegrenzung der Sprache ausreichend ist. Zur Übertragung der Sprachsigna- le verwenden die bisher bekannten Telekommunikationssysteme dabei verschiedene digitale und analoge Codierverfahren.

Um eine Qualitätsverbesserung derart zu erzielen, dass eine Sprachqualität in Telekommunikationssystemen mit der Sprach- qualität bei Radio-und Fernsehsignalen vergleichbar ist, wird es erforderlich, Frequenzanteile der Sprache, die über die Bandbreite von 300 Hz bis 3400 Hz hinausgehen, empfänger- seitig abzuschätzen und zu synthetisieren.

Im Stand der Technik sind verschiedene Verfahren bekannt, die eine Erweiterung der Bandbreite eines schmalbandigen Sprach- signals ermöglichen.

In vielen Verfahren der digitalen Sprachcodierung wird das digitale Sprachsignal zur Weiterverarbeitung und Übertragung in Koeffizienten, welche die spektrale Grobstruktur eines Signalabschnitts beschreiben, und ein sogenanntes Restsignal (auch Prädiktionsfehlersignal genannt) aufgespalten, welches die spektrale Feinstruktur bildet. Dieses Restsignal enthält nicht mehr die spektrale Einhüllende des Sprachsignals, wel-

che durch die Koeffizienten, die die spektrale Grobstruktur beschreiben, repräsentiert wird.

Auf der Decoderseite werden diese beiden-meist quantisiert übertragenen-Teile, welche die spektrale Grob-und Fein- struktur beschrieben, wieder zusammengefügt und bilden das decodierte Sprachsignal.

Eine typische Repräsentation für die spektrale Grobstruktur bilden die LPC-Koeffizienten, welche ein rekursives Filter (sogenanntes Synthesefilter) beschreiben, dessen Übertra- gungsfunktion der spektralen Grobstruktur entspricht. Diese Koeffizienten werden in ihrer eigentlichen oder einer trans- formierten Form in vielen Sprachcodern verwendet. Hierbei wird auf Empfängerseite das empfangene Restsignal als Ein- gangssignal für das Synthesefilter verwendet, so dass am Aus- gang des Filters das rekonstruierte Sprachsignal verfügbar ist. Die LPC-Koeffizienten sind folglich eine Repräsentation der spektralen Grobstruktur eines Sprachsignalsabschnitts und können unter Verwendung eines passenden Anregungssignals zur Synthese von Sprachsignalen verwendet werden.

Aus der Druckschrift-Carl, H. ; Heute, U. :"Bandwidth Enhan- cement of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181-ist ein Verfahren zur Erweiterung der Bandbreite im oberen Frequenzbereich bekannt, das zur Auswertung der statistischen Eigenschaften eines schmalbandigen Sprachsignals auf besondere Sprachdatenbücher, den sogenannten Codebüchern (Codebooks) basiert, die eine Re- lation zwischen den LPC-Koeffizienten (Linear Predictive Co- ding, lineare Prädiktionscodierung) eines schmalbandigen Sprachsignalabschnitts und denen eines breitbandigen Sprach- signalabschnitts bilden. Das hat zur Folge, dass die Codebü- cher gleichzeitig mit schmalbandiger und breitbandiger Spra- che trainiert und im Kommunikationsendgerät abgespeichert werden müssen.

Außerdem wird aus dem schmalbandigen Restsignal, das durch die lineare Prädiktionsanalyse des schmalbandigen Sprachsig- nals erzeugt wurde, ein breitbandiges Anregungssignal er- zeugt, welches Frequenzkomponenten oberhalb der Bandbreite des schmalbandigen Sprachsignals enthält.

Versuche haben gezeigt, dass die aus den Codebüchern mittels LPC-Koeffizienten erhaltenen spektralen Grobstrukturen für das abzuschätzende Frequenzband häufig fehlerhaft sind, also z. B. bei stimmhaften Lauten zu viel Energie für das obere Frequenzband abschätzen, was zu einer schlechten Qualität der Bandbreitenerweiterung führt.

Aus der nachveröffentlichten Internationalen Anmeldung PCT/DE01/01826 ist ein alternatives Verfahren zur Erweiterung der Bandbreite eines schmalbandigen Sprachsignals bekannt.

Bei diesem Verfahren wird auf Basis des schmalbandigen Sprachsignals detektiert, ob das schmalbandige Sprachsignal einem stimmhaften Laut, einem stimmlosen Laut oder einer Kom- bination stimmhaft/stimmlos entspricht, und aufgrund der de- tektierten Lautart wird eine Auswahl getroffen, wie das schmalbandige Sprachsignal spektral erweitert wird. Hierbei wird auf Basis der getroffenen stimmhaft/stimmlos-Unter- scheidung mindestens ein Parameter berechnet, der die Form der spektralen Struktur der oberen Erweiterung bestimmt, so dass schließlich eine Verknüpfung auf Basis des schmalbandi- gen Sprachsignals und der gewählten Ergänzung derart erfolgt, dass ein im oberen Frequenzbereich erweitertes Sprachsignal erzeugt wird oder auf Basis der Ergänzung ein breitbandiges Sprachsignal in voller Bandbreite erzeugt wird.

Nach dem Detektieren eines stimmhaften Lautes wird eine Er- gänzung gewählt, die den typischen Verlauf der spektralen Struktur eines stimmhaften Lautes-mit einer vernachlässig- bar geringen Signalenergie in Frequenzanteilen oberhalb einer Frequenzfrequenz-aufweist.

Diese Ergänzung kann stets die gleiche sein, unabhängig davon um welchen stimmhaften Laut-z. B."a","e"oder"i"-es sich handelt, so dass eine Bestimmung des Lautes sowie die Anwendung eines Codebuchs für stimmhafte Laute entfällt.

Nach dem Detektieren eines stimmlosen Lautes wird eine Ergän- zung gewählt, die den typischen Verlauf der spektralen Grob- struktur eines stimmlosen Lautes aufweist, d. h. ein wesentli- cher Teil der Signalenergie befindet sich oberhalb der oberen Grenzfrequenz des schmalbandigen Sprachsignals. Auf diese Weise kann einfach ohne genaue Kenntnis des Lautes eine Er- weiterung des schmalbandigen Sprachsignals durchgeführt wer- den.

Zwei alternative Ausführungsbeispiele, die auf dem oben be- schriebenen Verfahren basieren, werden in der genannten PCT- Anmeldung auf den Seiten 7-8, Seiten 15-25 in Verbindung mit den Figuren 1-2 beschrieben.

Die der Erfindung zugrundeliegende Aufgabe besteht darin, die Bandbreite eines schmalbandig gefilterten Sprachsignals auf einfache und kostengünstige Weise ohne Qualitätseinbußen zu erweitern und dabei die Nachteile aus dem vorstehend gewür- digten Stand der Technik zu vermeiden.

Diese Aufgabe wird ausgehend von dem im Oberbegriff des An- spruchs 1 definierten Verfahren durch die im Kennzeichen des Anspruchs 1 angegebenen Merkmale gelöst.

Die der Erfindung zugrundeliegende Idee besteht in der Kombi- nation der aus dem vorstehend gewürdigten Stand der Technik bekannten Verfahren. Diese Kombination behebt die Nachteile beider Verfahren und ermöglicht das Erreichen einer optimalen Qualität des erweiterten Signals.

So wird das schmalbandig gefilterte Sprachsignal in bezug auf Frequenzanteile oberhalb der Grenzfrequenz derart geschätzt, dass zunächst das schmalbandige Sprachsignal in Sprachsignalzeit- abschnitte unterteilt wird, jeweils eine spektrale Struktur aus den schmalbandigen Sprachsignalzeitabschnitten berechnet wird, jeder schmalbandige Sprachsignalzeitabschnitt als ein stimmhafter und/oder stimmloser Laut klassifiziert wird, ers- te eine spektrale Struktur aufweisende Ergänzungen zur Erwei- terung des schmalbandigen Sprachsignals in bezug auf die vor- genommene lautartbezogene Klassifizierung erzeugt werden, wo- bei zumindest für den Fall des stimmhaften Lautes die Ergän- zung unabhängig von dem jeweiligen Laut ist, zweite eine spektrale Struktur aufweisende Ergänzungen zur Erweiterung des schmalbandigen Sprachsignals basierend auf allgemein be- kannten Methoden zur Auswertung der statistischen Eigenschaf- ten des schmalbandigen Sprachsignals erzeugt werden, wobei die Ergänzung abhängig von dem jeweiligen Laut ist, die bei- den Ergänzungen, z. B. durch Multiplikation gemäß Anspruch 8, verknüpft werden und die spektrale Struktur der erzeugten Er- gänzung zeitabschnittsweise derart verknüpft werden, dass je- weils eine erweiterte spektrale Struktur entsteht sowie anschließend auf der Basis der erweiterten spektralen Struk- tur jeweils ein breitbandiger erweiterter Sprachsignalzeitab- schnitt erzeugt wird, bevor abschließend aus den einzelnen breitbandigen erweiter- ten Sprachsignalzeitabschnitten ein breitbandiges erweitertes Sprachsignal erzeugt wird.

Der Hauptvorteil des erfindungsgemäßen Verfahrens liegt dar- in, dass mögliche Fehler in der Schätzung der erweiterten Spektralstruktur der aus der Druckschrift-Carl, H. ; Heute, U. :"Bandwidth Enhancement of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 be- kannten Methode durch die aus der aus der nachveröffentlich- ten Internationalen Anmeldung PCT/DE01/01826 bekannten Metho- de korrigiert werden. Falls mit der erstgenannten Methode ei-

ne Spektralstruktur für einen stimmhaften Laut geschätzt wird, die zu viel Energie im oberen Frequenzbereich hat, wird durch die Kombination der beiden Methoden diese Spektral- struktur berichtigt.

Da es mit der Kombination beider Methoden möglich ist, die Fehler bei der Schätzung der Spektralstruktur von stimmhaften Lauten zu korrigieren, brauchen bei der erstgenannten Methode nur stimmlose Laute trainiert zu werden. Dies erlaubt eine verbesserte Schätzung für stimmlose Laute und daher eine ver- besserte Qualität des erweiterten Sprachsignals.

Die Weiterbildung der Erfindung gemäß Anspruch 2 zeichnet sich dadurch aus, dass durch eine Fouriertransformation des schmalbandigen Sprachsignalzeitabschnitts die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes be- rechnet und durch eine inverse Fouriertransformation der er- weiterten spektralen Struktur der breitbandige erweiterte Sprachsignalzeitabschnitt erzeugt werden kann, ohne dass da- bei das Sprachsignal in eine Grobstruktur und Feinstruktur aufgespaltet werden muss.

Die Weiterbildung der Erfindung gemäß Anspruch 3 zeichnet sich hingegen dadurch aus, dass durch Berechnung der zum schmalbandigen Sprachsignalzeitabschnitt gehörenden LPC- Koeffizienten und folgend des Frequenzgangs des durch diese Koeffizienten festgelegten LPC-Synthesefilters die spektrale Grobstruktur des schmalbandigen Sprachsignalzeitabschnittes berechnet wird. Daneben wird durch lineare Prädiktionsanalyse mit den berechneten LPC-Koeffizienten ein schmalbandiges Prä- diktionsfehlersignal erzeugt, welches die spektrale Fein- struktur des schmalbandigen Sprachsignalzeitabschnittes ent- hält und mittels eines im Stand der Technik bekannten Verfah- rens in der Bandbreite erweitert wird. Die spektrale Grob- struktur wird sodann mittels der in Anspruch 1 dargelegten Ablaufschritte erweitert. Aus der berechneten erweiterten spektralen Grobstruktur werden sodann Koeffizienten eines

breitbandigen LPC-Synthesefilters berechnet. Durch Filterung des bandbreitenerweiterten Prädiktionsfehlersignals mit dem breitbandigen LPC-Synthesefilter wird dann der breitbandige erweiterte Sprachsignalzeitabschnitt erzeugt. Der gegenüber des in Anspruch 2 dargelegten Verfahrens erhöhte Aufwand rechtfertigt sich dadurch, dass durch Aufteilung in spektrale Grob-und Feinstruktur eine größere Flexibilität bezüglich der Erweiterung der Bandbreite gegeben ist.

Bei der Weiterbildung gemäß Anspruch 4 wird die für die als stimmhafte Laute klassifizierten schmalbandigen Sprachsignal- zeitabschnitte jeweils erzeugte erste Ergänzung derart er- zeugt, dass die Energie dieser Ergänzung in bezug auf die Ge- samtenergie des schmalbandigen Sprachsignalabschnittes ver- nachlässigbar ist.

Diese Ergänzung kann stets die gleiche sein, unabhängig da- von, um welchen stimmhaften Laut-z. B. :"a","e"oder"i"- es sich handelt, so dass eine Bestimmung des Lautes sowie die Anwendung eines Codebuchs zu diesem Zweck für stimmhafte Lau- te entfällt.

Durch die Weiterbildung gemäß Anspruch 5 ist eine Qualitäts- verbesserung des breitbandigen erweiterten Sprachsignals ge- währleistet, da durch diese Art der Weiterbildung berücksich- tigt wird, dass bei stimmlosen Lauten im oberen Frequenzbe- reich ein wesentlicher Teil der Signalenergie fortgesetzt wird, so dass eine Vernachlässigung des genauen Verlaufs die- ses Teils verhindert wird, die dadurch erfolgt, dass stets die gleiche Ergänzung vorgenommen wird und somit das synthe- tisierte Sprachsignals verfälscht würde.

Bei der Weiterbildung gemäß Anspruch 5 wird die für die als stimmlose Laute klassifizierten schmalbandigen Sprachsignal- abschnitte jeweils erzeugte erste Ergänzung derart erzeugt, dass die Energie dieser Ergänzung in bezug auf die Gesamt- energie des schmalbandigen Sprachsignalabschnittes nicht ver-

nachlässigbar ist. Auf diese Weise kann einfach ohne genaue Kenntnis des stimmlosen Lautes ein Erweiterung des schmalban- dig gefilterten Sprachsignals durchgeführt werden.

Um die Qualität des breitbandigen erweiterten Sprachsignals gemäß der Ansprüche 1 bis 5 zu verbessern, ist es von Vor- teil, wenn gemäß Anspruch 7 der aus der erweiterten spektra- len Struktur jeweils erzeugte breitbandige erweiterte Sprach- signalzeitabschnitt hochpassgefiltert wird, der hochpassge- filterte Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt verknüpft wird und aus den einzelnen verknüpften Sprachsignalzeitabschnitten das breitbandige erweiterte Sprachsignal erzeugt wird.

Weitere Einzelheiten, Merkmale und Vorteile der Erfindung werden nachfolgend anhand der in den Figuren dargestellten Ausführungsbeispiele näher erläutert. Dabei zeigen : FIGUR 1 als ein erstes Ausführungsbeispiel ein Ablaufdia- gramm zur Erweiterung der Brandbreite eines von ei- nem Telekommunikationsgerät gesendeten Sprachsig- nals in Richtung der oberen Frequenzen oberhalb ei- ner Grenzfrequenz des schmalbandig gefilterten Sprachsignals im Frequenzbereich, FIGUR 2 als ein zweites Ausführungsbeispiel ein Ablaufdia- gramm zur Erweiterung der Brandbreite eines von ei- nem Telekommunikationsgerät gesendeten Sprachsig- nals in Richtung der oberen Frequenzen oberhalb ei- ner Grenzfrequenz des schmalbandig gefilterten Sprachsignals im Frequenzbereich, FIGUR 3a die spektrale Struktur eines stimmhaften Lautes (Vokals), FIGUR 3b die spektrale Struktur eines stimmlosen Lautes (Frikativs),

FIGUR 4a eine mögliche Erweiterung der spektralen Struktur eines Vokals, FIGUR 4b eine mögliche Erweiterung der spektralen Struktur eines Frikativs, FIGUR 1 zeigt anhand eines Ablaufdiagramms einen ersten Pro- zess (eine erste Methode) zur Erweiterung der Brandbreite ei- nes von einem Telekommunikationsgerät gesendeten Sprachsig- nals in Richtung der oberen Frequenzen oberhalb einer Grenz- frequenz-z. B. 4 kHz-des schmalbandig gefilterten Sprach- signals im Frequenzbereich. Gemäß einem Ausgangszustand AZ des dargestellten Prozesses wird von dem Telekommunikations- gerät das Sprachsignal gesendet. Es liegt somit ein schmal- bandig gefiltertes Sprachsignal vor.

In einem ersten Prozessschritt PO. 1 wird dieses Sprachsignal in vorzugsweise gleich große schmalbandige Sprachsignalzeit- abschnitte unterteilt. Anschließend werden für jeden Sprach- signalzeitabschnitt in einem zweiten Prozessschritt Pl. 1 die Spektralstruktur z. B. durch eine"Fourier-Transformation"be- rechnet und in einem dritten Prozessschritt P2.1 eine Klassi- fizierung derart durchgeführt, dass der jeweilige Sprachsig- nalzeitabschnitt als ein stimmhafter Laut-wie beispielswei- se"a","e"oder"i", deren Aussprache ein in FIGUR 3a darge- stelltes Spektrum aufweist-und/oder als ein stimmloser Laut -wie beispielsweise"s","sch"oder"f", deren Aussprache ein in FIGUR 3b dargestelltes Spektrum aufweist-eingestuft bzw. definiert wird.

Diese Unterscheidung wird beispielsweise anhand der Position der ersten Formanten oder anhand des Verhältnisses von Spekt- ralanteilen oberhalb und unterhalb einer bestimmten Frequenz - beispielsweise 2 kHz-geschehen. Eine Unterscheidung an- hand des schmalbandigen Spektrums ist einfach durchzuführen, da wie ein Vergleich des in FIGUR 3a dargestellten Spektrum

eines stimmhaften Lautes mit dem in FIGUR 3b dargestellten Spektrum eines stimmlosen Lautes zeigt, stimmhafte und stimm- lose Laute in der Regel sehr unterschiedliche Spektren haben.

Alternativ dazu wird eine Kurzzeitsignalenergie eines ersten schmalbandig gefilterten Sprachsignalzeitabschnittes sowie eine Langzeitsignalenergie anhand weiterer aufeinanderfolgen- der zum ersten Signal korrelierender schmalbandig gefilterter Sprachsignalzeitabschnitte ermittelt und anschließend das De- tektieren durch Vergleich eines Verhältnisses von Kurzeitsig- nalenergie zu Langzeitsignalenergie mit einem Schwellwert re- alisiert.

Alternativ dazu kann die Unterscheidung durch Vergleich der Kurzzeitsignalenergie-d. h. der Signalenergie in einem kur- zen Zeitausschnitt des Schmalband-Sprachsignals-und der Langzeitsignalenergie-d. h. der Signalenergie über einen längeren Zeitausschnitt betrachtet-und anschließendem Ver- gleich des Verhältnis Kurzzeit-zu Langzeitenergie mit einem festen Schwellwert durchgeführt werden.

Im Anschluss daran wird in einem vierten Prozessschritt P3.1 im Rahmen einer ersten Spektralstrukturerweiterung in bezug auf die im dritten Prozessschritt P2.1 vorgenommene lautart- bezogene Klassifizierung die im zweiten Prozessschritt P1. 1 berechnete Spektralstruktur erweitert. Dies geschieht derart, dass zeitabschnittsweise in bezug auf die im dritten Prozess- schritt P2.1 vorgenommene lautartbezogene Klassifizierung erste Ergänzungen EG1 zur Erweiterung des Sprachsignals, die jeweils eine spektrale Struktur aufweisen, erzeugt werden, wobei beispielsweise (insbesondere) für den Fall des stimm- haften Lautes die erste Ergänzung EG1 unabhängig von dem je- weiligen Laut ist (mit Feststellung der Art des Sprachlautes - stimmhaft/stimmlos (stimmhaft und/oder stimmlos)-wird auch die zur Erweiterung der Bandbreite notwendige Ergänzung bestimmt).

Parallel dazu werden in einem fünften Prozessschritt P4.1 im Rahmen einer zweiten Spektralstrukturerweiterung z. B. gemäß der Druckschrift-Carl, H. ; Heute, U. :"Bandwidth Enhance- ment of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181-zur Auswertung der statistischen Eigenschaften eines schmalbandigen Sprachsig- nals basierend auf besondere Sprachdatenbücher, den sogenann- ten Codebüchern (Codebooks) zweite eine spektrale Struktur aufweisende Ergänzungen EG2 erzeugt, wobei die Ergänzung ab- hängig von dem jeweiligen Laut ist.

In einem sich daran anschließenden sechsten Prozessschritt P5.1 wird die erste Ergänzung EG1 mit der zweiten Ergänzung EG2 verknüpft, bevor in einem siebten Prozessschritt P6.1 ei- ne erweiterte Spektralstruktur erzeugt und in einem achten Prozessschritt P7.1 ein erweiterter Sprachsignalzeitabschnitt erzeugt wird. Diese Verknüpfung geschieht vorzugsweise durch eine Multiplikation.

Daran anschließend gibt es zwei Möglichkeiten, das breitban- dige in Richtung der oberen Frequenzen erweiterte Sprachsig- nal zu erhalten.

Um eine gewisse Qualitätsverbesserung des breitbandigen er- weiterten Sprachsignals zu erzielen, ist es möglich, den je- weiligen im vierten Prozessschritt P3.1 erzeugten breitbandi- gen erweiterten Sprachsignalzeitabschnitt in einem neunten Prozessschritt P8.1 mittels eines Hochpassfilters zu filtern, danach in einem zehnten Prozessschritt P9.1 diesen gefilter- ten Sprachsignalzeitabschnitt mit dem entsprechenden schmal- bandigen Sprachsignalzeitabschnitt aus dem ersten Prozess- schritt PO. 1 zu verknüpfen, bevor abschließend in einem elf- ten Prozessschritt P10.1 aus den einzelnen verknüpften Sprachsignalzeitabschnitten durch Zusammenfügen dieser Zeit- abschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal erzeugt wird.

Kann auf eine derartige Qualitätsverbesserung des breitbandi- gen erweiterten Sprachsignals verzichtet werden, so ist es stattdessen auch möglich, unmittelbar nach dem achten Pro- zessschritt P7.1 aus den in diesem Prozessschritt jeweils er- zeugten breitbandigen erweiterten Sprachsignalzeitabschnitten in dem elften Prozessschritt P10.1 durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Fre- quenzen erweiterte Sprachsignal zu erzeugen.

Anhand der FIGUR 2 soll zunächst die erfindungsgemäße Erwei- terung eines schmalbandig gefilterten Sprachsignals in die Richtung der oberen Frequenzen gemäß eines zweiten Prozesses (einer zweiten Methode) erläutert werden.

Im Allgemeinen wird ein Sprachsignal durch lineare Prädiktion analysiert. Dabei werden unter der Annahme, dass ein Sprach- abtastwert durch die lineare Kombination von vorherigen Sprachabtastwerten angenähert werden kann, lineare Prädikti- onskoeffizienten, sogenannte LPC-Koeffizienten, die die Fil- terkoeffizienten eines Sprachsynthesefilters darstellen, so- wie ein Anregungssignal für dieses Synthesefilter berechnet.

Durch Anwenden der zu einem Sprachsignalabschnitt gehörenden LPC-Koeffizienten auf diesen Sprachsignalabschnitt mittels Filterung des Abschnitts mit einem durch diese Koeffizienten definierten nichtrekursiven Digitalfilter entsteht das soge- nannte Prädiktionsfehlersignal. Dieses Signal beschreibt die Differenz zwischen dem durch die lineare Prädiktion geschätz- tem Signalwert und dem tatsächlichem Signalwert. Es stellt auch gleichzeitig das Anregungssignal für das durch die LPC- Koeffizienten definierte rein rekursive Synthesefilter dar, mit dem der Original-Sprachsignalabschnitt durch Filtern des Prädiktionsfehler-bzw. Anregungssignals wiedergewonnen wird.

Um ein Sprachsignal in die Richtung der oberen Frequenzen zu erweitern, ist die Kenntnis eines breitbandigen Anregungssig- nals und der Filterkoeffizienten, die das (breitbandige)

Sprachsignal im Sinne der linearen Prädiktion beschreiben er- forderlich.

Da beispielsweise in Telekommunikationssystemen, in denen schmalbandig übertragen wird, das Sprachsignal schmalbandig vorliegt, wird anhand des mittels linearer Prädiktion aus dem Sprachsignal berechneten schmalbandigen Anregungssignals ein breitbandiges Anregungssignal ermittelt.

Dies erfolgt beispielweise durch Frequenzspiegelung des schmalbandigen Anregungssignals, bei dem die Frequenzanteile zwischen 0 kHz und 4 kHz an der 4 kHz-Spektrallinie in ei- nen Bereich von 4 kHz bis 8 kHz gespiegelt werden.

Alternativ kann die Berechnung auch durch Addition des schmalbandigen Signals mit spektral gleichverteiltem (weißem) oder spektral gewichtetem (gefärbtem) Rauschen realisiert werden.

FIGUR 2 zeigt anhand eines Ablaufdiagramms den zweiten Pro- zess (die zweite Methode) zur Erweiterung der Brandbreite ei- nes von einem Telekommunikationsgerät gesendeten Sprachsig- nals in Richtung der oberen Frequenzen oberhalb einer Grenz- frequenz-z. B. 4 kHz-des schmalbandig gefilterten Sprach- signals im Frequenzbereich. Gemäß dem Ausgangszustand AZ des dargestellten Prozesses wird wieder von dem Telekommunikati- onsgerät das Sprachsignal gesendet. Es liegt somit wider ein schmalbandig gefiltertes Sprachsignal vor.

In einem ersten Prozessschritt PO. 2 wird dieses Sprachsignal in vorzugsweise gleich große schmalbandige Sprachsignalzeit- abschnitte unterteilt. Anschließend werden für jeden Sprach- signalzeitabschnitt in einem zweiten Prozessschritt P1. 2 in bekannter Weise im Rahmen einer Prädiktionsanalyse LPC- Koeffizienten und ein schmalbandiges Prädiktionsfehlersignal berechnet, in einem dritten Prozessschritt P2.2 auf der Basis der LPC-Koeffizienten und des schmalbandigen Prädiktionsfeh-

lersignals die Spektralstruktur der schmalbandigen Sprachsig- nalzeitabschnitte berechnet und in einem vierten Prozess- schritt P3.2 eine Klassifizierung derart durchgeführt, dass der jeweilige Sprachsignalzeitabschnitt als ein stimmhafter Laut-wie beispielsweise"a","e"oder"i", deren Aussprache ein in FIGUR 3a dargestelltes Spektrum aufweist-und/oder als ein stimmloser Laut-wie beispielsweise"s","sch"oder "f", deren Aussprache ein in FIGUR 3b dargestelltes Spektrum aufweist-eingestuft bzw. definiert wird.

Diese Unterscheidung wird beispielsweise anhand der Position der ersten Formanten oder anhand des Verhältnisses von Spekt- ralanteilen oberhalb und unterhalb einer bestimmten Frequenz - beispielsweise 2 kHz-geschehen. Eine Unterscheidung an- hand des schmalbandigen Spektrums ist einfach durchzuführen, da wie ein Vergleich des in FIGUR 3a dargestellten Spektrum eines stimmhaften Lautes mit dem in FIGUR 3b dargestellten Spektrum eines stimmlosen Lautes zeigt, stimmhafte und stimm- lose Laute in der Regel sehr unterschiedliche Spektren haben.

Alternativ dazu wird eine Kurzzeitsignalenergie eines ersten schmalbandig gefilterten Sprachsignalzeitabschnittes sowie eine Langzeitsignalenergie anhand weiterer aufeinanderfolgen- der zum ersten Signal korrelierender schmalbandig gefilterter Sprachsignalzeitabschnitte ermittelt und anschließend das De- tektieren durch Vergleich eines Verhältnisses von Kurzeitsig- nalenergie zu Langzeitsignalenergie mit einem Schwellwert re- alisiert.

Alternativ dazu kann die Unterscheidung durch Vergleich der Kurzzeitsignalenergie-d. h. der Signalenergie in einem kur- zen Zeitausschnitt des Schmalband-Sprachsignals-und der Langzeitsignalenergie-d. h. der Signalenergie über einen längeren Zeitausschnitt betrachtet-und anschließendem Ver- gleich des Verhältnis Kurzzeit-zu Langzeitenergie mit einem festen Schwellwert durchgeführt werden.

Im Anschluss daran wird in einem fünften Prozessschritt P4.2 in bezug auf die im dritten Prozessschritt P2.1 vorgenommene lautartbezogene Klassifizierung die im dritten Prozessschritt P2.2 berechnete Spektralstruktur erweitert. Dies geschieht derart, dass zeitabschnittsweise in bezug auf die im vierten Prozessschritt P3.2 vorgenommene lautartbezogene Klassifizie- rung erste Ergänzungen EG1 zur Erweiterung des Sprachsignals, die jeweils eine spektrale Struktur aufweisen, erzeugt wer- den, wobei für den Fall des stimmhaften Lautes die Ergänzung unabhängig von dem jeweiligen Laut ist (mit Feststellung der Art des Sprachlautes-stimmhaft/stimmlos (stimmhaft und/oder stimmlos) -wird auch die zur Erweiterung der Bandbreite not- wendige Ergänzung bestimmt), die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise zu einer erweiterten spektralen Struktur verknüpft werden.

Handelt es sich in dem fünften Prozessschritt P4.2 bei dem untersuchten schmalbandigen Sprachsignal um einen stimmhaften Laut, so wird die schmalbandige spektrale Struktur, wie in FIGUR 4a dargestellt, derart durch eine Ergänzung erweitert, dass die erweiterte breitbandige spektrale Struktur oberhalb von 4 kHz wesentlich weniger Energie als unterhalb von 4 kHz besitzt. Es ist z. B. ein Abfall, ein exponentieller Abfall, ein gleichbleibendes Nullniveau oder ein gleichbleibendes Ni- veau der spektralen Struktur zu höheren Frequenzen hin denk- bar.

Alternativ kann auch ganz von einer Erweiterung abgesehen werden, weil in der Regel die Signalenergie eines stimmhaften Lautes oberhalb der oberen Grenzfrequenz des Schmalband- Sprachsignals (z. B. 4 kHz) vernachlässigbar ist (vgl. FIGUR 3a). Der erzeugte breitbandige Frequenzgang entspricht für diesen Fall dem schmalbandigen Frequenzgang des zugrundelie- genden schmalbandigen Sprachsignals.

Es ist auch möglich, dass die Erweiterung, die nach Detektion eines stimmhaften Lautes vorgenommen wird, unabhängig von der genauen Kenntnis der Laute stets die gleiche ist (angepasst lediglich an die Energie des Schmalband-Sprachsignals), so dass eine einfache, kostengünstige und schnelle Umsetzung dieser Erweiterung erzielt wird.

Handelt es sich in dem fünften Prozessschritt P4.2 bei dem untersuchten schmalbandigen Sprachsignal um einen stimmlosen Laut, so wird der schmalbandige Frequenzgang, wie in FIGUR 4b dargestellt, derart erweitert, dass er-im Gegensatz zur Er- weiterung bei stimmhaften Lauten-im Bereich oberhalb der ersten Grenzfrequenz des Schmalband-Sprachsignals (z. B. 4 kHz) einen nicht vernachlässigbaren Teil seiner Gesamtenergie besitzt.

Auch hierbei kann die Erweiterung stets, unabhängig von der genauen Kenntnis der Laute, durch eine gleichartige spektrale Erweiterung erfolgen (angepasst lediglich an die Energie des Schmalband-Sprachsignals), so dass hierdurch ebenso eine ein- fache, kostengünstige und schnelle Umsetzung dieser Erweite- rung erzielt wird.

Als Ergebnis der ersten bis fünften Prozessschritte PO. 2... P4.2 in FIGUR 2 wird also eine erste eine spektrale Struktur aufweisende Ergänzung der schmalbandigen spektralen Struktur in Abhängigkeit von dem Laut, der der vorhandenen schmalbandigen spektralen Struktur zugrunde liegt, generiert.

Außerdem wird in einem sechsten Prozessschritt P5.2 das in dem zweiten Prozessschritt P1. 2 berechnete schmalbandige Prä- diktionsfehlersignal zum einem breitbandigen Prädiktionsfeh- lersignal erweitert, so dass bezüglich der Zeitabschnittdauer den schmalbandigen Sprachsignalzeitabschnitten entsprechende Prädiktionsfehlersignalabschnitte des breitbandigen Prädikti- onsfehlersignales erzeugt werden.

Parallel dazu werden wieder in einem siebten Prozessschritt P6.2 im Rahmen einer zweiten Spektralstrukturerweiterung z. B. gemäß der Druckschrift-Carl, H. ; Heute, U. :"Bandwidth En- hancement of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181-zur Auswertung der statistischen Eigenschaften eines schmalbandigen Sprachsig- nals basierend auf besondere Sprachdatenbücher, den sogenann- ten Codebüchern (Codebooks) zweite eine spektrale Struktur aufweisende Ergänzungen EG2 erzeugt, wobei die Ergänzung ab- hängig von dem jeweiligen Laut ist.

In einem sich daran anschließenden achten Prozessschritt P7.2 wird die erste Ergänzung EG1 mit der zweiten Ergänzung EG2 verknüpft, bevor in einem neunten Prozessschritt P8.2 eine erweiterte Spektralstruktur erzeugt wird. Diese Verknüpfung geschieht vorzugsweise durch eine Multiplikation.

Daran anschließend wird aus der im neunten Prozessschritt P8.2 erzeugten erweiterten spektralen Struktur durch die Be- rechnung von breitbandigen Filterkoeffizienten in einem zehn- ten Prozessschritt P9.2 und dem im sechsten Prozessschritt P5.2 jeweils erzeugten breitbandigen Prädiktionsfehlersignal- abschnitt in einem elften Prozessschritt P10.2 mittels eines durch die in Prozessschritt P9.2 berechneten breitbandigen Filterkoeffizienten bestimmten Synthesefilters jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt.

Daran anschließend gibt es wieder zwei Möglichkeiten, das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erhalten.

Um eine gewisse Qualitätsverbesserung des breitbandigen er- weiterten Sprachsignals zu erzielen, ist es möglich, den je- weiligen im elften Prozessschritt P10.2 erzeugten breitbandi- gen erweiterten Sprachsignalzeitabschnitt in einem zwölften Prozessschritt P11. 2 mittels eines Hochpassfilters zu fil- tern, danach in einem dreizehnten Prozessschritt P12.2 diesen

gefilterten Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt aus dem ersten Pro- zessschritt PO. 2 zu verknüpfen, bevor abschließend in einem vierzehnten Prozessschritt P13.2 aus den einzelnen verknüpf- ten Sprachsignalzeitabschnitten durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Fre- quenzen erweiterte Sprachsignal erzeugt wird.

Kann auf eine derartige Qualitätsverbesserung des breitbandi- gen erweiterten Sprachsignals verzichtet werden, so ist es stattdessen auch möglich, unmittelbar nach dem elften Pro- zessschritt P10.2 aus den in diesem Prozessschritt jeweils erzeugten breitbandigen erweiterten Sprachsignalzeitabschnit- ten in dem vierzehnten Prozessschritt P13.2 durch Zusammenfü- gen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erzeugen.