METHOD AND DEVICE FOR TRANSFERRING SOUND AND/OR VOICE DATA IN A PACKET-ORIENTED COMMUNICATION SYSTEM

Title:

METHOD AND DEVICE FOR TRANSFERRING SOUND AND/OR VOICE DATA IN A PACKET-ORIENTED COMMUNICATION SYSTEM

Document Type and Number:

WIPO Patent Application WO/2003/049389

Kind Code:

A1

Abstract:

The invention relates to a method for structuring sound and/or voice data into data packets for transmission via packet-transmitted communication networks. In order to disturb as little as possible the perception of sounds or voice during reproduction of the reconstructed voice or sound data, the sound or voice structure is analyzed prior to packing data values into data packets, and the decision which successions of data values to put into a data packet is made based on said analysis. It is particularly useful to fill the data packets with data values so as to have a speech pause, sound pause, phoneme boundary, word part boundary, or word boundary at the end of each data packet if possible.

More Like This:

JP3651340	WIRELESS TRANSMISSION METHOD AND WIRELESS TRANSMITTER
JP2000228681	HYBRID CENTRAL COMMUNICATION CONTROL STATION CONFIGURATION, TELEPHONE SUBNETWORK AND CALL PROCESSING METHOD
JPH0983655	VOICE INTERACTIVE SYSTEM

Inventors:

HUENLICH KLAUS (DE)

Application Number:

PCT/EP2001/014359

Publication Date:

June 12, 2003

Filing Date:

December 06, 2001

Export Citation:

Click for automatic bibliography generation Help

Assignee:

SIEMENS AG (DE)
HUENLICH KLAUS (DE)

International Classes:

H04L12/64; (IPC1-7): H04L12/64

Foreign References:

EP0859353A2

1998-08-19

Other References:

BOCCI P ET AL: "DYNAMIC DATA PACKET SIZING BASED ON REAL TIME MONITORING OF SYSTEM VOICE ACTIVITY", MOTOROLA TECHNICAL DEVELOPMENTS, MOTOROLA INC. SCHAUMBURG, ILLINOIS, US, vol. 31, 1 June 1997 (1997-06-01), pages 172, XP000741064, ISSN: 0887-5286

Attorney, Agent or Firm:

SIEMENS AKTIENGESELLSCHAFT (Postfach 22 16 34 München, DE)

Download PDF:

View/Download PDF PDF Help

Claims:

Patentansprüche

1.

Verfahren zum Bereitstellen von Klangund/oder Sprachdaten für eine Übertragung in einem paketorientierten Kommunikationssystem, bei dem digitalisierte KlangDatenwerte und/oder SprachDatenwerte in zeitlicher Abfolge in aufeinanderfolgende Datenpakete gepackt werden, dadurch g e k e n n z e i c h n e t, dass die Einteilung aufeinanderfolgender Datenwerte auf die <BR> <BR> aufeinanderfolgenden Datenpakete (Paket 1, Paket 2,. ..) unter Berücksichtigung der Klangbzw. Sprachstruktur durchgeführt wird.

2.	Verfahren nach Anspruch 1, bei dem als Klangbzw. Sprachstruktur eine natürliche Klangbzw. Sprachstruktur für die Analyse zur Einteilung in die Datenpakete verwendet wird.

3.	Verfahren nach Anspruch 1 oder 2, bei dem bei der Berücksichtigung der Klangbzw. Sprachstruktur Phoneme, Worte, Silben und/oder Wortteile als Merkmale der Sprachstruktur bei der Einteilung in die Datenpakete verwendet werden.

4.	Verfahren nach einem vorstehenden Anspruch, bei dem bei der Berücksichtigung der Sprachstruktur in einem Speicher (M) hinterlegte Phonemmuster, Wortteilmuster und/oder Wortmuster für einen Vergleich mit in die Datenpakete einzuteilenden Datenwerten bzw. Datenwertfolgen verwendet werden.

5.	Verfahren nach einem vorstehenden Anspruch, bei dem als Klangbzw. Sprachgrenzen für die Einteilung von Datenwerten in eines der Datenpakete über eine Dauer (At) anhaltende Klangund/oder Sprechpausen in Randbereiche, insbesondere an das Ende des Nutzdatenbereichs des Datenpakets gelegt werden.

6.	Verfahren nach einem vorstehenden Anspruch, bei dem als Klangbzw. Sprachgrenzen für die Einteilung von Datenwerten in eines der Datenpakete über eine Dauer (At) gedehnte Laute oder Klänge in Randbereiche, insbesondere an das Ende des Nutzdatenbereichs des Datenpakets gelegt werden.

7.	Verfahren nach einem vorstehend Anspruch, bei dem die Datenpakete mit einer unterschiedlichen Anzahl von Datenwerten gefüllt werden.

8.

Verfahren zum Wiedergeben von insbesondere nach einem vorstehenden Verfahren in Datenpakete gepackten Klangbzw. SprachDatenwerten, bei dem bei der Wiedergabe im Fall eines zu spät eintreffenden nachfolgenden Datenpaketes über eine Dauer (At) anhaltende Klangpausen und/oder zuletzt wiederzugebende Klänge bis zum Eintreffen eines nächsten Datenpaketes oder einer vorgegebenen maximalen Dauer ununterbrochen wiederholt oder kontinuierlich gedehnt wiedergegeben werden.

9.	Sendeund/oder Empfangseinrichtung (SE, RE) zum Durchführen eines Verfahrens nach einem vorstehenden Anspruch.

10.

Sendeund/oder Empfangseinrichtung (SE, RE) nach Anspruch 9, mit einem Speicher (M) zum Speichern von Klangmustern, Sprachmustern, Lauten, Wortteilen, Phonemen und/oder Worten zum Vergleich mit zu untersuchenden und in Datenpakete (Paket 1, Paket 2,. ..) einzuteilenden Klangbzw. Sprach Datenwertfolgen und einem Prozessor (uPS) zum Durchführen des Vergleichs und zum Einteilen der Datenwerte auf die Datenpakete.

Description:

Beschreibung Verfahren und Vorrichtung zum Übertragen von Klang-und/oder Sprachdaten in einem paketorientierten Kommunikationssystem Die Erfindung bezieht sich auf ein Verfahren zum Übertragen von Klang-und/oder Sprachdaten in einem paketorientierten Kommunikationssystem mit den oberbegrifflichen Merkmalen des Patentanspruchs 1 bzw. eine Vorrichtung zum Durchführen eines solchen Verfahrens.

Es gibt eine Vielzahl verschiedenartiger Kommunikationssysteme, bei denen Daten in Datenpaketen verpackt transportiert werden. Diese Kommunikationssysteme können rein paketorientierte Übertragung von Daten ermöglichen oder, ausgehend von z. B. Mobilfunk- Kommunikationssystemen gemäß z. B. dem GSM-Standard (GSM : Global System for Mobile Communication), Daten über spezielle Paketdatendienste gemäß dem GPRS (General Packet Radio System) übertragen. Bei diesen Systemen werden zu übertragende Daten in einzelne Datenpakete gepackt und nacheinander über das Kommunikationsnetz übertragen.

Empfängerseitig werden die empfangenen Datenpakete entpackt und gegebenenfalls dekodiert, um die ursprünglichen Daten letztendlich in der richtigen Reihenfolge zu rekonstruieren.

Bei derartigen Systemen kann es vorkommen, dass Datenpakete zeitlich versetzt eintreffen, beispielsweise weil eigentlich hintereinander abgesendete Datenpakete über verschiedene Verbindungsstrecken geleitet wurden oder in zwischengeschalteten Zentralstellen nachrangig mit einem Zeitversatz weitergeleitet wurden. Die dadurch entstehende Schwankungsbreite von Übertragungsverzögerungen, sogenannten Delayschwankungen, sind in paketvermittelnden Netzen für die meisten Datenübertragungen unkritisch.

Bei der Übertragung von Sprachdaten ist es jedoch wichtig, einerseits eine möglichst schnelle Übermittlung der Datenpakete zu ermöglichen, so dass der Empfänger gesprochene Worte unmittelbar nach dem Aussprechen auf der Senderseite hören kann. Außerdem sind Übertragungsverzögerungen einzelner Pakete zueinander auch kritisch, weil es zu Störungen der Sprache kommen kann, wenn ein Paket mit Verzögerung eintrifft und dadurch bei der Wiedergabe der rekonstruierten Daten eine Lücke entsteht. Bei zu großen Verzögerungen müssen verspätet eintreffende Datenpakete unter Umständen sogar ausgelassen werden, um zumindest die Wiedergabe später abgesandter, aber auf schnellerem Weg eingetroffener Datenpaketinhalte möglichst unverzögert ermöglichen zu können.

Während bei der Übertragung von Informationsdaten ausreichend Zeit gegeben ist, diese zu kodieren und zur besseren und fehlerfreien Rekonstruierbarkeit über eine Vielzahl von Datenpaketen zu verteilen, ist es bei der Übertragung von Sprache bei der Paketbildung üblich, die zu übertragenden Informationen unstrukturiert in die Datenpakete einzusetzen.

In einem ersten Schritt wird aufgezeichnete Sprache digitalisiert. Die Digitalisierung erfolgt dabei ohne Rücksicht auf die Information im Datenstrom kontinuierlich in äquidistanten Schritten, wobei jedem momentanen Analogwert zu jedem Abtastzeitpunkt des Sprachsignals ein äquivalenter digitaler Wert zugeordnet wird. Die auf diese Art und Weise gewonnenen digitalen Werte können in einem nachfolgenden Verarbeitungsschritt zusätzlich komprimiert werden.

Anschließend werden die derart gewonnen Informationen bzw.

Werte in üblicher Weise immer gleich große Datenpakete gepackt, wie dies auch aus Fig. 3 ersichtlich ist. Die einzelnen Daten werden dann mit Hilfe von Übertragungseinrichtungen über das Kommunikationsnetz zum Empfänger übertragen. Empfängerseitig wird die Information aus den Datenpaketen sowohl inhaltlich als auch hinsichtlich des zeitlichen Verhaltens bei der anschließenden Wiedergabe rekonstruiert.

Mit Blick auf die Anforderungen einer zum Aussprechen eines Wortes möglichst zeitnahen Wiedergabe des empfängerseitig rekonstruierten Wortes besteht das Problem, dass die Rekonstruktion des Sprachsignals sehr empfindlich auf Schwankungen bei der Übertragungsdauer, dass heißt auf Übertragungsverzögerungen reagiert. Letztendlich führt dies zu einer verschlechterten oder lückenhaften Sprachqualität bei der Wiedergabe.

Die Aufgabe der Erfindung besteht darin, ein Verfahren und eine Vorrichtung zum Übertragen von Klang-und/oder Sprachdaten in einem paketorientierten Kommunikationssystem zu verbessern.

Diese Aufgabe wird durch ein Verfahren zum Übertragen von Klang-und/oder Sprachdaten mit den Merkmalen des Patentanspruchs 1 bzw. eine Sende-und/oder Empfangseinrichtung zum Durchführen eines solchen Verfahrens mit den Merkmalen des Patentanspruchs 9 gelöst. Ein vorteilhaftes Verfahren zur Wiedergabe solcher Sprach-bzw.

Klangdaten ist Gegenstand von Patentanspruch 8 mit eigenständiger erfinderischer Bedeutung.

Bei dem Verpacken von Sprachdaten in einzelne Datenpakete die Sprachstruktur zu berücksichtigen, ermöglicht eine verbesserte Wiedergabequalität, da die Sprachdaten derart in Pakete eingesetzt werden können, dass bei einer Verzögerung des Eintreffens eines späteren Paketes beispielsweise nicht ein Wort als solches mitten im Wort verzerrt oder unterbrochen wird sondern Unterbrechungen, Aussetzer und Verzögerungen in sprachliche Lücken verlagert werden können.

Anstelle der Verlagerung in sprachliche Lücken kann natürlich auch eine Verlagerung in sprachliche Bereiche mit z. B. einer sehr geringen Dynamik verlagert werden, in denen Störungen möglichst wenig das Hörempfinden bei der Wiedergabe beeinträchtigen.

Vorteilhafte Ausgestaltungen sind Gegenstand von abhängigen Ansprüchen.

Besonders vorteilhaft ist es, nicht nur eine allgemeine Sprachstruktur sondern die natürliche Sprachstruktur zu berücksichtigen, da Störungen in dem gewohnten Sprachfluss stärker empfunden werden als Störungen in Randbereichen und insbesondere Endbereichen eines natürlichen Sprachflusses.

Als besonders markante Elemente der Sprachstruktur sind dabei Wortteile, z. B. einzelne Silben, und ganze Worte für sich genommen möglichst nicht zu trennen. Entsprechend sollte die Aufteilung von Worten jeweils in Datenpakete derart erfolgen, dass mit dem Beginn des Datenpaketes bzw. dessen Nutzdatenabschnitt der Beginn eines Wortes oder Wortteils zusammenfällt, während zum Ende des Datenpaketes hin Freiräume bestehen bleiben dürfen. Derartige Freiräume sind zweckmäßigerweise mit Leerdaten oder sonstigen Informationsdaten auffüllbar.

Um die Sprachstruktur besonders effizient untersuchen zu können, kann dabei auf für sich bekannte Programme zur Spracherkennung, insbesondere Worterkennung zurückgegriffen werden, welche Sprachsignale mit Blick auf Worte und Wortbestandteile analysieren, um beispielsweise in ein Mikrofon gesprochene Worte als Text in einem Textdokument wiedergeben zu können. Durch die Anwendung einer derartigen Spracherkennung ist es besonders einfach möglich, Sprachstrukturen, insbesondere Worte oder Silben erkennbar zu machen, um die Verteilung auf einzelnen Datenpakete entsprechend vorzunehmen. Zweckmäßigerweise kann bei Bereitstellung einer derartigen Spracherkennung auch ein Speicher oder Speicherabschnitt mit einer Art Wörterbuch hinterlegt werden, wie dies für Spracherkennungsprogramme ebenfalls für sich genommen bekannt ist, so dass mit Hilfe hinterlegter Musterworte eine weitere Verfeinerung der Analyse der Sprachstruktur vorgenommen werden kann.

Besonders zweckmäßig ist es auch, Datenpakete nur teilweise mit Sprachdaten zu füllen, um einerseits zu verhindern, dass bei einer Aneinanderreihung einer Vielzahl von Worten letztendlich doch ein abschließendes Wort durchtrennt wird und andererseits ein schnellstmögliches Versenden der einzelnen Datenpakete ermöglichen zu können, wenn feststeht, dass der verbleibende Speicherraum nicht mehr zum Auffüllen mit einem Wort oder einer Wortsilbe ausreicht, das bzw. die eine festsetzbare Durchschnittslänge aufweist.

Bei der Aufteilung von Sprachdaten auf die einzelnen Datenpakete ist bei der Berechnung des verfügbaren Speicherraums in einem Datenpaket oder auch bei der Anwendung von Komprimierungsalgorithmen auch vorteilhaft berücksichtigbar, wie schnell eine Person spricht, da langsam gesprochene Worte unter Umständen stärker komprimierbar sind, als schnell und hektisch gesprochene Worte. Insbesondere benötigt ein langsam gesprochenes Wort ohne eine stärkere Komprimierung mehr Speicherraum innerhalb eines einzelnen Datenpaketes als das selbe Wort bei schneller Aussprache.

Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand der Zeichnung näher erläutert. Es zeigen : Fig. 1 eine Anordnung zum Aufzeichnen, Digitalisieren und Versenden von Daten sowie zum Empfangen, Rekonstruieren und Wiedergeben von Daten in einem Kommunikationssystem ; Fig. 2 ein analoges Sprachdiagramm mit einer zeitlichen Amplitudenverteilung und Kennzeichnung von Grenzen zum Verpacken einzelner Sprachanteile in verschiedene Datenpakete und

Fig. 3 ein solches Diagramm zur Veranschaulichung der Zuordnung der Sprachinformationen zu einzelnen Datenpaketen gemäß dem Stand der Technik.

Wie aus Fig. 1 ersichtlich, kann eine beispielhafte Sendeeinrichtung SE aus einer Vielzahl von Einzelkomponenten bestehen, welche aber auch teilweise weggelassen und/oder in anderen Einrichtungen aufgenommen werden können.

Zur Aufnahme von Sprache oder sonstigen Lautfolgen dient ein Mikrofon MIC, welches an einem Analog-/Digitalwandler A/D angeschlossen ist. In dem Analog-/Digitalwandler A/D erfolgt eine Umsetzung des analogen Sprachsignals in ein digitales Signal. Üblicherweise erfolgt die Digitalisierung ohne Rücksicht auf die Sprache bzw. Information im Datenstrom kontinuierlich mit äquidistanten Schritten, wobei zu jedem Abtastzeitpunkt jedem Analogwert ein äquivalenter digitaler Datenwert zugeordnet wird. Die digitalisierten Datenwerte werden vom Analog-/Digital-Wandler A/D aus in einen Prozessor, insbesondere Mikroprozessor uPS eingegeben.

Optional kann der Prozessor uPS auch einen weiteren Eingang zur Eingabe bereits vorliegender digitaler Datenwerte aufweisen. Nach einer Datenverarbeitung bzw.

Datenaufbereitung leitet der Prozessor uPS die aufbereiteten Datenwerte zu einer Sendeeinrichtung, die hier im bevorzugten Ausführungsfall als Sende-/Empfangseinrichtung S/R ausgebildet ist. Die Sende-/Empfangseinrichtung bereitet die empfangenen Datenwerte für eine Übertragung über eine Schnittstelle vor. Als Schnittstelle zum Ausgeben der Datenwerte ist beim dargestellten Ausführungsbeispiels eine Antenne A an die Sende-/Empfangseinrichtung S/R angeschlossen, wobei auch beliebige andere Übertragungswege, insbesondere leitungsgebundene Schnittstellen, anstelle einer dargestellten Funkschnittstelle V verwendet werden können.

Eine Empfangseinrichtung RE weist eine Vielzahl von entsprechenden Komponenten auf. Über einen Schnittstelleneingang, im dargestellten Ausführungsbeispiel eine Antenne A, wird das von der Sendeeinrichtung SE über die Schnittstelle V gesendete bzw. übertragene Signal mit den Datenwerten empfangen und zu einer Empfangseinrichtung, im dargestellten bevorzugten Ausführungsbeispiel eine Sende- /Empfangseinrichtung S/R empfangen und vorverarbeitet. Die Sende-/Empfangseinrichtung S/R leitet das entsprechende vorverarbeitete Signal bzw. die entsprechend vorverarbeiteten Datenwerte an einen Prozessor weiter, im dargestellten Ausführungsbeispiel einen Mikroprozessor uPR. In dem Prozessor uPR werden die empfangenen Datenwerte verarbeitet bzw. aufbereitet und dann an einen Digital/Analog-Wandler D/A ausgegeben, der eine Umsetzung in ein analoges Signal bewirkt. Über einen Verstärker wird dann das vom Digital- /Analog-Wandler D/A ausgegebene Analogsignal zu einem Lautsprecher Sp ausgegeben, der die ursprünglich gesprochene Sprache für einen Hörer ausgibt. Zusätzlich oder alternativ kann bei der Empfangseinrichtung RE eine Schnittstelle für eine digitale Ausgabe der Sprachdaten bereitgestellt sein.

Wie aus den Darstellungen entnehmbar ist, können nicht nur eigenständige Sendeeinrichtungen SE und eigenständige Empfangseinrichtungen RE bereitgestellt werden, sondern kombinierte Sende-/Empfangseinrichtungen, die sowohl die Baugruppen und Funktionen der Sendeeinrichtungen SE als auch die Baugruppen und Funktionen der Empfangseinrichtung RE aufweisen.

Ausgehend von dem Stand der Technik, der in Fig. 3 dargestellt ist, wird nun die Verteilung von Sprachdaten auf Datenpakete beschrieben. In der Sendeeinrichtung SE werden in den Prozessor uPS digitalisierte Datenwerte eingegeben, die letztendlich den in Fig. 3 als kontinuierliches Signal dargestellten Verlauf, wiedergeben. Über der Zeitachse t sind um den dynamischen Nullwert"0"die entsprechenden Amplituden

des Signals bzw. der nach dem Abtasten daraus gebildeten digitalen. Datenwerte abgebildet. Die Verpackung der digitalen Daten erfolgt derzeit, indem eine feste Anzahl von Datenwerten jeweils in den Nutzdatenblock eines Paketes (Paket 1, Paket 2,..., Paket 5,. ..) gepackt werden. Diese über die Schnittstelle V übertragenen Datenpakete werden dann in der Empfangseinrichtung vom Prozessor uPR entpackt und wieder zu einer Datenfolge rekonstruiert. Dabei werden die einzelnen Pakete empfängerseitig in der Empfangseinrichtung RE z. B. entsprechend einer zeitlichen Abfolge derart wiedergegeben, dass Datenwerte eines zu spät eintreffenden Paketes nach einer entsprechenden, dadurch künstlich erzeugten Sprachpause entpackt und über den Lautsprecher Sp wiedergegeben werden. Trifft das nachfolgende Datenpaket über einen kürzeren Datenweg oder über einen unverzögerten Weg pünktlich bei der Empfangseinrichtung RE ein, so wird es entpackt und die Datenwerte werden entsprechend der Vorgabe einer möglichst geringen Zeitverzögerung unmittelbar über den Lautsprecher Sp wiedergegeben. Die Wiedergabe eventuell noch nicht gesendeter Datenwerte des Paketes 1 wird dazu unterdrückt. Durch eine derartige Vorgehensweise entstehen unnatürliche Sprachlücken mitten in einem Wort oder gar mitten in einem Phonem, also einem Laut oder einer natürlichen Lautfolge. Außerdem werden Wortteile, Worte oder Phoneme ausgelassen, dies ebenfalls an Stellen, wo sie das Sprachempfinden oder gar das Verständnis stören.

Wie dies aus Fig. 2 ersichtlich ist, wird für die Verpackung von Sprachdaten oder Klangdaten, also beispielsweise auch Musikdaten, eine Strukturerkennung vorgeschaltet. Anhand des Beispiels von Sprachdaten wird dazu die natürliche Sprachstruktur analysiert, wobei als Kriterien für die Analyse die Suche nach Sprachpausen zwischen Worten, die Suche nach Silben oder die Suche nach Phonemen besonders bevorzugt verstanden wird.

Die in Fig. 2 dargestellten sinnvollen Grenzen zum Trennen von jeweils strukturbedingt zusammengehörenden Sprach-, Klang-bzw. entsprechenden Datenwerten befinden sich z. B. in Bereichen, in denen sich die Amplituden d der Datenwerte über eine gewisse Zeitspanne At nicht aus einem vorgegebenen Differenzdynamikbereich Ad herausbewegen. Derartige Amplitudenwerte über eine entsprechende Zeitspanne At sind beispielsweise ein Zeichen für eine Sprechpause zwischen zwei Worten. Prinzipiell kommen für Paketgrenzen insbesondere alle die Stellen in Frage, welche sich mathematisch dadurch auszeichnen, dass sich die erste Ableitung der Funktion, welche die Sprache beschreibt, über eine längere, gegebenenfalls vorgebbare Dauer auf Null befindet oder ein gegebenenfalls vorgebbares Intervall um die Nulllinie herum nicht überschreitet.

Entsprechend ist bei dem dargestellten Ausführungsbeispiel einer Sprach-bzw. Klangfolge ein erstes Datenpaket Paket 1 mit nur einer geringen Anzahl von Datenwerten gefüllt, während in das zweite Datenpaket Paket 2 eine längere Sprach- bzw. Klangfolge bzw. deren Datenwerte eingesetzt werden. Nach dem zweiten Datenpaket folgt eine längere Sprachpause bzw.

Sprachlücke, deren Daten vorzugsweise in gar kein Paket verpackt werden, um die Daten-und Signalisierungslast auf dem Kommunikationsnetz zu reduzieren. Das dritte Datenpaket Paket 3 weist ebenfalls wieder eine längere Folge von Datenwerten auf, bevor eine erneute Sprachpause kommt. Für den Fall, dass über eine maximal mögliche Dauer oder eine maximal sinnvolle Dauer keine Sprachlücke detektierbar ist, kann natürlich auch eine zwangsweise Grenze gesetzt werden, so dass in einem solchen Fall Störungen wie beim Stand der Technik notgedrungen in Kauf genommen werden.

Neben der beschriebenen Erkennung von Sprachlücken oder Klanglücken, bei denen ein gewisser Dynamikbereich um den Nullwert nicht verlassen wird, können natürlich auch beliebige andere Kriterien herangezogen werden. Im Fall eines

allgemeinen Hintergrundstörgeräusches kann der Grunddynamikpegel beispielsweise über dieser Grenze Ad liegen, weshalb es sinnvoll sein kann, nicht nur Grenzwerte um den Null-Bereich herum zu analysieren, sondern generell zu untersuchen, ob die Sprach-bzw. Klangdaten hinsichtlich ihrer Amplitudenwerte über einen gewissen Zeitraum innerhalb eines gewissen Dynamikbereiches verharren. Auch unabhängig von derartigen Situationen mit Hintergrundgeräuschen ist es möglich, als sinnvolle Grenze Klangbereiche zu wählen, bei denen eine möglichst geringfügige zeitliche Veränderung des Frequenzspektrums und/oder des Dynamikspektrums auftritt, da bei beispielsweise einem lang gesprochenen Vokal Übertragungsfehler bei einer Verkürzung oder Verlängerung der Wiedergabe nicht so sehr das Sprachempfinden oder Verständnis stören, wie beispielsweise eine Trennung zwischen zwei kurz gesprochenen Vokalen oder zwei Konsonanten.

Besonders bevorzugt wird eine Festlegung von Grenzen zur Einteilung in Pakete anhand von der Erkennung bestimmter Phoneme. Dazu wird in einer Tabelle bzw. einem Speicher M, der zweckmäßigerweise mit dem Prozessor uPS verbunden ist, eine Vielzahl üblicher Phoneme hinterlegt. Gesprochene und digitalisierte Datenwerte, die beim Mikroprozessor uPS eintreffen, werden dann als Datenwertfolge mit einer entsprechenden Datenwertfolge der im Speicher M hinterlegten Phoneme verglichen. Sobald ein Phonem erkannt wird, wird dessen Ende als mögliche Grenze markiert oder registriert. Je nach gewünschter Anzahl von Phonemen oder Datenwerten, die jeweils in ein Paket gepackt werden sollen, kann dann bei dem eigentlichen Verpacken nach derart ermittelten Grenzen gesucht werden, um eine optimale Verpackung der Datenwertfolgen in die Datenpakete zu ermöglichen.

Für den Fall, dass die Vielzahl der im Speicher M hinterlegten Phoneme zur Erkennung nicht ausreichen, beispielsweise weil die in die Sendeeinrichtung eingegebene Sprachfolge einen ausgefallen Dialekt hat oder in einer

klanglich besondersartigen Sprache gesprochen wird, können natürlich parallel oder zusätzlich auch andere Kriterien als Sprachgrenzen bzw. Klanggrenzen verwendet werden. In besonders bevorzugter Ausführungsform findet somit eine Koppelung von Mustererkennung zum Erkennen vorgegebener Phoneme, Silben oder Worte und einer Spachlückenerkennung usw. statt.

Um eine möglichst zeitnahe und unverzerrte Wiedergabe von Sprach-bzw. Klangdaten in der Empfängereinrichtung RE zu ermöglichen, wird die Anzahl der pro Datenpaket zu verpackenden Datenwerte gering gehalten. Bei Kommunikationssystemen mit Datenpaketversand gemäß dem Internetprotokoll IP betragen derzeit übliche Paketgrößen 1500, 9800 oder 64000 Byte. Für die Verpackung von Sprachdaten erscheint es jedoch zweckmäßig, bei üblichen Abtastraten von z. B. 8 kHz und einer typischen Phonemdauer in der Größenordnung von wenigen Zehntelsekunden nur jeweils Datenmengen von ca. 500 Byte pro Datenpaket einzusetzen.

Empfängerseitig werden entsprechend die Datenpakete direkt nach dem Empfang entpackt und die Wiedergabe der Klang-bzw.

Sprachstruktur wird über den Lautsprecher Sp bewirkt.

Während gemäß den Vorgaben der Dienstegüte (QoS : Quality of Service) gemäß IP Daten bzw. Datenwerte derart zu übertragen sind, dass keinerlei Verluste auftreten und auch keinerlei Verdoppelungen auftreten, kann bei der Rekonstruktion von Sprachdaten ein gerade gegenläufiges Prinzip vorteilhaft sein, welches bei dem hier beschriebenen Verfahren vorteilhaft ausgenutzt wird.

Trifft beispielsweise ein erstes Sprachpaket mit einer längeren natürlichen Sprach-bzw. Klangpause beim Empfänger ein, wie beispielsweise das Paket 2 aus Fig. 2, und trifft danach aber das nachfolgende Paket, d. h. Paket 3 aus Fig. 2, verspätet ein, so kann die natürliche Sprach-bzw. Klangpause am Ende des Paketes 2 problemlos künstlich verlängert werden.

Das Klangempfinden bzw. Sprachempfinden wird durch die Verpackung der Daten in das Paket 2 mit einer Sprach-bzw.

Klangpause am Ende bei einer derartigen Wiedergabe nur geringfügig oder gar nicht gestört.

Für den Fall, dass eine Paketgrenze derart gewählt wurde, dass z. B. ein lang gedehnter Vokal durch die Datenpaketgrenze getrennt wurde, kann in der Empfangseinrichtung RE die Datenverarbeitung uPR entsprechend der Verlängerung von Klanglücken derart erfolgen, dass der letzte Klang bzw. Ton <BR> <BR> verdoppelt, verdreifacht, ... wiedergegeben wird, was bei der klanglichen Wiedergabe wie eine verlängerte Dehnung erscheint und sich ebenfalls nur in geringfügigem oder vernachlässigbarem Umfang negativ auf das Klang-bzw.

Sprachempfinden auswirkt.

Während vorstehend die Versendung von Datenpaketen mit unterschiedlicher Anzahl von Datenwerten bzw. unterschiedlicher Datenpaketlänge beschrieben ist, ist es natürlich auch möglich, Datenpakete mit jeweils gleicher Dauer zu erstellen und zu übertragen. In einem solchen Fall wird die Dauer der in die Datenpakete zu packenden Datenwerte zweckmäßigerweise so lang gewählt, dass eine ausreichende Anzahl von Datenwerten eingesetzt werden kann, um eine genügende Anzahl von Phonemen, Silben und/oder Worten, je nach Wunsch des Trennkriteriums, einsetzen zu können, so dass idealerweise nach den eingesetzten Nutz-Datenwerten stets noch eine Anzahl unbelegter Datenwerte folgt, die bei der Wiedergabe in der Empfangseinrichtung RE bei Eintreffen des nächsten Datenpaketes mit dessen ersten Datenwerten überschrieben werden.

Während vorstehend einfache Möglichkeiten zur Umsetzung eines solchen Verfahrens beschrieben wurden, können natürlich bereits bestehende Programme soft-oder hardwaremäßig in die Verfahrensweise bei der Strukturanalyse eingehender Klang- bzw. Sprachdaten und bei der Rekonstruktion auszugebender

Sprach-bzw. Klangdaten verwendet werden, die für sich genommen aus beispielsweise dem Bereich der Spracherkennung bekannt sind, wobei diese Programme dazu dienen, gesprochene Sprache in geschriebenen Text bzw. geschriebenen Text in gesprochene Sprache umzusetzen. Letztendlich beruht eine Vielzahl dieser Programme auf Algorithmen, die auch als solche im vorstehend beschriebenen Verfahren vorteilhaft eingesetzt werden können.

Während vorstehend die direkte Übertragung von Sprachdaten oder Klangdaten zu einem Empfänger und die unmittelbare dortige Wiedergabe beschrieben sind, kann das Verfahren natürlich auch zum konservieren von Sprachdokumenten verwendet werden, beispielsweise um eine historisch bedeutende Rede zwischenzeitlich in einem Speicher paketweise hinterlegen zu können, um eine spätere Wiedergabe ermöglichen zu können.

Previous Patent: METHOD AND SYSTEM FOR MINIMIZING JITTER IN A PACKET SWITCHED NETWORK

Next Patent: MULTIRATE DIGITAL TRANSCEIVER