Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR GENERATING A CARRIER SIGNAL OF A NUMERIC CODE
Document Type and Number:
WIPO Patent Application WO/2013/014381
Kind Code:
A1
Abstract:
The invention relates to a method which comprises: generating a carrier signal, said signal being intended to be transmitted by a transmission unit (3, 4) over a voice channel of a telecommunications network (MN) comprising a VAD module and a DTX module, said carrier signal being made up of one or more audio signals each carrying a portion of the code (C1, C2) and comprising a first signal carrying the portion of the code, with a duration that is no longer than a first duration, followed by a second audible signal carrying voice activity which can be detected by the VAD module, with a duration no shorter than a second duration, the first and second durations being selected such that the first signal is transmitted over the voice channel by the DTX module; and supplying the carrier signal to the transmitting unit.

Inventors:
NAROZNY MICHEL (FR)
Application Number:
PCT/FR2012/051733
Publication Date:
January 31, 2013
Filing Date:
July 20, 2012
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
TAGATTITUDE (FR)
NAROZNY MICHEL (FR)
International Classes:
H04W76/04; G10L19/00
Foreign References:
US20060106598A12006-05-18
EP2211338A12010-07-28
EP0773168A11997-05-14
Other References:
Z. MEZGEC ET AL.: "Implementation of PCCD-OFDM-ASK Robust Data Transmission over GSM Speech Channel", INFORMATICA, vol. 20, no. 1, 2009, pages 51 - 78
Attorney, Agent or Firm:
DELUMEAU, François et al. (FR)
Download PDF:
Claims:
REVENDICATIONS

1. Procédé de génération d'un signal porteur (S(C1),S(C2)) d'un code numérique (C1,C2) composé d'une ou de plusieurs portions de code, ledit signal porteur étant destiné à être transmis par une unité émettrice (3,4) sur un canal voix d'un réseau de télécommunications (MN), ladite unité émettrice comportant un module de détection d'activité vocale (10B,17B) et un module de transmission (10C,17C) apte à mettre en œuvre une transmission discontinue de signaux sur ledit canal voix sur la base d'informations reçues du module de détection d'activité vocale, ledit procédé de génération étant caractérisé en ce qu'il comporte :

— une étape de génération (E20) du signal porteur, ledit signal porteur du code étant constitué d'un signal audio ou d'une succession continue de signaux (SAi,SBj) audio portant chacun une portion du code, chaque signal audio portant une portion dudit code étant composé :

• d'un premier signal (S^SI d'une durée inférieure ou égale à une première durée prédéterminée, portant cette portion du code ;

• suivi d'un deuxième signal (S2,S2') audible d'une durée supérieure ou égale à une deuxième durée prédéterminée, porteur d'une activité vocale détectable par le module de détection d'activité vocale ;

la première durée et la deuxième durée étant choisies de sorte que le premier signal soit transmis sur ledit canal voix par le module de transmission discontinue ; et

— une étape de fourniture (E30) du signal porteur à l'unité émettrice (3,4).

2. Procédé de génération selon la revendication 1 caractérisé en ce que ladite étape de fourniture (E30) du signal porteur à l'unité émettrice utilise des moyens de restitution acoustique (24A).

3. Procédé de génération selon la revendication 1 ou 2, caractérisé en ce que ledit signal porteur est constitué en outre d'un signal audio de préambule (P) précédant les signaux audio portant les portions du code, ledit signal audio de préambule portant une activité vocale détectable par le module de détection d'activité vocale et étant choisi de sorte à amener ledit module d'activité vocale et/ou ledit module de transmission discontinue dans un état prédéterminé à l'issue de la transmission du signal audio de préambule par l'unité émettrice sur le canal voix.

4. Procédé de génération selon l'une quelconque des revendications 1 à 3, caractérisé en ce que le deuxième signal (52,52 audible porte un son voisé ou au moins une tonalité émise à une fréquence prédéterminée.

5. Procédé de génération selon l'une quelconque des revendications 1 à 4, caractérisé en ce que :

— la première durée prédéterminée correspond à la durée d'une période de hangover pour le module de transmission discontinue ; et

— la deuxième durée prédéterminée correspond à la durée d'une trame.

6. Procédé de génération selon la revendication 3, caractérisé en ce que ledit signal audio de préambule porte une activité vocale sur : — sa première trame et sa dernière trame ; et sur

— au moins deux trames espacées entre elles et de la première et de la dernière trame d'une durée inférieure ou égale à la durée d'une période de hangover du module de transmission discontinue. 7. Procédé de génération selon l'une quelconque des revendications 1 à 4, caractérisé en ce que ladite première durée et ladite deuxième durée dépendent en outre du deuxième signal audible.

8. Procédé de génération selon la revendication 7, caractérisé en ce que :

— les informations reçues du module de détection d'activité vocale par le module de transmission comprennent un indice d'activité vocale (VAD_flag) dont la valeur est représentative de la présence ou non d'une activité vocale détectable par ledit module de détection sur une période donnée ; et — la première durée et la deuxième durée sont choisies de sorte à garantir en outre que durant l'émission dudit code sur ledit canal voix, la valeur de l'indice d'activité vocale est maintenue à une valeur représentative de la présence d'une activité vocale sur ladite période.

9. Procédé de génération selon la revendication 8 caractérisé en ce que :

— la valeur de l'indice d'activité vocale dépend d'une estimation d'un niveau de bruit de fond ; et

— la première durée et la deuxième durée sont choisies de sorte à empêcher en outre une mise à jour à la hausse de l'estimation du niveau de bruit de fond sur ladite période.

10. Procédé de transmission d'un signal porteur (S(C1),S(C2)) d'un code numérique composé d'une ou de plusieurs portions de code par une unité émettrice (3,4) connectée à un réseau de télécommunications (MN), ladite unité émettrice comportant un module de détection d'activité vocale (10B,17B) et un module de transmission (10C,17C) apte à mettre en œuvre une transmission discontinue de signaux sur un canal voix du réseau sur la base d'informations reçues du module de détection d'activité vocale, ledit procédé comportant une étape de transmission (F20) dudit signal porteur sur ledit canal voix, ledit signal porteur étant généré (E20) et fourni (E30) à l'unité émettrice selon un procédé de génération conforme à l'une quelconque des revendications 1 à 9.

11. Procédé de transmission selon la revendication 10 dans lequel le signal porteur est reçu par l'unité émettrice par l'intermédiaire de moyens de capture acoustique (12B). 12. Dispositif de génération (2,5) d'un signal porteur

(S(C1),S(C2)) d'un code numérique composé d'une ou de plusieurs portions de code et destiné à être transmis par une unité émettrice (3,4) sur un canal voix d'un réseau de télécommunications (MN), ladite unité émettrice comportant un module de détection d'activité vocale (10B,17B) et un module de transmission (10C,17C) apte à mettre en œuvre une transmission discontinue de signaux sur ledit canal voix sur la base d'informations reçues du module de détection d'activité vocale,

ledit dispositif de génération étant caractérisé en ce qu'il comporte :

— des moyens de génération (20,25) du signal porteur, ledit signal porteur du code étant constitué d'un signal audio ou d'une succession continue de signaux audio portant chacun une portion du code, chaque signal audio portant une portion dudit code étant composé :

• d'un premier signal d'une durée inférieure ou égale à une première durée prédéterminée, portant cette portion du code ; · suivi d'un deuxième signal audible d'une durée supérieure ou égale à une deuxième durée prédéterminée, porteur d'une activité vocale détectable par le module de détection d'activité vocale ;

la première durée et la deuxième durée étant choisies de sorte que le premier signal soit transmis sur ledit canal voix par le module de transmission discontinue ; et

— des moyens de fourniture (24A,29) du signal porteur à l'unité émettrice. 13. Système (1) comprenant :

— un dispositif de génération (2,5) d'un signal porteur (S(C1),S(C2)) d'un code numérique composé d'une ou de plusieurs portions de code selon la revendication 12 ; et

— une unité émettrice (3,4) connectée à un réseau de télécommunications (MN), comportant un module de détection d'activité vocale (10B,17B) et un module de transmission (10C,17C) apte à mettre en œuvre une transmission discontinue de signaux sur un canal voix du réseau de télécommunications sur la base d'informations reçues du module de détection d'activité vocale, ladite unité émettrice étant apte à recevoir ledit signal porteur fourni par ledit dispositif de génération, et à transmettre ledit signal porteur sur ledit canal voix.

14. Système selon la revendication 13 dans lequel le dispositif de génération (2) fournit le signal porteur à l'unité émettrice (3) par l'intermédiaire de moyens de restitution acoustique (24A) et l'unité 43

émettrice reçoit le signal porteur par l'intermédiaire de moyens de capture acoustique (12B).

15. Système selon la revendication 13 ou 14 comprenant en outre un serveur informatique (5) comportant :

— des moyens de réception du signal porteur du code numérique transmis par l'unité émettrice sur le canal voix du réseau de télécommunications ;

— des moyens de validation du code reçu ; et

— des moyens, activés le cas échéant, pour autoriser une transaction.

Description:
Procédé et dispositif de génération d'un signal porteur d'un code numérique.

Arrière-plan de l'invention

L'invention se rapporte au domaine général des télécommunications.

Elle concerne plus particulièrement la transmission de données numériques sur un canal voix d'un réseau de télécommunications mettant en œuvre des mécanismes de détection d'activité vocale (ou VAD, Voice Activity Détection) et de transmission discontinue de signaux (ou DTX, Discontinuous Transmission).

Ce réseau est par exemple un réseau de télécommunications mobile de type GSM (Global System for Mobile Communications), UMTS (Universal Mobile Télécommunication System) ou CDMA (Code Division Multiple Access). Un canal voix pour ces réseaux est par exemple un canal TCH/FS (Traffic CHannel / Full rate Speech), TCH/EFS (Traffic CHannel / Enhanced Full rate Speech), TCH/AFS (Traffic CHannel / Adaptive multirate Full Speech), TCH/AHS (Traffic CHannel / Adaptive multirate Half Speech), etc.

Un contexte d'application privilégiée mais non limitative de l'invention est celui de la validation d'un événement (ex. une transaction financière, l'ouverture d'une porte, le basculement d'un appel, etc.) à l'aide d'un code numérique échangé entre différents équipements reliés par l'intermédiaire d'un réseau de télécommunications mobile.

Dans certaines situations, comme illustré notamment dans le document EP 07 731 680, ce code numérique peut être transmis aux équipements connectés au réseau de télécommunications mobile participant à la validation de l'événement, via un canal acoustique aérien.

A titre d'exemple, pour mieux comprendre l'invention, considérons le cas où un individu souhaite effectuer un paiement auprès d'un terminal de paiement par l'intermédiaire d'un terminal mobile connecté au réseau GSM ou UMTS.

Dans cet exemple, le terminal mobile appelle ou est appelé par un serveur de contrôle, puis est placé à proximité du terminal de paiement. Celui-ci, par l'intermédiaire de moyens de restitution acoustique tel qu'un haut-parleur, émet alors un signal audio porteur d'un code numérique. Le signal audio est reçu par le terminal mobile sur son microphone, puis transmis sur un canal voix du réseau GSM ou UMTS vers le serveur de contrôle. Le serveur de contrôle vérifie la validité du code ainsi reçu et le cas échéant autorise le paiement.

Dans l'exemple envisagé, le signal audio porteur du code numérique traverse donc un canal acoustique aérien (i.e. entre le haut- parleur du terminal de paiement et le microphone du terminal mobile), avant d'être émis sur le canal voix du réseau de télécommunications mobile. En fonction de l'environnement dans lequel se trouvent le terminal de paiement et le terminal mobile, ce canal acoustique aérien peut être plus ou moins bruité.

Par ailleurs, dans les réseaux de télécommunications mobiles actuels, les canaux voix sont définis de façon à optimiser la transmission des signaux de parole. Cette optimisation se traduit notamment dans le choix des codées de parole (ex. EFR (Enhanced Full Rate), FR (Full Rate), HR (Half Rate), AMR (Adaptive MultiRate) pour les réseaux GSM et UMTS), mais également dans l'implémentation, au niveau de l'émetteur, de mécanismes de détection d'activité vocale et de transmission discontinue de signaux permettant de limiter la consommation des terminaux et les interférences générées dans le réseau.

Plus précisément, ces mécanismes offrent la possibilité d'interrompre la transmission des trames sur le canal voix lorsque des périodes d'inactivité vocale sont détectées par le module de VAD (ex. silence prolongé dû à une pause dans la conversation). L'activation ou l'arrêt de la transmission des trames est gérée par le module de DTX sur la base des informations fournies par le module de VAD. Au niveau du récepteur, les trames qui n'ont pas été transmises par le module de DTX sont remplacées par un bruit de confort.

Une difficulté par conséquent lorsque l'on souhaite transmettre des données numériques telles qu'un code sur un canal voix d'un réseau de télécommunications employant des codées de parole usuels et mettant en œuvre de tels mécanismes, provient du fait que si l'on utilise des formes d'onde classiques, comme par exemple une modulation FSK (Frequency Shift Keying) ou OFDM (Orthogonal Frequency Division Multiplexing), les signaux audio transportant ces données ne s'apparentent pas nécessairement à des signaux de parole. De ce fait, il existe une forte probabilité pour qu'ils soient identifiés par le module de VAD comme ne portant pas d'activité vocale et donc qu'ils ne soient pas transmis par le module de DTX. Le cas échéant, ils seront remplacés par du bruit de confort au niveau du récepteur, entraînant ainsi une perte irréversible des données numériques.

Pour remédier à ces inconvénients, le document intitulé « Implementation of PCCD-OFDM-ASK Robust Data Transmission over GSM Speech Channel », de Z. Mezgec et al., Informatica 2009, vol. 20, n°l, pages 51-78, propose un mécanisme de transmission de données numériques sur un canal voix d'un réseau GSM basé sur l'utilisation au niveau du terminal de paiement d'une forme d'onde particulière imitant les propriétés d'un signal de parole. Cette forme d'onde particulière s'appuie sur une modulation PCCD-OFDM-ASK (Phase Continuous Context Dépendent - Orthogonal Frequency Division Multiplexing - Amplitude Shift Keying).

Toutefois, ce mécanisme nécessite le recours à des schémas de modulation/démodulation au niveau du terminal de paiement et du serveur de contrôle plus complexes que ceux utilisés aujourd'hui pour des modulations traditionnelles comme les FSK (bancs de corrélateurs).

En outre, la forme d'onde proposée dans le document précité a été développée pour les codées de parole EFR, FR et HR définis dans le standard GSM.

Or aujourd'hui, la majorité des terminaux mobiles GSM ou UMTS implémentent un codée AMR. Et de façon connue, l'utilisation d'une forme d'onde s'appuyant sur une modulation OFDM en présence d'un codée AMR entraîne, au bout de quelques secondes, la génération d'un bruit de confort au niveau du récepteur, et donc la perte irréversible des données numériques transportées par la forme d'onde. Objet et résumé de l'invention

La présente invention permet notamment de pallier ces inconvénients en proposant un formatage astucieux du signal portant les données numériques avant leur transmission vers le réseau de télécommunications (et le cas échéant, avant leur transmission sur un canal acoustique aérien). Ce formatage est basé sur une alternance continue d'un premier signal d'une durée inférieure ou égale à une première durée prédéterminée portant tout ou partie des données numériques et d'un deuxième signal audible d'une durée supérieure ou égale à une deuxième durée prédéterminée porteur d'une activité vocale détectable par un module de VAD. Les première et deuxième durées sont avantageusement choisies de sorte que le premier signal, qu'il soit porteur ou non d'activité vocale détectable par le module de VAD, soit transmis sur un canal voix du réseau par un module de DTX comme un signal porteur d'activité vocale.

Autrement dit, le conditionnement de signal proposé par l'invention est apte à maintenir le module de DTX du réseau de télécommunications dans un état de transmission continue (assuré par l'alternance des deux signaux). Ainsi, toutes les trames porteuses des données numériques sont transmises par le module de DTX sur le canal voix du réseau de télécommunications, ce qui permet d'éviter la génération de bruit de confort en réception et la perte de tout ou partie de ces données qui en résulterait.

Remarquablement, le conditionnement de signal proposé par l'invention est robuste à la traversée d'un canal acoustique aérien, en ce sens, que, son aptitude à maintenir le module de DTX du réseau de télécommunications dans un état de transmission continue n'est pas, du fait du type de signaux considérés (et notamment de l'utilisation d'un deuxième signal audible), affectée par la traversée préalable d'un canal acoustique aérien plus ou moins bruité.

Plus précisément, l'invention vise un procédé de génération d'un signal porteur d'un code numérique composé d'une ou de plusieurs portions de code, ce signal porteur du code étant destiné à être transmis par une unité émettrice sur un canal voix d'un réseau de télécommunications, cette unité émettrice comportant un module de détection d'activité vocale et un module de transmission apte à mettre en œuvre une transmission discontinue de signaux sur le canal voix sur la base d'informations reçues du module de détection d'activité vocale. Le procédé de génération selon l'invention est remarquable en ce qu'il comprend :

— une étape de génération du signal porteur, celui-ci étant constitué d'un signal audio ou d'une succession continue de signaux audio portant chacun une portion du code, chaque signal audio portant une portion du code étant composé :

• d'un premier signal d'une durée inférieure ou égale à une première durée prédéterminée, portant cette portion du code ; · suivi d'un deuxième signal audible d'une durée supérieure ou égale à une deuxième durée prédéterminée, porteur d'une activité vocale détectable par le module de détection d'activité vocale ;

la première durée et la deuxième durée étant choisies de sorte que le premier signal soit transmis sur le canal voix par le module de transmission discontinue ; et

— une étape de fourniture du signal porteur à l'unité émettrice.

Corrélativement, l'invention vise également un dispositif de génération d'un signal porteur d'un code numérique composé d'une ou de plusieurs portions de code et destiné à être transmis par une unité émettrice sur un canal voix d'un réseau de télécommunications, cette unité émettrice comportant un module de détection d'activité vocale et un module de transmission apte à mettre en œuvre une transmission discontinue de signaux sur le canal voix sur la base d'informations reçues du module de détection d'activité vocale. Le dispositif de génération selon l'invention est remarquable en ce qu'il comprend :

— des moyens de génération du signal porteur, celui-ci étant constitué d'un signal audio ou d'une succession continue de signaux audio portant chacun une portion du code, chaque signal audio portant une portion dudit code étant composé :

• d'un premier signal d'une durée inférieure ou égale à une première durée prédéterminée, portant cette portion du code ;

• suivi d'un deuxième signal audible d'une durée supérieure ou égale à une deuxième durée prédéterminée, porteur d'une activité vocale détectable par le module de détection d'activité vocale ;

la première durée et la deuxième durée étant choisies de sorte que le premier signal soit transmis sur le canal voix par le module de transmission discontinue ; et

— des moyens de fourniture du signal porteur à l'unité émettrice. Au sens de l'invention, un code numérique désigne un ensemble de données numériques. Par exemple, il peut s'agir de données permettant de valider un événement comme décrit précédemment, ou de données d'information que l'on souhaite transmettre lors d'un appel d'urgence telles que des données de localisation et le nombre de passagers d'un véhicule, etc.

Par ailleurs, on entend ici par signal audible, un signal d'énergie non nulle par construction et dont les composantes fréquentielles sont confinées dans la bande de fréquences audibles par l'Homme utilisée par le réseau de télécommunications considéré. On notera qu'une bande de fréquences classiquement utilisée en téléphonies fixe et mobile est la bande 300 Hz-3600 Hz. Un silence ou du bruit de fond généré par un équipement ne représente donc pas un signal audible au sens de l'invention.

Dans une variante de réalisation de l'invention, le deuxième signal audible porte un son voisé (« pitch » en anglais) ou au moins une tonalité émise à une fréquence prédéterminée, choisie préférentiellement dans la bande 300Hz-3600Hz.

La solution proposée par l'invention est donc simple à mettre en uvre et s'adapte à de nombreux codées de parole, tels que les codées AMR, EFR, FR et HR classiquement utilisés dans les réseaux mobiles de deuxième et troisième génération. Elle ne suppose aucun prérequis quant à la forme d'onde utilisée et permet ainsi de transmettre des données numériques dans un canal voix d'un réseau de télécommunications sans que les modules de VAD et/ou DTX ne viennent entraver cette transmission y compris lorsque l'on utilise une forme d'onde basée sur une modulation M-FSK ou OFDM.

En outre, dans l'exemple précité ou de manière plus générale dans le contexte d'une validation d'événement, l'invention permet de transmettre des données numériques sans que les modules de VAD et/ou DTX ne viennent entraver cette transmission aussi bien dans le sens montant (ex. terminal de paiement vers serveur de contrôle) que dans le sens descendant (ex. serveur de contrôle vers terminal de paiement).

Elle peut par ailleurs s'adapter aussi bien à un canal voix de la liaison montante du réseau de télécommunications qu'à un canal voix de la liaison descendante de ce réseau. Ainsi, l'unité émettrice est par exemple un terminal mobile (utilisation d'un canal voix en liaison montante) ou une station de base du réseau (utilisation d'un canal voix en liaison descendante) dans le cas d'un réseau de télécommunications mobile.

Dans une variante de réalisation de l'invention, l'étape de fourniture du signal porteur à l'unité émettrice utilise des moyens de restitution acoustique (ex. un haut-parleur).

Autrement dit dans cette variante de réalisation, le signal porteur est transmis à l'unité émettrice via un canal acoustique aérien. L'unité émettrice est alors par exemple un terminal mobile muni de moyens de capture acoustique (ex. un microphone) lui permettant de recevoir le signal.

Toutefois, on notera que l'invention s'applique également en l'absence de canal acoustique aérien.

C'est le cas par exemple lorsque le signal porteur du code est généré directement par l'unité émettrice connectée au réseau de télécommunications (ex. en cas de transmission de données numériques par un terminal mobile dans un appel d'urgence émis sur son réseau).

En variante, c'est encore le cas lorsque le signal porteur du code est fourni via une liaison filaire ou infrarouge ou Bluetooth® à l'unité émettrice (ex. transmission d'un code numérique depuis le serveur de validation de paiement vers le terminal de paiement).

Selon un aspect particulier de l'invention, le signal porteur est constitué en outre d'un signal audio de préambule précédant les signaux audio portant les portions de code. Ce signal audio de préambule porte une activité vocale détectable par le module de détection d'activité vocale et est choisi de sorte à amener le module d'activité vocale et/ou le module de transmission discontinue dans un état prédéterminé à l'issue de la transmission par l'unité émettrice du signal audio de préambule sur le canal voix.

L'invention permet ainsi de gérer les cas de figure où le début de la communication sur le réseau de télécommunications utilisée pour transporter le code numérique dans un canal voix (autrement dit le passage de la communication à l'état « connecté ») et le début de la transmission du signal porteur du code numérique sur le réseau ne sont pas synchronisés entre eux. Dans un tel cas de figure, il est très difficile, voire impossible, de connaître l'état du module de VAD et/ou du module de DTX au moment de la transmission du code numérique sur le réseau de télécommunications. Avant la transmission du code, les modules de VAD et de DTX ont été en effet amenés à traiter plusieurs trames, dont on ignore précisément le nombre et les caractéristiques (ex. porteuses ou non d'une activité vocale détectable par le module de VAD), et qui les ont menés dans un état inconnu. De ce fait, la détermination de la première durée et de la deuxième durée est rendue difficile, voire impossible.

Le signal de préambule permet de pallier ce problème et d'amener le module de VAD et/ou le module de DTX dans un état prédéterminé, autrement dit de réinitialiser le module de VAD et/ou de DTX dans un état connu (préférentiellement l'état initial de ces modules lorsque la communication débute). On s'assure ainsi qu'en présence des premier et deuxième signaux du signal porteur, le module de DTX transmette de façon continue le code numérique porté par le signal porteur.

On notera que ce cas de figure arrive notamment en liaison montante, lorsque le signal porteur du code numérique est généré par un dispositif distinct de l'unité émettrice du signal porteur sur le canal voix du réseau de télécommunications. Ainsi, dans l'exemple décrit précédemment, ce cas de figure se présente lorsque des données numériques sont envoyées par le terminal de paiement au serveur de contrôle lors d'une communication établie au préalable entre le terminal mobile et le serveur de contrôle. La communication ayant débuté avant la transmission des données numériques par le terminal de paiement et a fortiori par le terminal mobile, il est difficile de connaître l'état du module de VAD et/ou du module de DTX au moment même de la transmission des données numériques sur le réseau de télécommunications.

Dans une variante de réalisation de l'invention, des données de synchronisation pourront également être portées par le premier signal. Ces données de synchronisation permettent une meilleure récupération du code numérique en réception.

Pour maintenir le module de DTX dans un état de transmission continue durant l'émission du code numérique, deux stratégies sont envisagées conformément à l'invention. La première stratégie consiste à faire en sorte que le module de DTX passe dans un état de hangover dès lors qu'une trame ne portant pas d'activité vocale détectable par le module de VAD est détectée.

A cette fin, dans un premier mode de réalisation de l'invention reflétant cette première stratégie :

— la première durée prédéterminée correspond à la durée d'une période de hangover pour le module de transmission discontinue ; et

— la deuxième durée prédéterminée correspond à la durée d'une trame (pour le canal voix du réseau de télécommunications).

De façon connue, on a introduit dans les modules de transmission discontinue une période de hangover afin notamment de faciliter la détermination du bruit de confort en réception. Durant cette période, en dépit d'informations fournies par le module de VAD indiquant que les trames de signal traitées ne portent pas d'activité vocale détectable par le module de VAD, le module de DTX maintient la transmission de ces trames sur le canal voix. A l'issue de cette période si une nouvelle trame ne portant pas d'activité vocale est détectée par le module de VAD, elle ne sera pas transmise par le module de DTX sur le canal voix et sera remplacée en réception par du bruit de confort.

A titre d'exemple, les documents 3GPP TS 06.93

« Discontinuous Transmission (DTX) for Adaptive Multi-Rate speech traffic channels » v7.5.0, décembre 2000, et 3GPP TS 26.093 « Adaptive Multi- Rate (AMR) speech codée ; Source controlled rate opération» vlO.0.0, mars 2011, définissent plus en détails la procédure de hangover du module de DTX mise en œuvre dans les réseaux GSM et UMTS pour un codée AMR.

Autrement dit, dans ce premier mode de réalisation, le signal porteur du code numérique est composé soit de signaux présentant une activité vocale détectable par le module de VAD (et donc transmis par le module de DTX), soit de signaux amenant le module de DTX dans un état de hangover : tous ces signaux sont traités par le module de DTX comme des signaux porteurs d'une activité vocale, et donc transmis sur le canal voix du réseau. Ainsi, aucun bruit de confort n'est généré en réception durant la transmission du signal porteur.

Ceci est permis par la prévision d'une première durée égale à la durée de la période de hangover, et la présence du deuxième signal audible de durée supérieure ou égale à la durée d'une trame. En effet, la présence du deuxième signal audible permet d'éviter la génération de bruit de confort, puisqu'une activité vocale est détectée par le module de VAD au plus tard à l'issue de la période de hangover du module de DTX.

Le choix des première et deuxième durées conformément à ce premier mode de réalisation permet donc, lorsqu'un signal ne portant pas d'activité vocale détectable par le module de VAD est détecté, soit d'amener soit de maintenir le module de DTX dans un état de hangover pendant lequel toutes les trames sont transmises sur le canal voix.

Selon une variante de réalisation, le signal audio de préambule amène le module de transmission discontinue dans un état prédéterminé. Cet état prédéterminé est tel que lorsque le module de détection d'activité vocale détecte pour la première fois une trame non porteuse d'activité vocale dans l'un des signaux audio composant le signal porteur, le module de transmission discontinue passe dans un état de hangover.

Cette variante de réalisation permet de réinitialiser le module de DTX dans cet état prédéterminé, notamment lorsque la transmission du code numérique est désynchronisée avec le début de la communication sur le canal voix du réseau de télécommunications, comme expliqué précédemment.

La durée du signal de préambule sera choisie en fonction des différentes procédures mises en œuvre le cas échéant dans le réseau de télécommunications visant à empêcher le passage du module de DTX dans un état de hangover, comme par exemple la gestion des blocs (ou bursts) de parole courts proposée dans la norme GSM ou UMTS et décrite dans les documents 3GPP TS06.93 et 3GPP TS26.093 cités précédemment.

Préférentiellement, dans cette variante, le signal audio de préambule porte une activité vocale sur :

— sa première trame et sa dernière trame ; et sur

— au moins deux trames espacées entre elles et de la première et de la dernière trame du signal de préambule d'une durée inférieure ou égale à la durée d'une période de hangover du module de transmission discontinue.

On pourrait bien entendu envisager également que le signal audio de préambule porte une activité vocale sur l'ensemble de ses trames. Conformément à l'invention, une seconde stratégie pour maintenir le module de DTX dans un état de transmission continue durant l'émission du code numérique consiste à intervenir dans le calcul même des informations fournies par le module de VAD au module de DTX, de sorte que celles-ci reflètent une présence permanente d'activité vocale durant l'émission du code.

Ainsi, dans un second mode de réalisation de l'invention reflétant cette seconde stratégie, la première durée et la deuxième durée dépendent en outre du deuxième signal audible, comme par exemple de la nature de ce signal (son voisé, tonalité(s) à une(des) fréquence(s) prédéterminée(s), signal complexe, etc.).

Dans une variante de ce second mode de réalisation, lorsque les informations reçues du module de détection d'activité vocale par le module de transmission comprennent un indice d'activité vocale dont la valeur est représentative de la présence ou non d'une activité vocale détectable par le module de détection sur une période donnée, la première durée et la deuxième durée sont choisies de sorte à garantir en outre que durant l'émission du code sur le canal voix, la valeur de l'indice d'activité vocale est maintenue à une valeur représentative de la présence d'une activité vocale sur la période.

Le module de DTX, en présence d'une telle information, maintient ainsi de façon continue la transmission des trames sur le canal voix du réseau de télécommunications, et par conséquent, le code numérique est transmis sans perte d'informations.

Dans une variante de réalisation, la valeur de l'indice d'activité vocale dépend d'une estimation d'un niveau de bruit de fond sur une période prédéterminée et la première durée et la deuxième durée sont choisies de sorte à empêcher en outre une mise à jour à la hausse de l'estimation du niveau de bruit de fond sur cette période.

Ce mode de réalisation est particulièrement intéressant pour les modules de VAD envisagés dans les réseaux GSM et UMTS, et notamment pour le codée AMR très utilisé dans les terminaux actuels.

Selon un autre aspect, l'invention vise également un procédé de transmission d'un signal porteur d'un code numérique composé d'une ou de plusieurs portions de code, par une unité émettrice connectée à un réseau de télécommunications et comportant un module de détection d'activité vocale et un module de transmission apte à mettre en œuvre une transmission discontinue de signaux sur un canal voix du réseau sur la base d'informations reçues du module de détection d'activité vocale. Le procédé de transmission selon l'invention comprend une étape de transmission du signal porteur du code numérique sur le canal voix, le signal porteur étant généré et fourni à l'unité émettrice selon un procédé de génération conforme à l'invention.

Par transmission du signal porteur sur un canal voix, on entend ici d'une part l'application sur le signal porteur généré conformément à l'invention, des différents traitements relatifs à l'émission de signaux de parole dans le réseau sur un canal voix, comme notamment, le codage de la parole, la détection d'activité vocale, la transmission discontinue, etc., et d'autre part, la modulation du signal ainsi traité et son émission à proprement parler sur le canal radio.

On notera que l'invention ne requiert pas à proprement parler de modification de l'unité émettrice, lorsque celle-ci est une entité distincte du dispositif de génération du signal porteur. En effet, l'invention propose avantageusement d'utiliser pour émettre le signal porteur des moyens déjà présents sur l'unité émettrice pour l'émission de signaux voix sur le réseau de télécommunications. Ainsi, par exemple, si l'unité émettrice est un terminal mobile ou une station de base d'un réseau de télécommunications mobiles, ceux-ci traitent le signal porteur du code numérique comme un signal de parole émis traditionnellement dans un canal voix du réseau de télécommunications.

Dans une variante de réalisation du procédé de transmission selon l'invention, le signal porteur est reçu par l'unité émettrice par l'intermédiaire de moyens de capture acoustique.

Selon un autre aspect encore, l'invention vise un système comprenant :

— un dispositif de génération d'un signal porteur d'un code numérique composé d'une ou de plusieurs portions de code selon l'invention ; et — une unité émettrice connectée à un réseau de télécommunications et comportant un module de détection d'activité vocale et un module de transmission apte à mettre en uvre une transmission discontinue de signaux sur un canal voix du réseau sur la base d'informations reçues du module de détection d'activité vocale, cette unité émettrice étant apte à recevoir le signal porteur fourni par le dispositif de génération et à transmettre le signal porteur sur le canal voix.

Dans une variante de réalisation, le dispositif de génération fournit le signal porteur à l'unité émettrice par l'intermédiaire de moyens de restitution acoustique et l'unité émettrice reçoit le signal porteur par l'intermédiaire de moyens de capture acoustique.

Dans une autre variante de réalisation de l'invention, le système comprend en outre un serveur informatique comportant :

— des moyens de réception du signal porteur du code numérique transmis par l'unité émettrice sur le canal voix du réseau de télécommunications ;

— des moyens de validation du code numérique reçu ; et

— des moyens, activés le cas échéant, pour autoriser une transaction.

Le procédé de transmission et le système selon l'invention disposent des mêmes avantages que ceux cités précédemment pour le procédé et le dispositif de génération d'un signal porteur selon l'invention.

Dans un mode particulier de réalisation, les différentes étapes du procédé de génération d'un signal porteur d'un code numérique sont déterminées par des instructions d'un programme d'ordinateur.

En conséquence, l'invention vise aussi un programme d'ordinateur sur un support d'informations, ce programme étant susceptible d'être mis en œuvre dans un dispositif de génération d'un signal porteur ou plus généralement dans un ordinateur, ce programme comportant des instructions adaptées à la mise en œuvre des étapes d'un procédé de génération d'un signal porteur d'un code numérique tel que décrit ci-dessus.

Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.

L'invention vise aussi un support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur tel que mentionné ci-dessus.

Le support d'informations peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette (floppy dise) ou un disque dur.

D'autre part, le support d'informations peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.

Alternativement, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.

On peut également envisager, dans d'autres modes de réalisation, que le procédé de génération, le procédé de transmission, le dispositif de génération et le système selon l'invention présentent en combinaison tout ou partie des caractéristiques précitées.

Brève description des dessins

D'autres caractéristiques et avantages de la présente invention ressortiront de la description faite ci-dessous, en référence aux dessins et aux annexes qui en illustrent un exemple de réalisation dépourvu de tout caractère limitatif.

Sur les figures :

— la figure 1 représente un système selon l'invention, dans un mode particulier de réalisation ;

— les figures 2-5 représentent un exemple d'architecture matérielle d'unités émettrices et de dispositifs de génération de la figure 1 conformes à l'invention dans un mode particulier de réalisation ;

— la figure 6 représente, sous forme d'organigramme, les principales étapes d'un procédé de génération d'un signal porteur d'un code numérique selon l'invention, dans un mode particulier de réalisation ;

— les figures 7A et 7B représentent des signaux porteurs de codes numériques, conformes à l'invention, pouvant être utilisés respectivement en liaison montante et en liaison descendante par le système de la figure 1 dans un mode particulier de réalisation ; — la figure 8 représente, sous forme d'organigramme, les principales étapes d'un procédé d'émission d'un signal porteur selon l'invention, dans un mode particulier de réalisation ;

— la figure 9 représente, sous forme d'organigramme, les principales étapes mises en œuvre par le serveur informatique du système représenté sur la figure 1 ;

— les figures 10A et 10B représentent schématiquement le fonctionnement de la procédure de hangover du module de DTX dans les standards GSM et UMTS ; et

— la figure 11 représente schématiquement le fonctionnement de l'algorithme de VAD-option 1 dans les standards GSM et UMTS.

Sur les annexes :

— l'annexe 1 rappelle brièvement les principales équations et instructions mises en œuvre lors de l'évaluation de l'indice de VAD intermédiaire et de l'estimation du niveau de bruit dans l'algorithme de VAD-option 1 défini dans les standards GSM et UMTS pour le codée AMR ;

— l'annexe 2 donne des exemples de signaux audio (nature et durées) conformes à l'invention pour l'algorithme de VAD-option 2 défini dans les standards GSM et UMTS pour le codée AMR ; et

— l'annexe 3 donne des exemples de signaux audio (nature et durées) conformes à l'invention pour les codées EFR, FR et HR définis dans le standard GSM.

Description détaillée de l'invention

La figure 1 représente, dans son environnement, un système 1 conforme à l'invention, dans un mode particulier de réalisation.

Afin de mieux illustrer l'invention, dans l'exemple envisagé ici, on suppose que le système 1 est un système de validation d'une transaction bancaire. Il comprend :

— un terminal de paiement 2 ;

— un terminal mobile 3 connecté à un réseau de télécommunications mobile MN composé de divers équipements, dont notamment une station de base 4 ; et

— un serveur informatique 5 de validation de la transaction.

On suppose par ailleurs, que pour valider une transaction bancaire réalisée par exemple par l'utilisateur du terminal mobile 3, le terminal 2 et le serveur 5 ont besoin d'échanger des données numériques de contrôle Cl et C2 (codes numériques au sens de l'invention).

Plus précisément, lors de la validation de cette transaction, le terminal de paiement 2 envoie le code numérique Cl au serveur 5, par l'intermédiaire du terminal mobile 3 et du réseau MN.

Sur réception de ce code, le serveur 5 vérifie sa validité et autorise le cas échéant la transaction en envoyant en retour un code numérique C2 au terminal de paiement par l'intermédiaire de la station de base 4 et du réseau MN.

Conformément à l'invention, les codes numériques Cl et C2 sont portés par un signal porteur S(C1) et S(C2) destiné à être transmis sur un canal voix du réseau MN.

Bien entendu, l'invention s'applique également à d'autres contextes dans lesquels des données numériques sont susceptibles d'être échangées entre deux équipements via un canal voix d'un réseau de télécommunications, comme par exemple pour la validation d'événements (ex. ouverture de porte, etc.) ou le transfert de données d'urgence sur le réseau de télécommunications.

Le réseau MN est ici un réseau de télécommunications mobile UMTS, mettant en œuvre, pour transmettre des signaux sur un canal voix du réseau en liaison montante et/ou en liaison descendante, un module de codage de la parole ainsi que des mécanismes de détection d'activité vocale (VAD) et de transmission discontinue de signaux (DTX).

Dans l'exemple envisagé ici, le codage de la parole mis en œuvre est de type AMR. Il est identique ou similaire au codage AMR décrit dans le document 3GPP TS26.071 «Mandatory speech codée speech processing functions; AMR speech codée; General description », vlO.0.0, mars 2011.

Ces hypothèses ne sont toutefois pas limitatives et l'invention s'applique aussi à d'autres réseaux de télécommunications fixes ou mobiles comme par exemple à un réseau GSM ou CDMA, ainsi qu'à d'autres types de codage de la parole.

De façon connue, le codage de la parole et les mécanismes de VAD et de DTX permettent de transmettre de façon optimisée des signaux s'apparentant à de la parole dans des canaux dits de « voix » du réseau (ex. dans le canal TCH/AFS ou TCH/AHS). Ces mécanismes sont implémentés à la fois au niveau du terminal mobile 3 et de la station de base 4 de sorte à pouvoir être appliqués en liaison montante et/ou en liaison descendante.

Le terminal 3 est une unité émettrice au sens de l'invention, apte à transmettre (en liaison montante) et à recevoir (en liaison descendante) des signaux sur le réseau mobile MN. Il dispose ici de l'architecture matérielle d'un ordinateur, telle qu'illustrée à la figure 2.

Il comporte notamment :

— un processeur 6 ;

— une mémoire morte 7, une mémoire vive 8 et une mémoire non volatile 9 ;

— des moyens de traitement et de transmission 10 de signaux sur une liaison montante du réseau mobile MN et notamment dans un canal voix (ex. TCH/AHS ou TCH/AFS) du réseau ;

— des moyens 11 de réception et de traitement de signaux reçus sur une liaison descendante du réseau mobile MN ; et

— des moyens de communication 12 avec d'autres équipements, comme par exemple avec le terminal de paiement 2.

Les moyens de transmission 10 comprennent entre autres, comme décrit précédemment, un module de codage AMR de la parole 10A, un module de détection d'activité vocale 10B (ou module de VAD 10B), un module de transmission discontinue 10C (ou module de DTX 10C) et des moyens d'émission 10D sur le canal radio (incluant notamment un modulateur, une ou plusieurs antennes, etc.).

Les moyens de réception 11 comprennent notamment, un module de réception 11A (incluant notamment un démodulateur, une ou plusieurs antennes, etc.), un module de génération de bruit de confort 11B, et un module de décodage AMR de la parole 11C.

Les moyens de communication 12 comprennent ici des moyens de restitution acoustique 12A, tels qu'un haut-parleur, ainsi que des moyens de capture acoustique 12B, tels qu'un microphone.

De façon similaire, la station de base 4 est également ici une unité émettrice au sens de l'invention apte à transmettre en liaison montante) et à recevoir (en liaison descendante) des signaux sur le réseau mobile MN. Elle dispose ici de l'architecture matérielle d'un ordinateur, telle qu'illustrée à la figure 3. Elle comporte notamment :

— un processeur 13 ;

— une mémoire morte 14, une mémoire vive 15 et une mémoire non volatile 16 ;

— des moyens de traitement et de transmission 17 de signaux sur une liaison descendante du réseau mobile MN et notamment dans un canal voix (ex. TCH/AHS ou TCH/AFS) du réseau ;

— des moyens 18 de réception et de traitement de signaux reçus sur une liaison montante du réseau mobile MN ; et

— des moyens de communication 19 avec d'autres équipements en dehors du réseau mobile MN, comme par exemple avec le serveur 5 via le réseau R. Le réseau R est par exemple un réseau de voix sur IP.

Les moyens de communication 19 intègrent ici des moyens de communication selon le protocole SIP (Session Initiation Protocol), connus en soi.

Les moyens de transmission 17 sont similaires aux moyens de transmission 10 décrits précédemment, hormis qu'ils sont adaptés à transmettre des signaux sur la voie descendante du réseau MN. De même, les moyens de réception 18 sont similaires aux moyens de réception 11 décrits précédemment, hormis qu'ils sont adaptés à traiter des signaux émis sur la voie montante du réseau MN.

On notera que dans l'exemple envisagé ici, les moyens de transmission 10 et de réception 11 du terminal mobile et les moyens de transmission 17 et de réception 18 de la station de base sont connus en soi : il s'agit en effet des moyens classiquement mis en œuvre par un terminal mobile et une station de base aptes à communiquer sur un réseau UMTS en utilisant un canal voix. Ainsi, de façon avantageuse, l'invention ne requiert pas ici de modification des terminaux ni des équipements (stations de base) communiquant sur le réseau MN.

Comme décrit précédemment, conformément à l'invention, les codes numériques Cl et C2 échangés entre le terminal de paiement 2 et le serveur 5 pour valider la transaction bancaire sont portés par un signal porteur transmis sur un canal voix du réseau mobile MN.

Le terminal de paiement 2 et le serveur 5 sont ici des dispositifs de génération d'un signal porteur des codes numériques Cl et C2 respectivement, au sens de l'invention. Ils ont ici, l'architecture matérielle d'un ordinateur, telle que représentée aux figures 4 et 5 respectivement.

Ainsi, le terminal de paiement 2 comporte notamment :

— un processeur 20 ;

— une mémoire morte 21, une mémoire vive 22 et une mémoire non volatile 23 ; et

— des moyens de communication 24 avec d'autres équipements incluant notamment des moyens de restitution acoustique 24A (ex. haut- parleur) et des moyens de capture acoustique 24B (ex. microphone).

La mémoire morte 21 du terminal de paiement 2 constitue un support d'enregistrement conforme à l'invention, lisible par le processeur 20 et sur lequel est enregistré un programme d'ordinateur conforme à l'invention, comportant des instructions pour l'exécution des étapes d'un procédé de génération d'un signal porteur selon l'invention décrites ultérieurement.

De façon similaire, le serveur 5 comporte notamment :

— un processeur 25 ;

— une mémoire morte 26, une mémoire vive 27 et une mémoire non volatile 28 ; et

— des moyens de communication 29, connus en soi, sur le réseau R de voix sur IP. Ces moyens intègrent ici des moyens de communication selon le protocole SIP, qui permettent notamment au serveur 5 d'encapsuler des signaux audio pour les transmettre sur le réseau R de voix sur IP

La mémoire morte 26 du serveur 5 constitue un support d'enregistrement conforme à l'invention, lisible par le processeur 25 et sur lequel est enregistré un programme d'ordinateur conforme à l'invention, comportant des instructions pour l'exécution des étapes d'un procédé de génération d'un signal porteur selon l'invention décrites ultérieurement.

Nous allons maintenant décrire en référence aux figures 6-9 les principales étapes des procédés de génération et de transmission d'un signal porteur selon l'invention, dans un mode particulier de réalisation, et lorsqu'ils sont mis en uvre respectivement :

— en voie montante, par le terminal 2 et par le terminal mobile 3, pour générer et transmettre un signal porteur du code Cl ; et — en voie descendante, par le serveur 5 et par la station de base 4, pour générer et transmettre un signal porteur du code C2.

Voie montante

Comme mentionné précédemment, on suppose ici que le terminal 2 souhaite envoyer le code numérique Cl au serveur 5 pour valider une transaction réalisée par l'utilisateur du terminal mobile 3.

En référence à la figure 6, le code Cl est donc dans un premier temps obtenu par le terminal 2 (étape E10) : il peut être généré par le terminal 2 ou en variante reçu par le terminal 2 d'un autre équipement participant à la validation (ex. un autre serveur informatique non représenté sur la figure 1).

Puis, le terminal 2 génère un signal S(C1) porteur du code Cl conforme à l'invention, destiné à être transmis sur un canal voix du réseau N par le terminal mobile 3 (étape E20).

La figure 7A illustre un exemple de signal S(C1) porteur du code Cl généré par le terminal 2 pour la voie montante.

Conformément à l'invention, ce signal S(C1) est composé d'un signal audio ou d'une succession continue de signaux audio SAi, i=l...,K, chaque signal audio SAi portant une portion Di(Cl) du code Cl.

Le nombre K de signaux audio composant le signal porteur S(C1) dépend bien entendu de la longueur du code Cl, ainsi que de la longueur (ou durée) des signaux audio SAi, i=l,...,K. La décomposition du code Cl en K portions de code (de tailles égales ou non) ne posant aucune difficulté particulière à l'homme du métier, elle ne sera pas décrite plus en détail ici.

Chaque signal audio SAi est composé :

— d'un premier signal Sl(Di(Cl)), d'une durée Tl inférieure ou égale à une première durée prédéterminée notée T1_0, et portant la portion du code Di(Cl) et éventuellement des données de (re)synchronisation (non représentées sur la figure) ;

— suivi d'un deuxième signal audible S2, d'une durée T2 supérieure ou égale à une deuxième durée prédéterminée notée T2_0, et porteur d'une activité vocale détectable par le module 10B de VAD du terminal mobile 3. Les durées T1_0 et T2__0 sont choisies de sorte que, pour chaque signal audio SAi, i=l,...,K, le premier signal Sl(Di(Cl)), qu'il soit porteur ou non d'activité vocale, soit transmis sur le réseau de télécommunications par le module 10C de DTX du terminal mobile 3 comme un signal porteur d'activité vocale.

On notera que par souci de simplification dans l'exemple de la figure 7A, tous les signaux SI et S2 ont la même durée, pour i=l,...,K. Toutefois on peut envisager des signaux de durées différentes pour chaque portion de code.

En outre, en voie montante, le signal S(C1) porteur du code numérique Cl est constitué également d'un signal audio de préambule P d'une durée TP, précédant les signaux audio SAi, i=l,..,K.

Le signal audio de préambule P porte une activité vocale détectable par le module 10B de VAD du terminal 3. Sa durée et sa nature sont choisies de sorte à amener le module 10B de VAD et/ou le module 10C de DTX du terminal 3 dans un état prédéterminé (préférentiellement dans leur état initial au démarrage d'une communication sur le réseau MN), à l'issue de sa transmission par le terminal 3 dans le canal voix du réseau MN.

L'insertion du signal P dans le signal porteur S(C1) avant les signaux audio SAi permet ainsi de garantir l'efficacité de ces derniers à maintenir le module 10C de DTX dans un état de transmission continue pendant la transmission du signal porteur.

Le choix des signaux SI, S2, P (nature et durée des signaux) sera décrit plus en détail ultérieurement dans deux modes de réalisation différents de l'invention.

Le terminal 2 fournit ensuite le signal porteur S(C1) au terminal mobile 3 pour transmission sur un canal voix du réseau TCH (étape E30). Dans l'exemple envisagé ici, le terminal 2 utilise à cette fin, ses moyens de restitution acoustique 24A : le signal porteur S(C1) est émis par le terminal 2 via son haut-parleur.

En référence à la figure 8, le signal porteur S(C1) est reçu par les moyens de capture acoustique 12B du terminal mobile 3 (étape F10).

Autrement dit, le signal porteur S(C1) traverse un canal acoustique aérien AcCH établi entre les moyens de restitution acoustique 24A du terminal 2 et les moyens de capture acoustique 12B du terminal mobile 3. On notera que ce canal peut être plus ou moins bruité en fonction de l'environnement des terminaux 2 et 3 et de leur proximité respective.

En variante, d'autres moyens peuvent être utilisés par le terminal 2 pour fournir le signal porteur S(C1) au terminal mobile 3, comme par exemple des moyens de transmission radio courte distance (ex. Bluetooth®), WiFI®, infra-rouge, etc.

Le terminal mobile 3 traite le signal porteur S(C1) reçu pour le transmettre sur un canal voix du réseau mobile MN, comme il le ferait d'un signal de voix reçu de l'utilisateur du terminal 3 via son microphone 12B (étape F20).

Autrement dit, le signal porteur S(C1) est discrétisé par les moyens de codage de parole 10A du terminal 3 puis transmis à son module 10B de VAD sous une forme discrète Sd(Cl). Le module de VAD évalue pour chaque trame du signal porteur discrétisé Sd(Cl), un indice d'activité vocale, noté VAD_flag, et transmet chaque trame accompagnée de cet indice au module 10C de DTX. De façon connue, l'indice de VAD est nul si aucune activité vocale n'a été détecté par le module de VAD, et égal à 1 sinon.

Conformément à l'invention, les signaux SI et S2 ont été choisis de sorte à maintenir le module 10C de DTX dans un état de transmission continue. Le module 10C de DTX transmet donc toutes les trames du signal porteur discrétisé Sd(Cl) sur le canal voix du réseau MN (par exemple ici sur le canal TCH/AHS du réseau MN). Les trames sont modulées conformément au schéma de modulation prévu par le réseau mobile MN, puis émises sur le canal radio mobile par les moyens d'émission 10D du terminal mobile 3 (étape F30).

On notera qu'au sens de l'invention, la transmission du signal porteur sur un canal voix du réseau mobile (étape F20) comprend le traitement (étape F22) de mise en forme du signal porteur S(C1) pour le canal voix du réseau MN réalisé successivement par les modules 10A de codage de parole, 10B de VAD et 10C de DTX, ainsi que l'émission (étape F24) à proprement parler du signal sur le canal radio mobile dans ce canal voix.

Le signal porteur est ensuite reçu dans le canal voix par la station de base 4, puis traité par ses moyens 18 conformément au schéma de démodulation/décodage prévu par le réseau mobile MN. Toutes les trames du signal porteur Sd(Cl) ayant été transmises par le module de DTX, aucun bruit de confort n'est généré au niveau de la station de base 4 par le module 18B.

En référence à la figure 9, le signal porteur Sd(Cl) est ensuite transmis au serveur informatique 5 via le réseau R (étape G10).

Sur réception de ce signal, le serveur informatique 5 extrait les portions de code Di(Cl) des signaux audio SAi, i=l,...,K puis recompose le code numérique Cl selon des moyens connus de l'homme du métier (étape G20).

Puis il vérifie la validité du code Cl (étape G30), et le cas échéant, autorise la transaction (étape G40).

Sinon, la transaction est refusée (étape G50). Voie descendante

On suppose ici que le code Cl est valide et que le serveur 5 envoie un code numérique C2 à destination du terminal 2 pour l'informer de l'autorisation de la transaction.

En référence à la figure 6, le code C2 est donc dans un premier temps obtenu par le serveur 5 (étape E10) : il peut être généré par le serveur 5 ou en variante reçu par celui-ci d'un autre équipement participant à la validation.

Puis, le serveur génère un signal S(C2) porteur du code C2 conforme à l'invention, destiné à être transmis sur un canal voix du réseau MN, par la station de base 4 (étape E20).

La figure 7B illustre un exemple de signal S(C2) porteur du code C2 généré par le serveur 5 pour la voie descendante.

Conformément à l'invention, ce signal S(C2) est composé d'un signal audio ou d'une succession continue de signaux audio SBj, j=l...,M, chaque signal audio SBi portant une portion Dj(C2) du code C2.

Comme décrit précédemment pour le signal porteur S(C1), le nombre M dépend de la longueur du code C2, ainsi que de la longueur (ou durée) des signaux audio SBj, j=l,...,M.

Chaque signal audio SBj est composé :

— d'un premier signal Sl'(Dj(C2)), d'une durée Tl' inférieure ou égale à une première durée prédéterminée notée T1_0', et portant la portion du code Dj(C2) et éventuellement des données de (re)synchronisation (non représentées sur la figure) ;

— suivi d'un deuxième signal audible S2', d'une durée 12' supérieure ou égale à une deuxième durée prédéterminée notée T2_0', et porteur d'une activité vocale détectable par le module 17B de VAD de la station de base 4.

Les durées T1_0' et T2_0' sont choisies de sorte que, pour chaque signal audio SBj, j=l,...,M, le premier signal Sl'(Dj(Cl)), qu'il soit ou non porteur d'activité vocale, soit transmis sur le réseau de télécommunications MN par le module 17C de DTX de la station de base 4 comme un signal porteur d'activité vocale.

Dans l'exemple envisagé ici on suppose qu'en voie descendante, la station de base 4 est apte à synchroniser l'émission du signal porteur sur un canal voix du réseau MN (ex. TCH/AFS) avec l'établissement de la communication avec le terminal mobile 3. De ce fait, il n'est pas nécessaire de prévoir un signal audio de préambule.

Dans une variante de réalisation, le signal porteur est constitué en outre d'un signal audio de préambule P' précédant le premier signal S1'(D1(C1)), en vue d'amener le module de VAD et/ou le module de DTX de la station de base 4 dans un état prédéterminé à l'issue de la transmission du signal de préambule P', comme mentionné précédemment pour la liaison montante.

Le choix des signaux SI', S2', P' (nature et durée des signaux) sera décrit plus en détail ultérieurement dans deux modes de réalisation différents de l'invention.

Le serveur 5 envoie ensuite, via ici le réseau R et par l'intermédiaire de ses moyens 19, le signal porteur S(C2) à la station de base 4 pour transmission sur un canal voix du réseau MN (étape E30). A cette fin, le signal porteur S(C2) pourra être compressé conformément au format prévu de transmission des signaux audio par le réseau R (ex. conformément à la loi A, connue de l'homme du métier).

En référence à la figure 8, le signal porteur S(C2) est reçu par les moyens de communication 19 sur le réseau R de la station de base 4 (étape F10). La station de base 4 traite le signal porteur S(C2) reçu pour le transmettre dans un canal voix TCH/AFS du réseau mobile MN (étape F20).

Ainsi, le signal porteur S(C2) est discrétisé par les moyens de codage de parole 17A de la station de base 4 puis transmis à son module 17B de VAD sous une forme discrète Sd(C2). Le module de VAD évalue pour chaque trame du signal porteur discrétisé Sd(C2), un indice d'activité vocale et transmet chaque trame accompagnée de cet indice au module 17C de DTX.

Conformément à l'invention, les signaux SI et S2 ont été choisis de sorte à maintenir le module 17C de DTX dans un état de transmission continue. Le module 17C de DTX transmet donc toutes les trames du signal porteur discrétisé Sd(C2) dans le canal voix du réseau MN. Les trames sont modulées conformément au schéma de modulation prévu par le réseau mobile MN, puis émises sur le canal radio mobile par les moyens d'émission 17D de la station de base 4 (étape F30).

Le signal porteur est ensuite reçu dans le canal voix par le terminal mobile 3, puis traité par ses moyens 11 conformément au schéma de démodulation/décodage prévu par le réseau mobile MN. Toutes les trames du signal porteur Sd(C2) ayant été transmises par le module de DTX, aucun bruit de confort n'est généré au niveau du terminal mobile 3 par le module 11B.

Le signal porteur S(C2) est ensuite transmis au terminal de paiement 2 sur le canal acoustique aérien AcCH établi entre le haut- parleur 12A du terminal mobile 3 et le microphone 24B du terminal de paiement 2.

Sur réception de ce signal, le terminal de paiement extrait les portions de code Dj(C2) des signaux audio SBj, j=l,...,M puis recompose le code numérique C2 selon des moyens connus de l'homme du métier.

On notera que dans l'exemple envisagé ici, le dispositif de génération du signal porteur (terminal 2 ou serveur 5) et l'unité émettrice du signal porteur sur le réseau de télécommunications MN (terminal mobile 3 ou station de base 4) sont deux entités distinctes. En variante, le procédé de génération du signal porteur et le procédé de transmission du signal porteur sur le réseau MN peuvent être mis en œuvre par un seul et même dispositif connecté au réseau MN. En outre, dans l'exemple décrit ici, le signal porteur S(C2) est émis dans un canal voix de la liaison descendante du réseau MN. En variante, on pourrait envisager que le serveur 5 émette le signal porteur S(C2) à destination d'une passerelle UMTS qui communiquerait selon une liaison montante du réseau MN avec la station de base 4. Dans cette variante, les durées T1_0' et T2_0' seront choisies de sorte que le premier signal SI' soit traité par le module de transmission discontinue de la passerelle UMTS (et non de la station de base) comme un signal porteur d'activité vocale.

Nous allons maintenant illustrer en référence aux figures 10 et

11 le choix des signaux SI, S2 et P (respectivement des signaux SI', S2' et P et de leurs durées respectives, dans deux modes particuliers de réalisation de l'invention.

Conformément à l'invention, le signal S2 (respectivement S20 est un signal porteur d'une activité vocale détectable par le module de VAD du terminal mobile 3 (respectivement de la station de base 4), tandis que les durées du premier signal et du deuxième signal sont choisies de sorte que le premier signal SI (respectivement SI 7 ) soit transmis dans un canal voix du réseau MN par le module de DTX du terminal mobile 3 (respectivement de la station de base 4), comme un signal porteur d'activité vocale. On s'assure ainsi que toutes les trames du signal porteur (discrétisé) soient transmises par le module de DTX dans le canal voix du réseau mobile.

Pour vérifier ces conditions, les deux modes de réalisation envisagés ici vont s'intéresser respectivement au fonctionnement du module de DTX à proprement parler et à celui du module de VAD du terminal mobile 3 et de la station de base 4.

Plus précisément, dans le premier mode de réalisation, on profite avantageusement d'une période de hangover définie pour le module de DTX pendant laquelle, en dépit d'un indice de VAD nul envoyé par le module de VAD au module de DTX, celui-ci transmet quand même les trames de façon continue sur le canal voix du réseau mobile.

Dans le second mode de réalisation, les signaux SI, S2 et P (respectivement SI', S2' et P sont choisis de sorte à maintenir l'indice de VAD délivré par le module de VAD égal à 1 tout au long de la transmission du code numérique. Différents exemples correspondant à différents codées proposés dans la norme et à différents algorithmes de VAD seront proposés.

On notera que la détermination des signaux SI, S2 et P (respectivement SI', S2' et P ne dépend ni du code à transmettre (ni a fortiori des portions de code pour les signaux SI et S10, ni de la liaison considérée (montante ou descendante), mais seulement :

— pour le premier mode de réalisation du fonctionnement du module de DTX ; et

— pour le second mode de réalisation, du codée considéré et du fonctionnement de l'algorithme de VAD.

Pour simplifier dans la suite, on ne considérera donc que le code Cl et les signaux SI, S2 et P, sachant que la détermination des signaux SI' et S2' et P' pour le code numérique C2 est menée de façon identique : le fonctionnement à proprement parler des modules de DTX (modules 10C et 17C), des modules de VAD (modules 10B et 17B), ainsi que des modules de codage de parole (modules 10B et 17E5) est en effet similaire en liaison montante et en liaison descendante. Par ailleurs, les expressions générales « module de DTX », « module de VAD » et « module de codage de parole » désigneront indifféremment dans la suite les modules respectifs du terminal 3 en liaison montante ou de la station de base 4 en liaison descendante.

Premier mode de réalisation

Pour faciliter la compréhension de ce premier mode de réalisation, les figures 10A et 10B rappellent brièvement le fonctionnement du module de DTX pour un codée AMR conformément au standard UMTS. Ce fonctionnement est décrit plus en détails dans le document 3GPP TS26.093.

Le module de VAD fonctionne en continu sur chaque trame du signal fourni en entrée de sorte à déterminer si cette trame contient un signal s'apparentant à son sens à de la parole.

Le cas échéant, il délivre un indice de VAD, VAD_flag, égal à 1 (état (1) sur la figure 10A). Sinon il délivre un indice de VAD égal à 0 (état (3)).

L'indice de VAD est fourni pour chaque trame au module de DTX qui adapte, sur la base de cet indice, la transmission des trames sur le canal voix. Ainsi, lorsqu'une trame est reçue par le module de DTX avec un indice de VAD égal à 1, elle est transmise sur le canal voix avec un indice de parole, noté SP, égal à 1.

A la fin d'un bloc (ou « burst ») de parole (illustré par la transition (2)), une période de hangover d'une durée de N trames est prévue pour le module de DTX (N=4 sur la figure 10A à titre d'exemple) : durant cette période, bien que l'indice de VAD soit égal à 0, le module de DTX continue de transmettre les trames de façon continue sur le canal voix, et à les marquer d'un indice de parole SP égal à 1.

A l'issue de cette période, les trames correspondant à un indice de VAD égal à 0 ne sont plus transmises par le module de DTX sur le canal voix.

En revanche, le module de DTX génère une trame SID (Silence Descriptor) correspondant à un indice de parole SP égal à 0 (au bout de N+l trames d'indice de VAD nul). Cette trame a pour but de permettre au récepteur d'identifier les trames supprimées par le module de DTX afin qu'il puisse générer en remplacement de ces trames un bruit de confort.

A titre d'exemple, pour un codée AMR, la période de hangover dure N=7 trames, et une nouvelle trame SID est générée à partir de N+l=8 trames consécutives ayant un indice de VAD nul.

En outre, dans la norme UMTS, on prévoit un traitement particulier pour gérer les bursts de parole brefs, comme illustré sur la figure 10B.

Conformément à ce traitement, si à la fin d'un burst de parole (transitions (4) et (5) sur la figure), moins de Nmax+1=24 trames se sont écoulées depuis que la dernière trame SID a été calculée et transmise au récepteur (i.e. depuis la dernière période de hangover du module de DTX), alors cette dernière trame SID est renvoyée au récepteur jusqu'à ce qu'une nouvelle trame SID soit calculée et disponible (c'est-à-dire après N+l trames consécutives correspondant à un indice de VAD égal à 0).

On évite ainsi qu'en présence de pics de bruit de fond s'apparentant à de la parole, le module de DTX ne retombe dans une période de hangover, ce qui permet de limiter l'activité sur le canal radio.

Compte-tenu du fonctionnement du module de DTX, nous allons maintenant détailler le choix des signaux SI, S2 et P (nature et durée) dans ce premier mode de réalisation. Comme décrit précédemment, dans ce premier mode de réalisation, on fait en sorte que le module de DTX passe dans un état de hangover dès qu'une trame porteuse d'une portion du code numérique mais ne portant pas d'activité vocale détectable par le module de VAD est détectée.

A cette fin, on choisit dans l'exemple envisagé ici :

— une durée T1_0 maximale du signal SI égale à la durée d'une période de hangover pour le module de DTX (soit la durée de N=7 trames pour un codage AMR, autrement dit de 140ms, une trame ayant une durée de 20ms) ; et

— une durée T2_0 minimale du signal S2 égale à la durée d'une trame (soit 20ms), autrement dit à la durée de mise à jour de l'indice de VAD par le module de VAD.

En outre, dans cet exemple :

— le signal SI porteur d'une portion de code est modulé selon une modulation quelconque : on pourra notamment utiliser une modulation traditionnelle telle qu'une modulation OFDM ou une modulation M-FSK, ou une modulation plus complexe. Le choix de la modulation pourra dépendre notamment du débit de transmission du code numérique souhaité et/ou de la largeur de bande disponible ; et

— le signal S2 audible porteur d'une activité vocale détectable par le module de VAD, est par exemple composé d'une ou de plusieurs tonalités émises à une fréquence prédéterminée choisie dans la bande 300Hz-3600Hz, ou d'un son voisé (aussi connu sous le nom de pitch). Ces deux types de signaux sont en effet considérés comme porteur d'activité vocale par les modules de VAD définis dans la norme UMTS. Bien entendu, on pourra envisager d'autres types de signaux S2 en fonction des algorithmes de VAD utilisés par le réseau MN (ex. signaux stationnaires, etc.).

On notera que le signal S2 permet de s'assurer qu'après une période de hangover de N trames, le module de DTX ne génère pas une nouvelle trame SID, mais retombe bien dans une nouvelle période de hangover, et ce, indépendamment du nombre de trames considérées comme non porteuses d'activité vocale par le module de VAD lors de la transmission du signal SI. En l'absence du signal S2 ainsi dimensionné, l'avantage du hangover serait en effet perdu pour au moins Nmax+1 trames. (Nmax=23 dans l'exemple de la figure 10B).

On notera en outre que les durées T1_0 et T2_0 donnent respectivement une durée maximale et une durée minimale des signaux SI et S2 pour maintenir le module de DTX dans un état de transmission continue. Un signal SI de durée inférieure à T1_0 et un signal S2 de durée supérieure à T2_0 peuvent donc être envisagés pour transmettre le code numérique conformément à l'invention. Le choix des durées à proprement parler des signaux SI et S2 pourra résulter d'un compromis entre la taille du code numérique à transmettre et le temps requis pour transmettre ce code (i.e. débit de transmission souhaité pour le code). Il pourra en outre dépendre du ressenti acoustique que l'on souhaite pour l'utilisateur.

Dans le premier mode de réalisation décrit ici, le signal audio de préambule P, lorsqu'il est utilisé, est apte à amener le module de DTX dans un état prédéterminé. Plus précisément, cet état prédéterminé est tel que lorsque le module de détection d'activité vocale détecte pour la première fois une trame non porteuse d'activité vocale dans l'un des signaux audio SAi composant le signal porteur, le module de DTX passe dans un état de hangover et transmet cette trame sur le canal audio.

A cette fin, compte tenu du fonctionnement du module de DTX décrit en référence aux figures 10A et 10B, le signal audio de préambule P a ici une durée supérieure ou égale à Nmax, soit ici 23x20ms=460ms. Pour éviter d'introduire des délais trop importants, on comprend bien que l'on a intérêt à choisir une durée du signal de préambule P aussi courte que possible.

En outre, dans le premier mode de réalisation décrit ici, on choisit le signal P de sorte qu'il porte une activité vocale sur :

— sa première trame et sa dernière trame ; et sur

— au moins deux trames espacées entre elles et de la première et de la dernière trame du signal de préambule d'une durée inférieure ou égale à la durée d'une période de hangover du module de transmission discontinue.

Cette répartition des trames porteuses d'activité vocale permet de s'assurer qu'aucune nouvelle trame de SID ne sera calculée par le module de DTX durant la transmission du signal de préambule, et qu'à l'issue de la transmission du signal de préambule, en présence d'une nouvelle trame non porteuse d'activité vocale détectée par le module de VAD, le module de DTX passera dans un état de hangover et ne mettra pas en œuvre la procédure de gestion des bursts de parole courts décrite en référence à la figure 10B.

En variante, on pourrait utiliser un signal P portant une activité vocale détectable par le module de VAD sur l'ensemble de ses trames (i.e. sur au moins 23 trames consécutives ici).

La nature du signal P est dictée par l'algorithme de VAD (i.e. par les signaux qu'il est susceptible de reconnaître comme porteur d'activité vocale). Dans le premier mode de réalisation décrit ici, on choisira préférentiel lement pour P, un signal composé de plusieurs sons voisés ou de plusieurs tonalités émis(es) respectivement sur les trames identifiées précédemment et à des fréquences comprises dans la bande 300Hz-3600 Hz.

Second mode de réalisation

Dans ce second mode de réalisation, les signaux SI, S2 et le cas échéant P, sont choisis de sorte à garantir que l'indice de VAD fourni au module de DTX par le module de VAD soit égal à 1 durant toute la transmission du code numérique, autrement dit y compris lorsque des trames du signal SI ne portent pas d'activité vocale détectable par le module de VAD. Le module de DTX transmet en effet toutes les trames associées à un indice de VAD égal à 1 qui lui sont fournies.

Plus précisément, pour garantir que l'indice de VAD fourni par le module de VAD est égal à 1 durant toute la transmission du code numérique, les inventeurs proposent astucieusement d'exploiter le mode de fonctionnement même de l'algorithme de VAD, et notamment la façon dont l'indice de VAD est évalué par le module de VAD, en fonction des caractéristiques du signal qui lui sont fournies.

Afin de mieux comprendre l'invention dans ce second mode de réalisation, nous considérons le cas où le module de VAD met en œuvre l'algorithme de VAD option 1 décrit pour le codage AMR dans le document 3GPP TS26.094 « Adaptive Multi-Rate speech codée; Voice activity Detector », vlO.0.0, mars 2011.

La figure 11, décrite maintenant, illustre schématiquement le principe de fonctionnement de cet algorithme. Comme mentionné précédemment, l'algorithme de VAD fonctionne en continu sur chaque trame issue du module de codage de parole AMR et délivre, pour chaque trame, un indice de VAD booléen VADJIag.

Cet indice est évalué sur la base de différents critères appliqués à des caractéristiques du signal porté par la trame fournies par les modules 30-33 à un module 34 d'évaluation de l'indice d'activité vocale.

Ainsi, le module 30 met en œuvre un banc de filtres permettant de diviser le signal porté par la trame en 9 sous-bandes fréquentielles. Le niveau du signal level[n] sur chacune des sous-bandes (n=l,..,9) est calculé par le module 30 et fournit au module 34.

Le module 31 met en œuvre une détection de sons voisés ou de signaux périodiques, et évalue un indicateur, noté pitch, de présence d'un son voisé.

Le module 32 met en œuvre une détection de tonalités, et évalue un indicateur, noté tone, de présence d'un son voisé.

Le module 33 recherche la présence de signaux complexes corrélés, comme de la musique notamment.

Le module 34 d'évaluation d'un indice d'activité vocale estime un niveau de bruit de fond en utilisant les niveaux level[n] de signal de la trame précédente. Il évalue un indice vadreg de VAD intermédiaire en comparant le niveau de bruit de fond ainsi estimé avec les niveaux level[n] de signal de la trame traitée.

Les tables 1-4 de l'Annexe 1 rappellent brièvement les modalités (équations et pseudo-codes) d'évaluation de l'indice intermédiaire vadreg et d'estimation du niveau de bruit réalisées par le module 34, conformément au document 3GPP TS26.094.

L'indice « final » VAD_flag est ensuite évalué par le module 34 en ajoutant un hangover à l'indice de VAD intermédiaire, pour détecter notamment les niveaux de signaux faibles présents classiquement à la fin des bursts de parole, et gérer les signaux complexes sur une longue période de temps.

On comprend bien dès lors que si on maintient l'indice de VAD intermédiaire vadreg à 1 durant toute la durée de la transmission du code, l'indice VAD_flag sera également maintenu à 1. A cette fin, les inventeurs proposent de choisir le signal S2 de sorte à empêcher une mise à jour du niveau de bruit à la hausse.

D'après la table 3 de l'Annexe 1, pour empêcher une mise à jour du niveau de bruit à la hausse, une possibilité est de contraindre le paramètre alpha_up à zéro. Ceci est possible notamment si on s'assure que le paramètre stat_count n'est pas nul.

D'après la table 4, le compteur stat_count est décrémenté à chaque trame sauf conditions particulières vérifiées. A priori, stat_count est nul au plus toutes les STAT_COUNT trames (STAT_COUNT est égal à 20 pour le codée AMR). On voit en outre que le compteur stat_count est réinitialisé à la valeur STAT_COUNT lorsque les deux derniers indices de présence de sons voisés sont égaux à 1 (pitch=l) ou lorsque les cinq derniers indices de présence de tonalités sont égaux à 1 (tone=l).

Autrement dit, ceci correspond à la présence, toutes les STAT_COUNTx20ms=400ms, de sons voisés sur deux trames (c'est-à-dire sur une durée de 2x20ms=40ms), ou de tonalités sur cinq trames (c'est-à- dire sur une durée de 5x20ms= 100ms).

Compte tenu de ce mode de fonctionnement, les inventeurs proposent astucieusement les choix suivants pour les signaux SI et S2 : — le signal S2 audible porteur d'une activité vocale détectable par le module de VAD est composé par exemple de sons voisés sur une durée égale au moins à T2_0=40ms ou de tonalités sur une durée égale au moins à T2_0= 100ms ;

— le signal SI porteur d'une portion de code est modulé selon une modulation quelconque : on pourra notamment utiliser une modulation traditionnelle telle qu'une modulation OFDM ou une modulation M-FSK, ou une modulation plus complexe. Sa durée dépend également du signal S2 (nature et durée). Ainsi :

o si S2 est composé de sons voisés, SI sera de durée au plus égale à Tl_0=20x20ms-40ms=360ms ; et

o si S2 est composé de tonalités, SI sera de durée au plus égale à Tl_0=20x20ms-100ms=300ms.

Dans le second mode de réalisation décrit ici, le signal audio de préambule P, lorsqu'il est utilisé, est apte à amener le module de VAD dans un état prédéterminé. Plus précisément, cet état prédéterminé est tel que lorsque le module de détection d'activité vocale détecte pour la première fois une trame non porteuse d'activité vocale dans l'un des signaux audio SAi composant le signal porteur, il délivre malgré tout un indice d'activité vocale égal à 1.

A cette fin, compte tenu du fonctionnement du module de VAD décrit en référence à la figure 11 et à l'annexe 1, on choisit le signal audio P de préambule de sorte d'une part à amener (ou à maintenir) l'indice de VAD intermédiaire vadreg à 1 et d'autre part à réinitialiser le compteur stat_count à sa valeur maximale, c'est-à-dire à STAT_COUNT.

Ainsi, le signal audio P de préambule pourra être composé de sons voisés ou de tonalités émis sur une durée prédéterminée TP, autrement dit, de manière plus générale, d'un ou de plusieurs signaux portant une activité vocale détectable par le module de VAD et émis sur une durée prédéterminée TP. La durée TP dépend en pratique du niveau de bruit estimé par le module de VAD avant l'envoi du signal audio préambule.

En l'absence d'informations disponibles sur l'état du module de VAD et notamment sur l'estimation du niveau de bruit au moment de la transmission du signal audio de préambule, on choisira une durée TP suffisamment longue pour s'assurer que les conditions précitées sur l'indice vadreg et le compteur stat_count soient respectées. Cette durée TP pourra être déterminée expérimentalement. En pratique, les inventeurs ont constaté lors de leurs expériences, que l'envoi de deux ou trois signaux de type S2 d'une durée au moins égale à T2_0 est suffisant dans la plupart des cas envisagés.

L'exemple que nous venons de décrire concerne l'algorithme de

VAD option 1 décrit dans le standard UMTS pour le codage AMR. Cette hypothèse n'est toutefois pas limitative, l'invention s'appliquant également à d'autres algorithmes de VAD.

Ainsi, on peut procéder de façon similaire pour l'algorithme de VAD option 2 décrit dans le document 3GPP TS26.094 pour le codage AMR.

Cet algorithme évalue un indice d'activité vocale à partir d'une estimation d'un rapport signal-à-bruit. Ce rapport signal-à-bruit est basé notamment sur l'évaluation d'un niveau de bruit de fond.

Comme pour l'algorithme de VAD option 1, les inventeurs proposent, pour s'assurer que l'indice de VAD délivré est toujours égal à 1 durant la transmission du code numérique, d'empêcher une mise à jour à la hausse du niveau de bruit de fond. Ceci est atteint, dans la variante de réalisation décrite ici, en intervenant sur le compteur update_cnt et en provoquant sa réinitialisation à zéro avant qu'il n'atteigne la valeur U PDATE_CNT_TH LD (=50). Pour plus de détails sur cet algorithme, l'homme du métier est invité à se référer au document 3GPP TS26.094.

Des exemples de durées T1_0 et T2_0 et de la nature des signaux SI et S2 convenant pour atteindre ce résultat sont donnés en Annexe 2.

Les algorithmes VAD-option 1 et option 2 décrits précédemment concernent le codage AMR. Toutefois cette hypothèse n'est pas limitative, l'invention pouvant s'appliquer à d'autres types de codage.

A titre d'exemple, en Annexe 3, on propose également différents signaux S2 ainsi que les durées T1_0 et T2_0 maximale et minimale des signaux SI et S2 conformément à l'invention pour d'autres types de codage de parole, comme par exemple pour les codées EFR, HR, FR proposés dans le standard GSM.

L'homme du métier ne rencontrerait aucune difficulté à adapter l'invention à d'autres types de codage encore et à d'autres algorithmes de VAD et de DTX.

Annexe 1

Table 1 : Evaluation de l'indice de VAD intermédiaire vadreg if (snr_sum > vad_r.hr)

vadreg = 1

else

vadreg = 0 avec

où bckr_est[n] désigne le niveau de bruit estimé dans la bande n (indice m de trame omis) et : vad _ thr = VAD _ SLOPE * (noise _ level - VAD _ PI) + VAD _ THR _ HIGH avec

9

noise _ level = bckr _ est[n]

Table 2 : Equation de mise à jour du bruit bckr __ est nM [n] - (1.0 - alpha) * bckr _ est m [n] + alpha * level m _ x [n]

avec :

n indice de la bande de fréquence,

m indice de la trame et alpha vérifiant :

jf ( bckr _ est,,, [n] < level m _ x [n] ^ alpha = alpha_up

else

alpha = alpha_down

Table 3 : Vitesse de mise à jour alpha_up et alpha_down if ((vadreg for the last 4 frames has been zéro) AND

(pitch for the last 4 frames has been zéro) AND (we are not in complex signal hangover))

alpha_up = ALPHAJJPl

alpha_down = ALPHAJDOWNl if ((stat_count = 0 ) AND (not in complex_signal hangover)) alpha_up = ALPHA_UP2

alpha_down = ALPHA_DOWN2

else

alpha_up = 0

alpha_down = ALPHA3

Table 4 : Evaluation de la variable stat_count MAX (ST AT_THR_LEVEL, M AX(ave level [ni level M)) MAX (STAT_THR_LE VEL, MIN(ave _ level m [n], level m [n])) avec

ave _ level m+l [n] = (1.0 - alpha) * ave _ level m [n] + alpha * level m [n] et if (stat_count = STAT_COUNT)

alpha = 1.0

else if (vadreg = 1)

alpha=ALPHA5

else

alpha = ALPHA4 if {complex_warning){

If(stat_count < CAD_MIN_STAT_COUNT)

stat_count = CAD_MIN_STAT_COUNT

} if ( (8 last vadreg flags have been zéro) OR (2 last pitch flags have been one) OR (5 last tone flags have been one) )

stat_count = STAT_COUNT

else

if (stat_rat > STAT THR)

stat_count = STAT_COUNT

else

if ((vadreg) AND (stat_count≠ 0))

stat_count = stat count - 1 Annexe 2

Annexe 3

Codage FR, HR, EFR (GSM)

Nature de S2 T1_0 T2_0

Son voisé adp*20ms=160ms 20ms

Tonalités adp*20ms= 160ms 20ms

Signal non stationnaire adp*20ms= 160ms 20ms