Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
MASSIVELY ONLINE GAME COMPRISING A VOICE MODULATION AND COMPRESSION SYSTEM
Document Type and Number:
WIPO Patent Application WO/2003/015884
Kind Code:
A1
Abstract:
The invention concerns a massively online game incorporating a voice compression and modulation system for enhancing the player's sensations when he is immersed in said virtual environment.

Inventors:
MORGAN OLIVIER (CH)
Application Number:
PCT/CH2002/000436
Publication Date:
February 27, 2003
Filing Date:
August 12, 2002
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
KOMODO ENTERTAINMENT SOFTWARE (CH)
MORGAN OLIVIER (CH)
International Classes:
A63F13/30; G06F3/16; G10L13/033; G10L21/0208; (IPC1-7): A63F13/12; G06F3/16; G10L13/02
Domestic Patent References:
WO2002039424A12002-05-16
Foreign References:
EP0843168A21998-05-20
Attorney, Agent or Firm:
Komodo, Entertainment Software SA. (11 Avenue de la Harpe Lausanne, CH)
Download PDF:
Description:
Titre JEUX MASSIVEMENT ONLINE COMPRENANT UN SYSTEME DE MODULATION ET DE COMPRESSION DE LA VOIX Description 1. Domaine de l'invention La présente invention se rapporte aux Jeux Massivement Online. Pour cerner le contexte dans lequel on se situe, il convient de bien comprendre ce que la dénomination « Jeux Massivement Online » signifie (pour les besoins de ce document on remplacera dorénavant l'expression « jeux massivement online » par son abréviation anglaise MOG : Massively Online Game). Les MOGs sont, comme l'indique leur nom, des jeux informatiques où un grand nombre de joueurs se connectent à un serveur unique pour jouer ensemble dans un environnement virtuel défini par un programme informatique. Le succès grandissant de ce genre de jeux peut s'expliquer par le fait que pour la première fois le joueur interagi directement avec d'autres joueurs au lieu d'tre confronté à l'intelligence artificielle limitée d'un programme informatique. Par conséquent, il est aisé de comprendre que l'élément clé de ce genre de jeux est la communication entre les joueurs.

2. Discussion du contexte Le premier MOG connu est « Ultima Online » produit par Origin et publié par Electronic Arts. Suite au franc succès rencontré par ce dernier, des titres plus récents sont apparus tels que, « EverQuest » produit par Verant Interactive et publié par Sony Online Entertainment, et « Anarchy Online » produit et publié par Funcom. Tous ces MOGs ont été conçus pour fonctionner sur une plateforme unique : le PC. lis ont donc tout naturellement opté pour le « chat)), un système de communication inter-joueur qui a déjà largement fait ses preuves. Ce système de communication est basé sur l'échange de texte à travers Internet. Un utilisateur saisi un texte au clavier de son PC et l'envoie, soit à un autre utilisateur, soit à plusieurs autres utilisateurs connectés à Internet. Ces compagnies ont choisi cette solution car elle est facile à implémenter et fiable. Cependant ce système ne transcrit pas la voix, il ne transcrit que le contenu du message sous forme de texte.

3. Résumé de l'invention L'objet de la présente invention est de fournir un système de communication amélioré destiné aux MOGs. Au lieu de communiquer avec du texte, nous proposons aux joueurs un système qui leur permette d'envoyer un message sous forme de voix aux autres joueurs. Pour que ce système fonctionne il faut au joueur un système pour saisir le son de sa voix ainsi qu'un autre système pour émettre le son en provenance du jeu. Le joueur énonce un son, un mot, une phrase dans son système de saisie du son. La quantité d'information qui peut-tre saisie est limitée à une durée de l'ordre d'une dizaine de secondes. Le joueur est prévenu lorsqu'il atteint la capacité maximum d'enregistrement. Une fois le message saisi le système traite l'information.

La première étape de l'invention consiste à isoler dans le signal audio la voix du joueur Fig. 1. Il y a ici deux cas de figures possibles, soit le son du jeu provient de haut-parleurs 10, soit d'un casque 11. S'il porte un casque le système va reconnaître l'absence des sons produits par le jeu. S'il écoute les sons sur haut-parleur, le système va reconnaître la présence des sons qu'il a émis quelques centièmes de secondes auparavant et les soustraire au signal d'entrée. Dans les deux cas on obtient un signal qui ne comporte plus que la voix du joueur.

La deuxième étape est la compression de la voix à une taille inférieure à 4 kbps. Cette compression peut se faire de plusieurs façons : - Système de compression directe de la voix : tel que MPEG, WAVE, etc.

- Détection des phonèmes contenus dans le message vocal Fig. 2 : un premier système détecte dans le message chaque phonème (remarque : le système considère les blancs ou les pauses, comme un phonème particulier, qui est également reconnu, et pour lequel les paramètres suivants sont également appliqués) ; l'identifie au phonème connu le plus ressemblant, grâce à un dictionnaire de phonèmes 110 et à des règles de grammaire simples 112 appliquées en fonction des phonèmes reconnus auparavant 111 (un dictionnaire et des règles de grammaire spécifiques pour chaque langue) ; enregistre la durée du phonème 113 (la position du phonème dans le signal donne également sa durée : tfin-tdébut), ainsi que la composante d'intonation de la voix dans l'intervalle de temps défini par le phonème 120. Le signal audio peut alors tre transcrit en une chaîne de symboles chacun comportant une indication de durée, ainsi qu'une indication d'intonation 130. Cette chaîne de symboles a une taille bien inférieure que le message original porté par la voix tout en conservant ses traits caractéristiques.

La troisième étape est la synthèse de la voix. Comme pour la compression plusieurs systèmes de synthèse peuvent tre appliqués : - Synthèse directe de la voix : si un système de compression directe de la voix a été utilisé la synthèse est fournie par le décodeur du système de compression que ce soit MPEG, WAVE ou tout autre système.

- Synthèse de la voix à partir d'une chaîne de phonèmes Fig. 3 : ce système ne fonctionne que si l'on a compressé la voix sous forme d'une chaîne de phonèmes avec les informations correspondantes de durée et d'intonation, comme décrit précédemment. Le système produit un son pour chaque phonème 210 grâce à une bibliothèque de sons 211 (une bibliothèque spécifique par langue). La durée du son 212 ainsi que son intonation 213 sont définis par les facteurs qui accompagnent chaque phonème. La chaine de symboles est donc transcrite à nouveau en un message compréhensible porteur des caractéristiques émotionnelles du message originel.

La quatrième étape est la modulation de la voix. En effet, la voix synthétique telle quelle ne correspond pas encore au personnage incarné par le joueur dans le jeu. Pour chaque personnage une gamme de modulation est à disposition permettant de lui conférer par exemple la voix plus aiguë d'une femme ou celle plus grave d'un homme. La voix est synthétisée avec une valeur de modulation choisie par défaut dans la gamme de modulation autorisée par le jeu pour chaque personnage. Le joueur peut alors écouter son message et modifier dans la gamme autorisée la modulation jusqu'à ce qu'il soit satisfait.

Cette opération est une initialisation des composantes de voix de son personnage et le joueur n'aura pas à y revenir à chaque fois qu'il envoie un message. Une fois la modulation choisie par le joueur celle-ci est enregistrée par le programme et ré-utilisée à chaque synthèse de message.

Les étapes décrites ci-dessus constituent la chaine de traitement nécessaire pour transformer et transporter la voix d'un joueur aux autres joueurs connectés Fig. 4. Cependant, une fois que le joueur a enregistré son message il n'est pas obligé de l'envoyer immédiatement. II peut, comme nous l'avons vu dans la chaîne de traitement, l'écouter pour s'assurer que la modulation lui convient et aussi pour s'assurer que le contenu sera compréhensible par les autres joueurs 310. Le contenu de son message est donc stocké 311 jusqu'à ce que le joueur décide de l'envoyer 312.

4. Description de l'invention Comme indiqué préalablement cette invention s'applique aux jeux massivement online.

La meilleure façon de réaliser l'application de cette invention est de décrire une phase de l'un de ces jeux. Un joueur X se tient devant son système de jeu (PC, console, Set Top Box ou autre). II ne porte pas de casque et donc entend les sons émis par le jeu grâce à un système de haut-parleurs. Sur son écran le programme informatique affiche le décor dans lequel il doit évoluer ainsi que l'incarnation des autres joueurs sous forme d'un ou de plusieurs personnages (un personnage seul ou une petite équipe de personnage pour les jeux de rôle, une armée entière pour les jeux de stratégie en temps réel, etc). Le joueur X peut alors communiquer avec les autres joueurs soit en faisant bouger son personnage dans le monde virtuel (hochement de la tte, signe de la main, etc), soit en parlant dans un microphone.

Pour les besoins de cet exemple disons qu'il s'agit d'un jeu de rôle massivement online. Le joueur X a choisi d'incarner une sexagénaire au teint joyeux qui prodigue ses dictons a qui veut bien les entendre. Dans le monde virtuel il se trouve dans un parc ou de nombreux oiseaux chantent sous la pluie. Le joueur X aperçoit un autre personnage sur son écran. Il s'en approche dans le monde virtuel, indique au système qu'il va démarrer un enregistrement par exemple en pressant un bouton et énonce dans son microphone l'un de ces dictons favoris : « après la pluie vient toujours le beau temps ». Pendant qu'il enregistre sa phrase un indicateur affiché à l'écran indique le temps maximum du message, par exemple 10 secondes, ainsi que le temps utilisé dans ce cas 3 secondes. Son dicton est enregistré par le système mais il est mélangé au divers sons émis par le jeu (pluie qui tombe, oiseaux qui chantent, bruit des pas. etc). Sa phrase est traitée pour ne garder que le son de sa voix, puis comprimée et stockée en attente d'une décision du joueur. Le joueur X veut donner à la voix de sa sexagénaire une touche personnelle il demande alors au système d'émettre sur ses haut-parleurs son message. Ce dernier est automatiquement modulé avec une voleur par défaut transformant sa voix en celle d'une femme âgée. II ajuste à chaque écoute la modulation dans la gamme permise par le jeu jusqu'à satisfaction. Une fois la modulation déterminée, elle est enregistrée et le joueur n'est plus obliger de la régler à nouveau. II décide alors d'envoyer son dicton à l'autre personnage. Ce dernier, ainsi que tous les personnages que le programme informatique autorisera à entendre (personnage à proximité ou autres conditions remplies), recevront le dicton et l'entendront sur leur haut-parleur ajouté aux bruits ambiants.

5. Liste des dessins Fig. 1 : ce dessin représente l'environnement sonore dans lequel se trouve le joueur à l'instant où il enregistre des sons, mots ou phrases destinés à d'autres joueurs. Dans le cas 10 le joueur écoute les sons du jeu sur haut-parleur, ses messages seront donc enregistrés avec le bruit ambiant du jeu avant d'tre traités. Dans le cas 11 le joueur écoute les sons du jeu dans son casque, ses messages seront donc enregistrés sans le bruit ambiant du jeu.

Fig. 2 : ce dessin représente un des moyens possibles pour compresser la voix. En l'occurrence il s'agit ici d'une compression en transformant la voix en une chaine de symboles. Chaque symbole est composé d'un phonème détecté dans le message vocal original (grâce à une comparaison par rapport à un dictionnaire de phonèmes 110 et à l'application de règles de grammaire simples 112 établissant, entre autre, les possibilités de succession des phonèmes détectés) auquel on ajoute une donnée d'intonation du phonème 120 ainsi que sa durée 113.

Fig. 3 : ce dessin représente un des moyens possibles pour synthétiser la voix suite à la compression effectuée en Fig. 2. Le signal codé en une chaîne de symboles est découpé en composantes de phonème 210, durée 212 et intonation 213. Grâce à une librairie de sons 211 comportant notamment un son pour chaque phonème le système synthétise une voix artificielle incorporant la durée de chaque phonème et son intonation.

Fig. 4 : ce dessin représente une vue d'ensemble de l'invention. D'un côté un joueur enregistre son message vocal, l'écoute et ajuste la modulation dans une gamme prédéfinie par le jeu 310. Le message compressé est stocké 311 en attente de la décision du joueur d'envoyer le message. Le message est transporté 312 par des moyens vers les autres joueurs autorisés à entendre le message (autorisation définie par le programme informatique du jeu en fonction de certains paramètres : proximité ou autre). Le message est synthétisé, puis modulé avec la composante de modulation choisie par le joueur expéditeur.