Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
VOICE CALL METHOD AND DEVICE
Document Type and Number:
WIPO Patent Application WO/2019/000515
Kind Code:
A1
Abstract:
Disclosed are a voice call method and device. The method comprises the following steps of: collecting voice information of an original first language; sending the voice information of the original first language to a server for interpretation, thereby enabling the server to interpret the voice information of the original first language into voice information of a final second language; receiving the voice information of the final second language returned by the server; and sending the voice information of the final second language to an opposite end.

Inventors:
JIANG ZHUANG (CN)
WANG WENQI (CN)
WANG GUANGXIN (CN)
CHEN JIE (CN)
WEN PING (CN)
Application Number:
PCT/CN2017/093741
Publication Date:
January 03, 2019
Filing Date:
July 20, 2017
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SHENZHEN WATER WORLD CO LTD (CN)
International Classes:
H04M7/00; G06F17/28; G10L15/30
Foreign References:
CN104394265A2015-03-04
CN104754536A2015-07-01
CN102360347A2012-02-22
CN105430208A2016-03-23
US20160170970A12016-06-16
CN106453043A2017-02-22
Attorney, Agent or Firm:
SHENZHEN MINGRIJINDIAN INTELLECTUAL PROPERTY AGENCY FIRM (GENERAL) (CN)
Download PDF:
Claims:
[权利要求 1] 一种语音通话方法, 包括以下步骤:

釆集原始第一语言的语音信息;

将所述原始第一语言的语音信息发送给服务器进行翻译处理, 以使所 述服务器将所述原始第一语言的语音信息翻译处理为最终第二语言的 语音信息;

接收所述服务器返回的所述最终第二语言的语音信息;

将所述最终第二语言的语音信息发送给对端。

[权利要求 2] 根据权利要求 1所述的语音通话方法, 其中, 所述服务器包括语音识 别服务器、 翻译服务器和语音合成服务器, 所述将所述第一语言的语 音信息发送给服务器进行翻译处理的步骤包括: 将所述原始第一语言的语音信息发送给语音识别服务器, 以使所述语 音识别服务器将所述语音信息识别为第一语言的字符串; 接收所述语音识别服务器返回的所述第一语言的字符串; 将所述第一语言的字符串发送给所述翻译服务器, 以使所述翻译服务 器将所述第一语言的字符串翻译为第二语言的字符串;

接收所述翻译服务器返回的所述第二语言的字符串;

将所述第二语言的字符串发送给所述语音合成服务器, 以使所述语音 合成服务器将所述第二语言的字符串合成为最终第二语言的语音信息

[权利要求 3] 根据权利要求 1所述的语音通话方法, 其中, 所述方法还包括: 接收所述对端发送的原始第二语言的语音信息; 将所述原始第二语言的语音信息发送给服务器进行翻译处理, 以使所 述服务器将所述原始第二语言的语音信息翻译处理为最终第一语言的 语音信息;

接收所述服务器返回的所述最终第一语言的语音信息;

输出所述最终第一语言的语音信息。

[权利要求 4] 根据权利要求 3所述的语音通话方法, 其中, 所述服务器包括语音识 别服务器、 翻译服务器和语音合成服务器, 所述将所述原始第二语言 的语音信息发送给服务器进行翻译处理的步骤包括:

将所述原始第二语言的语音信息发送给语音识别服务器, 以使所述语 音识别服务器将所述语音信息识别为第二语言的字符串; 接收所述语音识别服务器返回的所述第二语言的字符串; 将所述第二语言的字符串发送给所述翻译服务器, 以使所述翻译服务 器将所述第二语言的字符串翻译为第一语言的字符串;

接收所述翻译服务器返回的所述第一语言的字符串;

将所述第一语言的字符串发送给所述语音合成服务器, 以使所述语音 合成服务器将所述第一语言的字符串合成为最终第一语言的语音信息

[权利要求 5] 根据权利要求 1所述的语音通话方法, 其中, 所述方法应用于 VOLTE

终端。

[权利要求 6] —种语音通话方法, 包括以下步骤:

接收对端发送的原始第二语言的语音信息;

将所述原始第二语言的语音信息发送给服务器进行翻译处理, 以使所 述服务器将所述原始第二语言的语音信息翻译处理为最终第一语言的 语首 息;

接收所述服务器返回的所述最终第一语言的语音信息;

输出所述最终第一语言的语音信息。

[权利要求 7] 根据权利要求 6所述的语音通话方法, 其中, 所述服务器包括语音识 别服务器、 翻译服务器和语音合成服务器, 所述将所述原始第二语言 的语音信息发送给服务器进行翻译处理的步骤包括:

将所述原始第二语言的语音信息发送给语音识别服务器, 以使所述语 音识别服务器将所述语音信息识别为第二语言的字符串; 接收所述语音识别服务器返回的所述第二语言的字符串; 将所述第二语言的字符串发送给所述翻译服务器, 以使所述翻译服务 器将所述第二语言的字符串翻译为第一语言的字符串; 接收所述翻译服务器返回的所述第一语言的字符串;

将所述第一语言的字符串发送给所述语音合成服务器, 以使所述语音 合成服务器将所述第一语言的字符串合成为最终第一语言的语音信息

[权利要求 8] 根据权利要求 6所述的语音通话方法, 其中, 所述方法还包括: 釆集原始第一语言的语音信息;

将所述原始第一语言的语音信息发送给服务器进行翻译处理, 以使所 述服务器将所述第一语言的语音信息翻译处理为最终第二语言的语音 in息;

接收所述服务器返回的所述最终第二语言的语音信息;

将所述最终第二语言的语音信息发送给所述对端。

[权利要求 9] 根据权利要求 6所述的语音通话方法, 其中, 所述方法应用于 VOLTE 终端。

[权利要求 10] —种语音通话装置, 包括信息采集模块、 第一翻译处理模块、 第一信 息接收模块、 信息发送模块,

信息采集模块设置为采集原始第一语言的语音信息;

第一翻译处理模块设置为将所述原始第一语言的语音信息发送给服务 器进行翻译处理, 以使所述服务器将所述原始第一语言的语音信息翻 译处理为最终第二语言的语音信息;

第一信息接收模, 设置为接收所述服务器返回的所述最终第二语言的 语音信息;

信息发送模块, 设置为将所述最终第二语言的语音信息发送给对端。

[权利要求 11] 根据权利要求 10所述的语音通话装置, 其中, 所述服务器包括语音识 别服务器、 翻译服务器和语音合成服务器, 所述第一翻译处理模块包 括:

第一发送单元, 设置为将所述原始第一语言的语音信息发送给语音识 别服务器, 以使所述语音识别服务器将所述语音信息识别为第一语言 的字符串; 第一接收单元, 设置为接收所述语音识别服务器返回的所述第一语言 的字符串;

第二发送单元, 设置为将所述第一语言的字符串发送给所述翻译服务 器, 以使所述翻译服务器将所述第一语言的字符串翻译为第二语言的 字符串;

第二接收单元, 设置为接收所述翻译服务器返回的所述第二语言的字 符串;

第三发送单元, 设置为将所述第二语言的字符串发送给所述语音合成 服务器, 以使所述语音合成服务器将所述第二语言的字符串合成为最 终第二语言的语音信息。

[权利要求 12] 根据权利要求 10所述的语音通话装置, 其中, 所述装置还包括: 第二信息接收模块, 设置为接收所述对端发送的原始第二语言的语音 fp息;

第二翻译处理模块, 设置为将所述原始第二语言的语音信息发送给服 务器进行翻译处理, 以使所述服务器将所述第二语言的语音信息翻译 处理为最终第一语言的语音信息;

第三信息接收模块, 设置为接收所述服务器返回的所述最终第一语言 的语音信息;

信息输出模块, 设置为输出所述最终第一语言的语音信息。

[权利要求 13] 根据权利要求 12所述的语音通话装置, 其中, 所述服务器包括语音识 别服务器、 翻译服务器和语音合成服务器, 所述第二翻译处理模块包 括:

第四发送单元, 设置为将所述原始第二语言的语音信息发送给语音识 别服务器, 以使所述语音识别服务器将所述语音信息识别为第二语言 的字符串;

第三接收单元, 设置为接收所述语音识别服务器返回的所述第二语言 的字符串;

第五发送单元, 设置为将所述第二语言的字符串发送给所述翻译服务 器, 以使所述翻译服务器将所述第二语言的字符串翻译为第一语言的 字符串;

第四接收单元, 设置为接收所述翻译服务器返回的所述第一语言的字 符串;

第六发送单元, 设置为将所述第一语言的字符串发送给所述语音合成 服务器, 以使所述语音合成服务器将所述第一语言的字符串合成为最 终第一语言的语音信息。

[权利要求 14] 根据权利要求 10所述的语音通话装置, 其中, 所述装置应用于 VOLT

E终端。

[权利要求 15] —种语音通话装置, 包括:

第二信息接收模块, 设置为接收所述对端发送的原始第二语言的语音 fn息;

第二翻译处理模块, 设置为将所述原始第二语言的语音信息发送给服 务器进行翻译处理, 以使所述服务器将所述原始第二语言的语音信息 翻译处理为最终第一语言的语音信息;

第三信息接收模块, 设置为接收所述服务器返回的所述最终第一语言 的语音信息;

信息输出模块, 设置为输出所述最终第一语言的语音信息。

[权利要求 16] 根据权利要求 15所述的语音通话装置, 其中, 所述服务器包括语音识 别服务器、 翻译服务器和语音合成服务器, 所述第二翻译处理模块包 括:

第四发送单元, 设置为将所述原始第二语言的语音信息发送给语音识 别服务器, 以使所述语音识别服务器将所述语音信息识别为第二语言 的字符串;

第三接收单元, 设置为接收所述语音识别服务器返回的所述第二语言 的字符串;

第五发送单元, 设置为将所述第二语言的字符串发送给所述翻译服务 器, 以使所述翻译服务器将所述第二语言的字符串翻译为第一语言的 字符串;

第四接收单元, 设置为接收所述翻译服务器返回的所述第一语言的字 符串;

第六发送单元, 设置为将所述第一语言的字符串发送给所述语音合成 服务器, 以使所述语音合成服务器将所述第一语言的字符串合成为最 终第一语言的语音信息。

[权利要求 17] 根据权利要求 15所述的语音通话装置, 其中, 所述装置还包括: 信息釆集模块, 设置为釆集原始第一语言的语音信息;

第一翻译处理模块, 设置为将所述原始第一语言的语音信息发送给服 务器进行翻译处理, 以使所述服务器将所述第一语言的语音信息翻译 处理为最终第二语言的语音信息;

第一信息接收模块, 设置为接收所述服务器返回的所述最终第二语言 的语音信息;

信息发送模块, 设置为将所述最终第二语言的语音信息发送给对端。

[权利要求 18] 根据权利要求 15所述的语音通话装置, 其中, 所述装置应用于 VOLT

E终端。

Description:
发明名称:语音通话方法和装置

技术领域

[0001] 本发明涉及通信技术领域, 特别是涉及到一种语音通话方法和装置。

背景技术

[0002] 随着通信终端的使用日益广泛, 人们利用通信终端可以实现多种功能, 例如利 用通信终端听音乐, 看视频以及进行语音通话等等。 语音通话是通信终端的一 个基本的和常用的功能, 即使人们远隔千里, 也能够通过通信终端实现远程语 音交流, 无形中缩短了人与人之间的距离。

[0003] 同时, 随着经济的全球化和囯际化发展, 不同囯家之间的人们的交往也越来越 密切。 不同国家的人通常使用不同的语言, 当两个用户中至少一个用户听不懂 对方的语言, 另一个用户也不会说对方的语言时, 两个用户则无法通过通信终 端进行远程语音交流, 必须面对面的交谈, 并且通过人工或者翻译机进行翻译 , 从而减少了沟通渠道, 提高了沟通成本。

技术问题

[0004] 因此, 如何通过通信终端为使用不同语言的用户实现 远程语音交流, 是当前亟 需解决的技术问题。

问题的解决方案

技术解决方案

[0005] 本发明的主要目的为提供一种语音通话方法和 装置, 旨在解决使用不同语言的 用户无法通过通信终端进行远程语音交流的技 术问题。

[0006] 为达以上目的, 本发明实施例提出一种语音通话方法, 所述方法包括以下步骤 : 釆集原始第一语言的语音信息; 将所述原始第一语言的语音信息发送给服务 器进行翻译处理, 以使所述服务器将所述第一语言的语音信息翻 译处理为最终 第二语言的语音信息; 接收所述服务器返回的所述最终第二语言的语 音信息; 将所述最终第二语言的语音信息发送给对端。

[0007] 基于同一发明构思, 本发明实施例还提出一种语音通话方法, 所述方法包括以 下步骤: 接收对端发送的原始第二语言的语音信息; 将所述原始第二语言的语 音信息发送给服务器进行翻译处理, 以使所述服务器将所述第二语言的语音信 息翻译处理为最终第一语言的语音信息; 接收所述服务器返回的所述最终第一 语言的语音信息; 输出所述最终第一语言的语音信息。

[0008] 本发明实施例同时提出一种语音通话装置, 所述装置包括信息釆集模块、 第一 翻译处理模块、 第一信息接收模块、 信息发送模块, 信息釆集模块设置为采集 原始第一语言的语音信息; 第一翻译处理模块设置为将所述原始第一语言 的语 音信息发送给服务器进行翻译处理, 以使所述服务器将所述原始第一语言的语 音信息翻译处理为最终第二语言的语音信息; 第一信息接收模块设置为接收所 述服务器返回的所述最终第二语言的语音信息 ; 信息发送模块设置为将所述最 终第二语言的语音信息发送给对端。

发明的有益效果

有益效果

[0009] 本发明实施例所提供的一种语音通话方法, 通过将采集的本端用户的语音信息 发送给服务器进行翻译处理, 翻译为对端用户能够识别的语音信息, 再将翻译 后的语音信息发送给对端, 使得对端用户能够听懂本端用户的语音。 从而为通 信终端增加了翻译功能, 使得使用不同语言的用户实现了远程语音交流 , 解决 了使用不同语言的用户无法通过通信终端进行 远程语音交流的技术问题, 降低 了沟通成本, 提升了用户体验。

对附图的简要说明

附图说明

[0010] 图 1是实现本发明实施例的语音通话方法一应用 景的系统框图;

[0011] 图 2是实现本发明实施例的语音通话方法又一应 场景的系统框图;

[0012] 图 3是实现本发明实施例的语音通话方法又一应 场景的系统框图;

[0013] 图 4是实现本发明实施例的语音通话方法又一应 场景的系统框图;

[0014] 图 5是本发明的语音通话装置第一实施例的模块 意图;

[0015] 图 6是图 5中的第一翻译处理模块的模块示意图;

[0016] 图 7是本发明的语音通话装置第二实施例的模块 意图; [0017] 图 8是图 7中的第二翻译处理模块的模块示意图;

[0018] 图 9是本发明的语音通话装置第三实施例的模块 意图。

实施该发明的最佳实施例

本发明的最佳实施方式

[0019] 应当理解, 此处所描述的具体实施例仅仅用以解释本发明 , 并不用于限定本发 明。

[0020] 本发明实施例的语音通话方法和装置, 主要应用于 VOLTE终端, 该 VOLTE终 端即基于 VOLTE (Voice over LTE) 技术的通信终端。 VoLTE是一种 IP数据传输 技术, 无需 2G/3G网络, 全部业务承载于 4G网络上, 可实现数据与语音业务在同 一网络下的统一。 当然, 也可以应用于基于其它 IP数据传输技术的通信终端, 只 要其能够将数据与语音业务统一在同一网络下 即可, 本发明对此不作限定。

[0021] 本发明的语音通话方法第一实施例, 所述方法包括以下步骤:

[0022] Sll、 釆集原始第一语言的语音信息。

[0023] 本发明实施例中, 定义 VOLTE终端用户使用的语言为第一语言, 对端用户使 用的语言为第二语言。 当 VOLTE终端作为发送端吋, 通过麦克风采集用户的第 一语言的语音信息。

[0024] S12、 将原始第一语言的语音信息发送给服务器进行 翻译处理, 以使服务器将 原始第一语言的语音信息翻译处理为最终第二 语言的语音信息。

[0025] VOLTE终端可以将原始第一语言的语音信息直接 语音数据流的方式发送给 服务器, 作为优选, VOLTE终端将原始第一语言的语音信息以数据包 形式分 包发送给服务器。 例如, VOLTE终端首先将原始第一语言的语音信息进行 音 处理, 录制为一个个的语音文件并缓存, 然后将缓存的每个语音文件以数据包 的形式依次发送给服务器。

[0026] 翻译处理主要包括识别、 翻译和合成三个流程, 这三个流程可以由一个服务器 完成, 也可以由两个或三个服务器完成。

[0027] 本发明实施例中, 服务器包括语音识别服务器、 翻译服务器和语音合成服务器 。 VOLTE终端与语音识别服务器建立基于 IP通信的连接, 设置识别信息, 即需 要识别的语言类型, 包括本端的语言类型 (第一语言) , 还可以进一步包括对 端的语言类型 (第二语言) ; 与翻译服务器建立基于 IP通信的连接, 设置翻译信 息, 即要翻译的语种, 包括本端对对端的映射, 还可以进一步包括对端对本端 映射; 与语音合成服务器建立基于 IP通信的连接, 设置合成信息, 即语音合成的 类型, 比如男女声、 语速等。

[0028] 步骤 S12中, VOLTE终端将原始第一语言的语音信息发送给服 器进行翻译处 理的具体流程如下:

[0029] S121、 将原始第一语言的语音信息发送给语音识别服 务器, 以使语音识别服务 器将语音信息识别为第一语言的字符串。

[0030] VOLTE终端首先将原始第一语言的语音信息进行 音处理, 录制为一个个的 语音文件并缓存, 然后将缓存的每个语音文件以数据包的形式依 次发送给语音 识别服务器。 语音识别服务器接收到语音文件后, 根据预设的识别信息对语音 文件进行识别处理, 识别为第一语言的字符串, 并将第一语言的字符串返回给 V 0LTE终端。

[0031] S122、 接收语音识别服务器返回的第一语言的字符串 。

[0032] S123、 将第一语言的字符串发送给翻译服务器, 以使翻译服务器将第一语言的 字符串翻译为第二语言的字符串。

[0033] VOLTE终端接收到第一语言的字符串后, 将第一语言的字符串发送给翻译服 务器。 翻译服务器接收到第一语言的字符串后, 根据预设的翻译信息对该第一 语言的字符串进行翻译处理, 翻译为第二语言的字符串, 并将第二语言的字符 串返回给 VOLTE终端。

[0034] S124、 接收翻译服务器返回的第二语言的字符串。

[0035] S125、 将第二语言的字符串发送给语音合成服务器, 以使语音合成服务器将第 二语言的字符串合成为最终第二语言的语音信 息。

[0036] VOLTE终端接收到第二语言的字符串后, 将第二语言的字符串发送给语音合 成服务器。 语音合成服务器接收到第二语言的字符串后, 根据预设的合成信息 对第二语言的字符串进行合成处理, 合成为最终第二语言的语音信息, 并将最 终第二语言的语音信息以语音码流的形式返回 给 VOLTE终端。

[0037] 在其它实施例中, 也可以由一个服务器完成原始第一语言的语音 信息的识别、 翻译和合成处理。 例如, VOLTE终端将原始第一语言的语音信息发送给服 器 , 服务器将该语音信息进行识别、 翻译和合成处理后返回给 VOLTE终端。 在另 一些实施例中, 也可以由两个服务器完成原始第一语言的语音 信息的识别、 翻 译和合成处理。 例如, VOLTE终端将原始第一语言的语音信息发送给第 服务 器, 第一服务器将该语音信息进行识别和翻译处理 后返回给 VOLTE终端, VOLT E终端再将识别和翻译处理后的语音信息发送 第二服务器, 第二服务器将该语 音信息进行合成处理后返回给 VOLTE终端。 又如, VOLTE终端将原始第一语言 的语音信息发送给第一服务器, 第一服务器将该语音信息进行识别处理后返回 给 VOLTE终端, VOLTE终端再将识别处理后的语音信息发送给第 服务器, 第 二服务器将该语音信息进行翻译和合成处理后 返回给 VOLTE终端。

[0038] S13、 接收服务器返回的最终第二语言的语音信息。

[0039] S14、 将最终第二语言的语音信息发送给对端。

[0040] VOLTE终端接收到服务器返回的最终第二语言的 音信息后, 通过语音通道 将最终第二语言的语音信息发送给对端。 对端接收到最终第二语言的语音信息 后, 通过音频通路对该最终第二语言的语音信息进 行处理, 最后通过发声装置 (听筒、 扬声器等) 输出该最终第二语言的语音信息, 使用第二语言的对端用 户则能够听懂本端用户所说的话。

[0041] 本发明实施例的语音通话方法, 通过将采集的本端用户的语音信息发送给服务 器进行翻译处理, 翻译为对端用户能够识别的语音信息, 再将翻译后的语音信 息发送给对端, 使得对端用户能够听懂本端用户的语音。 从而为通信终端增加 了翻译功能, 使得使用不同语言的用户实现了远程语音交流 , 解决了使用不同 语言的用户无法通过通信终端进行远程语音交 流的技术问题, 降低了沟通成本 , 提升了用户体验。

[0042] 进一步地, 在本发明的语音通话方法的第二实施例中, 步骤 S 14之后还包括以 下步骤:

[0043] S15、 接收对端发送的原始第二语言的语音信息。

[0044] 当 VOLTE终端作为接收端吋, 通过语音通道接收作为发送端的对端发送的原 始第二语言的语音信息。 [0045] S16、 将原始第二语言的语音信息发送给服务器进行 翻译处理, 以使服务器将 原始第二语言的语音信息翻译处理为最终第一 语言的语音信息。

[0046] VOLTE终端可以将原始第二语言的语音信息直接 语音数据流的方式发送给 服务器, 作为优选, VOLTE终端将原始第二语言的语音信息以数据包 形式分 包发送给服务器。 例如, VOLTE终端首先将原始第二语言的语音信息进行 音 处理, 录制为一个个的语音文件并缓存, 然后将缓存的每个语音文件以数据包 的形式依次发送给服务器。

[0047] 本发明实施例中, 服务器包括语音识别服务器、 翻译服务器和语音合成服务器 。 步骤 S16中, VOLTE终端将原始第二语言的语音信息发送给服 器进行翻译处 理的具体流程如下:

[0048] S161、 将原始第二语言的语音信息发送给语音识别服 务器, 以使语音识别服务 器将语音信息识别为最终第二语言的字符串。

[0049] VOLTE终端首先将原始第二语言的语音信息进行 音处理, 录制为一个个的 语音文件并缓存, 然后将缓存的每个语音文件以数据包的形式依 次发送给语音 识别服务器。 语音识别服务器接收到语音文件后, 根据预设的识别信息对语音 文件进行识别处理, 识别为第二语言的字符串, 并将第二语言的字符串返回给 V OLTE终端。

[0050] S162、 接收语音识别服务器返回的第二语言的字符串 。

[0051] S163、 将第二语言的字符串发送给翻译服务器, 以使翻译服务器将第二语言的 字符串翻译为第一语言的字符串。

[0052] VOLTE终端接收到第二语言的字符串后, 将第二语言的字符串发送给翻译服 务器。 翻译服务器接收到第二语言的字符串后, 根据预设的翻译信息对该第二 语言的字符串进行翻译处理, 翻译为第一语言的字符串, 并将第一语言的字符 串返回给 VOLTE终端。

[0053] S164、 接收翻译服务器返回的第一语言的字符串。

[0054] S165、 将第一语言的字符串发送给语音合成服务器, 以使语音合成服务器将第 一语言的字符串合成为最终第一语言的语音信 息。

[0055] VOLTE终端接收到第一语言的字符串后, 将第一语言的字符串发送给语音合 成服务器。 语音合成服务器接收到第一语言的字符串后, 根据预设的合成信息 对第一语言的字符串进行合成处理, 合成为最终第一语言的语音信息, 并将最 终第一语言的语音信息以语音码流的形式返回 给 VOLTE终端。

[0056] 在其它实施例中, 也可以由一个服务器完成原始第二语言的语音 信息的识别、 翻译和合成处理。 例如, VOLTE终端将原始第二语言的语音信息发送给服 器 , 服务器将该语音信息进行识别、 翻译和合成处理后返回给 VOLTE终端。 在另 一些实施例中, 也可以由两个服务器完成原始第二语言的语音 信息的识别、 翻 译和合成处理。 例如, VOLTE终端将原始第二语言的语音信息发送给第 服务 器, 第一服务器将该语音信息进行识别和翻译处理 后返回给 VOLTE终端, VOLT E终端再将识别和翻译处理后的语音信息发送 第二服务器, 第二服务器将该语 音信息进行合成处理后返回给 VOLTE终端。 又如, VOLTE终端将原始第二语言 的语音信息发送给第一服务器, 第一服务器将该语音信息进行识别处理后返回 给 VOLTE终端, VOLTE终端再将识别处理后的语音信息发送给第 服务器, 第 二服务器将该语音信息进行翻译和合成处理后 返回给 VOLTE终端。

[0057] S17、 接收服务器返回的最终第一语言的语音信息。

[0058] S18、 输出最终第一语言的语音信息。

[0059] VOLTE终端接收到服务器返回的最终第一语言的 音信息后, 通过音频通路 对该最终第一语言的语音信息进行处理, 最后通过发声装置 (听筒、 扬声器等 ) 输出该最终第一语言的语音信息, 使用第一语言的本端用户则能够听懂对端 用户所说的话。

[0060] 本实施例中, 进一步将接收到的对端用户的语音信息发送给 服务器进行翻译处 理, 翻译为本端用户能够识别的语音信息, 再输出翻译后的语音信息, 使得本 端用户能够听懂对端用户的语音。 从而, 即使对端为普通终端, 也能够让使用 不同语言的用户实现远程语音交流, 大大扩大了应用范围, 进一步降低了沟通 成本。

[0061] 提出本发明的语音通话方法第三实施例, 所述方法包括以下步骤:

[0062] S21、 接收对端发送的原始第二语言的语音信息。

[0063] S22、 将原始第二语言的语音信息发送给服务器进行 翻译处理, 以使服务器将 第二语言的语音信息翻译处理为最终第一语言 的语音信息。

[0064] S23、 接收服务器返回的最终第一语言的语音信息。

[0065] S24、 输出最终第一语言的语音信息。

[0066] 本实施例中, 步骤 S21-步骤 S24分别与第二实施例中的步骤 S15-S18相同, 在此 不再赘述。

[0067] 本发明实施例的语音通话方法, 通过将接收到的对端用户的语音信息发送给服 务器进行翻译处理, 翻译为本端用户能够识别的语音信息, 再输出翻译后的语 音信息, 使得本端用户能够听懂对端用户的语音。 从而为通信终端增加了翻译 功能, 使得使用不同语言的用户实现了远程语音交流 , 解决了使用不同语言的 用户无法通过通信终端进行远程语音交流的技 术问题, 降低了沟通成本, 提升 了用户体验。

[0068] 进一步地, 在本发明的语音通话方法的第四实施例中, 步骤 S24之后还包括以 下步骤:

[0069] S25、 采集原始第一语言的语音信息。

[0070] S26、 将原始第一语言的语音信息发送给服务器进行 翻译处理, 以使服务器将 第一语言的语音信息翻译处理为最终第二语言 的语音信息。

[0071] S27、 接收服务器返回的最终第二语言的语音信息。

[0072] S28、 将最终第二语言的语音信息发送给对端。

[0073] 本实施例中, 步骤 S25-S28分别与第一实施例中的步骤 S11-S14系统, 在此不再 赘述。

[0074] 本实施例中, 进一步地将采集的本端用户的语音信息发送给 服务器进行翻译处 理, 翻译为对端用户能够识别的语音信息, 再将翻译后的语音信息发送给对端 , 使得对端用户能够听懂本端用户的语音。 从而, 即使对端为普通终端, 也能 够让使用不同语言的用户实现远程语音交流, 大大扩大了应用范围, 进一步降 低了沟通成本。

[0075] 本发明实施例中, 第一实施例和第三实施例可以应用于如图 1所示的应用场景 , 其中, VOLTE终端 A与 VOLTE终端 B通过 IP多媒体系统 (IP Multimedia Subsys tern, IMS) 网络建立连接, 且 VOLTE终端 A和 VOLTE终端 B均分别连接语音识 别服务器、 翻译服务器和语音合成服务器, VOLTE终端 A和 VOLTE终端 B均釆用 第一实施例或第二实施例的语音通话方法进行 语音通话, 从而使用不同语言的 用户就能实现远程语音交流。

[0076] 第二实施例和第四实施例可以应用于如图 2-图 4所示的应用场景。 图 2中, VOL TE终端 A与语音终端 B通过 IMS网络建立连接, 且 VOLTE终端 A分别连接语音识 别服务器、 翻译服务器和语音合成服务器, VOLTE终端 A釆用第二实施例或第 三实施例的语音通话方法与语音终端 B进行语音通话 从而使用不同语言的用户 就能实现远程语音交流。 图 3中 VOLTE终端 A通过 IMS网络连接 IMS网络与 2G/ 3G网络的网关, 语音终端 B通过 2G/3G网络连接 IMS网络与 2G/3G网络的网关, 且 VOLTE终端 A分别连接语音识别服务器、 翻译服务器和语音合成服务器, VO LTE终端 A釆用第二实施例或第三实施例的语音通话方 与语音终端 B进行语音 通话, 从而使用不同语言的用户就能实现远程语音交 流。 图 4中, VOLTE终端 A 通过 IMS网络连接 IMS网络与公共交换电话网络 (Public Switched Telephone Network, PSTN) 的网关, 语音终端 B通过 PSTN连接 IMS网络与 PSTN的网关, 且 VOLTE终端 A分别连接语音识别服务器、 翻译服务器和语音合成服务器, VO LTE终端 A采用第二实施例或第三实施例的语音通话方 与语音终端 B进行语音 通话, 从而使用不同语言的用户就能实现远程语音交 流。

[0077] 语音识别服务器的处理吋延一般小于 3秒, 翻译服务器的处理吋延一般小于 200 毫秒, 语音合成服务器的处理吋延一般小于 200毫秒, IMS网络传输的吋延一般 为秒级。 因此, 利用 LTE通信的高速率低时延的特点, 在 VOLTE终端上实现语 音通话时的多语言实时翻译功能, 语音翻译处理的速度快, 时延小, 不会对用 户的通话造成影响, 从而使得使用不同语言的用户可以实现远程无 障碍语音交 流。

[0078] 参照图 5, 提出本发明的语音通话装置第一实施例, 所述装置包括信息采集模 块 10、 第一翻译处理模块 20、 第一信息接收模块 30和信息发送模块 40, 其中:

[0079] 信息采集模块 10设置为采集原始第一语言的语音信息。 第一翻译处理模块 20设 置为将原始第一语言的语音信息发送给服务器 进行翻译处理, 以使服务器将原 始第一语言的语音信息翻译处理为最终第二语 言的语音信息。 第一信息接收模 块 30设置为接收服务器返回的最终第二语言的语 信息。 信息发送模块 40设置 为将最终第二语言的语音信息发送给对端。 本发明实施例中, VOLTE终端用户 使用的语言为第一语言, 对端用户使用的语言为第二语言。 当 VOLTE终端作为 发送端时, 信息釆集模块 10通过麦克风釆集用户的原始第一语言的语音 息。 第一翻译处理模块 20可以将原始第一语言的语音信息直接以语音 据流的方式 发送给服务器, 作为优选, 第一翻译处理模块 20将原始第一语言的语音信息以 数据包的形式分包发送给服务器。 例如, 第一翻译处理模块 20首先将原始第一 语言的语音信息进行录音处理, 录制为一个个的语音文件并缓存, 然后将缓存 的每个语音文件以数据包的形式依次发送给服 务器。

[0080] 翻译处理主要包括识别、 翻译和合成三个流程, 这三个流程可以由一个服务器 完成, 也可以由两个或三个服务器完成。

[0081] 本发明实施例中, 服务器包括语音识别服务器、 翻译服务器和语音合成服务器 。 VOLTE终端与语音识别服务器建立基于 IP通信的连接, 通过第一设置模块设 置识别信息, 即需要识别的语言类型, 包括本端的语言类型 (第一语言) , 还 可以进一步包括对端的语言类型 (第二语言) ; 与翻译服务器建立基于 IP通信的 连接, 通过第二设置模块设置翻译信息, 即要翻译的语种, 包括本端对对端的 映射, 还可以进一步包括对端对本端映射; 与语音合成服务器建立基于 IP通信的 连接, 通过第三设置模块设置合成信息, 即语音合成的类型, 比如男女声、 语 速等。

[0082] 如图 6所示, 第一翻译处理模块 20包括第一发送单元 21、 第一接收单元 22、 第 二发送单元 23、 第二接收单元 24和第三发送单元 25, 其中:

[0083] 第一发送单元 21设置为将原始第一语言的语音信息发送给语 识别服务器 , 以 使语音识别服务器将语音信息识别为第一语言 的字符串。 第一发送单元 21首先 将原始第一语言的语音信息进行录音处理, 录制为一个个的语音文件并缓存, 然后将缓存的每个语音文件以数据包的形式依 次发送给语音识别服务器。 语音 识别服务器接收到语音文件后, 根据预设的识别信息对语音文件进行识别处理 , 识别为第一语言的字符串, 并将第一语言的字符串返回给 VOLTE终端。 第一 接收单元 22设置为接收语音识别服务器返回的第一语言 字符串。 第二发送单 元 23设置为将第一语言的字符串发送给翻译服务 , 以使翻译服务器将第一语 言的字符串翻译为第二语言的字符串。 当接收到第一语言的字符串后, 第二发 送单元 23则将第一语言的字符串发送给翻译服务器。 翻译服务器接收到第一语 言的字符串后, 根据预设的翻译信息对该第一语言的字符串进 行翻译处理, 翻 译为第二语言的字符串, 并将第二语言的字符串返回给 VOLTE终端。 第二接收 单元 24设置为接收翻译服务器返回的第二语言的字 串。 第三发送单元 25设置 为将第二语言的字符串发送给语音合成服务器 , 以使语音合成服务器将第二语 言的字符串合成为最终第二语言的语音信息。 当接收到第二语言的字符串后, 第三发送单元 25则将第二语言的字符串发送给语音合成服务 。 语音合成服务 器接收到第二语言的字符串后, 根据预设的合成信息对第二语言的字符串进行 合成处理, 合成为最终第二语言的语音信息, 并将最终第二语言的语音信息以 语音码流的形式返回给 VOLTE终端。

[0084] 在其它实施例中, 也可以由一个服务器完成原始第一语言的语音 信息的识别、 翻译和合成处理。 例如, 第一翻译处理模块 20将原始第一语言的语音信息发送 给服务器, 服务器将该语音信息进行识别、 翻译和合成处理后返回给 VOLTE终 端。 在另一些实施例中, 也可以由两个服务器完成原始第一语言的语音 信息的 识别、 翻译和合成处理。 例如, 第一翻译处理模块 20将原始第一语言的语音信 息发送给第一服务器, 第一服务器将该语音信息进行识别和翻译处理 后返回给 V OLTE终端, 第一翻译处理模块 20再将识别和翻译处理后的语音信息发送给第 服务器, 第二服务器将该语音信息进行合成处理后返回 给 VOLTE终端。 又如, 第一翻译处理模块 20将原始第一语言的语音信息发送给第一服务 , 第一服务 器将该语音信息进行识别处理后返回给 VOLTE终端, 第一翻译处理模块 20再将 识别处理后的语音信息发送给第二服务器, 第二服务器将该语音信息进行翻译 和合成处理后返回给 VOLTE终端。

[0085] 本发明实施例的语音通话装置, 通过将釆集的本端用户的语音信息发送给服务 器进行翻译处理, 翻译为对端用户能够识别的语音信息, 再将翻译后的语音信 息发送给对端, 使得对端用户能够听懂本端用户的语音。 从而为通信终端增加 了翻译功能, 使得使用不同语言的用户实现了远程语音交流 , 解决了使用不同 语言的用户无法通过通信终端进行远程语音交 流的技术问题, 降低了沟通成本 , 提升了用户体验。

[0086] 参照图 7, 提出本发明的语音通话装置的第二实施例, 该装置包括第二信息接 收模块 50、 第二翻译处理模块 60、 第三信息接收模块 70和信息输出模块 80, 其 中: 第二信息接收模块 50设置为接收对端发送的原始第二语言的语音 息。 当 V OLTE终端作为接收端吋, 第二信息接收模块 50通过语音通道接收作为发送端的 对端发送的原始第二语言的语音信息。 第二翻译处理模块 60设置为将原始第二 语言的语音信息发送给服务器进行翻译处理, 以使服务器将原始第二语言的语 音信息翻译处理为最终第一语言的语音信息。 第二翻译处理模块 60可以将原始 第二语言的语音信息直接以语音数据流的方式 发送给服务器, 作为优选, 第二 翻译处理模块 60将原始第二语言的语音信息以数据包的形式 包发送给服务器 。 例如, 第二翻译处理模块 60首先将原始第二语言的语音信息进行录音处 , 录制为一个个的语音文件并缓存, 然后将缓存的每个语音文件以数据包的形式 依次发送给服务器。

[0087] 本发明实施例中, 服务器包括语音识别服务器、 翻译服务器和语音合成服务器 。 VOLTE终端与语音识别服务器建立基于 IP通信的连接, 通过第一设置模块设 置识别信息, 即需要识别的语言类型, 包括对端的语言类型 (第二语言) , 还 可以进一步包括本端的语言类型 (第一语言) ; 与翻译服务器建立基于 IP通信的 连接, 通过第二设置模块设置翻译信息, 即要翻译的语种, 包括对端对本端映 射, 还可以进一步包括本端对对端的映射; 与语音合成服务器建立基于 IP通信的 连接, 通过第三设置模块设置合成信息, 即语音合成的类型, 比如男女声、 语 速等。

[0088] 如图 8所示, 第二翻译处理模块 60包括第四发送单元 61、 第三接收单元 62、 第 五发送单元 63、 第四接收单元 64和第六发送单元 65, 其中: 第四发送单元 61设 置为将原始第二语言的语音信息发送给语音识 别服务器, 以使语音识别服务器 将语音信息识别为第二语言的字符串。 第四发送单元 61首先将原始第二语言的 语音信息进行录音处理, 录制为一个个的语音文件并缓存, 然后将缓存的每个 语音文件以数据包的形式依次发送给语音识别 服务器。 语音识别服务器接收到 语音文件后, 根据预设的识别信息对语音文件进行识别处理 , 识别为第二语言 的字符串, 并将第二语言的字符串返回给 VOLTE终端。 第三接收单元 62设置为 接收语音识别服务器返回的第二语言的字符串 。 第五发送单元 63设置为将第二 语言的字符串发送给翻译服务器, 以使翻译服务器将第二语言的字符串翻译为 第一语言的字符串。 当接收到第二语言的字符串后, 第五发送单元 63则将第二 语言的字符串发送给翻译服务器。 翻译服务器接收到第二语言的字符串后, 根 据预设的翻译信息对该第二语言的字符串进行 翻译处理, 翻译为第一语言的字 符串, 并将第一语言的字符串返回给 VOLTE终端。 第四接收单元 64设置为接收 翻译服务器返回的第一语言的字符串。 第六发送单元 65设置为将第一语言的字 符串发送给语音合成服务器, 以使语音合成服务器将第一语言的字符串合成 为 最终第一语言的语音信息。 当接收到第一语言的字符串后, 第六发送单元 65则 将第一语言的字符串发送给语音合成服务器。 语音合成服务器接收到第一语言 的字符串后, 根据预设的合成信息对第一语言的字符串进行 合成处理, 合成为 最终第一语言的语音信息, 并将最终第一语言的语音信息以语音码流的形 式返 回给 VOLTE终端。

在其它实施例中, 也可以由一个服务器完成原始第二语言的语音 信息的识别、 翻译和合成处理。 例如, 第二翻译处理模块 60将原始第二语言的语音信息发送 给服务器, 服务器将该语音信息进行识别、 翻译和合成处理后返回给 VOLTE终 端。 在另一些实施例中, 也可以由两个服务器完成原始第二语言的语音 信息的 识别、 翻译和合成处理。 例如, 第二翻译处理模块 60将原始第二语言的语音信 息发送给第一服务器, 第一服务器将该语音信息进行识别和翻译处理 后返回给 V 0LTE终端, 第二翻译处理模块 60再将识别和翻译处理后的语音信息发送给第 服务器, 第二服务器将该语音信息进行合成处理后返回 给 VOLTE终端。 又如, 第二翻译处理模块 60将原始第二语言的语音信息发送给第一服务 , 第一服务 器将该语音信息进行识别处理后返回给 VOLTE终端, 第二翻译处理模块 60再将 识别处理后的语音信息发送给第二服务器, 第二服务器将该语音信息进行翻译 和合成处理后返回给 VOLTE终端。 第三信息接收模块 70设置为接收服务器返回 的最终第一语言的语音信息。 信息输出模块 80设置为输出最终第一语言的语音 信息。 当接收到服务器返回的最终第一语言的语音信 息后, 信息输出模块 80则 通过音频通路对该最终第一语言的语音信息进 行处理, 最后通过发声装置 (听 筒、 扬声器等) 输出该最终第一语言的语音信息, 使用第一语言的本端用户则 能够听懂对端用户所说的话。

[0090] 前述第一实施例和第二实施例的语音通话装置 , 可以应用于如图 1所示的应用 场景。

[0091] 本发明实施例的语音通话装置, 通过将接收到的对端用户的语音信息发送给服 务器进行翻译处理, 翻译为本端用户能够识别的语音信息, 再输出翻译后的语 音信息, 使得本端用户能够听懂对端用户的语音。 从而为通信终端增加了翻译 功能, 使得使用不同语言的用户实现了远程语音交流 , 解决了使用不同语言的 用户无法通过通信终端进行远程语音交流的技 术问题, 降低了沟通成本, 提升 了用户体验。

[0092] 进一步地, 如图 9, 还可以将前述第一实施例和第二实施例的语音 通话装置结 合起来形成第三实施例的语音通话装置。 使得语音通话装置既可以将本端采集 的语音信息进行翻译处理后再发送给对端, 也可以将对端发送的语音信息进行 翻译处理后再予以输出, 从而即使对端为普通的语音终端也能实现使用 不同语 言的用户的远程语音交流, 大大扩大了应用范围, 进一步降低了沟通成本。

[0093] 本实施例的语音通话装置可以应用于如图 2-图 4所示的应用场景。