VOICE TRANSLATION METHOD, APPARATUS, AND TERMINAL DEVICE

Title:

VOICE TRANSLATION METHOD, APPARATUS, AND TERMINAL DEVICE

Document Type and Number:

WIPO Patent Application WO/2019/071541

Kind Code:

Abstract:

Disclosed by the present invention are a voice translation method, apparatus, and a terminal device, said method comprising the following steps: extracting an original voiceprint from original voice information; performing translation processing on said original voice information to obtain translation information; combining said translation information and said original voiceprint into final voice information such that the final voice information is identical to the voiceprint of the original voice information, thus achieving the effect of translating the original audio and increasing the vividness and realness of a translation voice.

Inventors:

XIONG KUAN (CN)
YANG HANDAN (CN)
WANG GUANGXIN (CN)
ZHENG YONG (CN)

Application Number:

PCT/CN2017/105915

Publication Date:

April 18, 2019

Filing Date:

October 12, 2017

Export Citation:

Click for automatic bibliography generation Help

Assignee:

SHENZHEN WATER WORLD CO LTD (CN)

International Classes:

G06F17/28; G10L15/26; H04M1/725

Foreign References:

CN105786801A	2016-07-20
US20170255616A1	2017-09-07
JP2017182394A	2017-10-05
CN101727904A	2010-06-09

Attorney, Agent or Firm:

SHENZHEN MINGRIJINDIAN INTELLECTUAL PROPERTY AGENCY FIRM (GENERAL) (CN)

Download PDF:

View/Download PDF PDF Help

Claims:

权利要求书

一种语音翻译方法，其特征在于，包括以下步骤：

从原始语音信息中提取出原始声纹；

对所述原始语音信息进行翻译处理，获得翻译信息；

将所述翻译信息和所述原始声纹合成为最终语音信息。

根据权利要求 1所述的语音翻译方法，其特征在于，所述翻译信息为目标语音信息，所述将所述翻译信息和所述原始声纹合成为最终语音信息的步骤包括：

剔除所述目标语音信息中的预设声纹，得到无声纹的目标语音信息；将所述原始声纹合成到所述无声纹的目标语音信息中，生成最终语音 f π息。

根据权利要求 2所述的语音翻译方法，其特征在于，所述剔除所述目标语音信息中的预设声纹的步骤包括：

从所述目标语音信息中提取出预设声纹；

对所述目标语音信息和所述预设声纹做信号减法运算，得到无声纹的目标语音信息。

根据权利要求 2所述的语音翻译方法，其特征在于，所述将所述原始声纹合成到所述无声纹的目标语音信息中，生成最终语音信息的步骤包括：

对所述原始声纹和所述无声纹的目标语音信息做信号加法运算，得到最终语音信息。

根据权利要求 1所述的语音翻译方法，其特征在于，所述对所述原始语音信息进行翻译处理，获得翻译信息的步骤包括：

向第一服务器发送所述原始语音信息，以使所述第一服务器将所述原始语音信息翻译处理为目标语音信息；

接收所述第一服务器返回的所述目标语音信息。

根据权利要求 1所述的语音翻译方法，其特征在于，所述翻译信息为目标语言字符串，所述将所述翻译信息和所述原始声纹合成为最终语音信息的步骤包括：

利用所述原始声纹对所述目标语言字符串进行语音合成，生成最终语音信息。

根据权利要求 6所述的语音翻译方法，其特征在于，所述对所述原始语音信息进行翻译处理，获得翻译信息的步骤包括：

将所述原始语音信息发送给第二服务器，以使所述第二服务器将所述原始语音信息翻译处理为目标语言字符串；

接收所述第二服务器返回的所述目标语言字符串。

根据权利要求 6所述的语音翻译方法，其特征在于，所述对所述原始语音信息进行翻译处理，获得翻译信息的步骤包括：

对所述原始语音信息进行语音识别，生成原始语言字符串；将所述原始语言字符串翻译为目标语言字符串。

根据权利要求 1所述的语音翻译方法，其特征在于，所述将所述翻译信息和所述原始声纹合成为最终语音信息的步骤之后还包括：输出所述最终语音信息。

根据权利要求 1所述的语音翻译方法，其特征在于，所述将所述翻译信息和所述原始声纹合成为最终语音信息的步骤之后还包括：向外发送所述最终语音信息。

一种语音翻译装置，其特征在于，包括：

提取模块，用于从原始语音信息中提取出原始声纹；

处理模块，用于对所述原始语音信息进行翻译处理，获得翻译信息；合成模块，用于将所述翻译信息和所述原始声纹合成为最终语音信息根据权利要求 11所述的语音翻译装置，其特征在于，所述翻译信息为目标语音信息，所述合成模块包括：

声纹剔除单元，用于剔除所述目标语音信息中的预设声纹，得到无声纹的目标语音信息；

声纹合成单元，用于将所述原始声纹合成到所述无声纹的目标语音信息中，生成最终语音信息。

根据权利要求 12所述的语音翻译装置，其特征在于，所述声纹剔除单元包括：

声纹提取子单元，用于从所述目标语音信息中提取出预设声纹；减法运算子单元，用于对所述目标语音信息和所述预设声纹做信号减法运算，得到无声纹的目标语音信息。

根据权利要求 12所述的语音翻译装置，其特征在于，声纹合成单元用于：对所述原始声纹和所述无声纹的目标语音信息做信号加法运算，得到最终语音信息。

根据权利要求 12所述的语音翻译装置，其特征在于，所述处理模块包括：

第一发送单元，用于向第一服务器发送所述原始语音信息，以使所述第一服务器将所述原始语音信息翻译处理为目标语音信息；第一接收单元，用于接收所述第一服务器返回的所述目标语音信息。根据权利要求 11所述的语音翻译装置，其特征在于，所述翻译信息为目标语言字符串，所述合成模块用于：利用所述原始声纹对所述目标语言字符串进行语音合成，生成最终语音信息。

根据权利要求 16所述的语音翻译装置，其特征在于，所述处理模块包括：

第二发送单元，用于将所述原始语音信息发送给第二服务器，以使所述第二服务器将所述原始语音信息翻译处理为目标语言字符串；第二接收单元，用于接收所述第二服务器返回的所述目标语言字符串根据权利要求 16所述的语音翻译装置，其特征在于，所述处理模块包括：

语音识别单元，用于对所述原始语音信息进行语音识别，生成原始语言字符串；

字符翻译单元，用于将所述原始语言字符串翻译为目标语言字符串。 [权利要求 19] 根据权利要求 11所述的语音翻译装置，其特征在于，所述装置还包括输出模块，其用于输出所述最终语音信息。

[权利要求 20] —种终端设备，包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，其特征在于，所述应用程序被配置为用于执行权利要求 1所述的语音翻译方法。

Description:

语音翻译方法、装置和终端设备技术领域

[0001] 本发明涉及通信技术领域，特别是涉及到一种语音翻译方法、装置和终端设备背景技术

[0002] 翻译机可以将一种语言的语音信息翻译为另一种语言的语音信息，因此使用不同语言的人可以利用翻译机实现无障碍交流和沟通。翻译机进行语音翻译的具体流程为：接收用户的原始语音信息，将原始语音信息发送给服务器，服务器对原始语音信息进行语音识别、字符翻译、语音合成等一系列翻译处理后得到目标语音信息并返回给翻译机，翻译机输出目标语音信息。

[0003] 服务器翻译后生成的目标语音信息的声纹是预先设定的，因此所有的翻译语音听起来都是同一个人的声音，单调乏味，让人感觉是在与机器人对话，而不是与真人对话，缺乏真实感和人情味，容易引起听觉疲劳，用户体验不佳。

技术问题

[0004] 本发明的主要目的为提供一种语音翻译方法、装置和终端设备，旨在提高翻译语音的真实性和生动性，提升用户体验。问题的解决方案

技术解决方案

[0005] 为达以上目的，本发明实施例提出一种语音翻译方法，所述方法包括以下步骤

[0006] 从原始语音信息中提取出原始声纹；

[0007] 对所述原始语音信息进行翻译处理，获得翻译信息；

[0008] 将所述翻译信息和所述原始声纹合成为最终语音信息。

[0009] 可选地，所述翻译信息为目标语音信息，所述将所述翻译信息和所述原始声纹合成为最终语音信息的步骤包括：

[0010] 剔除所述目标语音信息中的预设声纹，得到无声纹的目标语音信息； [0011] 将所述原始声纹合成到所述无声纹的目标语音信息中，生成最终语音信息。

[0012] 可选地，所述剔除所述目标语音信息中的预设声纹的步骤包括：

[0013] 从所述目标语音信息中提取出预设声纹；

[0014] 对所述目标语音信息和所述预设声纹做信号减法运算，得到无声纹的目标语音 f π息。

[0015] 可选地，所述将所述原始声纹合成到所述无声纹的目标语音信息中，生成最终语音信息的步骤包括：

[0016] 对所述原始声纹和所述无声纹的目标语音信息做信号加法运算，得到最终语音 f π息。

[0017] 可选地，所述对所述原始语音信息进行翻译处理，获得翻译信息的步骤包括： [0018] 向第一服务器发送所述原始语音信息，以使所述第一服务器将所述原始语音信息翻译处理为目标语音信息；

[0019] 接收所述第一服务器返回的所述目标语音信息。

[0020] 可选地，所述翻译信息为目标语言字符串，所述将所述翻译信息和所述原始声纹合成为最终语音信息的步骤包括：

[0021] 利用所述原始声纹对所述目标语言字符串进行语音合成，生成最终语音信息。

[0022] 可选地，所述对所述原始语音信息进行翻译处理，获得翻译信息的步骤包括： [0023] 将所述原始语音信息发送给第二服务器，以使所述第二服务器将所述原始语音信息翻译处理为目标语言字符串；

[0024] 接收所述第二服务器返回的所述目标语言字符串。

[0025] 可选地，所述对所述原始语音信息进行翻译处理，获得翻译信息的步骤包括： [0026] 对所述原始语音信息进行语音识别，生成原始语言字符串；

[0027] 将所述原始语言字符串翻译为目标语言字符串。

[0028] 可选地，所述将所述翻译信息和所述原始声纹合成为最终语音信息的步骤之后还包括：

[0029] 输出所述最终语音信息。

[0030] 可选地，所述将所述翻译信息和所述原始声纹合成为最终语音信息的步骤之后还包括： [0031] 向外发送所述最终语音信息。

[0032] 本发明实施例同吋提出一种语音翻译装置，所述装置包括：

[0033] 提取模块，用于从原始语音信息中提取出原始声纹；

[0034] 处理模块，用于对所述原始语音信息进行翻译处理，获得翻译信息；

[0035] 合成模块，用于将所述翻译信息和所述原始声纹合成为最终语音信息。

[0036] 可选地，所述翻译信息为目标语音信息，所述合成模块包括：

[0037] 声纹剔除单元，用于剔除所述目标语音信息中的预设声纹，得到无声纹的目标语首息；

[0038] 声纹合成单元，用于将所述原始声纹合成到所述无声纹的目标语音信息中，生成最终语音信息。

[0039] 可选地，所述声纹剔除单元包括：

[0040] 声纹提取子单元，用于从所述目标语音信息中提取出预设声纹；

[0041] 减法运算子单元，用于对所述目标语音信息和所述预设声纹做信号减法运算，得到无声纹的目标语音信息。

[0042] 可选地，声纹合成单元用于：对所述原始声纹和所述无声纹的目标语音信息做信号加法运算，得到最终语音信息。

[0043] 可选地，所述处理模块包括：

[0044] 第一发送单元，用于向第一服务器发送所述原始语音信息，以使所述第一服务器将所述原始语音信息翻译处理为目标语音信息；

[0045] 第一接收单元，用于接收所述第一服务器返回的所述目标语音信息。

[0046] 可选地，所述翻译信息为目标语言字符串，所述合成模块用于：利用所述原始声纹对所述目标语言字符串进行语音合成，生成最终语音信息。

[0047] 可选地，所述处理模块包括：

[0048] 第二发送单元，用于将所述原始语音信息发送给第二服务器，以使所述第二服务器将所述原始语音信息翻译处理为目标语言字符串；

[0049] 第二接收单元，用于接收所述第二服务器返回的所述目标语言字符串。

[0050] 可选地，所述处理模块包括：

[0051] 语音识别单元，用于对所述原始语音信息进行语音识别，生成原始语言字符串 [0052] 字符翻译单元，用于将所述原始语言字符串翻译为目标语言字符串。

[0053] 可选地，所述装置还包括输出模块，其用于输出所述最终语音信息。

[0054] 可选地，所述装置还包括发送模块，其用于向外发送所述最终语音信息。

[0055] 本发明实施例还提出一种终端设备，所述终端设备包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，所述应用程序被配置为用于执行前述语音翻译方法。

发明的有益效果

有益效果

[0056] 本发明实施例所提供的一种语音翻译方法，通过从原始语音信息中提取出原始声纹，再将翻译信息和原始声纹合成为最终语音信息，使得最终语音信息与原始语音信息的声纹相同，听起来好像对方用户自己说出了翻译后的语言，实现了原声翻译的效果，将人机对话提升为人与人的直接对话，提高了翻译语音的生动性和真实性，提升了用户体验。

对附图的简要说明

附图说明

[0057] 图 1是本发明的语音翻译方法一实施例的流程图� �

[0058] 图 2是本发明的语音翻译装置一实施例的模块示� �图；

[0059] 图 3是图 2中的处理模块的模块示意图；

[0060] 图 4是图 2中的处理模块的又一模块示意图；

[0061] 图 5是图 2中的处理模块的又一模块示意图；

[0062] 图 6是图 2中的合成模块的模块示意图；

[0063] 图 7是图 6中的声纹剔除单元的模块示意图。

[0064] 本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

实施该发明的最佳实施例

本发明的最佳实施方式

[0065] 应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0066] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

[0067] 本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式"一"、 " 一个"、 "所述 "和"该"也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞"包括"是指存在所述特征、整数、步骤、操作、元件和 /或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和 /或它们的组。应该理解，当我们称元件被"连接"或"耦接"到另一元件吋，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的"连接"或"耦接"可以包括无线连接或无� �耦接。这里使用的措辞 "和 /或"包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

[0068] 本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语），具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

[0069] 本技术领域技术人员可以理解，这里所使用的 "终端"、 "终端设备"既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备； PCS (Persona 1 Communications Service, 个人通信系统），其可以组合语音、数据处理、传真和 /或数据通信能力； PDA (Personal Digital Assistant, 个人数字助理），其可以包括射频接收器、寻呼机、互联网 /内联网访问、网络浏览器、记事本、日历和 / 或 GPS (Global Positioning System, 全球定位系统）接收器；常规膝上型和 /或掌上型计算机或其他设备，其具有和 /或包括射频接收器的常规膝上型和 /或掌上型计算机或其他设备。这里所使用的 "终端"、 "终端设备"可以是便携式、可运输、安装在交通工具（航空、海运和 /或陆地）中的，或者适合于和 /或配置为在本地运行，和 /或以分布形式，运行在地球和 /或空间的任何其他位置运行。这里所使用的"终端"、 "终端设备"还可以是通信终端、上网终端、音乐 /视频播放终端，例如可以是 PDA、 MID (Mobile Internet Device, 移动互联网设备）和 /或具有音乐 /视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

[0070] 本技术领域技术人员可以理解，这里所使用的服务器，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此，云由基于云计算（Cloud Computing) 的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中，服务器、终端设备与 WNS服务器之间可通过任何通信方式实现通信，包括但不限于，基于 3GPP、 LTE、 WIMAX的移动通信、基于 TCP/IP、 UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。

[0071] 本发明实施例的语音翻译方法，可以应用于翻译机、移动终端（如手机、平板等）、个人电脑等终端设备，也可以应用于服务器。以下以应用于终端设备为例进行详细说明。

[0072] 参照图 1，提出本发明的语音翻译方法一实施例，所述方法包括以下步骤： [0073] Sl l、从原始语音信息中提取出原始声纹。

[0074] 本发明实施例中，原始语音信息可以是终端设备通过麦克风当场采集的用户的语音信息，也可以是从外部（如对端设备）获取的待翻译的语音信息。终端设备采集原始语音信息吋，优选通过由多个麦克风组成的麦克风阵列来采集原始语音信息，运用麦克风阵列的波束成型、降噪等处理方式来降低环境噪声对后期处理的影响，提高语音质量。

[0075] 终端设备获取原始语音信息后，立即从中提取出原始声纹，并将该原始声纹存储起来。终端设备可以采用现有技术中的小波变换算法对原始语音信息进行声纹提取，提取出原始声纹的吋域和频域的特征信息。具体提取方式与现有技术相同，在此不赘述。 [0076] 在其它实施例中，当应用于服务器吋，原始语音信息则来自于终端设备，服务器接收终端设备发送的原始语音信息，并从中提取出原始声纹。

[0077] S12、对原始语音信息进行翻译处理，获得翻译信息。

[0078] 终端设备可以在本地对原始语音信息进行翻译处理，也可以通过服务器对原始语音信息进行翻译处理。终端设备获得的翻译信息，可能是目标语音信息，也可能是目标语言字符串。

[0079] 可选地，终端设备将原始语音信息发送给第一服务器，以使第一服务器将原始语音信息翻译处理为目标语音信息。第一服务器接收到原始语音信息后，先对原始语音信息进行语音识别，生成原始语言字符串，接着将原始语言字符串翻译为目标语言字符串，最后利用预设声纹对目标语言字符串进行语音合成，生成目标语音信息，并将目标语音信息返回给终端设备。终端设备接收第一服务器返回的目标语音信息。

[0080] 可选地，终端设备将原始语音信息发送给第二服务器，以使第二服务器将原始语音信息翻译处理为目标语言字符串。第二服务器接收到原始语音信息后，先对原始语音信息进行语音识别，生成原始语言字符串，然后将原始语言字符串翻译为目标语言字符串，并将目标语言字符串返回给终端设备。终端设备接收第二服务器返回的目标语言字符串。

[0081] 可选地，终端设备直接对原始语音信息进行语音识别，生成原始语言字符串，然后将原始语言字符串翻译为目标语言字符串。

[0082] 在其它实施例中，当应用于服务器吋，服务器对原始语音信息进行语音识别，生成原始语言字符串，然后将原始语言字符串翻译为目标语言字符串。

[0083] S13、将翻译信息和原始声纹合成为最终语音信息。

[0084] 可选地，当翻译信息为目标语音信息吋，终端设备首先剔除目标语音信息中的预设声纹，得到无声纹的目标语音信息；然后将原始声纹合成到无声纹的目标语音信息中，生成最终语音信息。

[0085] 在剔除预设声纹吋，终端设备可以先从目标语音信息中提取出预设声纹，如利用现有技术中的小波变换算法对目标语音信息进行声纹提取，提取出预设声纹的吋域和频域的特征信息；然后对目标语音信息和预设声纹做信号减法运算，就能得到无声纹的目标语音信息。本领域技术人员可以理解，除此之外，也可以利用现有技术中的其它方式进行声纹剔除，本发明对此不再一一列举赘述。

[0086] 在进行声纹合成吋，终端设备可以对原始声纹和无声纹的目标语音信息做信号加法运算，得到最终语音信息，从而使得最终语音信息听起来就像用户的原声，实现了原声翻译。本领域技术人员可以理解，除此之外，也可以利用现有技术中的其它方式进行声纹合成，本发明对此不再一一列举赘述。

[0087] 可选地，当翻译信息为目标语言字符串吋，终端设备则直接利用原始声纹对目标语言字符串进行语音合成，生成最终语音信息。终端设备可以采用现有的语音合成技术进行语音合成，在此不赘述。

[0088] 当生成最终语音信息后，终端设备可以直接输出最终语音信息，如通过听筒、扬声器等发声装置输出最终语音信息；也可以向外发送最终语音信息，如发送给对端设备。

[0089] 在其它实施例中，当应用于服务器吋，服务器则直接利用原始声纹对目标语言字符串进行语音合成，生成最终语音信息。并将最终语音信息发送给终端设备

[0090] 举例而言：

[0091] 翻译机（终端设备）采集原始语音信息，从原始语音信息中提出原始声纹存储于本地，并将原始语音信息发送给服务器。服务器将原始语音信息翻译处理为目标语音信息并返回给翻译机。翻译机接收服务器返回的目标语音信息，剔除目标语音信息中的预设声纹，将原始声纹合成到无声纹的目标语音信息中，生成最终语音信息，并输出最终语音信息。从而两个使用不同语言的用户就可以利用翻译机进行面对面交谈，并且翻译机输出的翻译后的最终语音信息与用户的声纹相同，相当于用户自己说出了翻译后的语言，实现了原声翻译的效果。

[0092] 移动终端（终端设备）采集原始语音信息，从原始语音信息中提出原始声纹存储于本地，并将原始语音信息发送给服务器。服务器将原始语音信息翻译处理为目标语音信息并返回给移动终端。移动终端接收服务器返回的目标语音信息，剔除目标语音信息中的预设声纹，将原始声纹合成到无声纹的目标语音信息中，生成最终语音信息，并将最终语音信息发送给对端。从而两个使用不同语言的用户就可以利用移动终端进行远程对话，并且翻译后的最终语音信息与用户的声纹相同，相当于用户自己说出了翻译后的语言，实现了原声翻译的效果

[0093] 服务器接收终端设备发送的原始语音信息，从原始语音信息中提出原始声纹，对原始语音信息进行语音识别，生成目标语言字符串，利用原始声纹对目标语言字符串进行语音合成，生成最终语音信息，并将最终语音信息返回给终端设备或该终端设备的对端设备（即与该终端设备建立通讯连接的设备）。由于翻译后的最终语音信息与用户的声纹相同，相当于用户自己说出了翻译后的语言，实现了原声翻译的效果。

[0094] 本发明实施例的语音翻译方法，通过从原始语音信息中提取出原始声纹，再将翻译信息和原始声纹合成为最终语音信息，使得最终语音信息与原始语音信息的声纹相同，听起来好像对方用户自己说出了翻译后的语言，实现了原声翻译的效果，将人机对话提升为人与人的直接对话，提高了翻译语音的生动性和真实性，提升了用户体验。

[0095] 参照图 2，提出本发明的语音翻译装置一实施例，所述装置包括提取模块 10、处理模块 20和合成模块 30，其中：提取模块 10，用于从原始语音信息中提取出原始声纹；处理模块 20，用于对原始语音信息进行翻译处理，获得翻译信息；合成模块 30，用于将翻译信息和原始声纹合成为最终语音信息。

[0096] 提取模块 10可以采用现有技术中的小波变换算法对原始� ��音信息进行声纹提取，提取出原始声纹的吋域和频域的特征信息。具体提取方式与现有技术相同，在此不赘述。

[0097] 处理模块 20获得的翻译信息，可能是目标语音信息，也可能是目标语言字符串

[0098] 可选地，如图 3所示，处理模块 20包括第一发送单元 21和第一接收单元 22，其中：第一发送单元 21，用于向第一服务器发送原始语音信息，以使第一服务器将原始语音信息翻译处理为目标语音信息；第一接收单元 22，用于接收第一服务器返回的目标语音信息。

[0099] 可选地，如图 4所示，处理模块 20包括第二发送单元 23和第二接收单元 24，其中：第二发送单元 23，用于将原始语音信息发送给第二服务器，以使第二服务器将原始语音信息翻译处理为目标语言字符串；第二接收单元 24，用于接收第二服务器返回的目标语言字符串。

[0100] 可选地，如图 5所示，处理模块 20包括语音识别单元 25和字符翻译单元 26，其中：语音识别单元 25，用于对原始语音信息进行语音识别，生成原始语言字符串；字符翻译单元 ₂₆，用于将原始语言字符串翻译为目标语言字符串。

[0101] 处理模块 20获得翻译信息后，合成模块 30则将翻译信息和原始声纹合成为最终语首息。

[0102] 可选地，当翻译信息为目标语音信息吋，合成模块 30如图 6所示，包括声纹剔除单元 31和声纹合成单元 32，其中：声纹剔除单元 31，用于剔除目标语音信息中的预设声纹，得到无声纹的目标语音信息；声纹合成单元 32，用于将原始声纹合成到无声纹的目标语音信息中，生成最终语音信息。

[0103] 本发明实施例中，声纹剔除单元 31如图 7所示，包括声纹提取子单元 311和减法运算子单元 312，其中：声纹提取子单元 311，用于从目标语音信息中提取出预设声纹，如利用现有技术中的小波变换算法对目标语音信息进行声纹提取，提取出预设声纹的吋域和频域的特征信息；减法运算子单元 312，用于对目标语音信息和预设声纹做信号减法运算，得到无声纹的目标语音信息。

[0104] 本领域技术人员可以理解，除此之外，也可以利用现有技术中的其它方式进行声纹剔除，本发明对此不再一一列举赘述。

[0105] 在进行声纹合成吋，声纹合成单元 32可以对原始声纹和无声纹的目标语音信息做信号加法运算，得到最终语音信息，从而使得最终语音信息听起来就像用户的原声，实现了原声翻译。本领域技术人员可以理解，除此之外，也可以利用现有技术中的其它方式进行声纹合成，本发明对此不再一一列举赘述。

[0106] 可选地，当翻译信息为目标语言字符串吋，合成模块 30则直接利用原始声纹对目标语言字符串进行语音合成，生成最终语音信息。合成模块 30可以采用现有的语音合成技术进行语音合成，在此不赘述。

[0107] 进一步地，该装置还可以包括输出模块，其用于输出最终语音信息。例如，输出模块通过听筒、扬声器等发声装置输出最终语音信息。 [0108] 进一步地，该装置还包括发送模块，其用于向外发送最终语音信息，如发送给终端设备。

[0109] 本发明实施例的语音翻译装置，可以应用于翻译机、移动终端（如手机、平板等）、个人电脑等终端设备，也可以应用于服务器，本发明对此不作限定。

[0110] 本发明实施例的语音翻译装置，通过从原始语音信息中提取出原始声纹，再将翻译信息和原始声纹合成为最终语音信息，使得最终语音信息与原始语音信息的声纹相同，听起来好像对方用户自己说出了翻译后的语言，实现了原声翻译的效果，将人机对话提升为人与人的直接对话，提高了翻译语音的生动性和真实性，提升了用户体验。

[0111] 本发明同吋提出一种终端设备，其包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，所述应用程序被配置为用于执行语音翻译方法。所述语音翻译方法包括以下步骤：从原始语音信息中提取出原始声纹；对原始语音信息进行翻译处理，获得翻译信息；将翻译信息和原始声纹合成为最终语音信息。本实施例中所描述的语音翻译方法为本发明中上述实施例所涉及的语音翻译方法，在此不再赘述。

[0112] 本领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备（例如，计算机）可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘（包括软盘、硬盘、光盘、 CD-ROM、和磁光盘）、 ROM (Read-Only Memory , 只读存储器 ) 、 RAM (Random Access Memory , 随机存储器) 、 EPROM (Erasable Programmable Read-Only

Memory , 可擦写可编程只读存储器）、 EEPROM (Electrically Erasable

Programmable Read-Only Memory , 电可擦可编程只读存储器）、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备（例如，计算机）以能够读的形式存储或传输信息的任何介质。 [0113] 本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和 / 或框图和 /或流图中的每个框以及这些结构图和 /或框图和 /或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公幵的结构图和 /或框图和 /或流图的框或多个框中指定的方案。

[0114] 本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或刪除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或刪除。进一步地，现有技术中的具有与本发明中公幵的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或刪除。

[0115] 以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Previous Patent: VEHICLE GRILLE DRIVING DEVICE, VEHICLE GRILLE ASSEMBLY AND VEHICLE

Next Patent: WIRELESS CHARGING SPEAKER