YANG HANDAN (CN)
WANG GUANGXIN (CN)
ZHENG YONG (CN)
CN105786801A | 2016-07-20 | |||
US20170255616A1 | 2017-09-07 | |||
JP2017182394A | 2017-10-05 | |||
CN101727904A | 2010-06-09 |
权利要求书 一种语音翻译方法, 其特征在于, 包括以下步骤: 从原始语音信息中提取出原始声纹; 对所述原始语音信息进行翻译处理, 获得翻译信息; 将所述翻译信息和所述原始声纹合成为最终语音信息。 根据权利要求 1所述的语音翻译方法, 其特征在于, 所述翻译信息为 目标语音信息, 所述将所述翻译信息和所述原始声纹合成为最终语音 信息的步骤包括: 剔除所述目标语音信息中的预设声纹, 得到无声纹的目标语音信息; 将所述原始声纹合成到所述无声纹的目标语音信息中, 生成最终语音 f π息。 根据权利要求 2所述的语音翻译方法, 其特征在于, 所述剔除所述目 标语音信息中的预设声纹的步骤包括: 从所述目标语音信息中提取出预设声纹; 对所述目标语音信息和所述预设声纹做信号减法运算, 得到无声纹的 目标语音信息。 根据权利要求 2所述的语音翻译方法, 其特征在于, 所述将所述原始 声纹合成到所述无声纹的目标语音信息中, 生成最终语音信息的步骤 包括: 对所述原始声纹和所述无声纹的目标语音信息做信号加法运算, 得到 最终语音信息。 根据权利要求 1所述的语音翻译方法, 其特征在于, 所述对所述原始 语音信息进行翻译处理, 获得翻译信息的步骤包括: 向第一服务器发送所述原始语音信息, 以使所述第一服务器将所述原 始语音信息翻译处理为目标语音信息; 接收所述第一服务器返回的所述目标语音信息。 根据权利要求 1所述的语音翻译方法, 其特征在于, 所述翻译信息为 目标语言字符串, 所述将所述翻译信息和所述原始声纹合成为最终语 音信息的步骤包括: 利用所述原始声纹对所述目标语言字符串进行语音合成, 生成最终语 音信息。 根据权利要求 6所述的语音翻译方法, 其特征在于, 所述对所述原始 语音信息进行翻译处理, 获得翻译信息的步骤包括: 将所述原始语音信息发送给第二服务器, 以使所述第二服务器将所述 原始语音信息翻译处理为目标语言字符串; 接收所述第二服务器返回的所述目标语言字符串。 根据权利要求 6所述的语音翻译方法, 其特征在于, 所述对所述原始 语音信息进行翻译处理, 获得翻译信息的步骤包括: 对所述原始语音信息进行语音识别, 生成原始语言字符串; 将所述原始语言字符串翻译为目标语言字符串。 根据权利要求 1所述的语音翻译方法, 其特征在于, 所述将所述翻译 信息和所述原始声纹合成为最终语音信息的步骤之后还包括: 输出所述最终语音信息。 根据权利要求 1所述的语音翻译方法, 其特征在于, 所述将所述翻译 信息和所述原始声纹合成为最终语音信息的步骤之后还包括: 向外发送所述最终语音信息。 一种语音翻译装置, 其特征在于, 包括: 提取模块, 用于从原始语音信息中提取出原始声纹; 处理模块, 用于对所述原始语音信息进行翻译处理, 获得翻译信息; 合成模块, 用于将所述翻译信息和所述原始声纹合成为最终语音信息 根据权利要求 11所述的语音翻译装置, 其特征在于, 所述翻译信息为 目标语音信息, 所述合成模块包括: 声纹剔除单元, 用于剔除所述目标语音信息中的预设声纹, 得到无声 纹的目标语音信息; 声纹合成单元, 用于将所述原始声纹合成到所述无声纹的目标语音信 息中, 生成最终语音信息。 根据权利要求 12所述的语音翻译装置, 其特征在于, 所述声纹剔除单 元包括: 声纹提取子单元, 用于从所述目标语音信息中提取出预设声纹; 减法运算子单元, 用于对所述目标语音信息和所述预设声纹做信号减 法运算, 得到无声纹的目标语音信息。 根据权利要求 12所述的语音翻译装置, 其特征在于, 声纹合成单元用 于: 对所述原始声纹和所述无声纹的目标语音信息做信号加法运算, 得到最终语音信息。 根据权利要求 12所述的语音翻译装置, 其特征在于, 所述处理模块包 括: 第一发送单元, 用于向第一服务器发送所述原始语音信息, 以使所述 第一服务器将所述原始语音信息翻译处理为目标语音信息; 第一接收单元, 用于接收所述第一服务器返回的所述目标语音信息。 根据权利要求 11所述的语音翻译装置, 其特征在于, 所述翻译信息为 目标语言字符串, 所述合成模块用于: 利用所述原始声纹对所述目标 语言字符串进行语音合成, 生成最终语音信息。 根据权利要求 16所述的语音翻译装置, 其特征在于, 所述处理模块包 括: 第二发送单元, 用于将所述原始语音信息发送给第二服务器, 以使所 述第二服务器将所述原始语音信息翻译处理为目标语言字符串; 第二接收单元, 用于接收所述第二服务器返回的所述目标语言字符串 根据权利要求 16所述的语音翻译装置, 其特征在于, 所述处理模块包 括: 语音识别单元, 用于对所述原始语音信息进行语音识别, 生成原始语 言字符串; 字符翻译单元, 用于将所述原始语言字符串翻译为目标语言字符串。 [权利要求 19] 根据权利要求 11所述的语音翻译装置, 其特征在于, 所述装置还包括 输出模块, 其用于输出所述最终语音信息。 [权利要求 20] —种终端设备, 包括存储器、 处理器和至少一个被存储在所述存储器 中并被配置为由所述处理器执行的应用程序, 其特征在于, 所述应用 程序被配置为用于执行权利要求 1所述的语音翻译方法。 |
[0001] 本发明涉及通信技术领域, 特别是涉及到一种语音翻译方法、 装置和终端设备 背景技术
[0002] 翻译机可以将一种语言的语音信息翻译为另一 种语言的语音信息, 因此使用不 同语言的人可以利用翻译机实现无障碍交流和 沟通。 翻译机进行语音翻译的具 体流程为: 接收用户的原始语音信息, 将原始语音信息发送给服务器, 服务器 对原始语音信息进行语音识别、 字符翻译、 语音合成等一系列翻译处理后得到 目标语音信息并返回给翻译机, 翻译机输出目标语音信息。
[0003] 服务器翻译后生成的目标语音信息的声纹是预 先设定的, 因此所有的翻译语音 听起来都是同一个人的声音, 单调乏味, 让人感觉是在与机器人对话, 而不是 与真人对话, 缺乏真实感和人情味, 容易引起听觉疲劳, 用户体验不佳。
技术问题
[0004] 本发明的主要目的为提供一种语音翻译方法、 装置和终端设备, 旨在提高翻译 语音的真实性和生动性, 提升用户体验。 问题的解决方案
技术解决方案
[0005] 为达以上目的, 本发明实施例提出一种语音翻译方法, 所述方法包括以下步骤
[0006] 从原始语音信息中提取出原始声纹;
[0007] 对所述原始语音信息进行翻译处理, 获得翻译信息;
[0008] 将所述翻译信息和所述原始声纹合成为最终语 音信息。
[0009] 可选地, 所述翻译信息为目标语音信息, 所述将所述翻译信息和所述原始声纹 合成为最终语音信息的步骤包括:
[0010] 剔除所述目标语音信息中的预设声纹, 得到无声纹的目标语音信息; [0011] 将所述原始声纹合成到所述无声纹的目标语音 信息中, 生成最终语音信息。
[0012] 可选地, 所述剔除所述目标语音信息中的预设声纹的步 骤包括:
[0013] 从所述目标语音信息中提取出预设声纹;
[0014] 对所述目标语音信息和所述预设声纹做信号减 法运算, 得到无声纹的目标语音 f π息。
[0015] 可选地, 所述将所述原始声纹合成到所述无声纹的目标 语音信息中, 生成最终 语音信息的步骤包括:
[0016] 对所述原始声纹和所述无声纹的目标语音信息 做信号加法运算, 得到最终语音 f π息。
[0017] 可选地, 所述对所述原始语音信息进行翻译处理, 获得翻译信息的步骤包括: [0018] 向第一服务器发送所述原始语音信息, 以使所述第一服务器将所述原始语音信 息翻译处理为目标语音信息;
[0019] 接收所述第一服务器返回的所述目标语音信息 。
[0020] 可选地, 所述翻译信息为目标语言字符串, 所述将所述翻译信息和所述原始声 纹合成为最终语音信息的步骤包括:
[0021] 利用所述原始声纹对所述目标语言字符串进行 语音合成, 生成最终语音信息。
[0022] 可选地, 所述对所述原始语音信息进行翻译处理, 获得翻译信息的步骤包括: [0023] 将所述原始语音信息发送给第二服务器, 以使所述第二服务器将所述原始语音 信息翻译处理为目标语言字符串;
[0024] 接收所述第二服务器返回的所述目标语言字符 串。
[0025] 可选地, 所述对所述原始语音信息进行翻译处理, 获得翻译信息的步骤包括: [0026] 对所述原始语音信息进行语音识别, 生成原始语言字符串;
[0027] 将所述原始语言字符串翻译为目标语言字符串 。
[0028] 可选地, 所述将所述翻译信息和所述原始声纹合成为最 终语音信息的步骤之后 还包括:
[0029] 输出所述最终语音信息。
[0030] 可选地, 所述将所述翻译信息和所述原始声纹合成为最 终语音信息的步骤之后 还包括: [0031] 向外发送所述最终语音信息。
[0032] 本发明实施例同吋提出一种语音翻译装置, 所述装置包括:
[0033] 提取模块, 用于从原始语音信息中提取出原始声纹;
[0034] 处理模块, 用于对所述原始语音信息进行翻译处理, 获得翻译信息;
[0035] 合成模块, 用于将所述翻译信息和所述原始声纹合成为最 终语音信息。
[0036] 可选地, 所述翻译信息为目标语音信息, 所述合成模块包括:
[0037] 声纹剔除单元, 用于剔除所述目标语音信息中的预设声纹, 得到无声纹的目标 语首 息;
[0038] 声纹合成单元, 用于将所述原始声纹合成到所述无声纹的目标 语音信息中, 生 成最终语音信息。
[0039] 可选地, 所述声纹剔除单元包括:
[0040] 声纹提取子单元, 用于从所述目标语音信息中提取出预设声纹;
[0041] 减法运算子单元, 用于对所述目标语音信息和所述预设声纹做信 号减法运算, 得到无声纹的目标语音信息。
[0042] 可选地, 声纹合成单元用于: 对所述原始声纹和所述无声纹的目标语音信息 做 信号加法运算, 得到最终语音信息。
[0043] 可选地, 所述处理模块包括:
[0044] 第一发送单元, 用于向第一服务器发送所述原始语音信息, 以使所述第一服务 器将所述原始语音信息翻译处理为目标语音信 息;
[0045] 第一接收单元, 用于接收所述第一服务器返回的所述目标语音 信息。
[0046] 可选地, 所述翻译信息为目标语言字符串, 所述合成模块用于: 利用所述原始 声纹对所述目标语言字符串进行语音合成, 生成最终语音信息。
[0047] 可选地, 所述处理模块包括:
[0048] 第二发送单元, 用于将所述原始语音信息发送给第二服务器, 以使所述第二服 务器将所述原始语音信息翻译处理为目标语言 字符串;
[0049] 第二接收单元, 用于接收所述第二服务器返回的所述目标语言 字符串。
[0050] 可选地, 所述处理模块包括:
[0051] 语音识别单元, 用于对所述原始语音信息进行语音识别, 生成原始语言字符串 [0052] 字符翻译单元, 用于将所述原始语言字符串翻译为目标语言字 符串。
[0053] 可选地, 所述装置还包括输出模块, 其用于输出所述最终语音信息。
[0054] 可选地, 所述装置还包括发送模块, 其用于向外发送所述最终语音信息。
[0055] 本发明实施例还提出一种终端设备, 所述终端设备包括存储器、 处理器和至少 一个被存储在所述存储器中并被配置为由所述 处理器执行的应用程序, 所述应 用程序被配置为用于执行前述语音翻译方法。
发明的有益效果
有益效果
[0056] 本发明实施例所提供的一种语音翻译方法, 通过从原始语音信息中提取出原始 声纹, 再将翻译信息和原始声纹合成为最终语音信息 , 使得最终语音信息与原 始语音信息的声纹相同, 听起来好像对方用户自己说出了翻译后的语言 , 实现 了原声翻译的效果, 将人机对话提升为人与人的直接对话, 提高了翻译语音的 生动性和真实性, 提升了用户体验。
对附图的简要说明
附图说明
[0057] 图 1是本发明的语音翻译方法一实施例的流程图
[0058] 图 2是本发明的语音翻译装置一实施例的模块示 图;
[0059] 图 3是图 2中的处理模块的模块示意图;
[0060] 图 4是图 2中的处理模块的又一模块示意图;
[0061] 图 5是图 2中的处理模块的又一模块示意图;
[0062] 图 6是图 2中的合成模块的模块示意图;
[0063] 图 7是图 6中的声纹剔除单元的模块示意图。
[0064] 本发明目的的实现、 功能特点及优点将结合实施例, 参照附图做进一步说明。
实施该发明的最佳实施例
本发明的最佳实施方式
[0065] 应当理解, 此处所描述的具体实施例仅仅用以解释本发明 , 并不用于限定本发 明。
[0066] 下面详细描述本发明的实施例, 所述实施例的示例在附图中示出, 其中自始至 终相同或类似的标号表示相同或类似的元件或 具有相同或类似功能的元件。 下 面通过参考附图描述的实施例是示例性的, 仅用于解释本发明, 而不能解释为 对本发明的限制。
[0067] 本技术领域技术人员可以理解, 除非特意声明, 这里使用的单数形式"一"、 " 一个"、 "所述 "和"该"也可包括复数形式。 应该进一步理解的是, 本发明的说明 书中使用的措辞"包括"是指存在所述特征、 整数、 步骤、 操作、 元件和 /或组件 , 但是并不排除存在或添加一个或多个其他特征 、 整数、 步骤、 操作、 元件、 组件和 /或它们的组。 应该理解, 当我们称元件被"连接"或"耦接"到另一元件吋 , 它可以直接连接或耦接到其他元件, 或者也可以存在中间元件。 此外, 这里 使用的"连接"或"耦接"可以包括无线连接或无 耦接。 这里使用的措辞 "和 /或"包 括一个或更多个相关联的列出项的全部或任一 单元和全部组合。
[0068] 本技术领域技术人员可以理解, 除非另外定义, 这里使用的所有术语 (包括技 术术语和科学术语) , 具有与本发明所属领域中的普通技术人员的一 般理解相 同的意义。 还应该理解的是, 诸如通用字典中定义的那些术语, 应该被理解为 具有与现有技术的上下文中的意义一致的意义 , 并且除非像这里一样被特定定 义, 否则不会用理想化或过于正式的含义来解释。
[0069] 本技术领域技术人员可以理解, 这里所使用的 "终端"、 "终端设备"既包括无线 信号接收器的设备, 其仅具备无发射能力的无线信号接收器的设备 , 又包括接 收和发射硬件的设备, 其具有能够在双向通信链路上, 执行双向通信的接收和 发射硬件的设备。 这种设备可以包括: 蜂窝或其他通信设备, 其具有单线路显 示器或多线路显示器或没有多线路显示器的蜂 窝或其他通信设备; PCS (Persona 1 Communications Service, 个人通信系统) , 其可以组合语音、 数据处理、 传真 和 /或数据通信能力; PDA (Personal Digital Assistant, 个人数字助理) , 其可以 包括射频接收器、 寻呼机、 互联网 /内联网访问、 网络浏览器、 记事本、 日历和 / 或 GPS (Global Positioning System, 全球定位系统) 接收器; 常规膝上型和 /或掌 上型计算机或其他设备, 其具有和 /或包括射频接收器的常规膝上型和 /或掌上型 计算机或其他设备。 这里所使用的 "终端"、 "终端设备"可以是便携式、 可运输、 安装在交通工具 (航空、 海运和 /或陆地) 中的, 或者适合于和 /或配置为在本地 运行, 和 /或以分布形式, 运行在地球和 /或空间的任何其他位置运行。 这里所使 用的"终端"、 "终端设备"还可以是通信终端、 上网终端、 音乐 /视频播放终端, 例如可以是 PDA、 MID (Mobile Internet Device, 移动互联网设备) 和 /或具有音 乐 /视频播放功能的移动电话, 也可以是智能电视、 机顶盒等设备。
[0070] 本技术领域技术人员可以理解, 这里所使用的服务器, 其包括但不限于计算机 、 网络主机、 单个网络服务器、 多个网络服务器集或多个服务器构成的云。 在 此, 云由基于云计算 (Cloud Computing) 的大量计算机或网络服务器构成, 其 中, 云计算是分布式计算的一种, 由一群松散耦合的计算机集组成的一个超级 虚拟计算机。 本发明的实施例中, 服务器、 终端设备与 WNS服务器之间可通过 任何通信方式实现通信, 包括但不限于, 基于 3GPP、 LTE、 WIMAX的移动通信 、 基于 TCP/IP、 UDP协议的计算机网络通信以及基于蓝牙、 红外传输标准的近 距无线传输方式。
[0071] 本发明实施例的语音翻译方法, 可以应用于翻译机、 移动终端 (如手机、 平板 等) 、 个人电脑等终端设备, 也可以应用于服务器。 以下以应用于终端设备为 例进行详细说明。
[0072] 参照图 1, 提出本发明的语音翻译方法一实施例, 所述方法包括以下步骤: [0073] Sl l、 从原始语音信息中提取出原始声纹。
[0074] 本发明实施例中, 原始语音信息可以是终端设备通过麦克风当场 采集的用户的 语音信息, 也可以是从外部 (如对端设备) 获取的待翻译的语音信息。 终端设 备采集原始语音信息吋, 优选通过由多个麦克风组成的麦克风阵列来采 集原始 语音信息, 运用麦克风阵列的波束成型、 降噪等处理方式来降低环境噪声对后 期处理的影响, 提高语音质量。
[0075] 终端设备获取原始语音信息后, 立即从中提取出原始声纹, 并将该原始声纹存 储起来。 终端设备可以采用现有技术中的小波变换算法 对原始语音信息进行声 纹提取, 提取出原始声纹的吋域和频域的特征信息。 具体提取方式与现有技术 相同, 在此不赘述。 [0076] 在其它实施例中, 当应用于服务器吋, 原始语音信息则来自于终端设备, 服务 器接收终端设备发送的原始语音信息, 并从中提取出原始声纹。
[0077] S12、 对原始语音信息进行翻译处理, 获得翻译信息。
[0078] 终端设备可以在本地对原始语音信息进行翻译 处理, 也可以通过服务器对原始 语音信息进行翻译处理。 终端设备获得的翻译信息, 可能是目标语音信息, 也 可能是目标语言字符串。
[0079] 可选地, 终端设备将原始语音信息发送给第一服务器, 以使第一服务器将原始 语音信息翻译处理为目标语音信息。 第一服务器接收到原始语音信息后, 先对 原始语音信息进行语音识别, 生成原始语言字符串, 接着将原始语言字符串翻 译为目标语言字符串, 最后利用预设声纹对目标语言字符串进行语音 合成, 生 成目标语音信息, 并将目标语音信息返回给终端设备。 终端设备接收第一服务 器返回的目标语音信息。
[0080] 可选地, 终端设备将原始语音信息发送给第二服务器, 以使第二服务器将原始 语音信息翻译处理为目标语言字符串。 第二服务器接收到原始语音信息后, 先 对原始语音信息进行语音识别, 生成原始语言字符串, 然后将原始语言字符串 翻译为目标语言字符串, 并将目标语言字符串返回给终端设备。 终端设备接收 第二服务器返回的目标语言字符串。
[0081] 可选地, 终端设备直接对原始语音信息进行语音识别, 生成原始语言字符串, 然后将原始语言字符串翻译为目标语言字符串 。
[0082] 在其它实施例中, 当应用于服务器吋, 服务器对原始语音信息进行语音识别, 生成原始语言字符串, 然后将原始语言字符串翻译为目标语言字符串 。
[0083] S13、 将翻译信息和原始声纹合成为最终语音信息。
[0084] 可选地, 当翻译信息为目标语音信息吋, 终端设备首先剔除目标语音信息中的 预设声纹, 得到无声纹的目标语音信息; 然后将原始声纹合成到无声纹的目标 语音信息中, 生成最终语音信息。
[0085] 在剔除预设声纹吋, 终端设备可以先从目标语音信息中提取出预设 声纹, 如利 用现有技术中的小波变换算法对目标语音信息 进行声纹提取, 提取出预设声纹 的吋域和频域的特征信息; 然后对目标语音信息和预设声纹做信号减法运 算, 就能得到无声纹的目标语音信息。 本领域技术人员可以理解, 除此之外, 也可 以利用现有技术中的其它方式进行声纹剔除, 本发明对此不再一一列举赘述。
[0086] 在进行声纹合成吋, 终端设备可以对原始声纹和无声纹的目标语音 信息做信号 加法运算, 得到最终语音信息, 从而使得最终语音信息听起来就像用户的原声 , 实现了原声翻译。 本领域技术人员可以理解, 除此之外, 也可以利用现有技 术中的其它方式进行声纹合成, 本发明对此不再一一列举赘述。
[0087] 可选地, 当翻译信息为目标语言字符串吋, 终端设备则直接利用原始声纹对目 标语言字符串进行语音合成, 生成最终语音信息。 终端设备可以采用现有的语 音合成技术进行语音合成, 在此不赘述。
[0088] 当生成最终语音信息后, 终端设备可以直接输出最终语音信息, 如通过听筒、 扬声器等发声装置输出最终语音信息; 也可以向外发送最终语音信息, 如发送 给对端设备。
[0089] 在其它实施例中, 当应用于服务器吋, 服务器则直接利用原始声纹对目标语言 字符串进行语音合成, 生成最终语音信息。 并将最终语音信息发送给终端设备
[0090] 举例而言:
[0091] 翻译机 (终端设备) 采集原始语音信息, 从原始语音信息中提出原始声纹存储 于本地, 并将原始语音信息发送给服务器。 服务器将原始语音信息翻译处理为 目标语音信息并返回给翻译机。 翻译机接收服务器返回的目标语音信息, 剔除 目标语音信息中的预设声纹, 将原始声纹合成到无声纹的目标语音信息中, 生 成最终语音信息, 并输出最终语音信息。 从而两个使用不同语言的用户就可以 利用翻译机进行面对面交谈, 并且翻译机输出的翻译后的最终语音信息与用 户 的声纹相同, 相当于用户自己说出了翻译后的语言, 实现了原声翻译的效果。
[0092] 移动终端 (终端设备) 采集原始语音信息, 从原始语音信息中提出原始声纹存 储于本地, 并将原始语音信息发送给服务器。 服务器将原始语音信息翻译处理 为目标语音信息并返回给移动终端。 移动终端接收服务器返回的目标语音信息 , 剔除目标语音信息中的预设声纹, 将原始声纹合成到无声纹的目标语音信息 中, 生成最终语音信息, 并将最终语音信息发送给对端。 从而两个使用不同语 言的用户就可以利用移动终端进行远程对话, 并且翻译后的最终语音信息与用 户的声纹相同, 相当于用户自己说出了翻译后的语言, 实现了原声翻译的效果
[0093] 服务器接收终端设备发送的原始语音信息, 从原始语音信息中提出原始声纹, 对原始语音信息进行语音识别, 生成目标语言字符串, 利用原始声纹对目标语 言字符串进行语音合成, 生成最终语音信息, 并将最终语音信息返回给终端设 备或该终端设备的对端设备 (即与该终端设备建立通讯连接的设备) 。 由于翻 译后的最终语音信息与用户的声纹相同, 相当于用户自己说出了翻译后的语言 , 实现了原声翻译的效果。
[0094] 本发明实施例的语音翻译方法, 通过从原始语音信息中提取出原始声纹, 再将 翻译信息和原始声纹合成为最终语音信息, 使得最终语音信息与原始语音信息 的声纹相同, 听起来好像对方用户自己说出了翻译后的语言 , 实现了原声翻译 的效果, 将人机对话提升为人与人的直接对话, 提高了翻译语音的生动性和真 实性, 提升了用户体验。
[0095] 参照图 2, 提出本发明的语音翻译装置一实施例, 所述装置包括提取模块 10、 处理模块 20和合成模块 30, 其中: 提取模块 10, 用于从原始语音信息中提取出 原始声纹; 处理模块 20, 用于对原始语音信息进行翻译处理, 获得翻译信息; 合成模块 30, 用于将翻译信息和原始声纹合成为最终语音信 息。
[0096] 提取模块 10可以采用现有技术中的小波变换算法对原始 音信息进行声纹提取 , 提取出原始声纹的吋域和频域的特征信息。 具体提取方式与现有技术相同, 在此不赘述。
[0097] 处理模块 20获得的翻译信息, 可能是目标语音信息, 也可能是目标语言字符串
[0098] 可选地, 如图 3所示, 处理模块 20包括第一发送单元 21和第一接收单元 22, 其 中: 第一发送单元 21, 用于向第一服务器发送原始语音信息, 以使第一服务器 将原始语音信息翻译处理为目标语音信息; 第一接收单元 22, 用于接收第一服 务器返回的目标语音信息。
[0099] 可选地, 如图 4所示, 处理模块 20包括第二发送单元 23和第二接收单元 24, 其 中: 第二发送单元 23, 用于将原始语音信息发送给第二服务器, 以使第二服务 器将原始语音信息翻译处理为目标语言字符串 ; 第二接收单元 24, 用于接收第 二服务器返回的目标语言字符串。
[0100] 可选地, 如图 5所示, 处理模块 20包括语音识别单元 25和字符翻译单元 26, 其 中: 语音识别单元 25, 用于对原始语音信息进行语音识别, 生成原始语言字符 串; 字符翻译单元 26 , 用于将原始语言字符串翻译为目标语言字符串 。
[0101] 处理模块 20获得翻译信息后, 合成模块 30则将翻译信息和原始声纹合成为最终 语首 息。
[0102] 可选地, 当翻译信息为目标语音信息吋, 合成模块 30如图 6所示, 包括声纹剔 除单元 31和声纹合成单元 32, 其中: 声纹剔除单元 31, 用于剔除目标语音信息 中的预设声纹, 得到无声纹的目标语音信息; 声纹合成单元 32, 用于将原始声 纹合成到无声纹的目标语音信息中, 生成最终语音信息。
[0103] 本发明实施例中, 声纹剔除单元 31如图 7所示, 包括声纹提取子单元 311和减法 运算子单元 312, 其中: 声纹提取子单元 311, 用于从目标语音信息中提取出预 设声纹, 如利用现有技术中的小波变换算法对目标语音 信息进行声纹提取, 提 取出预设声纹的吋域和频域的特征信息; 减法运算子单元 312, 用于对目标语音 信息和预设声纹做信号减法运算, 得到无声纹的目标语音信息。
[0104] 本领域技术人员可以理解, 除此之外, 也可以利用现有技术中的其它方式进行 声纹剔除, 本发明对此不再一一列举赘述。
[0105] 在进行声纹合成吋, 声纹合成单元 32可以对原始声纹和无声纹的目标语音信息 做信号加法运算, 得到最终语音信息, 从而使得最终语音信息听起来就像用户 的原声, 实现了原声翻译。 本领域技术人员可以理解, 除此之外, 也可以利用 现有技术中的其它方式进行声纹合成, 本发明对此不再一一列举赘述。
[0106] 可选地, 当翻译信息为目标语言字符串吋, 合成模块 30则直接利用原始声纹对 目标语言字符串进行语音合成, 生成最终语音信息。 合成模块 30可以采用现有 的语音合成技术进行语音合成, 在此不赘述。
[0107] 进一步地, 该装置还可以包括输出模块, 其用于输出最终语音信息。 例如, 输 出模块通过听筒、 扬声器等发声装置输出最终语音信息。 [0108] 进一步地, 该装置还包括发送模块, 其用于向外发送最终语音信息, 如发送给 终端设备。
[0109] 本发明实施例的语音翻译装置, 可以应用于翻译机、 移动终端 (如手机、 平板 等) 、 个人电脑等终端设备, 也可以应用于服务器, 本发明对此不作限定。
[0110] 本发明实施例的语音翻译装置, 通过从原始语音信息中提取出原始声纹, 再将 翻译信息和原始声纹合成为最终语音信息, 使得最终语音信息与原始语音信息 的声纹相同, 听起来好像对方用户自己说出了翻译后的语言 , 实现了原声翻译 的效果, 将人机对话提升为人与人的直接对话, 提高了翻译语音的生动性和真 实性, 提升了用户体验。
[0111] 本发明同吋提出一种终端设备, 其包括存储器、 处理器和至少一个被存储在所 述存储器中并被配置为由所述处理器执行的应 用程序, 所述应用程序被配置为 用于执行语音翻译方法。 所述语音翻译方法包括以下步骤: 从原始语音信息中 提取出原始声纹; 对原始语音信息进行翻译处理, 获得翻译信息; 将翻译信息 和原始声纹合成为最终语音信息。 本实施例中所描述的语音翻译方法为本发明 中上述实施例所涉及的语音翻译方法, 在此不再赘述。
[0112] 本领域技术人员可以理解, 本发明包括涉及用于执行本申请中所述操作中 的一 项或多项的设备。 这些设备可以为所需的目的而专门设计和制造 , 或者也可以 包括通用计算机中的已知设备。 这些设备具有存储在其内的计算机程序, 这些 计算机程序选择性地激活或重构。 这样的计算机程序可以被存储在设备 (例如 , 计算机) 可读介质中或者存储在适于存储电子指令并分 别耦联到总线的任何 类型的介质中, 所述计算机可读介质包括但不限于任何类型的 盘 (包括软盘、 硬盘、 光盘、 CD-ROM、 和磁光盘) 、 ROM (Read-Only Memory , 只读存储器 ) 、 RAM (Random Access Memory , 随机存储器) 、 EPROM (Erasable Programmable Read-Only
Memory , 可擦写可编程只读存储器) 、 EEPROM (Electrically Erasable
Programmable Read-Only Memory , 电可擦可编程只读存储器) 、 闪存、 磁性卡 片或光线卡片。 也就是, 可读介质包括由设备 (例如, 计算机) 以能够读的形 式存储或传输信息的任何介质。 [0113] 本技术领域技术人员可以理解, 可以用计算机程序指令来实现这些结构图和 / 或框图和 /或流图中的每个框以及这些结构图和 /或框图和 /或流图中的框的组合。 本技术领域技术人员可以理解, 可以将这些计算机程序指令提供给通用计算机 、 专业计算机或其他可编程数据处理方法的处理 器来实现, 从而通过计算机或 其他可编程数据处理方法的处理器来执行本发 明公幵的结构图和 /或框图和 /或流 图的框或多个框中指定的方案。
[0114] 本技术领域技术人员可以理解, 本发明中已经讨论过的各种操作、 方法、 流程 中的步骤、 措施、 方案可以被交替、 更改、 组合或刪除。 进一步地, 具有本发 明中已经讨论过的各种操作、 方法、 流程中的其他步骤、 措施、 方案也可以被 交替、 更改、 重排、 分解、 组合或刪除。 进一步地, 现有技术中的具有与本发 明中公幵的各种操作、 方法、 流程中的步骤、 措施、 方案也可以被交替、 更改 、 重排、 分解、 组合或刪除。
[0115] 以上所述仅为本发明的优选实施例, 并非因此限制本发明的专利范围, 凡是利 用本发明说明书及附图内容所作的等效结构或 等效流程变换, 或直接或间接运 用在其他相关的技术领域, 均同理包括在本发明的专利保护范围内。
Next Patent: WIRELESS CHARGING SPEAKER