Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR VOICE CONTROLLING
Document Type and Number:
WIPO Patent Application WO/2011/134288
Kind Code:
A1
Abstract:
A method and a device for voice controlling are provided, which are used to solve the problem of low mission success rate of voice controlling in the prior art. The method includes: classifying the stored recognition information used for recognizing a voice to obtain each syntactic packet corresponding to the recognition information (10); receiving an inputted voice signal, and performing respectively a voice recognition processing on the received voice signal by using the each syntactic packet (20) obtained in turn, and performing a corresponding control processing according to the voice recognition result of the voice signal produced by each syntactic packet (30).

Inventors:
LI, Manhai (ZTE Plaza, Keji Road South Hi-Tech Industrial Park, Nansha, Shenzhen Guangdong 7, 518057, CN)
李满海 (中国广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦, Guangdong 7, 518057, CN)
XIAO, Kaili (ZTE Plaza, Keji Road South Hi-Tech Industrial Park, Nansha, Shenzhen Guangdong 7, 518057, CN)
肖开利 (中国广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦, Guangdong 7, 518057, CN)
Application Number:
CN2011/070198
Publication Date:
November 03, 2011
Filing Date:
January 12, 2011
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ZTE CORPORATION (ZTE Plaza, Keji Road South Hi-Tech Industrial Park, Nansha, Shenzhen Guangdong 7, 518057, CN)
中兴通讯股份有限公司 (中国广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦, Guangdong 7, 518057, CN)
LI, Manhai (ZTE Plaza, Keji Road South Hi-Tech Industrial Park, Nansha, Shenzhen Guangdong 7, 518057, CN)
李满海 (中国广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦, Guangdong 7, 518057, CN)
XIAO, Kaili (ZTE Plaza, Keji Road South Hi-Tech Industrial Park, Nansha, Shenzhen Guangdong 7, 518057, CN)
International Classes:
G10L15/28; G10L15/00; G10L15/08
Attorney, Agent or Firm:
CHINA PAT INTELLECTUAL PROPERTY OFFICE (Suite 717, E-Wing CenterNo. 113 Zhichun Road, Haidian, Beijing 6, 100086, CN)
Download PDF:
Claims:
权利要求书

1、 一种语音控制方法, 其特征在于, 包括:

对存储的用于进行语音识别的识别信息分类, 获得各类识别信息分别 对应的语法包;

接收输入的语音信号, 并依次使用获得的每个语法包分别对接收到的 语音信号进行语音识别处理; 以及,

根据各语法包对所述语音信号的语音识别结果, 执行对应控制处理。

2、 如权利要求 1所述的方法, 其特征在于, 所述根据每个语法包对所 述语音信号进行语音识别处理, 具体包括:

当能够从接收到的语音信号中识别出该语法包中至少一个识别信息 时, 从预先指定的该语法包中各识别信息对应的标识中, 选择出识别出的 识别信息对应的标识作为该语法包对所述语音信号的语音识别结果;

否则, 确定本次语音识别失败, 并根据本次语音识别处理失败原因, 从预先指定的各语音识别处理失败原因对应的标识中, 选择出本次语音识 别处理失败原因对应的标识作为该语法包对所述语音信号的语音识别结 果。

3、 如权利要求 2所述的方法, 其特征在于, 所述根据各语法包对所述 语音信号的语音识别结果执行对应控制处理, 具体包括:

当各语法包对所述语音信号的语音识别结果中, 存在至少一个语音识 别处理失败原因对应的标识时, 输出用于提示语音识别失败的提示信号。

4、 如权利要求 2所述的方法, 其特征在于, 所述根据各语法包对所述 语音信号的语音识别结果执行对应控制处理, 具体包括:

统计在各语法包对所述语音信号的语音识别结果中, 相同语音识别处 理失败原因对应的标识的数量, 并将其中数量最多的标识对应的语音识别 处理失败原因通过提示消息提示给用户。 5、 如权利要求 2所述的方法, 其特征在于, 所述根据各语法包对所述 语音信号的语音识别结果执行对应控制处理, 具体包括:

在指定语法包对所述语音信号的语音识别结果中, 不存在语音识别处 理失败原因对应的标识时, 根据所述指定语法包对所述语音信号的语音识 别结果, 执行预定的与所述指定语法包对所述语音信号的语音识别结果对 应的控制处理。

6、 如权利要求 2所述的方法, 其特征在于, 所述根据各语法包对所述 语音信号的语音识别结果执行对应控制处理, 具体包括:

按照预定组合顺序, 将各语法包对所述语音信号的语音识别结果进行 组合, 将组合结果发送给外部设备; 以及,

接收所述外部设备发来的查询请求, 所述查询请求中包含所述外部设 照与所述预定

得的拆分结果; 并,

从预先指定的识别信息与标识的对应关系中, 选择出所述查询请求中 包含的拆分结果对应的识别信息;

将拆分结果对应的识别信息提供给所述外部设备, 所述外部设备根据 拆分结果对应的识别信息执行控制处理。

7、 如权利要求 1至 6任一所述的方法, 其特征在于, 所述用于进行语 音识别的识别信息包括联系人姓名类型信息、 联系人联系方式类型信息、 操作类型信息。

8、 一种语音控制装置, 其特征在于, 包括:

语法包获取单元, 用于对存储的用于进行语音识别的识别信息分类, 获得各类型识别信息分别对应的语法包;

语音识别处理单元, 用于接收输入的语音信号, 并依次使用语法包获 取单元获得的每个语法包分别对接收到的语音信号进行语音识别处理; 执行单元, 用于根据语音识别处理单元获得的各语法包对所述语音信 号的语音识别结果, 执行对应控制处理。

9、 如权利要求 8所述的装置, 其特征在于, 所述语音识别处理单元具 体包括:

第一确定子单元, 用于针对语法包获取单元获取的每个语法包, 当能 够从接收到的语音信号中识别出该语法包中至少一个识别信息时, 从预先 指定的该语法包中各识别信息对应的标识中, 选择出识别出的识别信息对 应的标识作为该语法包对所述语音信号的语音识别结果;

第二确定子单元, 用于当不能从接收到的语音信号中识别出该语法包 中至少一个识别信息时, 确定本次语音识别失败, 并根据本次语音识别处 理失败原因, 从预先指定的各语音识别处理失败原因对应的标识中, 选择 出本次语音识别处理失败原因对应的标识作为该语法包对所述语音信号的 语音识别结果。

10、 一种与外部设备连接的语音控制装置, 其特征在于, 包括: 语法包获取单元, 用于对存储的用于进行语音识别的识别信息分类, 获得各类型识别信息分别对应的语法包;

语音识别处理单元, 用于接收输入的语音信号, 并依次使用语法包获 取单元获得的每个语法包分别对接收到的语音信号进行语音识别处理; 组合子单元, 用于按照预定组合顺序, 将语音识别处理单元获取的各 语法包对所述语音信号的语音识别结果进行组合, 将组合结果发送给所述 外部设备;

接收子单元, 用于接收所述外部设备发来的查询请求, 所述查询请求 结果进行拆分后获得的拆分结果;

选择子单元, 用于从预先指定的识别信息与标识的对应关系中, 选择 出接收子单元接收到的所述查询请求中包含的拆分结果对应的识别信息; 发送子单元, 用于将选择子单元选择出的拆分结果对应的识别信息提 供给所述外部设备, 以便所述外部设备根据拆分结果对应的识别信息执行 控制处理。

Description:
语音控制方法和语音控制装置 技术领域

本发明涉及语音识别和通信技术领域, 尤其涉及一种语音控制方法及 一种语音控制装置。 背景技术

为了使人们在特定场景下能够无需按键、 快捷地使用终端设备提供的 各种业务, 语音控制技术应运而生。 人们只需要在终端设备的麦克风附近 说出各种指令, 终端设备就可以根据该指令执行相应的处理。 以语音拨号 技术为例, 为了方便人们在双手被占用无法按键(如驾驶 交通工具) 时、 或者为了使上肢不健全的残疾人也能够拨打电 话, 该技术能够从用户的语 音中识别出拨打电话所需的信息, 并根据识别出的信息进行拨号。 人们只 需在终端设备(包括固定终端或移动终端) 的麦克风中输入语音指令, 例 如 "拨通张三的手机", 终端设备就可以为用户建立与被叫人的通话, 极大 地简化了用户的操作。 除了语音拨号这种应用之外, 语音控制技术还广泛 应用于机器人、 能够音控开关的车库等很多产品中。

下面以语音拨号技术为例, 介绍现有语音控制技术的基本原理: 终端设备首先根据通信录中包含的各种联系人 信息, 例如姓名、 地址、 联系方式等等, 生成一个语法包, 该语法包中包含上述联系人信息的语音 数据; 然后终端设备通过麦克风等音频信号接收接口 接收用户输入的语音 信号, 并根据接收到的语音信号和生成的语法包进行 语音识别, 判断接收 到的语音信号中的每个字的语音数据是否存在 语法包中, 若是, 认为从接 收到的语音信号中识别出了这个字。 在从接收到的语音信号中识别出的字 数量在接收到的语音信号包含的全部字中所占 比例超过预定阔值后, 确定 对接收到的语音信号识别成功, 执行对应的后续处理。 举例来说: 假如终 端设备规定在能够成功识别出 60%的字时确定识别成功, 这时用户输入的 语音为 "拨通张三的手机", 那么如果终端设备能识别出其中的四个 ( 7*60%=4.2 )以上字的音节时, 认为识别成功, 进行后续拨号流程; 否则 认为识别失败, 处理结束。

为了在语音识别成功后能够根据识别出的信息 有效地进行对应的拨号 处理, 通常会预先规定在语音识别时, 判别语音识别成功与否时识别出的 字数在接收到的语音信号包含的总字数中所占 比例的阔值较高。 而现实中, 很多原因都会导致能识别出的字的比例难以达 到预定阔值而导致语音识别 失败, 使得处理结束, 例如用户无意识地输入了很长一段话, 其中只有少 数几个字是与拨号行为相关的, 这时往往会因为能识别出的字所占比例难 以达到预定阔值而导致识别失败, 使得处理结束; 又如, 用户由于方言口 音问题, 终端设备只能识别出其中的极少几个字, 也会因为能识别出的字 所占比例难以达到预定阔值, 而导致处理结束。 因此, 现有语音控制技术 的成功率较低。 发明内容

有鉴于此, 本发明实施例的主要目的在于提供一种语音控 制方法, 用 以解决现有技术中语音控制成功率低的问题。 对应地, 本发明实施例还提 供了一种语音控制装置。

为解决上述技术问题, 本发明实施例提供的技术方案如下:

一种语音控制方法, 包括: 对存储的用于进行语音识别的识别信息分 类, 获得各类识别信息分别对应的语法包; 接收输入的语音信号, 并依次 使用获得的每个语法包分别对接收到的语音信 号进行语音识别处理; 以及, 根据各语法包对所述语音信号的语音识别结果 , 执行对应控制处理。

所述根据每个语法包对所述语音信号进行语音 识别处理, 具体包括: 当能够从接收到的语音信号中识别出该语法包 中至少一个识别信息时, 从 预先指定的该语法包中各识别信息对应的标识 中, 选择出识别出的识别信 息对应的标识作为该语法包对所述语音信号的 语音识别结果; 否则, 确定 本次语音识别失败, 并根据本次语音识别处理失败原因, 从预先指定的各 语音识别处理失败原因对应的标识中, 选择出本次语音识别处理失败原因 对应的标识作为该语法包对所述语音信号的语 音识别结果。

所述根据各语法包对所述语音信号的语音识别 结果执行对应控制处 理, 具体包括: 当各语法包对所述语音信号的语音识别结果中 , 存在至少 一个语音识别处理失败原因对应的标识时, 输出用于提示语音识别失败的 提示信号。

所述根据各语法包对所述语音信号的语音识别 结果执行对应控制处 理, 具体包括: 统计在各语法包对所述语音信号的语音识别结 果中, 相同 语音识别处理失败原因对应的标识的数量, 并将其中数量最多的标识对应 的语音识别处理失败原因通过提示消息提示给 用户。

所述根据各语法包对所述语音信号的语音识别 结果执行对应控制处 理, 具体包括: 在指定语法包对所述语音信号的语音识别结果 中, 不存在 语音识别处理失败原因对应的标识时, 根据所述指定语法包对所述语音信 号的语音识别结果, 执行预定的与所述指定语法包对所述语音信号 的语音 识别结果对应的控制处理。

所述根据各语法包对所述语音信号的语音识别 结果执行对应控制处 理, 具体包括: 按照预定组合顺序, 将各语法包对所述语音信号的语音识 别结果进行组合, 将组合结果发送给外部设备; 以及, 接收所述外部设备 发来的查询请求, 所述查询请求中包含所述外部设备按照与所述 预定组合 预先指定的识别信息与标识的对应关系中, 选择出所述查询请求中包含的 拆分结果对应的识别信息; 将拆分结果对应的识别信息提供给所述外部设 备, 所述外部设备根据拆分结果对应的识别信息执 行控制处理。

所述用于进行语音识别的识别信息包括联系人 姓名类型信息、 联系人 联系方式类型信息、 操作类型信息。

一种语音控制装置, 包括:

语法包获取单元, 用于对存储的用于进行语音识别的识别信息分 类, 获得各类型识别信息分别对应的语法包;

语音识别处理单元, 用于接收输入的语音信号, 并依次使用语法包获 取单元获得的每个语法包分别对接收到的语音 信号进行语音识别处理; 执行单元, 用于根据语音识别处理单元获得的各语法包对 所述语音信 号的语音识别结果, 执行对应控制处理。

所述语音识别处理单元具体包括:

第一确定子单元, 用于针对语法包获取单元获取的每个语法包, 当能 够从接收到的语音信号中识别出该语法包中至 少一个识别信息时, 从预先 指定的该语法包中各识别信息对应的标识中, 选择出识别出的识别信息对 应的标识作为该语法包对所述语音信号的语音 识别结果;

第二确定子单元, 用于当不能从接收到的语音信号中识别出该语 法包 中至少一个识别信息时, 确定本次语音识别失败, 并根据本次语音识别处 理失败原因, 从预先指定的各语音识别处理失败原因对应的 标识中, 选择 出本次语音识别处理失败原因对应的标识作为 该语法包对所述语音信号的 语音识别结果。

一种与外部设备连接的语音控制装置, 包括:

语法包获取单元, 用于对存储的用于进行语音识别的识别信息分 类, 获得各类型识别信息分别对应的语法包;

语音识别处理单元, 用于接收输入的语音信号, 并依次使用语法包获 取单元获得的每个语法包分别对接收到的语音 信号进行语音识别处理; 组合子单元, 用于按照预定组合顺序, 将语音识别处理单元获取的各 语法包对所述语音信号的语音识别结果进行组 合, 将组合结果发送给所述 外部设备;

接收子单元, 用于接收所述外部设备发来的查询请求, 所述查询请求 结果进行拆分后获得的拆分结果;

选择子单元, 用于从预先指定的识别信息与标识的对应关系 中, 选择 出接收子单元接收到的所述查询请求中包含的 拆分结果对应的识别信息; 发送子单元, 用于将选择子单元选择出的拆分结果对应的识 别信息提 供给所述外部设备, 以便所述外部设备根据拆分结果对应的识别信 息执行 控制处理。

本发明实施例提供的方案根据识别信息的不同 类型, 分别生成用于进 行语音识别所需的语法包, 而不是像现有技术一样根据全部识别信息生成 一个语法包, 然后根据各个语法包分别对接收到的语音信号 进行语音识别 处理, 无论接收到的语音信号中包含的总字数如何, 在能够从接收到的语 音信号中识别出每个语法包中的识别信息时、 或者能够从接收到的语音信 号中识别出部分语法包中的识别信息时, 根据识别出的识别信息执行后续 控制处理, 从而提高了语音控制的成功率。 附图说明

图 1为本发明实施例的主要实现原理流程示意图

图 2为本发明实施例进行语音拨号时具体过程的 程示意图; 图 3为本发明实施例提供的语音控制装置的结构 意图;

图 4为本发明实施例提供的另一种语音控制装置 结构示意图; 图 5为本发明实施例提供的又一种语音控制装置 结构示意图。 具体实施方式

发明人在实施包括语音拨号在内的语音控制技 术的过程中发现语音控 制成功率较低, 主要原因是现有语音控制技术在对用户通过麦 克风输入的 语音信号进行语音识别处理时, 规定识别出的字数与语音信号包含的全部 字数之间的比例超过预定阔值时, 才能进行后续处理。 而事实上, 很多情 况下虽然语音识别出的字已经足够指导完成后 续的处理, 但却由于语音识 别出的字在语音信号包含的字中所占比例仍然 低于预定阔值, 导致语音拨 号失败。 而单纯为了解决上述问题, 降低语音识别时的预定阔值也是不合 理的, 因为这会导致在很多情况下由于识别出的字过 少, 而使得后续处理 无法完成。 可见现有语音控制技术在语音识别处理环节中 灵活些较差。

本发明实施例提出根据用于进行语音识别的信 息的不同类型, 分别生 成用于进行语音识别所需的语法包, 并根据各个语法包分别对接收到的语 音信号进行语音识别处理, 根据各语法包的语音识别结果, 在该结果中包 含执行后续处理所需的信息时, 即可执行后续处理, 从而提高了语音控制 的成功率。

下面结合各个附图对本发明实施例技术方案的 主要实现原理、 具体实 施方式及其对应能够达到的有益效果进行详细 的阐述。

如图 1所示, 本发明实施例的主要实现原理流程如下:

步骤 10, 根据存储的用于进行语音识别的识别信息, 获得各类识别信 息分别对应的语法包;

步骤 20,接收输入的语音信号, 并依次使用步骤 10获得的每个语法包 分别对接收到的语音信号进行语音识别处理;

步骤 30,根据步骤 20获得的每个语法包对所述语音信号的语音识 结 果, 执行对应控制处理。

在上述步骤 20中, 釆用以下方法来确定根据每个语法包分别对接 收到 的语音信号进行语音识别处理, 获得语音识别结果:

针对每个语法包, 根据预先指定的该语法包中每个识别信息对应 的标 识, 将从接收到的语音信号中识别出的该语法包中 的识别信息对应的标识 作为该语法包对所述语音信号的语音识别结果 , 例如根据第一语法包中包 含的各联系人姓名信息的语音信号数据, 经语音识别处理识别出接收到的 语音信号中包含该语法包中包含的联系人姓名 信息 "张三", 则将预先指定 的 "张三" 的对应的标识作为该第一语法包对语音信号的 语音识别结果。

在实际实施过程中, 考虑到功能模块配置的灵活性, 可以由第一模块 和第二模块两个不同的功能模块、或两个设备 分别执行步骤 10、 步骤 20和 步骤 30的功能, 为了在语法包数量较多的情况下, 二者之间无需传送过多 的参数(即其中一个模块将每个语法包对语音 信号的语音识别结果分别传 送给另一模块 ), 可以在第一模块获得每个语法包对语音信号的 语音识别结 果后, 将其进行合并, 处理为一个结果发送给第二模块, 第二模块进行与 组合处理对应的拆分处理, 并根据拆分结果来执行对应处理。 例如, 由与 外部设备连接的语音控制装置执行步骤 10、 步骤 20, 而由外部设备执行步 骤 30, 具体地:

语音控制装置在步骤 20中, 按照预定组合顺序, 将每个语法包对所述 语音信号的语音识别结果进行组合, 将组合结果作为所述语音信号对应的 语音识别结果。 例如, 共有第一语法包和第二语法包两个语法包, 其中第 一语法包对所述语音信号的语音识别结果为 "张三" 的标识, 第二语法包 对所述语音信号的语音识别结果为 "手机" 的标识, 那么按照第一语法包 对所述语音信号的语音识别结果在先, 第二语法包对所述语音信号的语音 识别结果在后的顺序, 将第一语法包对所述语音信号的语音识别结果 和第 二语法包对所述语音信号的语音识别结果组合 后, 将组合结果("张三" 的 标识 + "手机" 的标识)作为接收到的语音信号的语音识别结 果。 语音控制装置将组合获得的语音信号的语音识 别结果发送给外部设 备;

对应地,外部设备按照步骤 20中的所述预定组合顺序对应的拆分顺序, 对语音识别结果进行拆分, 将拆分结果携带在查询请求中发送给语音控制 装置;

语音控制装置接收所述外部设备发来的查询请 求, 并从预先指定的识 别信息与标识的对应关系中, 选择出所述查询请求中包含的拆分结果对应 的识别信息, 以及将拆分结果对应的识别信息提供给所述外 部设备;

所述外部设备根据拆分结果对应的识别信息执 行控制处理。

在上述各个步骤中, 将每个语法包中识别出的联系人信息对应的标 识 作为语音识别结果, 将每个语法包的语音识别结果组合作为接收到 的语音 信号的语音识别结果、 以及后续进行拆分, 根据拆分结果执行对应处理是 因为标识相对于字符串来说, 所需的存储空间较小, 可以提高终端设备的 处理效率。

下面将依据本发明上述发明原理, 以语音拨号过程为例详细介绍一个 具体实施例来对本发明方法的主要实现原理进 行详细的阐述和说明。

终端设备的通信录中存储有联系人的各种信息 , 在本实施例中对联系 人信息进行分类 (在实际中许多终端设备在存储联系人信息时 已经按照类 别进行存储, 那么这一步就可以省略), 例如包括 "张三"、 "李四" 在内的 联系人姓名类型信息、 包括 "手机"、 "座机" 在内的联系人联系方式类型 信息、 包括 "拨通"、 "打电话" 在内的操作类型信息等。

请参照附图 2, 步骤 201 , 对分类获得的每种类型的联系人信息, 分别 进行语法编译, 从而获得每种类型联系人信息对应的、 包含该类型联系人 信息的语音数据的语法包, 具体编译获得语法包的技术属于现有技术, 在 这里不再详述。 在本实施例中分别获得联系人姓名类型信息对 应的第一语 法包、 联系人联系方式类型信息对应的第二语法包和 操作类型信息对应的 第三语法包。

出于终端设备执行效率方面的考虑, 在生成语法包时, 为每个联系人 信息预先设定对应的标识, 该标识可以为一个预定长度的字符串, 例如在 本实施例中每个联系人姓名信息对应的标识为 以字符 "c" 开头的 3位字符 串, "张三" 对应的标识为 c01、 "李四" 对应的标识为 c02; 每个联系人联 系方式信息对应的标识为以字符 "e" 开头的 3位字符串, "手机" 对应的 标识为 e01、 "办公电话 "对应的标识为 e02、 "家庭电话 "对应的标识为 e03; 每个操作信息对应的标识为以字符 "d" 开头的 3位字符串, "拨通" 对应 的标识为 d01、 "查询" 对应的标识为 d02。

较佳地, 还可以设定预定数量语音识别处理失败时各种 失败原因分别 对应的标识, 例如在本实施例中每种失败原因对应的标识为 以字符 "cx" 开头的 3位字符串, "输入语音声音过小" 对应的标识为 cxl。

步骤 202,终端设备接收用户通过麦克风等语音输入 口输入的语音信 号, 例如用户输入 "替我拨通张三的手机", 为了便于说明本实施例提供的 方案, 假定存在两种场景:

场景 1 : 用户音量足以满足语音识别的需要, 能够从用户输入的语音信 号中识别出每一个字, 进入步骤 203;

场景 2: 用户音量很低, 难以满足语音识别的需要, 无法从用户输入的 语音信号中识别出每一个字, 进入步骤 210;

步骤 203 , 终端设备根据步骤 201获得的三个语法包中的每个语法包, 依次对步骤 202接收到的语音信号进行语音识别处理(即在 语音识别处理 模块中加载步骤 201获得的各语法包), 将接收到的语音信号中出现的、 且 该语法包中存在的联系人信息语音数据对应的 联系人信息对应的标识作为 该语法包对所述语音信号的语音识别结果, 进入步骤 204; 例如, 先根据第一语法包, 对用户输入的语音信号进行语音识别处理, 能够识别出用户输入的语音信号中包括 "张三", 那么将 "张三" 对应的标 识 cOl作为第一语法包对接收到的语音信号的语音 识别结果;

同理, 根据第二语法包, 对用户输入的语音信号进行语音识别处理, 能够识别出用户输入的语音信号中包括 "手机", 那么将 "手机" 对应的标 识 eOl作为第二语法包对接收到的语音信号的语音 识别结果;

然后, 根据第三语法包, 对用户输入的语音信号进行语音识别处理, 能够识别出用户输入的语音信号中包括 "拨通", 那么将 "拨通" 对应的标 识 dOl作为第三语法包对接收到的语音信号的语音 识别结果。

步骤 204,按照预定组合顺序, 将步骤 203获得的每个语法包对所述语 音信号的语音识别结果组合, 将组合结果作为所述语音信号对应的语音识 别结果发送给外部设备, 进入步骤 205;

在本实施例中按照将第一语法包的语音识别结 果放在第一位、 第二语 法包的语音识别结果放在第二位、 第三语法包的语音识别结果放在第三位 的顺序, 将各语法包的语音识别结果组合在一起, 将组合结果 cOleOldOl 作为步骤 202接收到的语音信号的语音识别结果。

步骤 205, 外部设备按照与步骤 204中的组合顺序对应的拆分顺序,对 所述语音信号对应的语音识别结果进行拆分, 获得三个标识分别为 c01、e01 和 dOl , 进入步骤 206;

步骤 206, 外部设备将步骤 205中的拆分结果 c01、 eOl和 dOl携带在 查询请求中发送给终端设备;

步骤 207, 终端设备从预先指定的每个联系人信息与标识 的对应关系 中, 选择出所述查询请求中包含的拆分结果对应的 识别信息, 例如选择出 cOl对应的 "张三"、 选择出 eOl对应的 "拨通" 和 dOl对应的 "手机"; 步骤 208,终端设备将包含步骤 207中的拆分结果对应的识别信息提供 给所述外部设备, 例如携带在查询响应中发送给外部设备;

步骤 209,外部设备根据查询响应中 cOl对应的 "张三"、 eOl对应的 "手 机" 和 dOl对应的 "拨通", 执行向张三发起呼叫的处理;

步骤 210, 终端设备根据步骤 201获得的三个语法包中的每个语法包, 依次对步骤 202接收到的语音信号进行语音识别处理, 由于不能从接收到 的语音信号中识别出该语法包中包含的任一联 系人信息, 因此确定本次语 音识别失败, 并根据本次语音识别处理失败原因, 从预先指定的各种语音 识别处理失败原因对应的标识中, 选择出本次语音识别处理失败原因对应 的标识作为该语法包中识别出的联系人信息对 应的标识, 进入步骤 211 ; 例如, 先根据第一语法包, 对用户输入的语音信号进行语音识别处理, 由于不能从接收到的语音信号中识别出第一语 法包的任——个联系人姓名 信息, 将预先指定的 "由于音量过小导致识别失败" 对应的标识 cxl 作为 第一语法包对接收到的语音信号的语音识别结 果;

同理, 根据第二语法包, 对用户输入的语音信号进行语音识别处理, 由于不能从接收到的语音信号中识别出第二语 法包的任——个联系人联系 方式信息, 将预先指定的 "由于音量过小导致识别失败" 对应的标识 exl 作为第二语法包对接收到的语音信号的语音识 别结果;

然后, 根据第三语法包, 对用户输入的语音信号进行语音识别处理, 由于不能从接收到的语音信号中识别出第三语 法包的任——个操作信息, 将预先指定的 "由于音量过小导致识别失败" 对应的标识 dxl 作为第三语 法包对接收到的语音信号的语音识别结果。

步骤 211 , 按照预定组合顺序, 将步骤 210获得的每个语法包对所述语 音信号的语音识别结果组合, 将组合结果作为所述接收到的语音信号的语 音识别结果发送给外部设备, 进入步骤 212;

在本实施例中按照将第一语法包的语音识别结 果放在第一位、 第二语 法包的语音识别结果放在第二位、 第三语法包的语音识别结果放在第三位 的顺序, 将各语法包的语音识别结果组合在一起, 将组合结果 cxlexldxl 作为步骤 202接收到的语音信号的语音识别结果。

步骤 212,外部设备按照与步骤 211中的预定组合顺序对应的拆分顺序 , 对所述语音信号对应的语音识别结果进行拆分 , 获得三个标识分别为 cxl、 exl和 dxl , 进入步骤 213;

步骤 213 , 外部设备将步骤 212中的拆分结果 cxl、 exl和 dxl携带在 查询请求中发送给终端设备;

步骤 214,终端设备从预先指定的语音识别失败原因 标识的对应关系 中, 选择出所述查询请求中包含的拆分结果对应的 语音识别失败原因, 例 如 "由于音量过小导致识别失败";

步骤 215 ,终端设备将包含步骤 214中的拆分结果对应的语音识别失败 原因提供给所述外部设备, 例如携带在查询响应中发送给外部设备;

步骤 216, 外部设备根据查询响应中的拆分结果对应的音 识别失败原 因, 判断出无法进行后续的处理, 执行向用户发送语音识别失败的提示信 号。

在步骤 202 中给出的两种场景均为比较极端的情况, 实际中往往会出 现釆用部分语法包进行语音识别处理时, 能从接收到的语音信号中识别出 该语法包中包含的联系人信息, 而在釆用其余部分语法包进行语音识别处 理时, 语音识别失败, 这时可以釆用如下适应方案:

在确定存在至少一个语法包对所述语音信号的 语音识别结果为语音识 别处理失败原因对应的标识时, 向用户发送提示消息, 通过该提示消息提 示用户语音识别失败, 可选地, 终端设备根据用户收到提示信号后的反馈 信息判断是否进一步根据语音识别处理失败原 因对应的标识确定语音识别 处理失败原因; 或者, 较佳地, 统计在所有语法包对所述语音信号的语音识别 结果中, 相同 语音识别处理失败原因对应的标识的数量, 并将其中数量最多的标识对应 的语音识别处理失败原因通过提示消息提示给 用户; 或者,

在所有语法包对所述语音信号的语音识别结果 中语音识别处理失败原 因对应的标识数量超过预定阔值时, 根据其中数量最多的相同语音识别处 理失败原因对应的标识对应的语音识别处理失 败原因, 输出提示信号; 否 则根据拆分结果执行对应的处理, 或者,

预先指定部分语法包对所述语音信号的语音识 别结果不是语音识别处 理失败对应的标识 (即各种语音识别处理失败原因对应的标识) 时, 根据 该部分语法包对所述语音信号的语音识别结果 , 执行对应的处理, 例如, 预先指定第一语法包和第三语法包的对所述语 音信号的语音识别结果不是 语音识别处理失败对应的标识时, 例如第一语法包的语音识别结果为 cxl (对应的联系人信息为 "张三")、 第三语法包的语音识别结果为 dxl (对应 的联系人信息为 "拨通"), 那么即可拨通张三的手机或办公电话。

在上述步骤 203或步骤 210中, 由于是根据各联系人类型信息对应的 数据量较小的语法包进行语音识别处理, 而不是像现有技术一样, 根据包 括所有联系人信息在内的一个数据量较大的语 法包进行语音识别处理, 因 而加快了语音识别的速度, 节省了进行语音识别处理耗用的时间。

本发明实施例提供的方案根据联系人信息的不 同类型, 分别生成用于 进行语音识别所需的语法包, 而不是像现有技术一样根据全部联系人信息 生成一个语法包, 然后根据各个语法包分别对接收到的语音信号 进行语音 识别处理, 在能够从接收到的语音信号中识别出每个语法 包中的联系人信 息时, 或者能够从接收到的语音信号中识别出部分语 法包中的联系人信息 时, 根据识别出的联系人信息执行后续处理, 而不是像现有技术一样只有 识别出的联系人信息的音节在语音信号包含的 全部音节中所占比例高于预 定阔值才能执行后续处理, 否则就认为识别失败处理结束, 忽略了此时识 别出的联系人信息是否已经足以支持执行后续 处理。 因此, 实施例提供的 语音控制方案解决了现有技术语音控制成功率 低的问题。

相应地, 本发明实施例还提供了一种语音控制装置, 如图 3 所示, 该 装置包括语法包获取单元 301、 语音识别处理单元 302和执行单元 303 , 具 体如下:

语法包获取单元 301 , 用于对存储的用于进行语音识别的识别信息分 类, 获得各类型识别信息分别对应的语法包;

语音识别处理单元 302, 用于接收输入的语音信号, 并依次使用语法包 获取单元 301 获得的每个语法包分别对接收到的语音信号进 行语音识别处 理;

执行单元 303 ,用于根据语音识别处理单元 302获得的各语法包对所述 语音信号的语音识别结果, 执行对应控制处理。

请参照附图 4, 在附图 3 所示的语音控制装置中, 语音识别处理单元 302具体包括第一确定子单元 401和第二确定子单元 402, 其中:

第一确定子单元 401 ,用于针对语法包获取单元 301获取的每个语法包 , 当能够从接收到的语音信号中识别出该语法包 中至少一个识别信息时, 从 预先指定的该语法包中各识别信息对应的标识 中, 选择出识别出的识别信 息对应的标识作为该语法包对所述语音信号的 语音识别结果;

第二确定子单元 402,用于当不能从接收到的语音信号中识别出 语法 包中至少一个识别信息时, 确定本次语音识别失败, 并根据本次语音识别 处理失败原因, 从预先指定的各语音识别处理失败原因对应的 标识中, 选 择出本次语音识别处理失败原因对应的标识作 为该语法包对所述语音信号 的语音识别结果。

较佳地,请参照附图 5 , 为本发明实施例提供了另一种语音控制装置的 结构示意图, 该语音控制装置与外部设备连接, 包括语法包获取单元 501、 语音识别处理单元 502、 组合单元 503、 接收单元 504、 选择单元 505和发 送单元 506, 其中:

语法包获取单元 501 , 用于对存储的用于进行语音识别的识别信息分 类, 获得各类型识别信息分别对应的语法包;

语音识别处理单元 502, 用于接收输入的语音信号, 并依次使用语法包 获取单元 501 获得的每个语法包分别对接收到的语音信号进 行语音识别处 理;

组合单元 503 , 用于按照预定组合顺序, 将各语法包对所述语音信号的 语音识别结果进行组合, 将组合结果发送给所述外部设备;

接收单元 504, 用于接收所述外部设备发来的查询请求, 所述查询请求 结果进行拆分后获得的拆分结果;

选择单元 505 , 用于从预先指定的识别信息与标识的对应关系 中, 选择 出接收单元 504接收到的所述查询请求中包含的拆分结果对 应的识别信息; 发送单元 506,用于将选择单元 505选择出的拆分结果对应的识别信息 提供给所述外部设备, 以便所述外部设备根据拆分结果对应的识别信 息执 行控制处理。

本领域普通技术人员可以理解实现上述实施例 方法中的全部或部分步 骤是可以通过程序来指令相关的硬件来完成, 该程序可以存储于一计算机 可读取存储介质中, 如: ROM/RAM、 磁碟、 光盘等。 本发明的精神和范围。 这样, 倘若本发明的这些修改和变型属于本发明权 利要求及其等同技术的范围之内, 则本发明也意图包含这些改动和变型在 内。