Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR IMPLEMENTING VOICE INPUT
Document Type and Number:
WIPO Patent Application WO/2014/101687
Kind Code:
A1
Abstract:
Provided are a method and a device for implementing voice input. The method comprises: determining, according to a voice recognition model, an input character sequence corresponding to voice input information at a network device side; determining presentation probability information corresponding to participles in the input character sequence to obtain accuracy information of the participles, and sending the input character sequence and the accuracy information of the participles to a user equipment corresponding to the voice input information; and the user equipment providing the input character sequence for a user according to the accuracy information of the participles. In the method and the device, the accuracy information of the participles is obtained according to the presentation probability information of the participles in the input character sequence, so that the accuracy and the flexibility of voice input are increased, an input entry matches the input demand of the user, the input flexibility and personalization are increased, and the input efficiency of the input method is also increased, thereby improving the user experience.

Inventors:
LU YANGYANG (CN)
JIA LEI (CN)
Application Number:
PCT/CN2013/089721
Publication Date:
July 03, 2014
Filing Date:
December 17, 2013
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BAIDU ONLINE NETWORK TECHNOLOGY BEIJING CO LTD (CN)
International Classes:
G06F1/00
Foreign References:
CN102385619A2012-03-21
CN101276585A2008-10-01
CN103076893A2013-05-01
CN102299934A2011-12-28
Other References:
See also references of EP 2940551A4
Attorney, Agent or Firm:
HANHOW INTELLECTUAL PROPERTY (CN)
北京汉昊知识产权代理事务所(普通合伙) (CN)
Download PDF:
Claims:
权 利 要 求 书

1. 一种在网络设备端用于实现语音输入的方法, 其中, 该方法包括 以下步骤:

a获取语音输入信息;

b根据语音识别模型, 确定所述语音输入信息对应的输入字符序 列;

c确定所述输入字符序列中分词所对应的呈现概率信息, 以获得所 述分词的准确性信息; 输入信息相对应的用户设备。

2. 根据权利要求 1所述的方法, 其中, 该方法还包括:

- 获取所述用户设备发送的关于所述至少一个分词的备选项的访问 请求;

X才艮据所述访问请求, 确定与所述至少一个分词相对应的一个或多 个备选项;

- 将所述一个或多个备选项发送至所述用户设备。

3. 根据权利要求 2所述的方法, 其中, 所述步骤 X包括:

-根据所述访问请求, 并结合所述至少一个分词的上下文信息, 确 定与所述至少一个分词相对应的一个或多个备选项。

4. 根据权利要求 1至 3中任一项所述的方法, 其中, 所述步骤 c包 括:

- 确定所述分词在所述输入字符序列中的条件概率, 以作为所述分 词的呈现概率信息;

-根据呈现概率阈值, 基于所述分词的呈现概率信息, 确定所述分 词的准确性信息。

5. 根据权利要求 4所述的方法, 其中, 该方法还包括:

-根据所述分词的呈现概率信息, 以及所述分词对应的候选分词的 呈现概率信息, 确定所述呈现概率阈值。

6. 根据权利要求 1至 5中任一项所述的方法, 其中, 所述步骤 b包 括:

-根据语音识别模型, 并结合所述语音输入信息所对应的上下文信 息, 确定所述语音输入信息对应的输入字符序列。

7. 一种在用户设备端用于辅助实现语音输入的方法, 其中, 该方法 包括以下步骤:

A获取网络设备所发送的语音输入信息所对应的输入字符序列, 以 及所述输入字符序列中分词的准确性信息;

B根据所述分词的准确性信息, 将所述输入字符序列提供给用户。

8. 根据权利要求 7所述的方法, 其中, 该方法还包括:

- 获取所述用户对所述输入字符序列中至少一个分词的备选项的请 求操作;

-基于所述请求操作向所述网络设备发送关于所述至少一个分词的 备选项的访问请求;

-接收所述网络设备基于所述访问请求发送的一个或多个备选项; - 将所述一个或多个备选项中至少一个提供给所述用户。

9. 根据权利要求 8所述的方法, 其中, 该方法还包括:

- 获取用户对所述一个或多个备选项中至少一个的选择操作; -根据所述选择操作所对应的备选项, 替换所述输入字符序列中对 应的分词, 以获得更新后的所述输入字符序列。

10. 一种用于实现语音输入的网络设备, 其中, 该设备包括: 输入获取装置, 用于获取语音输入信息;

序列确定装置, 用于根据语音识别模型, 确定所述语音输入信息对 应的输入字符序列;

准确性确定装置, 用于确定所述输入字符序列中分词所对应的呈现 概率信息, 以获得所述分词的准确性信息;

发送装置, 用于将所述输入字符序列及所述分词的准确性信息发送 至所述语音输入信息相对应的用户设备。

11. 根据权利要求 10所述的网络设备, 其中, 该设备还包括: 请求获取装置, 用于获取所述用户设备发送的关于所述至少一个分 词的备选项的访问请求;

备选确定装置, 用于根据所述访问请求, 确定与所述至少一个分词 相对应的一个或多个备选项;

备选发送装置, 用于将所述一个或多个备选项发送至所述用户设 备。

12. 根据权利要求 11所述的网络设备, 其中, 所述备选确定装置用 于:

-根据所述访问请求, 并结合所述至少一个分词的上下文信息, 确 定与所述至少一个分词相对应的一个或多个备选项。

13. 根据权利要求 10至 12中任一项所述的网络设备, 其中, 所述 准确性确定装置用于:

- 确定所述分词在所述输入字符序列中的条件概率, 以作为所述分 词的呈现概率信息;

-根据呈现概率阈值, 基于所述分词的呈现概率信息, 确定所述分 词的准确性信息。

14. 根据权利要求 13所述的网络设备, 其中, 该设备还包括: 阈值确定装置, 用于根据所述分词的呈现概率信息, 以及所述分词 对应的候选分词的呈现概率信息, 确定所述呈现概率阈值。

15. 根据权利要求 10至 14中任一项所述的网络设备, 其中, 所述 序列确定装置用于:

-根据语音识别模型, 并结合所述语音输入信息所对应的上下文信 息, 确定所述语音输入信息对应的输入字符序列。

16. 一种用于辅助实现语音输入的用户设备, 其中, 该设备包括: 序列获取装置, 用于获取网络设备所发送的语音输入信息所对应的 输入字符序列, 以及所述输入字符序列中分词的准确性信息;

提供装置, 用于根据所述分词的准确性信息, 将所述输入字符序列 提供给用户。

17. 根据权利要求 16所述的用户设备, 其中, 该设备还包括: 一个分词的备选项的请求操作;

访问请求发送装置, 用于基于所述请求操作向所述网络设备发送关 于所述至少一个分词的备选项的访问请求;

备选接收装置, 用于接收所述网络设备基于所述访问请求发送的一 个或多个备选项;

备选提供装置, 用于将所述一个或多个备选项中至少一个提供给所 述用户。

18. 根据权利要求 17所述的用户设备, 其中, 该设备还包括: 操作获取装置, 用于获取用户对所述一个或多个备选项中至少一个 的选择操作;

替换装置, 用于根据所述选择操作所对应的备选项, 替换所述输入 字符序列中对应的分词, 以获得更新后的所述输入字符序列。

19. 一种用于实现语音输入的系统, 包括如权利要求 10至 15中任 一项所述的网络设备及如权利要求 16至 18中任一项所述的用户设备。

Description:
一种用于实现语音输入的方法与设备

技术领域

本发明涉及互联网技术领域, 尤其涉及一种用于实现语音输入的 技术。 背景技术

随着语音识别技术的发展, 语音输入所应用的领域越来越多。 然 而在很多情况下, 语音输入仍然存在很多错误, 例如对于同音字的识 别与确定的不准确等,使得语音输入的准确性 降低,影响了用户体验。 发明内容

本发明的目的是提供一种用于实现语音输入的 方法与设备。

根据本发明的一个方面,提供了一种在网络设 备端用于实现语音输 入的方法, 其中, 该方法包括以下步骤:

a获取语音输入信息;

b根据语音识别模型, 确定所述语音输入信息对应的输入字符序 列;

c确定所述输入字符序列中分词所对应的呈现 率信息, 以获得所 述分词的准确性信息; 输入信息相对应的用户设备。

根据本发明的另一方面, 还提供了一种在用户设备端用于辅助实 现语音输入的方法, 其中, 该方法包括以下步骤:

A 获取网络设备所发送的语音输入信息所对应的 输入字符序列, 以及所述输入字符序列中分词的准确性信息;

B 根据所述分词的准确性信息, 将所述输入字符序列提供给用 户。

根据本发明的再一方面, 还提供了一种用于实现语音输入的网络 设备, 其中, 该设备包括:

输入获取装置, 用于获取语音输入信息;

序列确定装置, 用于根据语音识别模型, 确定所述语音输入信息对 应的输入字符序列;

准确性确定装置, 用于确定所述输入字符序列中分词所对应的呈 现 概率信息, 以获得所述分词的准确性信息;

发送装置, 用于将所述输入字符序列及所述分词的准确性 信息发送 至所述语音输入信息相对应的用户设备。

根据本发明的又一方面, 还提供了一种用于辅助实现语音输入的 用户设备, 其中, 该设备包括:

序列获取装置, 用于获取网络设备所发送的语音输入信息所对 应 的输入字符序列, 以及所述输入字符序列中分词的准确性信息;

提供装置, 用于根据所述分词的准确性信息, 将所述输入字符序 列提供给用户。

根据本发明的另一方面, 还提供了一种用于实现语音输入的系 统, 包括如上述所述的网络设备及如上述所述的用 户设备。

与现有技术相比, 本发明通过在网络设备端根据语音识别模型, 确定语音输入信息对应的输入字符序列, 并通过确定所述输入字符序列 中分词所对应的呈现概率信息, 以获得所述分词的准确性信息, 从而将 所述输入字符序列及所述分词的准确性信息发 送至所述语音输入信息 相对应的用户设备; 用户设备端根据所述分词的准确性信息, 将所述输 入字符序列提供给用户; 从而根据输入字符序列中分词的呈现概率信息 来获得所述分词的准确性信息, 提高了语音输入的准确性与灵活性, 使 得所述输入词条与用户的输入需求相匹配, 提高了输入灵活度与个性 化, 还提高了输入法的输入效率, 改善了用户体验。

而且, 本发明还可以在网络设备端获取所述用户设备 发送的关于 所述至少一个分词的备选项的访问请求, 并根据述访问请求, 确定与所 述至少一个分词相对应的一个或多个备选项, 从而将所述一个或多个备 选项发送至所述用户设备; 在用户设备端将所述一个或多个备选项中至 少一个提供给所述用户; 进一步地, 在网络设备端还可以结合所述至少 一个分词的上下文信息, 确定与所述至少一个分词相对应的一个或多个 备选项; 进一步地, 在用户设备端, 还可以根据用户对所述一个或多个 备选项中至少一个的选择操作, 替换所述输入字符序列中对应的分词, 以获得更新后的所述输入字符序列。 从而为用户提供了多种备选项, 便 于修正语音输入中的错误, 提高了语音输入的准确性与灵活性, 使得所 述输入词条与用户的输入需求相匹配, 提高了输入灵活度与个性化, 还提高了输入法的输入效率, 改善了用户体验。

而且, 本发明还可以在网络设备端确定所述分词在所 述输入字符序 列中的条件概率, 将所述条件概率作为所述分词的呈现概率信息 , 并根 据所述条件概率确定所述分词的准确性信息; 进一步地, 还可以根据所 述分词的呈现概率信息, 以及所述分词对应的候选分词的呈现概率信 息, 确定所述呈现概率阈值; 从而结合整个字符序列, 提高了语音输入 的准确性与灵活性,使得所述输入词条与用户 的输入需求相匹配,提高 了输入灵活度与个性化, 还提高了输入法的输入效率, 改善了用户体 验。

而且, 本发明还可以在网络设备端根据语音识别模型 , 并结合所述 语音输入信息所对应的上下文信息, 确定所述语音输入信息对应的输入 字符序列; 从而结合上下文信息, 提高了所确定的输入字符序列的准确 性, 进而提高了语音输入的准确性与灵活性, 使得所述输入词条与用户 的输入需求相匹配, 提高了输入灵活度与个性化, 还提高了输入法的 输入效率, 改善了用户体马 。 附图说明

通过阅读参照以下附图所作的对非限制性实施 例所作的详细描述, 本发明的其它特征、 目的和优点将会变得更明显:

图 1 示出根据本发明一个方面的一种用于实现语音 输入的网络设 备与用户设备示意图;

图 2示出根据本发明一个优选实施例的一种用于 现语音输入的 网络设备与用户设备示意图;

图 3示出根据本发明另一个方面的一种由网络设 与用户设备配 合实现的用于实现语音输入的方法流程图;

图 4示出根据本发明一个优选实施例的一种由网 设备与用户设 备配合实现的用于实现语音输入的方法流程图 。

附图中相同或相似的附图标记代表相同或相似 的部件。 具体实施方式

下面结合附图对本发明作进一步详细描述。

图 1示出根据本发明一个方面的一种用于实现语 输入的网络设备 与用户设备示意图; 其中, 网络设备 1包括输入获取装置 11、 序列确定 装置 12、 准确性确定装置 13、 发送装置 14; 用户设备 2包括序列获取 装置 21、 提供装置 22; 网络设备 1和用户设备 2的各个装置之间互相 配合, 以实现语音输入。 具体地, 网络设备 1中的输入获取装置 11获取 语音输入信息; 序列确定装置 12根据语音识别模型, 确定所述语音输 入信息对应的输入字符序列; 准确性确定装置 13 确定所述输入字符序 列中分词所对应的呈现概率信息, 以获得所述分词的准确性信息; 发送 装置 14将所述输入字符序列及所述分词的准确性信 发送至所述语音 输入信息相对应的用户设备; 相应地, 用户设备 2中的序列获取装置 21 获取网络设备所发送的语音输入信息所对应的 输入字符序列, 以及所述 输入字符序列中分词的准确性信息; 提供装置 22根据所述分词的准确 性信息, 将所述输入字符序列提供给用户。

其中, 所述网络设备其包括但不限于计算机、 网络主机、 单个网 络服务器、 多个网络服务器集或多个服务器构成的云; 在此, 云由基 于云计算( Cloud Computing )的大量计算机或网络服务器构成,其中, 云计算是分布式计算的一种, 由一群松散耦合的计算机集组成的一个 虚拟超级计算机。 所述用户设备其包括但不限于任何一种可与用 户通 过键盘、 遥控器、 触摸板、 或声控设备进行人机交互的电子产品, 例 如计算机、 智能手机、 PDA, 游戏机、 或 IPTV等。 所述网络包括但 不限于互联网、 广域网、 城域网、 局域网、 VPN网络、 无线自组织网 络(Ad Hoc 网络) 等。 本领域技术人员应能理解, 其他的能够实现 语音输入的网络设备与用户设备同样适用于本 发明, 也应包含在本发 明保护范围以内, 并在此以引用方式包含于此。

上述各装置之间是持续不断工作的, 在此, 本领域技术人员应理 解"持续"是指上述各装置分别实时地或者按照 定的或实时调整的 工作模式要求, 进行语音输入信息的获取、 输入字符序列的确定、 准确 性信息的获取、 输入字符序列以及分词准确性信息的发送与接 收、 输入 字符序列的提供等, 直至网络设备停止获取语音输入信息。

网络设备 1中的输入获取装置 11获取语音输入信息。具体地,输入 获取装置 11通过基于各种通信协议 (Communications Protocol),通过各 种数据传输接口, 与第三方的语音输入信息数据库等进行交互, 获取 语音输入信息; 或者所述输入获取装置 11 实时获取用户所输入的语 音输入信息, 或者与所述用户设备进行交互, 获取用户所实时输入的 语音输入信息等。 其中, 所述语音输入信息包括但不限于字、 词、 短 句或长句等。

序列确定装置 12根据语音识别模型, 确定所述语音输入信息对应 的输入字符序列。 具体地, 所述序列确定装置 12通过根据预先设置或 学习得到的语音识别模型, 通过例如将语音输入信息进行切分, 获得 与所述语音输入信息相对应的一个或多个输入 音节, 将所述输入音节 的特征矢量依次与所述语音识别模型中的模板 等进行匹配, 从而获得 与所述音节对应的一个或多个分词或候选分词 ; 依次对所述输入音节 进行匹配, 从而确定与所述语音输入信息相对应的输入字 符序列, 其 中, 所述输入字符序列中包括与所述语音输入信息 相对应的多个分词 或候选分词。 在此, 所述语音识别模型包括但不限于通用语音识别 模 型, 或是仅与当前用户所对应的特定语音识别模型 ; 所述语音识别模型 通过语音训练所获得。例如,若所述语音输入 信息对应句子"我带你去锦 州", 序列确定装置 12对所述语音输入信息进行切分, 从而获得与所述 语音输入信息相对应的多个分词; 例如: 我、 带、 你、 去、 锦州; 其 中, "带"的位置还可能有其他候选分词, 如"代、 待、 呆(10% ) ", "锦 州"处也可能还有其他候选分词, 如"金州、 晋州"等。

准确性确定装置 13 确定所述输入字符序列中分词所对应的呈现概 * 率信息, 以获得所述分词的准确性信息。 具体地, 所述准确性确定装置 13通过根据机器学习所获得的、或是通过查询 应的呈现概率信息数据 库等所获得的信息, 确定与所述输入字符序列中分词所对应的呈现 概率 信息; 并根据所述呈现概率信息, 通过直接将所述呈现概率信息作为所 述分词的准确性信息的方式, 获得所述分词的准确性信息; 或者如基于 所述分词在所述输入字符序列中的上下文信息 , 或是基于所述分词的词 性信息等, 对所述呈现概率信息进行处理, 以获得所述分词的准确性信 息。 例如, 继上例, 准确性确定装置 13 通过与呈现概率信息数据库相 交互, 获得与所述语音输入信息对应句子"我带你去 州 "中的分词所对 应的呈现概率信息(如括号中所示), 我(90% )、 带(40% )、 你(90% )、 去(98% )、锦州 ( 40% ), 其中"带"的位置还可能有其他候选分词,如"代 ( 30% )、 待(20% )、 呆(10% ) ", "锦州 "处也可能还有其他候选分词, 如"金州 (30% )、 晋州 (30% ) "等; 所述准确性确定装置 13将所述呈 现概率信息直接对应为所述分词的准确性信息 。 即如"我"的准确性信息 为 90%等。

发送装置 14将所述输入字符序列及所述分词的准确性信 发送至 所述语音输入信息相对应的用户设备。 具体地, 所述发送装置 14从所 述准确性确定装置 13 中获取由一个或多个分词或候选分词所组成的 输 入字符序列, 以及所述分词的准确性信息, 通过基于各种通信协议, 通 过用户设备所提供的应用程序接口 (API ), 或其他约定的通信方式的格 式要求, 将所述输入字符序列及所述分词的准确性信息 发送至所述语音 输入信息相对应的用户设备。

相应地, 用户设备 2中的序列获取装置 21获取网络设备所发送的 语音输入信息所对应的输入字符序列, 以及所述输入字符序列中分词的 准确性信息。 具体地, 所述序列获取装置 21 通过基于各种通信协议, 通过网络设备所提供的应用程序接口 (API ), 或其他约定的通信方式的 格式要求, 从所述网络设备处接收由一个或多个分词或候 选分词所组成 的与所述语音输入信息所对应的输入字符序列 , 以及所述分词的准确性

Ί^- 。

提供装置 22根据所述分词的准确性信息,将所述输入字 序列提 供给用户。 具体地, 所述提供装置 22通过根据所述序列获取装置 21 中所获取的输入字符序列, 以及所述输入字符序列中分词的准确性信 息, 通过将对应同一个输入音节的所述准确性信息 最高的分词进行组 合, 从而生成提供给所述用户的输入字符序列; 或者将对应同一个输入 音节的所有分词或候选分词按照准确性从高到 低进行排序后, 生成供给 所述用户的输入字符序列, 其中, 所述输入字符序列中包含所有匹配的 分词等; 并通过与所述用户进行交互, 通过基于各种通信协议, 通过用 户所对应的用户设备所提供的应用程序接口 (API ) 等方式, 将所述输 入字符序列提供给所述用户。 在此, 所述用户包括但不限于与提供所述 语音输入信息相对应的用户, 或者指定的用于接收所述语音输入信息的 用户等。

优选地, 所述准确性确定装置 13还可以确定所述分词在所述输入 字符序列中的条件概率, 以作为所述分词的呈现概率信息; 根据呈现概 率阈值, 基于所述分词的呈现概率信息, 确定所述分词的准确性信息。 具体地, 所述准确性确定装置 13 还可以通过直接获取所述分词在所述 输入字符序列中的条件概率; 或者先获取所述输入字符序列出现的概率 P ( B ), 然后获取当所述输入字符序列中包含所述分词 的概率 P ( AB ), 从而计算得到在所述输入字符序列中出现所述 分词的条件概率 P( A|B ), 将所述条件概率 P ( A|B )作为所述分词的呈现概率信息。 所述准确性确 定装置 13 通过根据预置的或机器学习等方式所获得呈现 概率阈值, 例 如将所述呈现概率信息高于所述呈现概率阈值 的一个或多个分词作为 准确分词, 若所述分词的呈现概率信息低于所述呈现概率 阈值, 则确定 该分词为不准确分词, 从而确定所述分词的准确性信息。

更优选地, 所述网络设备 1还包括阈值确定装置 (未示出), 其中, 所述阈值确定装置根据所述分词的呈现概率信 息, 以及所述分词对应的 候选分词的呈现概率信息, 确定所述呈现概率阈值。 具体地, 所述阈值 确定装置可以获取所述分词以及所述分词所对 应的候选分词的呈现概 率信息, 通过例如对所述一个或多个分词以及候选分词 的呈现概率进行 平均、 加权平均、 取中值等方式, 确定所述呈现概率阈值。 例如, 如所 述分词以及候选分词的呈现概率信息为 {40%, 10%, 10%, 20%, 20%} , 则可取阈值为 30%-40%, 而不必限定为 50%; 例如, 若所述分词以及候 选分词的呈现概率信息为 {50%, 45%, 5%} ,则即使呈现概率阈值取 50%, 仍存在较大可能为错误等。

优选地, 所述序列确定装置 12 还可以根据语音识别模型, 并结合 所述语音输入信息所对应的上下文信息, 确定所述语音输入信息对应的 输入字符序列。 具体地, 所述序列确定装置 12通过例如结合所述语音 输入信息所对应的上下文信息, 确定所对应的语音识别模型, 例如, 根 据所述上下文信息中的关键字判定相对应的不 同领域的语音识别模型, 然后根据所述语音识别模型, 确定所述语音输入信息所对应的输入字符 序列; 或者利用通用的语音识别模型确定所述输入字 符序列, 并结合所 述上下文信息对所述输入字符序列进行调整, 例如提高上下文匹配的字 符序列的权重或优先级等。 其中, 所述确定输入字符序列的方式与图 1 中所述序列确定装置 12 的确定方式相同或相似, 故此处不再赞述, 并 通过引用的方式包含于此。

图 2示出根据本发明一个优选实施例的一种用于 现语音输入的 网络设备与用户设备示意图; 其中, 网络设备 1包括输入获取装置 11 '、 序列确定装置 12'、 准确性确定装置 13'、 发送装置 14'、 请求获取装置 15'、 备选确定装置 16'、 备选发送装置 17'; 用户设备 2包括序列获取 装置 21 '、提供装置 22'、备选请求获取装置 23'、访问请求发送装置 24'、 备选接收装置 25'、 备选提供装置 26'; 网络设备 1和用户设备 2的各个 装置之间互相配合, 以实现语音输入。 具体地, 网络设备 1中的输入获 取装置 1 Γ获取语音输入信息; 序列确定装置 12'根据语音识别模型, 确 定所述语音输入信息对应的输入字符序列; 准确性确定装置 13'确定所 述输入字符序列中分词所对应的呈现概率信息 , 以获得所述分词的准确 性信息; 发送装置 14,将所述输入字符序列及所述分词的准确性 息发 送至所述语音输入信息相对应的用户设备; 相应地, 用户设备 2中的序 列获取装置 21 '获取网络设备所发送的语音输入信息所对应 输入字符 序列, 以及所述输入字符序列中分词的准确性信息; 提供装置 22,根据 所述分词的准确性信息, 将所述输入字符序列提供给用户; 备选请求 获取装置 23'获取所述用户对所述输入字符序列中至少一 个分词的备选 项的请求操作; 访问请求发送装置 24'基于所述请求操作向所述网络设 备发送关于所述至少一个分词的备选项的访问 请求; 相应地, 请求获取 装置 15'获取所述用户设备发送的关于所述至少一个 分词的备选项的访 问请求; 备选确定装置 16'根据所述访问请求, 确定与所述至少一个分 词相对应的一个或多个备选项; 备选发送装置 17'将所述一个或多个备 选项发送至所述用户设备; 相应地, 备选接收装置 25'接收所述网络设 备基于所述访问请求发送的一个或多个备选项 ; 备选提供装置 26'将所 述一个或多个备选项中至少一个提供给所述用 户。 其中, 网络设备 1中 的获取装置 11 '、 序列确定装置 12'、 准确性确定装置 13'、 发送装置 14' 和用户设备 2中的序列获取装置 21 '、 提供装置 22'分别与图 1所示对 应装置相同或基本相同, 故此处不再赘述, 并通过引用的方式包含于 此。

上述各装置之间是持续不断工作的, 在此, 本领域技术人员应理 解"持续"是指上述各装置分别实时地或者按照 定的或实时调整的 工作模式要求, 进行语音输入信息的获取、 输入字符序列的确定、 准确 性信息的获取、 输入字符序列以及分词准确性信息的发送与接 收、 输入 字符序列的提供、 备选请求操作的获取、 备选访问请求的发送与接收、 备选项的确定、 备选项的发送与接收、 备选项的提供等, 直至网络设备 停止获取语音输入信息。

备选请求获取装置 23'获取所述用户对所述输入字符序列中至少一 个分词的备选项的请求操作。 具体地, 备选请求获取装置 23'基于各种 通信协议, 通过各种应用程序接口, 从第三方设备中获取所述用户对所 述输入字符序列中至少一个分词的备选项的请 求操作; 或者与用户直接 交互, 获取的请求操作。 其中, 所述请求操作包括但不限于输入、 点击、 触摸等。 例如, 继上例, 备选请求获取装置 23,与所述用户直接交互, 获取所述用户通过点击等方式, 所输入的对"锦州 "的备选项的请求。

访问请求发送装置 24'基于所述请求操作向所述网络设备发送关于 所述至少一个分词的备选项的访问请求。具体 地,访问请求发送装置 24, 基于所述请求操作, 通过基于各种通信协议, 通过网络设备所提供的应 用程序接口 (API ), 或其他约定的通信方式的格式要求, 将所述关于所 述至少一个分词的备选项的访问请求发送至所 述网络设备。

相应地, 请求获取装置 15,获取所述用户设备发送的关于所述至少 一个分词的备选项的访问请求。 具体地, 所述请求获取装置 15'通过基 于各种通信协议, 通过用户设备所提供的应用程序接口 (API ), 或其他 约定的通信方式的格式要求, 从所述用户设备处接收关于所述至少一个 分词的备选项的访问请求。

备选确定装置 16'根据所述访问请求, 确定与所述至少一个分词相 对应的一个或多个备选项。 具体地, 所述备选确定装置 16'根据所述请 求获取装置 15'所获取的访问请求, 根据所述访问请求中所需获取的分 词, 通过直接获取序列确定装置 12'中对所述分词的候选分词, 并将所 述候选分词做为备选项; 或者重新处理所述分词, 以获得与所述至少一 个分词相对应的一个或多个备选项。 其中, 所述处理方法与所述序列确 定装置 12,中的方法相同或相似, 故此处不再赘述, 并通过引用的方式 包含于此。

备选发送装置 17'将所述一个或多个备选项发送至所述用户设 备。 具体地,备选发送装置 17'获取所述备选确定装置 16'所确定的一个或多 个备选项, 通过基于各种通信协议, 通过用户设备所提供的应用程序接 口 (API ), 或其他约定的通信方式的格式要求, 将所述一个或多个备选 项发送至所述用户设备。

相应地, 用户设备端的备选接收装置 25'接收所述网络设备基于所 述访问请求发送的一个或多个备选项。 具体地, 备选接收装置 25'通过 基于各种通信协议, 通过网络设备所提供的应用程序接口 (API ), 或其 他约定的通信方式的格式要求, 从所述网络设备处接收基于所述访问请 求发送的一个或多个备选项。

备选提供装置 26'将所述一个或多个备选项中至少一个提供给 所述 用户。 具体地, 备选提供装置 26'通过根据所述备选接收装置 25'中所 获取的一个或多个备选项, 通过根据系统预置或用户设定的方式, 将所 述一个或多个备选项中至少一个, 通过与所述用户进行交互提供给所述 用户; 或者基于各种通信协议, 通过用户所对应的用户设备所提供的应 用程序接口 (API ) 等方式, 将所述一个或多个备选项中至少一个提供 给所述用户。 在此, 所述用户包括但不限于与提供所述语音输入信 息相 对应的用户, 或者指定的用于接收所述语音输入信息的用户 等。

优选地, 所述网络设备 1 中的备选确定装置 16,还可以根据所述访 问请求, 并结合所述至少一个分词的上下文信息, 确定与所述至少一个 分词相对应的一个或多个备选项。 具体地, 所述备选确定装置 16'还可 以根据所述访问请求中, 通过结合所述访问请求中的分词的上下文信 息, 对所述至少一个分词相对应的一个或多个备选 项进行确定。 例如, 根据上下文信息, 通过结合如常用搭配、 或语法等信息, 将与所述上下 文信息匹配程度较低的备选项进行筛除等; 例如,对于语音输入信息"我 带你去锦州",若需获取备选项的分词是"锦州" ,考虑到 "去"这个方向词, 则那么对应的备选项可能是 "金州"、 "晋州", 而不会包括"禁咒"。

优选地, 所述用户设备 2还包括操作获取装置 (未示出)和替换装 置 (未示出), 其中, 操作获取装置获取用户对所述一个或多个备选 项 中至少一个的选择操作; 替换装置根据所述选择操作所对应的备选项, 替换所述输入字符序列中对应的分词, 以获得更新后的所述输入字符序 列。 具体地, 操作获取装置通过与用户直接交互, 或者经由可以提供所 述选择操作的第三方设别的应用程序接口等, 获取用户对所述一个或多 个备选项中至少一个的选择操作; 例如, 用户通过点击等方式选择了一 个或多个备选项中的一个, 则操作获取装置对所述选择操作以及其所选 择的备选项进行获取。 替换装置获取所述操作获取装置所选择的备选 项, 并利用所述备选项替换所述输入字符序列中对 应的分词, 以获得更 新后的所述输入字符序列。 例如, 继上例, 用户选择了备选项"金州", 从而替换装置利用"金州"替换掉所述"锦州", 更新后的输入字符序列为 "我带你去金州"。

图 3示出根据本发明另一个方面的一种由网络设 与用户设备配合 实现的用于实现语音输入的方法流程图。 具体地, 在步骤 si中, 网络设 备 1获取语音输入信息; 在步骤 s2中, 网络设备 1根据语音识别模型, 确定所述语音输入信息对应的输入字符序列; 在步骤 S3中, 网络设备 1 确定所述输入字符序列中分词所对应的呈现概 率信息, 以获得所述分词 的准确性信息; 在步骤 s4中, 网络设备 1将所述输入字符序列及所述分 词的准确性信息发送至所述语音输入信息相对 应的用户设备; 相应地, 在步骤 s4中,用户设备 2获取网络设备所发送的语音输入信息所对应 输入字符序列, 以及所述输入字符序列中分词的准确性信息; 在步骤 s5 中, 用户设备 2根据所述分词的准确性信息, 将所述输入字符序列提 供给用户。

上述各步骤之间是持续不断工作的, 在此, 本领域技术人员应理 解"持续"是指上述各步骤分别实时地或者按照 定的或实时调整的 工作模式要求, 进行语音输入信息的获取、 输入字符序列的确定、 准确 性信息的获取、 输入字符序列以及分词准确性信息的发送与接 收、 输入 字符序列的提供等, 直至网络设备停止获取语音输入信息。

在步骤 si 中, 网络设备 1获取语音输入信息。 具体地, 在步骤 si 中 , 网络设备 1通过基于各种通信协议 (Communications Protocol), 通 过各种数据传输接口, 与第三方的语音输入信息数据库等进行交互, 获取语音输入信息; 或者在步骤 si中, 网络设备 1实时获取用户所输 入的语音输入信息, 或者与所述用户设备进行交互, 获取用户所实时 输入的语音输入信息等。 其中, 所述语音输入信息包括但不限于字、 词、 短句或长句等。

在步骤 s2中, 网络设备 1根据语音识别模型, 确定所述语音输入信 息对应的输入字符序列。 具体地, 在步骤 s2中, 网络设备 1通过根据预 先设置或学习得到的语音识别模型, 通过例如将语音输入信息进行切 分, 获得与所述语音输入信息相对应的一个或多个 输入音节, 将所述 输入音节的特征矢量依次与所述语音识别模型 中的模板等进行匹配, 从而获得与所述音节对应的一个或多个分词或 候选分词; 依次对所述 输入音节进行匹配, 从而确定与所述语音输入信息相对应的输入字 符 序列, 其中, 所述输入字符序列中包括与所述语音输入信息 相对应的 多个分词或候选分词。 在此, 所述语音识别模型包括但不限于通用语 音识别模型, 或是仅与当前用户所对应的特定语音识别模型 ; 所述语音 识别模型通过语音训练所获得。例如,若所述 语音输入信息对应句子"我 带你去锦州", 在步骤 s2中, 网络设备 1对所述语音输入信息进行切分, 从而获得与所述语音输入信息相对应的多个分 词; 例如: 我、 带、 你、 去、 锦州; 其中, "带"的位置还可能有其他候选分词, 如"代、 待、 呆 ( 10% ) ", "锦州 "处也可能还有其他候选分词, 如"金州、 晋州"等。

在步骤 S3中,网络设备 1确定所述输入字符序列中分词所对应的呈 现概率信息, 以获得所述分词的准确性信息。 具体地, 在步骤 S3中, 网 络设备 1通过根据机器学习所获得的、 或是通过查询相应的呈现概率信 息数据库等所获得的信息, 确定与所述输入字符序列中分词所对应的呈 现概率信息; 并根据所述呈现概率信息, 通过直接将所述呈现概率信息 作为所述分词的准确性信息的方式, 获得所述分词的准确性信息; 或者 如基于所述分词在所述输入字符序列中的上下 文信息, 或是基于所述分 词的词性信息等, 对所述呈现概率信息进行处理, 以获得所述分词的准 确性信息。 例如, 继上例, 在步骤 S3中, 网络设备 1通过与呈现概率信 息数据库相交互, 获得与所述语音输入信息对应句子"我带你去 州 "中 的分词所对应的呈现概率信息(如括号中所示 ), 我(90% )、 带(40% )、 你 (90% )、 去 ( 98% )、 锦州 (40% ), 其中"带"的位置还可能有其他候 选分词, 如"代(30% )、 待(20% )、 呆 ( 10% ) ", "锦州"处也可能还有 其他候选分词, 如"金州 (30% )、 晋州 (30% ) "等; 在步骤 s3中, 网络 设备 1 将所述呈现概率信息直接对应为所述分词的准 确性信息。 即如 "我"的准确性信息为 90%等。

在步骤 s4中,网络设备 1将所述输入字符序列及所述分词的准确性 信息发送至所述语音输入信息相对应的用户设 备。 具体地, 在步骤 s4 中,网络设备 1从所述步骤 s3中获取由一个或多个分词或候选分词所组 成的输入字符序列, 以及所述分词的准确性信息, 通过基于各种通信协 议, 通过用户设备所提供的应用程序接口 (API ), 或其他约定的通信方 式的格式要求, 将所述输入字符序列及所述分词的准确性信息 发送至所 述语音输入信息相对应的用户设备。

相应地, 在步骤 s4中, 用户设备 2获取网络设备所发送的语音输入 信息所对应的输入字符序列, 以及所述输入字符序列中分词的准确性信 息。 具体地, 在步骤 s4中, 用户设备 2通过基于各种通信协议, 通过网 络设备所提供的应用程序接口 (API ), 或其他约定的通信方式的格式要 求, 从所述网络设备处接收由一个或多个分词或候 选分词所组成的与所 述语音输入信息所对应的输入字符序列, 以及所述分词的准确性信息。

在步骤 s5中, 用户设备 2才艮据所述分词的准确性信息, 将所述输 入字符序列提供给用户。 具体地, 在步骤 s5中, 用户设备 2通过步骤 s4中所获取的输入字符序列,以及所述输入字 序列中分词的准确性信 息, 通过将对应同一个输入音节的所述准确性信息 最高的分词进行组 合, 从而生成提供给所述用户的输入字符序列; 或者将对应同一个输入 音节的所有分词或候选分词按照准确性从高到 低进行排序后, 生成供给 所述用户的输入字符序列, 其中, 所述输入字符序列中包含所有匹配的 分词等; 并通过与所述用户进行交互, 通过基于各种通信协议, 通过用 户所对应的用户设备所提供的应用程序接口 (API ) 等方式, 将所述输 入字符序列提供给所述用户。 在此, 所述用户包括但不限于与提供所述 语音输入信息相对应的用户, 或者指定的用于接收所述语音输入信息的 用户等。

优选地, 在步骤 s3中, 网络设备 1还可以确定所述分词在所述输 入字符序列中的条件概率, 以作为所述分词的呈现概率信息; 根据呈现 概率阈值,基于所述分词的呈现概率信息,确 定所述分词的准确性信息。 具体地, 在步骤 s3中, 网络设备 1还可以通过直接获取所述分词在所述 输入字符序列中的条件概率; 或者先获取所述输入字符序列出现的概率 P ( B ), 然后获取当所述输入字符序列中包含所述分词 的概率 P ( AB ), 从而计算得到在所述输入字符序列中出现所述 分词的条件概率 P( A|B ), 将所述条件概率 P ( A|B )作为所述分词的呈现概率信息。 在步骤 S3中, 网络设备 1通过根据预置的或机器学习等方式所获得呈 概率阈值, 例 如将所述呈现概率信息高于所述呈现概率阈值 的一个或多个分词作为 准确分词, 若所述分词的呈现概率信息低于所述呈现概率 阈值, 则确定 该分词为不准确分词, 从而确定所述分词的准确性信息。

更优选地, 该方法还包括步骤 sll (未示出), 其中, 在步骤 sll中, 网络设备 1根据所述分词的呈现概率信息, 以及所述分词对应的候选分 词的呈现概率信息, 确定所述呈现概率阈值。 具体地, 在步骤 sll 中, 网络设备 1可以获取所述分词以及所述分词所对应的候 分词的呈现概 率信息, 通过例如对所述一个或多个分词以及候选分词 的呈现概率进行 平均、 加权平均、 取中值等方式, 确定所述呈现概率阈值。 例如, 如所 述分词以及候选分词的呈现概率信息为 {40%, 10%, 10%, 20%, 20%} , 则可取阈值为 30%-40%, 而不必限定为 50%; 例如, 若所述分词以及候 选分词的呈现概率信息为 {50%, 45%, 5%} ,则即使呈现概率阈值取 50%, 仍存在较大可能为错误等。

优选地, 在步骤 s2中, 网络设备 1还可以根据语音识别模型, 并结 合所述语音输入信息所对应的上下文信息, 确定所述语音输入信息对应 的输入字符序列。 具体地, 在步骤 s2中, 网络设备 1通过例如结合所述 语音输入信息所对应的上下文信息,确定所对 应的语音识别模型,例如, 根据所述上下文信息中的关键字判定相对应的 不同领域的语音识别模 型, 然后根据所述语音识别模型, 确定所述语音输入信息所对应的输入 字符序列; 或者利用通用的语音识别模型确定所述输入字 符序列, 并结 合所述上下文信息对所述输入字符序列进行调 整, 例如提高上下文匹配 的字符序列的权重或优先级等。 其中, 所述确定输入字符序列的方式与 图 31中所述步骤 s2的确定方式相同或相似, 故此处不再赞述, 并通过 引用的方式包含于此。

图 4示出根据本发明一个优选实施例的一种由网 设备与用户设 备配合实现的用于实现语音输入的方法流程图 。 具体地, 在步骤 sl, 中, 网络设备 1获取语音输入信息; 在步骤 s2'中, 网络设备 1根据语音 识别模型, 确定所述语音输入信息对应的输入字符序列; 在步骤 S3'中, 网络设备 1确定所述输入字符序列中分词所对应的呈现 率信息, 以获 得所述分词的准确性信息;在步骤 s4'中, 网络设备 1将所述输入字符序 列及所述分词的准确性信息发送至所述语音输 入信息相对应的用户设 备; 相应地, 在步骤 s4,中, 用户设备 2获取网络设备所发送的语音输入 信息所对应的输入字符序列, 以及所述输入字符序列中分词的准确性信 息; 在步骤 s5'中, 用户设备 2根据所述分词的准确性信息, 将所述输 入字符序列提供给用户; 在步骤 s6'中, 用户设备 2获取所述用户对所 述输入字符序列中至少一个分词的备选项的请 求操作;在步骤 s7'中,用 户设备 2基于所述请求操作向所述网络设备发送关于 述至少一个分词 的备选项的访问请求; 相应地, 在步骤 s7,中, 网络设备 1获取所述用户 设备发送的关于所述至少一个分词的备选项的 访问请求; 在步骤 s8,中, 网络设备 1才艮据所述访问请求, 确定与所述至少一个分词相对应的一个 或多个备选项;在步骤 s9'中, 网络设备 1将所述一个或多个备选项发送 至所述用户设备; 相应地, 在步骤 s9,中, 用户设备 2接收所述网络设备 基于所述访问请求发送的一个或多个备选项; 在步骤 slO'中, 用户设备 2将所述一个或多个备选项中至少一个提供给 述用户。其中,步骤 sl '、 步骤 s2'、 步骤 s3'、 步骤 s4'、 步骤 s5'分别与图 3所示对应步骤相同或 基本相同, 故此处不再赘述, 并通过引用的方式包含于此。

上述各步骤之间是持续不断工作的, 在此, 本领域技术人员应理 解"持续"是指上述各步骤分别实时地或者按照 定的或实时调整的 工作模式要求, 进行语音输入信息的获取、 输入字符序列的确定、 准确 性信息的获取、 输入字符序列以及分词准确性信息的发送与接 收、 输入 字符序列的提供、 备选请求操作的获取、 备选访问请求的发送与接收、 备选项的确定、 备选项的发送与接收、 备选项的提供等, 直至网络设备 停止获取语音输入信息。 一个分词的备选项的请求操作。 具体地, 在步骤 s6,中, 用户设备 2基于 各种通信协议, 通过各种应用程序接口, 从第三方设备中获取所述用户 对所述输入字符序列中至少一个分词的备选项 的请求操作; 或者与用户 直接交互, 获取的请求操作。 其中, 所述请求操作包括但不限于输入、 点击、 触摸等。 例如, 继上例, 在步骤 s6,中, 用户设备 2与所述用户直 接交互, 获取所述用户通过点击等方式, 所输入的对"锦州"的备选项的 请求。

在步骤 s7'中,用户设备 2基于所述请求操作向所述网络设备发送关 于所述至少一个分词的备选项的访问请求。 具体地, 访在步骤 s7,中, 用 户设备 2基于所述请求操作, 通过基于各种通信协议, 通过网络设备所 提供的应用程序接口 (API ), 或其他约定的通信方式的格式要求, 将所 述关于所述至少一个分词的备选项的访问请求 发送至所述网络设备。

相应地,在步骤 s7,中, 网络设备 1获取所述用户设备发送的关于所 述至少一个分词的备选项的访问请求。 具体地, 在步骤 s7,中, 网络设备 1通过基于各种通信协议,通过用户设备所提 的应用程序接口(API ), 或其他约定的通信方式的格式要求, 从所述用户设备处接收关于所述至 少一个分词的备选项的访问请求。

在步骤 s8'中, 网络设备 1根据所述访问请求,确定与所述至少一个 分词相对应的一个或多个备选项。 具体地, 在步骤 s8,中, 网络设备 1 根据步骤 s7'所获取的访问请求, 根据所述访问请求中所需获取的分词, 通过直接步骤 s2'中对所述分词的候选分词,并将所述候选分 词做为备选 项; 或者重新处理所述分词, 以获得与所述至少一个分词相对应的一个 或多个备选项。其中,所述处理方法与所述步 骤 s2,中的方法相同或相似, 故此处不再赘述, 并通过引用的方式包含于此。

在步骤 s9'中,网络设备 1将所述一个或多个备选项发送至所述用户 设备。 具体地, 在步骤 s9,中, 网络设备 1获取所述步骤 s8,所确定的一 个或多个备选项, 通过基于各种通信协议, 通过用户设备所提供的应用 程序接口 (API ), 或其他约定的通信方式的格式要求, 将所述一个或多 个备选项发送至所述用户设备。 相应地,在步骤 s9,中,用户设备 2接收所述网络设备基于所述访问 请求发送的一个或多个备选项。 具体地, 在步骤 s9,中, 用户设备 2通过 基于各种通信协议, 通过网络设备所提供的应用程序接口 (API ), 或其 他约定的通信方式的格式要求, 从所述网络设备处接收基于所述访问请 求发送的一个或多个备选项。

在步骤 slO'中, 用户设备 2将所述一个或多个备选项中至少一个提 供给所述用户。 具体地, 在步骤 slO,中, 用户设备 2通过根据步骤 s9, 中所获取的一个或多个备选项, 通过根据系统预置或用户设定的方式, 将所述一个或多个备选项中至少一个, 通过与所述用户进行交互提供给 所述用户; 或者基于各种通信协议, 通过用户所对应的用户设备所提供 的应用程序接口 (API ) 等方式, 将所述一个或多个备选项中至少一个 提供给所述用户。 在此, 所述用户包括但不限于与提供所述语音输入信 息相对应的用户, 或者指定的用于接收所述语音输入信息的用户 等。

优选地, 在步骤 s8,中, 网络设备 1还可以根据所述访问请求, 并结 合所述至少一个分词的上下文信息, 确定与所述至少一个分词相对应的 一个或多个备选项。 具体地, 在步骤 s8,中, 网络设备 1还可以根据所述 访问请求中, 通过结合所述访问请求中的分词的上下文信息 , 对所述至 少一个分词相对应的一个或多个备选项进行确 定。 例如, 才艮据上下文信 息, 通过结合如常用搭配、 或语法等信息, 将与所述上下文信息匹配程 度较低的备选项进行筛除等; 例如,对于语音输入信息"我带你去锦州", 若需获取备选项的分词是"锦州", 考虑到 "去"这个方向词, 则那么对应 的备选项可能是"金州"、 "晋州", 而不会包括"禁咒"。

优选地, 该方法还包括步骤 sl2, (未示出)和步骤 sl3, (未示出), 其中, 在步骤 sl2'中, 用户设备 2获取用户对所述一个或多个备选项中 至少一个的选择操作; 在步骤 sl3'中, 用户设备 2根据所述选择操作所 对应的备选项, 替换所述输入字符序列中对应的分词, 以获得更新后的 所述输入字符序列。 具体地, 在步骤 sl2,中, 用户设备 2通过与用户直 接交互, 或者经由可以提供所述选择操作的第三方设别 的应用程序接口 等, 获取用户对所述一个或多个备选项中至少一个 的选择操作; 例如, 用户通过点击等方式选择了一个或多个备选项 中的一个, 则在步骤 sl2' 中, 用户设备 2对所述选择操作以及其所选择的备选项进行 取。 在步 骤 sl3,中, 用户设备 2获取所述步骤 sl2,所选择的备选项, 并利用所述 备选项替换所述输入字符序列中对应的分词, 以获得更新后的所述输入 字符序列。 例如, 继上例, 用户选择了备选项"金州", 从而在步骤 sl3, 中, 用户设备 2利用"金州"替换掉所述"锦州", 更新后的输入字符序列 为"我带你去金州"。

对于本领域技术人员而言, 显然本发明不限于上述示范性实施例 的细节, 而且在不背离本发明的精神或基本特征的情况 下, 能够以其 他的具体形式实现本发明。 因此, 无论从哪一点来看, 均应将实施例 看作是示范性的, 而且是非限制性的, 本发明的范围由所附权利要求 而不是上述说明限定, 因此旨在将落在权利要求的等同要件的含义和 范围内的所有变化涵括在本发明内。 不应将权利要求中的任何附图标 记视为限制所涉及的权利要求。 此外, 显然"包括"一词不排除其他单 元或步骤, 单数不排除复数。 装置权利要求中陈述的多个单元或装置 也可以由一个单元或装置通过软件或者硬件来 实现。 第一, 第二等词 语用来表示名称, 而并不表示任何特定的顺序。