Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
VOICE INTERACTION METHOD AND APPARATUS
Document Type and Number:
WIPO Patent Application WO/2015/180231
Kind Code:
A1
Abstract:
A voice interaction method and apparatus. In the method, a first voice control command is acquired, and a first operation corresponding to the first voice control command is performed (S102); mixed audio data is collected, the mixed audio data comprising audio data played while the first operation is performed and a second voice control command (S104); the played audio data is filtered out from the mixed audio data, and the second voice control command is identified (S106); and switching from the first operation to a second operation corresponding to the second voice control command is performed according to the second voice control command (S108).

Inventors:
HE ZHIBIN (CN)
JIANG ZHIFENG (CN)
Application Number:
PCT/CN2014/081419
Publication Date:
December 03, 2015
Filing Date:
July 01, 2014
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ZTE CORP (CN)
International Classes:
G10L15/26; G06F3/01
Foreign References:
CN202584717U2012-12-05
CN103366740A2013-10-23
CN103096017A2013-05-08
US20040242278A12004-12-02
CN1253321A2000-05-17
US20020178009A12002-11-28
Other References:
See also references of EP 3151087A4
Attorney, Agent or Firm:
KANGXIN PARTNERS,P.C. (CN)
北京康信知识产权代理有限责任公司 (CN)
Download PDF:
Claims:
权 利 要 求 书

1. 一种语音交互方法, 包括: 获取第一语音控制指令, 执行与所述第一语音控制指令对应的第一操作; 采集混合音频数据, 其中, 所述混合音频数据包括: 在执行所述第一操作 时播放的音频数据和第二语音控制指令;

从所述混合音频数据中滤除所述播放的音频数据, 识别所述第二语音控制 指令;

按照所述第二语音控制指令从所述第一操作切换至与所述第二语音控制指 令对应的第二操作。

2. 根据权利要求 1所述的方法, 其中, 获取所述第一语音控制指令, 执行所述第 一操作包括:

接收所述第一语音控制指令, 并对所述第一语音控制指令进行模数转换处 理; 对经过模数转换处理后的数据进行识别, 并根据识别的结果执行所述第一 操作。

3. 根据权利要求 1所述的方法, 其中, 在从所述混合音频数据中滤除所述播放的 音频数据之前, 还包括: 对所述播放的音频数据进行备份, 其中, 备份的数据用于从所述混合音频 数据中识别出所述第二语音控制指令。

4. 根据权利要求 3所述的方法, 其中, 从所述混合音频数据中识别所述第二语音 控制指令包括:

对所述混合音频数据进行模数转换处理;

将经过模数转换处理的数据与所述备份的数据进行比较, 从所述经过模数 转换处理的数据中滤除所述备份的数据;

根据在滤除所述备份的数据后剩余的部分数据识别所述第二语音控制指 令。

5. 根据权利要求 1所述的方法, 其中, 在按照所述第二语音控制指令切换至所述 第二操作之后, 还包括: 对所述第二操作的执行过程进行监测, 确定所述第二操作执行完毕; 判断所述第二操作是否为终止执行所述第一操作;

如果否, 则从与切换至所述第二操作对应的切换时刻继续执行所述第一操 作。

6. 一种语音交互装置, 包括: 第一执行模块, 设置为获取第一语音控制指令, 执行与所述第一语音控制 指令对应的第一操作; 采集模块, 设置为采集混合音频数据, 其中, 所述混合音频数据包括: 在 执行所述第一操作时播放的音频数据和第二语音控制指令;

识别模块, 设置为从所述混合音频数据中滤除所述播放的音频数据, 识别 所述第二语音控制指令;

切换模块, 设置为按照所述第二语音控制指令从所述第一操作切换至与所 述第二语音控制指令对应的第二操作。

7. 根据权利要求 6所述的装置, 其中, 所述第一执行模块包括: 第一处理单元, 设置为接收所述第一语音控制指令, 并对所述第一语音控 制指令进行模数转换处理;

执行单元, 设置为对经过模数转换处理后的数据进行识别, 并根据识别的 结果执行所述第一操作。

8. 根据权利要求 6所述的装置, 其中, 所述装置还包括: 备份模块, 设置为对所述播放的音频数据进行备份, 其中, 备份的数据用 于从所述混合音频数据中识别出所述第二语音控制指令。

9. 根据权利要求 8所述的装置, 其中, 所述识别模块包括: 第二处理单元, 设置为对所述混合音频数据进行模数转换处理; 第三处理单元, 设置为将经过模数转换处理的数据与所述备份的数据进行 比较, 从所述经过模数转换处理的数据中滤除所述备份的数据; 识别单元, 设置为根据在滤除所述备份的数据后剩余的部分数据识别所述 第二语音控制指令。

10. 根据权利要求 6所述的装置, 其中, 所述装置还包括: 监测模块, 设置为对所述第二操作的执行过程进行监测, 确定所述第二操 作执行完毕;

判断模块, 设置为判断所述第二操作是否为终止执行所述第一操作; 第二执行模块, 设置为在所述判断模块输出为否时, 则从与切换至所述第 二操作对应的切换时刻继续执行所述第一操作。

Description:
语音交互方法及装置 技术领域 本发明涉及通信领域, 具体而言, 涉及一种语音交互方法及装置。 背景技术 当今, 以智能机为代表的智能终端已经进入了大众普 及阶段, 智能终端的功能越 来越强大, 其中, 智慧语音业务及其相关功能相当具有吸引力。 目前, 生产厂商通常 以研发 "最听话"的手机为目标, 开发了一系列的功能和应用, 使其成为最大的卖点。 例如: 驾驶助手可以在驾驶者不便于进行手动操作的 情况下转而执行驾驶者发出的口 头指令, 由此解放了驾驶者的双手, 使其可以专心驾驶车辆。 因此, 语音交互逐步成 为旗舰机的一个重要功能。 但是, 相关技术中所使用的语音交互功能存在以下缺 陷: 一旦用户已经发出一条口头指令, 那么智能终端必须要完整执行该条口头指令, 而不 能被中断; 如果该用户需要中止执行该条指令转而执行下 一条口头指令, 则智能终端 无法对下一条口头指令做出及时响应。 用户体验因此会受到影响。 由此可见, 相关技术中在不同的语音控制指令之间进行切 换时, 如果需要中断或 者终止执行当前的语音控制指令转而执行下一 条语音控制指令则必须要依靠由智能终 端上的物理按键或者虚拟按键所触发的外界中 断来完成。 发明内容 本发明提供了一种语音交互方法及装置, 以至少解决相关技术中在语音交互过程 中如果需要在不同的语音控制指令之间进行切 换只能依靠外界中断的问题。 根据本发明的一个方面, 提供了一种语音交互方法。 根据本发明实施例的语音交互方法包括: 获取第一语音控制指令, 执行与第一语 音控制指令对应的第一操作; 采集混合音频数据, 其中, 混合音频数据包括: 在执行 第一操作时播放的音频数据和第二语音控制指 令; 从混合音频数据中滤除播放的音频 数据, 识别第二语音控制指令; 按照第二语音控制指令从第一操作切换至与第 二语音 控制指令对应的第二操作。 优选地, 获取第一语音控制指令, 执行第一操作包括: 接收第一语音控制指令, 并对第一语音控制指令进行模数转换处理; 对经过模数转换处理后的数据进行识别, 并根据识别的结果执行第一操作。 优选地, 在从混合音频数据中滤除播放的音频数据之前 , 还包括: 对播放的音频 数据进行备份, 其中, 备份的数据用于从混合音频数据中识别出第二 语音控制指令。 优选地, 从混合音频数据中识别第二语音控制指令包括 : 对混合音频数据进行模 数转换处理; 将经过模数转换处理的数据与备份的数据进行 比较, 从经过模数转换处 理的数据中滤除备份的数据; 根据在滤除备份的数据后剩余的部分数据识别 第二语音 控制指令。 优选地, 在按照第二语音控制指令切换至第二操作之后 , 还包括: 对第二操作的 执行过程进行监测,确定第二操作执行完毕; 判断第二操作是否为终止执行第一操作; 如果否, 则从与切换至第二操作对应的切换时刻继续执 行第一操作。 根据本发明的另一方面, 提供了一种语音交互装置。 根据本发明实施例的语音交互装置包括: 第一执行模块, 设置为获取第一语音控 制指令, 执行与第一语音控制指令对应的第一操作; 采集模块, 设置为采集混合音频 数据, 其中, 混合音频数据包括: 在执行第一操作时播放的音频数据和第二语音 控制 指令; 识别模块, 设置为从混合音频数据中滤除播放的音频数据 , 识别第二语音控制 指令; 切换模块, 设置为按照第二语音控制指令从第一操作切换 至与第二语音控制指 令对应的第二操作。 优选地, 第一执行模块包括: 第一处理单元, 设置为接收第一语音控制指令, 并 对第一语音控制指令进行模数转换处理; 执行单元, 设置为对经过模数转换处理后的 数据进行识别, 并根据识别的结果执行第一操作。 优选地, 上述装置还包括: 备份模块, 设置为对播放的音频数据进行备份, 其中, 备份的数据用于从混合音频数据中识别出第二 语音控制指令。 优选地, 识别模块包括: 第二处理单元, 设置为对混合音频数据进行模数转换处 理; 第三处理单元, 设置为将经过模数转换处理的数据与备份的数 据进行比较, 从经 过模数转换处理的数据中滤除备份的数据; 识别单元, 设置为根据在滤除备份的数据 后剩余的部分数据识别第二语音控制指令。 优选地, 上述装置还包括: 监测模块, 设置为对第二操作的执行过程进行监测, 确定第二操作执行完毕; 判断模块, 设置为判断第二操作是否为终止执行第一操作 ; 第二执行模块, 设置为在判断模块输出为否时, 则从与切换至第二操作对应的切换时 刻继续执行第一操作。 通过本发明实施例, 采用获取第一语音控制指令, 执行与第一语音控制指令对应 的第一操作; 采集混合音频数据, 其中, 混合音频数据包括: 在执行第一操作时播放 的音频数据和第二语音控制指令; 从混合音频数据中滤除播放的音频数据, 识别第二 语音控制指令; 按照第二语音控制指令从第一操作切换至与第 二语音控制指令对应的 第二操作, 解决了相关技术中在语音交互过程中如果需要 在不同的语音控制指令之间 进行切换只能依靠外界中断的问题, 进而能够在语音交互过程中, 实时地捕获、 判断 用户发出的指令, 并进行及时的响应, 加强了语音交互的识别处理能力, 提高了语音 控制交互的效率及用户体验。 附图说明 此处所说明的附图用来提供对本发明的进一步 理解, 构成本申请的一部分, 本发 明的示意性实施例及其说明用于解释本发明, 并不构成对本发明的不当限定。 在附图 中: 图 1是根据本发明实施例的语音交互方法的流程 ; 图 2是根据本发明实施例的语音交互装置的结构 图; 图 3是根据本发明优选实施例的语音交互装置的 构框图; 图 4是根据本发明优选实施例的智能终端内部进 语音控制的结构示意图。 具体实施方式 下文中将参考附图并结合实施例来详细说明本 发明。 需要说明的是, 在不冲突的 情况下, 本申请中的实施例及实施例中的特征可以相互 组合。 图 1是根据本发明实施例的语音交互方法的流程 。 如图 1所示, 该方法可以包 括以下处理步骤: 步骤 S102: 获取第一语音控制指令, 执行与第一语音控制指令对应的第一操作; 步骤 S104: 采集混合音频数据, 其中, 混合音频数据包括: 在执行第一操作时播 放的音频数据和第二语音控制指令; 步骤 S106: 从混合音频数据中滤除播放的音频数据, 识别第二语音控制指令; 步骤 S108: 按照第二语音控制指令从第一操作切换至与第 二语音控制指令对应的 第二操作。 相关技术中, 在语音交互过程中如果需要在不同的语音控制 指令之间进行切换只 能依靠外界中断。 采用如图 1所示的方法, 在语音交互过程中, 如果需要执行在不同 的语音控制指令之间进行切换, 则不再需要由智能终端上的物理按键或者虚拟 按键所 触发的外界中断来完成, 而只需要同时采集由于执行第一操作所播放的 音频数据以及 第二语音控制指令,并通过对所播放的音频数 据进行过滤而识别出第二语音控制指令, 以执行与第二语音控制指令对应的第二操作, 由此解决了相关技术中在语音交互过程 中如果需要在不同的语音控制指令之间进行切 换只能依靠外界中断的问题, 进而能够 在语音交互过程中, 实时地捕获、 判断用户发出的指令, 并进行及时的响应, 加强了 语音交互的识别处理能力, 提高了语音控制交互的效率及用户体验。 优选地, 在步骤 S102中, 获取第一语音控制指令, 执行第一操作可以包括以下操 作: 步骤 S1 : 接收第一语音控制指令, 并对第一语音控制指令进行模数转换处理; 步骤 S2: 对经过模数转换处理后的数据进行识别, 并根据识别的结果执行第一操 作。 在优选实施例中, 运行语音交互应用程序并执行初始化操作。 用户发出一条语音 控制指令, 例如: 播放电影。 智能终端捕获到 "播放电影"指令, 并对 "播放电影" 指令执行模数转换处理。 智能终端在对 "播放电影"指令执行模数转换处理后, 对经 过模数转换处理后的指令进行识别, 并对经过模数转换处理后的指令做出响应, 从而 播放电影。 优选地, 在步骤 S106, 从混合音频数据中滤除播放的音频数据之前, 还可以包括 以下步骤: 步骤 S3 : 对播放的音频数据进行备份, 其中, 备份的数据用于从混合音频数据中 识别出第二语音控制指令。 在优选实施例中, 智能终端可以从音源库中选取与上述 "播放电影"指令对应的 音频数据 A, 并将音频数据 A进行 D/A转换处理。 与此同时, 还可以将上述音频数据 A复制一份音频数据 A', 并在智能终端的处理器中加以缓存。 智能终端将经过转换处 理后的模拟数据进行播放。 优选地,在步骤 S 106中,从混合音频数据中识别第二语音控制指 令可以包括以下 操作: 步骤 S4: 对混合音频数据进行模数转换处理; 步骤 S5 : 将经过模数转换处理的数据与备份的数据进行 比较, 从经过模数转换处 理的数据中滤除备份的数据; 步骤 S6: 根据在滤除备份的数据后剩余的部分数据识别 第二语音控制指令。 在优选实施例中, 在电影播放的过程中, 用户又发出了下一条语音控制指令, 例 如: 打电话给 XX。 智能终端同时采集当前播放的音频数据 A和 "打电话给 XX" 的 指令, 并对由音频数据 A和 "打电话给 XX" 的指令共同组成的音频数据 B进行 A/D 转换处理。 智能终端通过对音频数据 B与音频数据 A'执行减法操作(即从音频数据 B 中将音频数据 A'进行过滤), 识别出 "打电话给 XX"的指令, 然后对 "打电话给 XX" 指令进行响应。 优选地, 在步骤 S 108, 按照第二语音控制指令切换至第二操作之后, 还可以包括 以下步骤: 步骤 S7: 对第二操作的执行过程进行监测, 确定第二操作执行完毕; 步骤 S8 : 判断第二操作是否为终止执行第一操作; 步骤 S9: 如果否, 则从与切换至第二操作对应的切换时刻继续执 行第一操作。 在优选实施例中, 智能终端执行与 "打电话给 XX"指令对应的操作, 暂停电影 的播放, 并启动拨号程序, 来呼叫 XX。 智能终端在监测到呼叫结束后, 可以判断第 二操作 (即打电话给 XX) 与第一操作 (即播放电影) 是否存在关联, 由于打电话给 XX 并不会影响电影的继续播放, 故而可以从暂停电影的播放并启动拨号程序的 切换 时刻开始重新启动电影的播放。 但是, 如果用户发出的语音控制指令不是 "打电话给 XX"而是"停止播放电影",那么由于用户最新发 的语音控制指令与之前发出的"播 放电影" 的指令密切相关, 因而只会执行第二操作停止播放电影而不会再 重新播放电 影。 图 2是根据本发明实施例的语音交互装置的结构 图。 如图 2所示, 该语音交互 装置可以包括: 第一执行模块 10, 设置为获取第一语音控制指令, 执行与第一语音控 制指令对应的第一操作; 采集模块 20, 设置为采集混合音频数据, 其中, 混合音频数 据包括: 在执行第一操作时播放的音频数据和第二语音 控制指令; 识别模块 30, 设置 为从混合音频数据中滤除播放的音频数据, 识别第二语音控制指令; 切换模块 40, 设 置为按照第二语音控制指令从第一操作切换至 与第二语音控制指令对应的第二操作。 采用如图 2所示的装置, 解决了相关技术中在语音交互过程中如果需要 在不同的 语音控制指令之间进行切换只能依靠外界中断 的问题, 进而能够在语音交互过程中, 实时地捕获、 判断用户发出的指令, 并进行及时的响应, 加强了语音交互的识别处理 能力, 提高了语音控制交互的效率及用户体验。 优选地, 如图 3所示, 第一执行模块 10可以包括: 第一处理单元 100, 设置为接 收第一语音控制指令, 并对第一语音控制指令进行模数转换处理; 执行单元 102, 设 置为对经过模数转换处理后的数据进行识别, 并根据识别的结果执行第一操作。 优选地, 如图 3所示, 上述装置还可以包括: 备份模块 50, 设置为对播放的音频 数据进行备份, 其中, 备份的数据用于从混合音频数据中识别出第二 语音控制指令。 优选地, 如图 3所示, 识别模块 30可以包括: 第二处理单元 300, 设置为对混合 音频数据进行模数转换处理; 第三处理单元 302, 设置为将经过模数转换处理的数据 与备份的数据进行比较, 从经过模数转换处理的数据中滤除备份的数据 ; 识别单元 304, 设置为根据在滤除备份的数据后剩余的部分数 据识别第二语音控制指令。 优选地, 如图 3所示, 上述装置还可以包括: 监测模块 60, 设置为对第二操作的 执行过程进行监测, 确定第二操作执行完毕; 判断模块 70, 设置为判断第二操作是否 为终止执行第一操作; 第二执行模块 80, 设置为在判断模块输出为否时, 则从与切换 至第二操作对应的切换时刻继续执行第一操作 。 作为本发明的一个优选实施例, 图 4是根据本发明优选实施例的智能终端内部进 行语音控制的结构示意图。 如图 4所示, 该智能终端内部的语音控制装置可以包括: 语音输出单元、语音接收单元(相当于上述第 一处理单元的部分功能)、模数转换单元 (相当于上述第一处理单元的部分功能)、语 计算单元(相当于上述第三处理单元)、 音源以及控制单元 (相当于上述执行单元、 识别单元、 监测模块、 判断模块以及第二 执行模块)。音源下行通过语音输出单元播放 声音, 语音接收单元采集语音信号, 并发 送至模数转换单元。 模数转换单元在对接收到的语音信号进行模数 转换处理后, 发送 至语音计算单元。 语音计算单元通过将转换处理后的数据与音源 进行比较, 提取出有 意义的语音指令,及时响应并执行相应的操作 。 由此解决了语音无法及时交互的问题, 可以提高语音交互能力和用户体验。 上述各个单元相互结合的优选工作方式如下: 运行语音交互应用程序, 对该语音交互应用程序完成初始化操作。 用户发送 "播放音乐" 的语音控制指令。 语音接收单元 (例如: 麦克风 (MIC))采集 "播放音乐"指令, 并发送至模数转 换单元 (例如: 编译码器 (Codec) 芯片)。

Codec芯片对接收到的 "播放音乐"指令进行 A/D转换处理后, 将转换后的指令 发送至语音计算单元 (例如: 中央处理器 (CPU)) 进行识别。

CPU通过对转换后的指令进行后, 发送至控制单元 CPU0进行响应。

CPU0从音源库中选取与转换后的指令对应的 乐数据 A发送至模数转换单元进 行 D/A转换处理。 与此同时, 还需要将上述音乐数据 A复制一份音频数据 A', 并发 送至语音计算单元。 模数转换单元将转换后的模拟数据发送至语音 输出单元进行播放。 用户在播放音乐的过程中又发送了下一条语音 控制指令, 例如: "打电话给 xx"。 语音接收单元同时采集当前播放的音乐数据 A和下一条语音控制指令, 并发送至 模数转换单元。 模数转换单元对由音频数据 A和 "打电话给 XX"指令共同组成的音频数据 B进 行 A/D转换处理后, 发送至语音计算单元进行识别。 语音计算单元通过对音频数据 B与音频数据 A'执行减法操作, 识别出 "打电话给 XX" 的指令, 然后将 "打电话给 XX"指令发送至控制单元 CPU0进行响应。 CPU0获取并执行与 "打电话给 XX"指令对应的操作, 暂停音乐的播放, 并启动 拨号程序, 来呼叫 XX。 控制单元 CPU0在监测到呼叫结束后, 重新开启音乐播放。 用户在播放音乐的过程中又发送 "播放下一首音乐" 的语音控制指令。 语音接收单元同时采集当前播放的音乐数据 A和 "播放下一首音乐"指令, 并发 送至模数转换单元。 模数转换单元对由音乐数据 A和 "播放下一首音乐"指令共同组成的音频数据 B' 进行 A/D转换处理后, 发送至语音计算单元进行识别。 语音计算单元通过对音频数据 B'与音频数据 A'执行减法操作, 识别出 "播放下一 首音乐" 的指令, 然后将 "播放下一首音乐"指令发送至控制单元 CPU0进行响应。 控制单元 CPU0按照获取到的 "播放下一首音乐"指令执行播放下一首音乐的 作。 用户在播放下一首音乐的过程中又发送了 "退出音乐播放"指令。 语音接收单元同时采集播放的音频数据 c (即当前播放的下一首音乐的音乐数据) 和 "退出音乐播放"指令, 并发送至模数转换单元。 模数转换单元对由音频数据 C和 "退出音乐播放"指令共同组成的音频数据 B" 进行 A/D转换处理后, 发送至语音计算单元进行识别。 语音计算单元通过对音频数据 B"与音频数据 C (即在将上述音频数据 C发送至 模数转换单元的同时还需要将上述音频数据 C复制一份音频数据 C 并发送至语音计 算单元) 执行减法操作, 识别出 "退出音乐播放" 的指令, 然后将 "退出音乐播放" 指令发送至控制单元 CPU0进行响应。 控制单元 CPU0获取并执行与 "退出音乐播放"指令对应的操作, 立即退出音乐 播放。 从以上的描述中, 可以看出, 上述实施例实现了如下技术效果 (需要说明的是这 些效果是某些优选实施例可以达到的效果): 采用本发明实施例所提供的技术方案,不 再需要由智能终端上的物理按键或者虚拟按键 所触发的外界中断来完成, 而只需要同 时采集由于执行第一操作所播放的音频数据以 及第二语音控制指令, 并通过对所播放 的音频数据进行过滤而识别出第二语音控制指 令, 以执行与第二语音控制指令对应的 第二操作, 由此解决了相关技术中在语音交互过程中如果 需要在不同的语音控制指令 之间进行切换只能依靠外界中断的问题, 进而能够在语音交互过程中, 实时地捕获、 判断用户发出的指令, 并进行及时的响应, 加强了语音交互的识别处理能力, 提高了 语音控制交互的效率及用户体验。 显然, 本领域的技术人员应该明白, 上述的本发明的各模块或各步骤可以用通用 的计算装置来实现, 它们可以集中在单个的计算装置上, 或者分布在多个计算装置所 组成的网络上, 可选地, 它们可以用计算装置可执行的程序代码来实现 , 从而, 可以 将它们存储在存储装置中由计算装置来执行, 并且在某些情况下, 可以以不同于此处 的顺序执行所示出或描述的步骤, 或者将它们分别制作成各个集成电路模块, 或者将 它们中的多个模块或步骤制作成单个集成电路 模块来实现。 这样, 本发明不限制于任 何特定的硬件和软件结合。 以上所述仅为本发明的优选实施例而已, 并不用于限制本发明, 对于本领域的技 术人员来说, 本发明可以有各种更改和变化。 凡在本发明的精神和原则之内, 所作的 任何修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。 工业实用性 如上所述, 本发明实施例提供的一种语音交互方法及装置 具有以下有益效果: 能 够在语音交互过程中, 实时地捕获、 判断用户发出的指令, 并进行及时的响应, 加强 了语音交互的识别处理能力, 提高了语音控制交互的效率及用户体验。