JIANG ZHIFENG (CN)
CN202584717U | 2012-12-05 | |||
CN103366740A | 2013-10-23 | |||
CN103096017A | 2013-05-08 | |||
US20040242278A1 | 2004-12-02 | |||
CN1253321A | 2000-05-17 | |||
US20020178009A1 | 2002-11-28 |
北京康信知识产权代理有限责任公司 (CN)
权 利 要 求 书 1. 一种语音交互方法, 包括: 获取第一语音控制指令, 执行与所述第一语音控制指令对应的第一操作; 采集混合音频数据, 其中, 所述混合音频数据包括: 在执行所述第一操作 时播放的音频数据和第二语音控制指令; 从所述混合音频数据中滤除所述播放的音频数据, 识别所述第二语音控制 指令; 按照所述第二语音控制指令从所述第一操作切换至与所述第二语音控制指 令对应的第二操作。 2. 根据权利要求 1所述的方法, 其中, 获取所述第一语音控制指令, 执行所述第 一操作包括: 接收所述第一语音控制指令, 并对所述第一语音控制指令进行模数转换处 理; 对经过模数转换处理后的数据进行识别, 并根据识别的结果执行所述第一 操作。 3. 根据权利要求 1所述的方法, 其中, 在从所述混合音频数据中滤除所述播放的 音频数据之前, 还包括: 对所述播放的音频数据进行备份, 其中, 备份的数据用于从所述混合音频 数据中识别出所述第二语音控制指令。 4. 根据权利要求 3所述的方法, 其中, 从所述混合音频数据中识别所述第二语音 控制指令包括: 对所述混合音频数据进行模数转换处理; 将经过模数转换处理的数据与所述备份的数据进行比较, 从所述经过模数 转换处理的数据中滤除所述备份的数据; 根据在滤除所述备份的数据后剩余的部分数据识别所述第二语音控制指 令。 5. 根据权利要求 1所述的方法, 其中, 在按照所述第二语音控制指令切换至所述 第二操作之后, 还包括: 对所述第二操作的执行过程进行监测, 确定所述第二操作执行完毕; 判断所述第二操作是否为终止执行所述第一操作; 如果否, 则从与切换至所述第二操作对应的切换时刻继续执行所述第一操 作。 6. 一种语音交互装置, 包括: 第一执行模块, 设置为获取第一语音控制指令, 执行与所述第一语音控制 指令对应的第一操作; 采集模块, 设置为采集混合音频数据, 其中, 所述混合音频数据包括: 在 执行所述第一操作时播放的音频数据和第二语音控制指令; 识别模块, 设置为从所述混合音频数据中滤除所述播放的音频数据, 识别 所述第二语音控制指令; 切换模块, 设置为按照所述第二语音控制指令从所述第一操作切换至与所 述第二语音控制指令对应的第二操作。 7. 根据权利要求 6所述的装置, 其中, 所述第一执行模块包括: 第一处理单元, 设置为接收所述第一语音控制指令, 并对所述第一语音控 制指令进行模数转换处理; 执行单元, 设置为对经过模数转换处理后的数据进行识别, 并根据识别的 结果执行所述第一操作。 8. 根据权利要求 6所述的装置, 其中, 所述装置还包括: 备份模块, 设置为对所述播放的音频数据进行备份, 其中, 备份的数据用 于从所述混合音频数据中识别出所述第二语音控制指令。 9. 根据权利要求 8所述的装置, 其中, 所述识别模块包括: 第二处理单元, 设置为对所述混合音频数据进行模数转换处理; 第三处理单元, 设置为将经过模数转换处理的数据与所述备份的数据进行 比较, 从所述经过模数转换处理的数据中滤除所述备份的数据; 识别单元, 设置为根据在滤除所述备份的数据后剩余的部分数据识别所述 第二语音控制指令。 10. 根据权利要求 6所述的装置, 其中, 所述装置还包括: 监测模块, 设置为对所述第二操作的执行过程进行监测, 确定所述第二操 作执行完毕; 判断模块, 设置为判断所述第二操作是否为终止执行所述第一操作; 第二执行模块, 设置为在所述判断模块输出为否时, 则从与切换至所述第 二操作对应的切换时刻继续执行所述第一操作。 |
Codec芯片对接收到的 "播放音乐"指令进行 A/D转换处理后, 将转换后的指令 发送至语音计算单元 (例如: 中央处理器 (CPU)) 进行识别。
CPU通过对转换后的指令进行后, 发送至控制单元 CPU0进行响应。
CPU0从音源库中选取与转换后的指令对应的 乐数据 A发送至模数转换单元进 行 D/A转换处理。 与此同时, 还需要将上述音乐数据 A复制一份音频数据 A', 并发 送至语音计算单元。 模数转换单元将转换后的模拟数据发送至语音 输出单元进行播放。 用户在播放音乐的过程中又发送了下一条语音 控制指令, 例如: "打电话给 xx"。 语音接收单元同时采集当前播放的音乐数据 A和下一条语音控制指令, 并发送至 模数转换单元。 模数转换单元对由音频数据 A和 "打电话给 XX"指令共同组成的音频数据 B进 行 A/D转换处理后, 发送至语音计算单元进行识别。 语音计算单元通过对音频数据 B与音频数据 A'执行减法操作, 识别出 "打电话给 XX" 的指令, 然后将 "打电话给 XX"指令发送至控制单元 CPU0进行响应。 CPU0获取并执行与 "打电话给 XX"指令对应的操作, 暂停音乐的播放, 并启动 拨号程序, 来呼叫 XX。 控制单元 CPU0在监测到呼叫结束后, 重新开启音乐播放。 用户在播放音乐的过程中又发送 "播放下一首音乐" 的语音控制指令。 语音接收单元同时采集当前播放的音乐数据 A和 "播放下一首音乐"指令, 并发 送至模数转换单元。 模数转换单元对由音乐数据 A和 "播放下一首音乐"指令共同组成的音频数据 B' 进行 A/D转换处理后, 发送至语音计算单元进行识别。 语音计算单元通过对音频数据 B'与音频数据 A'执行减法操作, 识别出 "播放下一 首音乐" 的指令, 然后将 "播放下一首音乐"指令发送至控制单元 CPU0进行响应。 控制单元 CPU0按照获取到的 "播放下一首音乐"指令执行播放下一首音乐的 作。 用户在播放下一首音乐的过程中又发送了 "退出音乐播放"指令。 语音接收单元同时采集播放的音频数据 c (即当前播放的下一首音乐的音乐数据) 和 "退出音乐播放"指令, 并发送至模数转换单元。 模数转换单元对由音频数据 C和 "退出音乐播放"指令共同组成的音频数据 B" 进行 A/D转换处理后, 发送至语音计算单元进行识别。 语音计算单元通过对音频数据 B"与音频数据 C (即在将上述音频数据 C发送至 模数转换单元的同时还需要将上述音频数据 C复制一份音频数据 C 并发送至语音计 算单元) 执行减法操作, 识别出 "退出音乐播放" 的指令, 然后将 "退出音乐播放" 指令发送至控制单元 CPU0进行响应。 控制单元 CPU0获取并执行与 "退出音乐播放"指令对应的操作, 立即退出音乐 播放。 从以上的描述中, 可以看出, 上述实施例实现了如下技术效果 (需要说明的是这 些效果是某些优选实施例可以达到的效果): 采用本发明实施例所提供的技术方案,不 再需要由智能终端上的物理按键或者虚拟按键 所触发的外界中断来完成, 而只需要同 时采集由于执行第一操作所播放的音频数据以 及第二语音控制指令, 并通过对所播放 的音频数据进行过滤而识别出第二语音控制指 令, 以执行与第二语音控制指令对应的 第二操作, 由此解决了相关技术中在语音交互过程中如果 需要在不同的语音控制指令 之间进行切换只能依靠外界中断的问题, 进而能够在语音交互过程中, 实时地捕获、 判断用户发出的指令, 并进行及时的响应, 加强了语音交互的识别处理能力, 提高了 语音控制交互的效率及用户体验。 显然, 本领域的技术人员应该明白, 上述的本发明的各模块或各步骤可以用通用 的计算装置来实现, 它们可以集中在单个的计算装置上, 或者分布在多个计算装置所 组成的网络上, 可选地, 它们可以用计算装置可执行的程序代码来实现 , 从而, 可以 将它们存储在存储装置中由计算装置来执行, 并且在某些情况下, 可以以不同于此处 的顺序执行所示出或描述的步骤, 或者将它们分别制作成各个集成电路模块, 或者将 它们中的多个模块或步骤制作成单个集成电路 模块来实现。 这样, 本发明不限制于任 何特定的硬件和软件结合。 以上所述仅为本发明的优选实施例而已, 并不用于限制本发明, 对于本领域的技 术人员来说, 本发明可以有各种更改和变化。 凡在本发明的精神和原则之内, 所作的 任何修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。 工业实用性 如上所述, 本发明实施例提供的一种语音交互方法及装置 具有以下有益效果: 能 够在语音交互过程中, 实时地捕获、 判断用户发出的指令, 并进行及时的响应, 加强 了语音交互的识别处理能力, 提高了语音控制交互的效率及用户体验。