华为技术有限公司 (中国广东省深圳市龙岗区坂田华为总部办公楼, Guangdong 9, 518129, CN)
| 权 利 要 求 1、 一种语音激活检测方法, 其特征在于, 包括: 从当前待检测的音频帧中获取时域参数和频域参数; 获取所述时域参数与时域参数在历史背景噪声帧中的长时滑动平均值之 间的第一距离, 获取所述频域参数与频域参数在历史背景噪声帧中的长时滑动 平均值之间的第二距离; 根据所述第一距离、 第二距离和基于所述第一距离、 第二距离的判决多项 式组, 确定所述音频帧为前景语音帧或为背景噪声帧, 所述判决多项式组中的 至少一个系数为变量, 所述变量根据语音激活检测工作方式或输入信号特征确 定。 2、 如权利要求 1所述的方法, 其特征在于, 在所述音频帧被判决为背景噪 声帧时, 根据所述音频帧的时域参数更新所述时域参数在历史背景噪声帧中的 长时滑动平均值, 根据音频帧的频域参数更新所述频域参数在历史背景噪声帧 中的长时滑动平均值。 3、 如权利要求 1或 2所述的方法, 其特征在于: 所述时域参数为过零率; 所述时域参数与时域参数在历史背景噪声帧中的长时滑动平均值之间的 第一距离为过零率偏移量。 4、 如权利要求 1或 3所述的方法, 其特征在于: 所述频域参数为频谱子带能量; 所述频域参数与频域参数在历史背景噪声帧中的长时滑动平均值之间的 第二距离为所述音频帧信噪比。 5、 如权利要求 3所述的方法, 其特征在于: 在所述音频帧被判决为背景噪声帧时, 将过零率在历史背景噪声帧中的长 时滑动平均值更新为: 'ζα?+(ι_«)'ζα? , 其中, "为更新速度控制参数, ^ 为过零率在历史背景噪声帧中的长时滑动平均值的当前值, 为所述音频帧 的过零率。 6、 如权利要求 4所述的方法, 其特征在于: 在所述音频帧被判决为背景噪声帧时, 将频谱子带能量在历史背景噪声帧 中的长时滑动平均值更新为: β'Ε^βΥΕ^ 其中, i = 0 N , N为子带数量 减 1, 为更新速度控制参数, A为所述频谱子带能量在历史背景噪声帧中的 长时滑动平均值的当前值, 为所述音频帧的频谱子带能量。 7、 如权利要求 4所述的方法, 其特征在于, 获取所述音频帧信噪比包括: 根据所述频谱子带能量和频谱子带能量在历史背景噪声帧中的长时滑动 平均值的比值获取各子带的信噪比; 对所述各子带的信噪比进行线性处理或非线性处理; 对所述处理后的各子带的信噪比求和, 获得所述音频帧信噪比。 8、 如权利要求 7所述的方法, 其特征在于: 所述对所述各子带的信噪比进 行线性处理包括: 对所述各子带的信噪比分别进行相同的线性处理或不同的线性处理; 所述对所述各子带的信噪比进行非线性处理包括: 9、 如权利要求 7所述的方法, 其特征在于, 所述对所述各子带的信噪比进 行非线性处理包括: 4 (/:-10-log(¾, 0) 根据 · 确定非线性处理后的各子带的信噪比; 其中, ,· =0, ......,子带数量减 1, 为其它 值表示 i为 0到子带数量减 1之间的除去 ^至 ^取值范围的数值, ^和 ^均大于 零且小于子带数量减 1 , 且根据所有子带中的关键子带确定 ^和 ^的取值。 10、 如权利要求 1所述的方法, 其特征在于, 所述根据第一距离、 第二距 离和基于所述第一距离、 第二距离的判决多项式组确定所述音频帧为前景语音 帧或为背景噪声帧包括: 当所述第一距离、 第二距离使所述判决多项式组中的任一判决多项式满足 时, 所述音频帧为前景语音帧, 否则, 所述音频帧为背景噪声帧。 11、 如权利要求 1所述的方法, 其特征在于, 所述判决多项式组包括: MSSNR > a - DZCR + MSSNR > (-c) - DZCR + d ? 其中, a、 b、 c和 t为系数, MSSNR根据所述第一距离获得, DZCR根据所述第二距离获得。 12、 如权利要求 4或 5或 11所述的方法, 其特征在于, 所述判决多项式组包 括: MSSNR > a - DZCR + MSSNR > (-c) - DZCR + d ? 其中, a、 b、 c和 t为系数, MSSW?为所述频谱子带能量与频谱子带能量在历史背景噪声帧中的长时滑动 平均值之间的修正距离, DZCR为所述过零率与过零率在历史背景噪声帧中的 长时滑动平均值之间的距离。 13、 如权利要求 1所述的方法, 其特征在于, 所述变量根据语音激活检测 工作方式或输入信号特征确定包括: 其中所述语音激活检测工作方式包括语音激活检测的工作点, 所述输入信 号特征包括信号长时信噪比、 背景噪声波动程度和背景噪声电平大小中的一个 或多个; 根据所述语音激活检测的工作点、 所述信号长时信噪比、 所述背景噪声波 动程度和所述背景噪声电平大小中的一个或多个确定所述变量。 14、 一种语音激活检测装置, 其特征在于, 包括: 第一获取模块, 用于从当前待检测的音频帧中获取时域参数和频域参数; 第二获取模块, 用于获取所述时域参数与时域参数在历史背景噪声帧中的 长时滑动平均值之间的第一距离, 获取所述频域参数与频域参数在历史背景噪 声帧中的长时滑动平均值之间的第二距离; 判决模块, 用于根据所述第一距离、 第二距离和基于所述第一距离、 第二 距离的判决多项式组确定所述当前待检测的音频帧为前景语音帧或为背景噪 声帧, 所述判决多项式组中的至少一个系数为变量, 所述变量根据语音激活检 测工作方式或输入信号特征确定。 15、 如权利要求 14所述的装置, 其特征在于, 所述判决模块包括: 判决多项式子模块, 用于存储所述判决多项式组, 根据语音激活检测的工 作点、 信号长时信噪比、 背景噪声波动程度和背景噪声电平大小中的至少一个 调整所述判决多项式组中为变量的系数; 判决子模块, 用于根据所述判决多项式模块中存储的判决多项式组判决确 定所述音频帧为前景语音帧还是或为背景噪声帧。 16、 如权利要求 14所述的装置, 其特征在于, 所述第二获取模块包括: 更新子模块, 用于存储时域参数在历史背景噪声帧中的长时滑动平均值和 频域参数在历史背景噪声帧中的长时滑动平均值 , 当所述判决模块将所述音频 帧判决为背景噪声帧时, 根据所述音频帧的时域参数更新所述存储的时域参数 在历史背景噪声帧中的长时滑动平均值, 根据所述音频帧的频域参数更新所述 存储的频域参数在历史背景噪声帧中的长时滑动平均值; 获取子模块, 用于根据所述更新子模块中存储的时域参数在历史背景噪声 帧中的长时滑动平均值和频域参数在历史背景噪声帧中的长时滑动平均值以 及所述第一获取模块获取的时域参数和频域参数, 获取所述第一距离和第二距 离。 17、 如权利要求 14或 15或 16所述的装置, 其特征在于, 所述第一获取模块 包括: 过零率获取子模块, 用于从所述音频帧中获取过零率; 频谱子带能量获取子模块, 用于从所述音频帧中获取频谱子带能量; 所述第二获取模块获取所述音频帧信噪比, 所述音频帧信噪比为所述频域 参数与频域参数在历史背景噪声帧中的长时滑动平均值之间的距离。 18、 如权利要求 17所述的装置, 其特征在于, 第二获取模块或者获取子模 块根据所述频谱子带能量和频谱子带能量在历史背景噪声帧中的长时滑动平 均值的比值获取各子带的信噪比, 对所述各子带的信噪比进行线性处理或非线 性处理, 对所述处理后的各子带的信噪比求和, 获得所述音频帧信噪比。 19、 一种电子设备, 其特征在于, 其包括收发装置以及如权利要求 14至 18 中任一项所述的语音激活检测装置, 所述收发装置用于接收或发送音频信号。 |
技术领域
本发明涉及通讯技术领域,具体涉及语音激活 检测方法、装置和电子设备。
背景技术
通讯系统通过利用 Voice Activity Detection (语音激活检测, VAD )技术能 够确定出通话人何时开始说话, 何时停止说话。 在通话人停止说话时, 通讯系 统可以不进行信号传输, 从而节省了信道带宽。 当前的 VAD技术已不局限于对 通话人语音的检测, 还可以检测出彩铃等信号。
VAD方法通常包括: 从待检测信号中提取分类参数, 将提取的分类参数输 入二元判决准则, 该二元判决准则进行判决, 并输出判决结果, 该判决结果可 以为: 输入信号为前景信号或者输入信号为背景噪声 。
现有的 VAD方法基本上均基于单分类参数。 目前还存在一种基于 4个分类 参数的 VAD方法,该方法涉及到的 4个分类参数分别为: DS (线谱频率谱失真)、 DEf (全带能量距离)、 DE1 (低带能量距离 )和 DZC (过零率偏移量); 该方法 中的判决准则涉及到 14个判决条件。 在实现本发明的过程中, 发明人发现现有技术至少存在着以下缺陷:: 基于单分类参数的 VAD方法容易出现误判。 由于 14个判决条件中的各系数 都是常量, 使判决准则不具有根据输入信号进行自适应调 节的能力; 最终导致 该方法的整体性能不理想。
发明内容
本发明实施方式提供的语音激活检测方法、 装置和电子设备, 可使判决准 则具有自适应调节能力, 提高了语音激活检测的性能。
本发明实施方式提供的语音激活检测方法, 包括: 从当前待检测的音频帧中获取时域参数和频域 参数;
获取所述时域参数与时域参数在历史背景噪声 帧中的长时滑动平均值之 间的第一距离, 获取所述频域参数与频域参数在历史背景噪声 帧中的长时滑动 平均值之间的第二距离;
根据所述第一距离、 第二距离和基于所述第一距离、 第二距离的判决多项 式组, 判决所述音频帧为前景语音帧还是为背景噪声 帧, 所述判决多项式组中 的至少一个系数为变量, 所述变量根据语音激活检测工作方式或输入信 号特征 确定。
本发明实施方式提供的语音激活检测装置, 包括:
第一获取模块, 用于从当前待检测的音频帧中获取时域参数和 频域参数; 第二获取模块, 用于获取所述时域参数与时域参数在历史背景 噪声帧中的 长时滑动平均值之间的第一距离, 获取所述频域参数与频域参数在历史背景噪 声帧中的长时滑动平均值之间的第二距离;
判决模块, 用于根据所述第一距离、 第二距离和基于所述第一距离、 第二 距离的判决多项式组判决所述当前待检测的音 频帧为前景语音帧还是为背景 噪声帧, 所述判决多项式组中的至少一个系数为变量, 所述变量根据语音激活 检测工作方式或输入信号特征确定。
通过上述技术方案的描述可知, 通过釆用至少一个系数为变量的判决多项 式, 且使变量随语音激活检测工作方式或输入信号 特征而变化, 使判决准则具 有自适应调节能力, 从而提高了语音激活检测的性能。
附图说明
图 1是本发明实施例一的语音激活检测方法流程 ;
图 2是本发明实施例二的语音激活检测装置示意 ;
图 2A是本发明实施例二的第一获取模块示意图;
图 2B是本发明实施例二的第二获取模块示意图; 图 2C是本发明实施例二的判决模块示意图;
图 3是本发明实施例三的电子设备示意图。 具体实施方式 实施例一、 语音激活检测方法。 该方法如附图 1所示。
图 1中, S100、 接收当前待检测的音频帧。
S110、 从当前待检测的音频帧中获取时域参数和频域 参数。 这里的时域参 数和频域参数的数量可以均为一个。 需要说明的是, 本实施例也不排除时域参 数的数量为多个以及频域参数的数量为多个的 可能。
本实施例中的时域参数可以为过零率, 频域参数可以为频谱子带能量。 需 要说明的是, 本实施例中的时域参数也可以为除过零率之外 的其它参数, 频域 参数也可以为除频谱子带能量之外的其它参数 。 为便于说明本发明语音激活监 测技术, 在本实施例和下述实施例中主要是以过零率和 频谱子带能量为例对本 发明的语音激活检测技术进行详细说明的, 但是, 这并不表示时域参数必须为 过零率, 频域参数必须为频谱子带能量。 本实施例可以不限制时域参数和频域 参数具体包括的参数内容。
当时域参数为过零率时, 可以直接在语音帧的时域输入信号上计算获得 过 零率。 获取过零率的一个具体例子为: 利用下述公式(1 )获取过零率 公式(1 ) 其中, sign()是符号函数, M + 2为音频帧中包含的时域釆样点的个数, M 通常为大于 1的整数,例如,在音频帧中包含的时域釆样 的个数为 80时, M应 该为 78。
当频域参数为频谱子带能量时, 可以在 FFT (快速傅立叶变换)谱上计算 获得语音帧的频谱子带能量。 获取频谱子带能量的一个具体例子为: 利用下述 公式(2 )获取频谱子带能量 : 公式 ( 2 ) 其中, M '表示音频帧中第 i子带中包含的 FFT频点个数, /表示第 i子带起始 FFT频点的索引, ^表示第 / + 个 FFT频点的能量, i = 0, ...... N , W为子带 的数量与 1的差值。
上述公式(2 ) 中的 W可以为 15 , 即音频帧被划分为 16个子带。 上述公式 ( 2 ) 中的每个子带可以包含相同的 FFT频点个数, 也可以包含不同的 FFT频点 个数, 设置 M '取值的一个具体的例子为: M '为 128。
上述公式(2 )表示一个子带的频谱子带能量可以为该子带 含的所有 FFT 频点的平均能量。
本实施例也可以通过其它方式获取过零率和频 谱子带能量, 本实施例不限 制获取过零率和频谱子带能量的具体实现方式 。
S120、 获取时域参数与时域参数在历史背景噪声帧中 的长时滑动平均值之 间的第一距离, 并获取频域参数与频域参数在历史背景噪声帧 中的长时滑动平 均值之间的第二距离。 本实施例不限制获取上述两个距离的先后顺序 。 本发明 实施例的 "历史背景噪声帧" 指的是当前帧之前的背景噪声帧, 比如当前帧之 前的连续的多个背景噪声帧; 若当前帧为初始第一帧, 则可以将预先设定的帧 作为历史背景噪声帧,或将该第一帧作为历史 背景噪声帧,还可以是其他方式, 可以根据实际应用灵活处理。
S120中的时域参数与时域参数在历史背景噪声 中的长时滑动平均值之 间的第一距离可以包括: 时域参数与时域参数在历史背景噪声帧中的长 时滑动 平均值之间的修正距离。
S120中的时域参数在历史背景噪声帧中的长时 动平均值和频域参数在 历史背景噪声帧中的长时滑动平均值在每次判 决结果为背景噪声帧时, 都会进 行更新。 一个具体的更新例子为: 利用被判决为背景噪声帧的音频帧的时域参 数和频域参数对当前的时域参数在历史背景噪 声帧中的长时滑动平均值和频 域参数在历史背景噪声帧中的长时滑动平均值 进行更新。
在时域参数为过零率的情况下, 更新时域参数在历史背景噪声帧中的长时 滑动平均值的一个具体的例子为: 将过零率在历史背景噪声帧中的长时滑动平 均值^更新为: 《'ζα? + (ι_«)'ζα? , 其中, 《为更新速度控制参数, ^为 过零率在历史背景噪声帧中的长时滑动平均值 的当前值, ZCR为当前被判决为 背景噪声帧的音频帧的过零率。
在频域参数为频谱子带能量的情况下, 更新频域参数在历史背景噪声帧中 的长时滑动平均值的一个具体的例子为: 将频谱子带能量在历史背景噪声帧中 的长时滑动平均值 更新为: β ' ^ + ^ β、 其中, , N为子带数量 减 1 , 为更新速度控制参数, A为所述频谱子带能量在历史背景噪声帧中的 长时滑动平均值的当前值, 为所述音频帧的频谱子带能量。
上述《和 的取值应小于 1且大于 0。 另夕卜, 上述 "和 ^的取值可以相同, 也可以不相同。 通过设置"和 ^的取值可以实现对 ^和 更新速度的控制,
"和 的取值越接近 1 , 则^和 A的更新速度就越慢, "和 ^的取值越接近 0, 则 ^和 的更新速度就越快。 上述^和 的初始值可以利用输入信号最初的一帧或多帧 设置, 例如, 计算输入信号的最初几帧的过零率的平均值, 将该平均值作为过零率在历史背 景噪声帧中的长时滑动平均值^ , 计算输入信号的最初几帧的频谱子带能量 的平均值, 将计算出的平均值作为频谱子带能量在历史背 景噪声帧中的长时滑 动平均值 A。 另外, 也可以釆用其它方式设置^和 A的初始值, 例如, 利用 经验值来设置 ^和 的初始值等, 本实施例不限制设置 ^和 的初始值的 具体实现方式。
从上述描述可知, 时域参数在历史背景噪声帧中的长时滑动平均 值和频域 参数在历史背景噪声帧中的长时滑动平均值是 在音频帧被判决为历史背景噪 声帧时被更新的, 那么, 在对当前的音频帧进行判决的过程中, 使用到的时域 参数在历史背景噪声帧中的长时滑动平均值为 : 根据当前的音频帧之前的被判 决为背景噪声帧的音频帧而获得的时域参数在 历史背景噪声帧中的长时滑动 平均值; 同样的, 在对当前的音频帧进行判决的过程中, 使用到的频域参数在 历史背景噪声帧中的长时滑动平均值为: 根据当前的音频帧之前的被判决为背 景噪声帧的音频帧而获得的频域参数在历史背 景噪声帧中的长时滑动平均值。
当时域参数为过零率时, 时域参数与时域参数在历史背景噪声帧中的长 时 滑动平均值之间的第一距离可以为过零率偏移 量。 获取过零率与过零率在历史 背景噪声帧中的长时滑动平均值之间的距离 的一个具体的例子为: 根据 下述公式(3 )计算获得
DZCR=ZCR - ZCR; 公式( 3 ) 其中, 为当前待检测的音频帧的过零率, ^为过零率在历史背景噪 声帧中的长时滑动平均值的当前值。
当频域参数为频谱子带能量时, 频域参数与频域参数在历史背景噪声帧中 的长时滑动平均值之间的第二距离可以为: 当前待检测的音频帧信噪比。 获取 频域参数与频域参数在历史背景噪声帧中的长 时滑动平均值之间的距离即获 取当前待检测的音频帧信噪比的一个具体的例 子为: 根据当前待检测的音频帧 的频谱子带能量和频谱子带能量在历史背景噪 声帧中的长时滑动平均值的比 值获取各子带的信噪比, 之后, 对获取的各子带的信噪比进行线性处理或非线 性处理 (即对各子带的信噪比进行修正), 然后, 再对上述经过线性或非线性 处理后的各子带的信噪比求和, 从而获得当前待检测的音频帧的信噪比。 本实 施例不限制获取当前待检测的音频帧信噪比的 具体实现过程。 需要说明的是, 本实施例可以对各子带的信噪比进行相同的线 性处理或相 同的非线性处理, 即所有子带的信噪比均进行了相同的线性或非 线性处理; 本 实施例也可以对各子带的信噪比进行不同的线 性处理或不同的非线性处理, 即 所有子带的信噪比进行的线性或非线性处理过 程是有区别的。 对各子带的信噪 比进行的线性处理可以是: 将各子带的信噪比均乘以线性函数; 对各子带的信 噪比进行的非线性处理可以是: 将各子带的信噪比均乘以非线性函数。 本实施 例不限制对各子带的信噪比进行线性处理或非 线性处理的具体实现过程。
在釆用非线性函数对各子带的信噪比进行非线 性处理的情况下, 获取频谱 子带能量与频谱子带能量在历史背景噪声帧中 的长时滑动平均值之间的修正 距离 的一个具体的例子为: 根据下述公式(4)计算获得 SS\« :
MSSNR = X MAXi/i ·10· log(^), 0)
; 公式 ( 4 ) 其中, W为当前待检测的音频帧被划分的子带的数量 i的差值, 为当前 待检测的音频帧的第 i个子带的频谱子带能量, 为第 i个子带的频谱子带能量 在历史背景噪声帧中的长时滑动平均值的当前 值, ^为第 i个子带的非线性函 数, 可以为第 i个子带的降噪系数。
10.log (唇)
上述公式(4)中的 Ε ' 即当前待检测的音频帧的第 i个子带的信噪比。 4 ( -10-log(¾ 0)
上述公式 (4) 中的 Ε ' 即是对子带的信噪比进行修正, 4 ( -10-log(¾ 0)
当 为子带的降噪系数时, Ε ' 即是利用降噪系数对子带的信 噪比进行修正。 上述 可以称为修正后的各子带的信噪比之和。 jMIN(E / 64, 1) ¾ l≤ ≤ 2 上述公式(4) 中 的一个具体的例子为: Α ΛΜΙ 5, 1) 当为其它值; 其中, ''=0, ......,子带数量减 1, 为其它值表示' '为 0到子带数量减 1之间的 除去 ^至 ^取值范围的数值, ^和 ^均大于零且小于子带数量减 1 , 且根据所 有子带中的关键子带确定 ^和 ^的取值, 也就是说, 关键子带 (即重要子带) 对应 M/N( / 64 , 1) , 非关键子带(即非重要子带)对应 M/N( / 25 , 1)。 随着子 带划分数量的变化, ^和 ^的取值也会相应的变化。 所有子带中的关键子带可 以根据经验值来确定。
在子带数量为 16的情况下, 上述公式(4 ) 中 的一个具体的例子为: f i , 其中, i = 0 , , 15 。
上述例举描述的 DZCR和 MSSNR可以称为本实施例语音激活检测方法中的 两个分类参数, 此时, 本实施例的语音激活检测方法可以称为基于双 分类参数 的语音激活检测方法。
S 130、 根据上述获得的第一距离和第二距离以及基于 第一距离和第二距离 的判决多项式组判决当前待检测的音频帧为前 景语音帧还是为背景噪声帧, 这 里的判决多项式组中的至少一个系数为变量, 该变量是根据语音激活检测工作 方式和 /或输入信号特征确定的。 这里的输入信号可以包括: 检测出的语音帧以 及除语音帧之外的信号。 上述语音激活检测工作方式可以为语音激活检 测的工 作点。 上述输入信号特征可以为信号长时信噪比、 背景噪声波动程度和背景噪 声电平大小中的一个或多个。
也就是说, 上述判决多项式组中为变量的参数可以根据语 音激活检测的工 作点、 信号长时信噪比、 背景噪声波动程度和背景噪声电平大小中的一 个或多 个来确定。 确定判决多项式组中的变量参数的值的一个具 体的例子为: 根据当 前检测到的语音激活检测的工作点、 信号长时信噪比、 背景噪声波动程度和背 景噪声电平大小通过查表和 /或者通过预定公式计算的方式确定变量参数 值。
上述语音激活检测的工作点表示 VAD系统的工作状态 , 由 VAD系统外部控 制。 不同的工作状态表示 VAD系统在语音质量和带宽节省之间的不同取舍 ; 上 述信号长时信噪比表示输入信号的前景信号与 背景噪声在一段较长时间内的 总体信噪比。 背景噪声波动程度表示输入信号中背景噪声能 量或噪声成分的变 化快慢或 /和变化幅度大小。 本实施例不限制根据语音激活检测的工作点、 信号 长时信噪比、 背景噪声波动程度和背景噪声电平大小确定变 量参数取值的具体 实现方式。
本实施例中的判决多项式组中包括的判决多项 式数量可以为 1个, 也可以 为 2个, 还可以多于 2个。
判决多项式组中包含的 2个判决多项式的一个具体的例子为: MSSNR > a - DZCR + MSSNR > (-c) - DZCR + d ? 其中; a 、 b、 c和 t为系数, 且"、 b、 c和 t 中的至少一个为变量, a、 b、 c和 t中的至少一个可以为零, 例如, "和 6为零, 或者 c和 为零; M N?为频谱子带能量与频谱子带能量在历史背 景噪声帧中的长时滑动平均值之间的修正距离 , DZCR为过零率与过零率在历 史背景噪声帧中的长时滑动平均值之间的距离 。
上述 "、 b、 c和 t可以分另 ij对应一个三维表, 即"、 b、 c和 t总共对应四 个三维表, 根据当前检测到的语音激活检测的工作点、 信号长时信噪比和背景 噪声波动程度在四个三维表中查找, 查找到结果可以再结合与背景噪声电平大 小的运算从而确定出"、 b、 c和 t的具体取值。
上述三维表的一个具体的例子为: 设定 VAD系统的有两种工作状态, 这两 种工作状态由 O p=0和 op=l来表示, 其中的 op代表语音激活检测的工作点; 将输 入信号的信号长时信噪比 lsnr划分为高信噪比、 中信噪比和低信噪比三类, 这 三类分别由 lsnr=2、 lsnr=l和 lsnr=0来表示; 将背景噪声波动程度 bgsta也划分为 三类, 按照背景噪声波动程度由高到低的顺序将这三 类背景噪声波动程度表示 为 bgsta=2、 bgsta=l和 bgsta=0。 在上述设置的情况下, 针对 "可以建立起一个三 维表, 针对 6 可以建立起一个三维表, 针对 c可以建立起一个三维表, 针对 可 以建立起一个三维表。 在进行查表时, 可以根据下述公式(5 )计算出"、 b、 C和 J分别对应的索 引值, 根据该索引值即可从四个三维表中获得对应的 数值, 该获得的数值可以 再和背景噪声电平大小进行运算, 从而确定出"、 b、 C和 ί的具体取值。
a=a_tbl[op] [lsnr] [bgsta]
b= b—tbl [op] [lsnr] [bgsta]
c=c_tbl[op] [lsnr] [bgsta] 公式 ( 5 ) d=d_tbl[op] [lsnr] [bgsta]
基于上述两个判决多项式的一个具体的判决过 程为: 如果上述计算获得的 MSSNR和 能够使上述两个判决多项式中的任一个判决多 项式满足, 则将 当前待检测的音频帧判决为前景语音帧, 否则, 将当前待检测的音频帧判决为 背景噪声帧。
本实施例中也可以釆用其它判决多项式, 例如, 判决多项式组包括: MSSNR>(a+b*DZCRn)m+c , 其中, a、 6和 c为系数, 且"、 6和 c中的至少一 个为变量, "、 和 c中的至少一个可以为零, m和 n为常数, M N?为频谱子带 能量与频谱子带能量在历史背景噪声帧中的长 时滑动平均值之间的修正距离, 为过零率与过零率在历史背景噪声帧中的长时 滑动平均值之间的距离。 本实施例不限制基于第一距离和第二距离的判 决多项式的具体实现方式。
从上述实施例一的描述可知, 实施例一通过釆用系数为变量的判决多项式 组, 且使变量随语音激活检测工作方式和 /或输入信号特征而变化,使判决准则 具有根据语音激活检测工作方式和 /或输入信号特征进行自适应调节的能力 ,提 高了语音激活检测的性能; 在实施例一釆用过零率和频谱子带能量的情况 下, 由于频谱子带能量与频谱子带能量在历史背景 噪声帧中的长时滑动平均值之 间的距离具有良好的分类性能, 因此, 使前景语音帧和背景噪声帧的判决更加 准确, 进一步提高了语音激活检测的性能; 在实施例一釆用由 2个判决多项式 组成的判决准则的情况下, 不但没有过多的增加判决准则设计复杂度, 同时还 能够保证了判决准则的稳定性; 从而实施例一提高了语音激活检测的整体性 能。
实施例二、 语音激活检测装置。 该装置的结构如附图 2所示。
图 2中的语音激活检测装置包括: 第一获取模块 210、 第二获取模块 220和 判决模块 230。 可选的该装置还可以包括接收模块 200。
接收模块 200, 用于接收当前待检测的音频帧。
第一获取模块 210, 用于从音频帧中获取时域参数和频域参数。 在该装置 包含有接收模块 200的情况下, 第一获取模块 210可以从接收模块 200接收到的 当前待检测的音频帧中获取时域参数和频域参 数。 第一获取模块 210可以输出 获取的时域参数和频域参数, 第一获取模块 210输出的时域参数和频域参数可 以提供给第二获取模块 220。
这里的时域参数和频域参数的数量可以均为一 个。 本实施例也不排除时域 参数的数量为多个以及频域参数的数量为多个 的可能。
第一获取模块 210获取的时域参数可以为过零率, 第一获取模块 210获取的 频域参数可以为频谱子带能量。 需要说明的是, 第一获取模块 210获取的时域 参数也可以为除过零率之外的其它参数, 第一获取模块 210获取的频域参数也 可以为除频谱子带能量之外的其它参数。
第二获取模块 220, 用于获取接收到的时域参数与时域参数在历史 背景噪 声帧中的长时滑动平均值之间的第一距离, 并获取接收到的频域参数与频域参 数在历史背景噪声帧中的长时滑动平均值之间 的第二距离。
第二获取模块 220获取的时域参数与时域参数在历史背景噪声 帧中的长时 滑动平均值之间的第一距离可以包括: 时域参数与时域参数在历史背景噪声帧 中的长时滑动平均值之间的修正距离。
第二获取模块 220中存储有时域参数在历史背景噪声帧中的长 时滑动平均 值和频域参数在历史背景噪声帧中的长时滑动 平均值的当前值, 第二获取模块 220可以在判决模块 230的每次判决结果为背景噪声帧时, 更新其存储的时域参 数在历史背景噪声帧中的长时滑动平均值和频 域参数在历史背景噪声帧中的 长时滑动平均值的当前值。
在第一获取模块 210获取的频域参数为频谱子带能量的情况下, 第二获取 模块 220可以获取音频帧信噪比, 该音频帧信噪比为频域参数与频域参数在历 史背景噪声帧中的长时滑动平均值之间的第二 距离。
判决模块 230, 用于根据第二获取模块 220获取到的第一距离和第二距离以 及基于第一距离和第二的判决多项式组判决当 前待检测的音频帧为前景语音 帧还是为背景噪声帧, 判决模块 230使用的判决多项式组中的至少一个系数为 变量, 且该变量根据语音激活检测工作方式和 /或输入信号特征确定。 这里的输 入信号可以包括: 检测出的语音帧以及除语音帧之外的信号。 上述语音激活检 测工作方式可以为语音激活检测的工作点。 上述输入信号特征可以为信号长时 信噪比、 背景噪声波动程度和背景噪声电平大小中的一 个或多个。
判决模块 230可以根据语音激活检测的工作点、 信号长时信噪比、 和背景 噪声波动程度和背景噪声电平大小中的一个或 多个来确定判决多项式组中为 变量的参数。 判决模块 230确定判决多项式组中的变量参数的值的一个 具体的 例子为: 判决模块 230根据当前检测到的语音激活检测的工作点、 信号长时信 噪比、和背景噪声波动程度和背景噪声电平大 小通过查表和 /或者通过预定公式 计算的方式确定变量参数的值。
上述第一获取模块 210的结构如附图 2A所示。
图 2A中的第一获取模块 210包括: 过零率获取子模块 211和频谱子带能量获 取子模块 212。
过零率获取子模块 211 , 用于从音频帧中获取过零率。
过零率获取子模块 211可以直接在语音帧的时域输入信号上计算获 得过零 率。 过零率获取子模块 211获取过零率的一个具体例子为: 过零率获取子模块 211利用 获取过零率; 其中, sign()是符号函数, M + 2为音频帧中包含的时域釆样点的个数, 通常为大于 1的整数, 例如, 在音频 帧中包含的时域釆样点的个数为 80时, 应该为 78。
频谱子带能量获取子模块 212, 用于从音频帧中获取频谱子带能量。
频谱子带能量获取子模块 212可以在 FFT谱上计算获得语音帧的频谱子带 能量。 频谱子带能量获取子模块 212获取频谱子带能量的一个具体例子为: 频
E i =—— V e 1+k
谱子带能量获取子模块 212利用 M -― 获取频谱子带能量 ;其中, M '表 示音频帧中第 i子带中包含的 FFT频点个数, /表示第 i子带起始 FFT频点的索引, ^表示第 / + 个 FFT频点的能量, i = 0, ...... N , W为子带的数量与丄的差值。
W可以为 15, 即音频帧被划分为 16个子带。
本实施例中的每个子带可以包含相同的 FFT频点个数, 也可以包含不同的
FFT频点个数, 设置 M '取值的一个具体的例子为: M '为 128。
本实施例中的过零率获取子模块 211和频谱子带能量获取子模块 212也可以 通过其它方式获取过零率和频谱子带能量, 本实施例不限制过零率获取子模块 211和频谱子带能量获取子模块 212获取过零率和频谱子带能量的具体实现方 式。
上述第二获取模块 220的结构如附图 2B所示。
图 2B中的第二获取模块 220包括: 更新子模块 221和获取子模块 222。
更新子模块 221 , 用于存储时域参数在历史背景噪声帧中的长时 滑动平均 值和频域参数在历史背景噪声帧中的长时滑动 平均值, 并在判决模块 230将音 频帧判决为背景噪声帧时, 根据该音频帧的时域参数更新其存储的时域参 数在 历史背景噪声帧中的长时滑动平均值, 根据该音频帧的频域参数更新其存储的 频域参数在历史背景噪声帧中的长时滑动平均 值。
在时域参数为过零率的情况下, 更新子模块 221更新时域参数在历史背景 噪声帧中的长时滑动平均值的一个具体的例子 为: 更新子模块 221将过零率在 历史背景噪声帧中的长时滑动平均值^更新为 《'ζα? + (ι_«)'ζα?,其中, " 为更新速度控制参数, ^为过零率在历史背景噪声帧中的长时滑动平 值的 当前值 , 为当前被判决为背景噪声帧的音频帧的过零率 。
在频域参数为频谱子带能量的情况下, 更新子模块 221更新频域参数在历 史背景噪声帧中的长时滑动平均值的一个具体 的例子为: 更新子模块 221将频 谱子带能量在历史背景噪声帧中的长时滑动平 均值 更新为: β'Ε ΥΕ^ 其中, i = , N为子带数量减 1 , ^为更新速度控制参数, A为所述频谱子 带能量在历史背景噪声帧中的长时滑动平均值 的当前值, A为所述音频帧的频 谱子带能量。
上述《和 的取值应小于 1且大于 0。 另夕卜, 上述 "和 ^的取值可以相同, 也可以不相同。 通过设置"和 ^的取值可以实现对 ^和 更新速度的控制,
"和 的取值越接近 1 , 则^和 A的更新速度就越慢, "和 ^的取值越接近 0, 则 ^和 的更新速度就越快。 更新子模块 221可以利用输入信号最初的一帧或多帧来设置 上述^和 A 的初始值, 例如, 更新子模块 221计算输入信号的最初几帧的过零率的平均值 , 更新子模块 221将该平均值作为过零率在历史背景噪声帧中 的长时滑动平均值
ZCR , 更新子模块 221计算输入信号的最初几帧的频谱子带能量的 平均值, 更新 子模块 221将计算出的平均值作为频谱子带能量在历史 背景噪声帧中的长时滑 动平均值 。 另外, 更新子模块 221也可以釆用其它方式设置^和 的初始 值, 例如, 更新子模块 221利用经验值来设置^和 A的初始值等, 本实施例 不限制更新子模块 221设置^和 的初始值的具体实现方式。
获取子模块 222, 用于根据更新子模块 221中存储的两个平均值和第一获取 模块 210获取的时域参数和频域参数获取上述两个距 离。 当时域参数为过零率时, 获取子模块 222可以将过零率偏移量作为时域参 数与时域参数在历史背景噪声帧中的长时滑动 平均值。 获取子模块 222获取过 零率与过零率在历史背景噪声帧中的长时滑动 平均值之间的距离 DZCR的一个 具体的例子为:获取子模块 222根据 DZO?=ZO? -^计算获得 其中, ZCR 为当前待检测的音频帧的过零率, ^为过零率在历史背景噪声帧中的长时滑 动平均值的当前值。
当频域参数为频谱子带能量时, 获取子模块 222可以将当前待检测的音频 帧信噪比作为频域参数与频域参数在历史背景 噪声帧中的长时滑动平均值之 间的第二距离。 获取子模块 222获取当前待检测的音频帧信噪比的一个具体 的 例子为: 获取子模块 222根据当前待检测的音频帧的频谱子带能量和 频谱子带 能量在历史背景噪声帧中的长时滑动平均值的 比值获取各子带的信噪比, 之 后, 获取子模块 222对获取的各子带的信噪比进行线性处理或非 线性处理(即 对各子带的信噪比进行修正), 然后, 获取子模块 222再对上述经过线性或非线 性处理后的各子带的信噪比求和, 从而获得当前待检测的音频帧的信噪比。 本 实施例不限制获取子模块 222获取当前待检测的音频帧信噪比的具体实现 过 程。
需要说明的是, 本实施例中的获取子模块 222可以对各子带的信噪比进行 相同的线性处理或相同的非线性处理, 即所有子带的信噪比均进行了相同的线 性或非线性处理; 本实施例中的获取子模块 222也可以对各子带的信噪比进行 不同的线性处理或不同的非线性处理, 即所有子带的信噪比进行的线性或非线 性处理过程是有区别的。 获取子模块 222对各子带的信噪比进行的线性处理可 以是: 获取子模块 222将各子带的信噪比均乘以线性函数; 获取子模块 222对各 子带的信噪比进行的非线性处理可以是: 获取子模块 222将各子带的信噪比均 乘以非线性函数。 本实施例不限制获取子模块 222对各子带的信噪比进行线性 处理或非线性处理的具体实现过程。 在釆用非线性函数对各子带的信噪比进行非线 性处理的情况下, 获取子模 块 222获取频谱子带能量与频谱子带能量在历史背 景噪声帧中的长时滑动平均 值之间的修正距离 MSSNR的一个具体的例子为: 获取子模块 222根据
N
MSSNR = X MAX(f t ·10· log(^), 0)
-° Ε ' 计算获得 M^N?; 其中, W为当前待检测的音 频帧被划分的子带的数量与 1的差值, 为当前待检测的音频帧的第 i个子带的 频谱子带能量, 为第 i个子带的频谱子带能量在历史背景噪声帧中 长时滑动 平均值的当前值, 为第 i个子带的非线性函数, 可以为子带的降噪系数。 上 10-log(¾
述 即当前待检测的音频帧的第 i个子带的信噪比。 上述 4 ( -10-log(¾ 0)
Ε ' 即是获取子模块 222对子带的信噪比进行修正, 当 为子 4 (^-10-log(¾, 0)
带的降噪系数时, Ε ' 即是获取子模块 222利用降噪系数对子 带的信噪比进行修正。 上述 M N?可以称为修正后的各子带的信噪比之和。 获 取 子 模 块 222 釆 用 的 ^ 的 一 个 具 体 的 例 子 为 :
64, 1) 当 xl≤ ≤;c2
f l = 25, 1) 当为其它值; 其中, ,.= 0 ,……,子带数量减 L 为其它值表 示 i为 0到子带数量减 1之间的除去 ^至 ^取值范围的数值, ^和 ^均大于零且 小于子带数量减 1, 且根据所有子带中的关键子带确定 ^和 ^的取值, 也就是 说, 关键子带(即重要子带)对应 ΜΛ "( /64 , 1} , 非关键子带(即非重要子带) 对应 M/N«/ 25 , 1)。随着子带划分数量的变化,获取子模块 222中设置的 ^和 ^ 的取值也会相应的变化。 获取子模块 222可以根据经验值来确定所有子带中的 关键子带。
在子带数量为 16的情况下, 获取子模块 222釆用的 的一个具体的例子为: J /N(E / 64, 1) 当 2≤ ≤12
f i ~ {MIN(E / 25, 1) 当沩其它值, 其中, i = 0 , , 15 。 上述判决模块 230的结构如附图 2C所示。
图 2C中的判决模块 230包括: 判决多项式子模块 231和判决子模块 232。 判决多项式子模块 231 , 用于存储判决多项式组, 并根据语音激活检测的 工作点、 信号长时信噪比、 背景噪声波动程度和背景噪声电平大小中的一 个或 多个调整判决多项式组中为变量的系数;
判决多项式子模块 231中存储的判决多项式组中包括的判决多项式 数量可 以为 1个, 可以为 2个, 也可以多于 2个。 判决多项式子模块 231中存储的判决多 项式组中包含的 2个判决多项式的一个具体的例子为: MSSNR > a · DZCR + b和 MSSNR > (-c) - DZCR + d ? 其中; a 、 b、 c和 t为系数, 且"、 b、 c和 t中的至少 一个为变量参数, 另外, a 、 b 、 c和 t中的至少一个可以为零, 例如, "和 6 为 零, 或者 c和 为零; MMW ?为频谱子带能量与频谱子带能量在历史背景 声 帧中的长时滑动平均值之间的修正距离, 为过零率与过零率在历史背景 噪声帧中的长时滑动平均值之间的距离。
上述 "、 b、 c和 t可以分另 ij对应一个三维表, 即"、 b、 c和 t总共对应四 个三维表, 这四个三维表可以均存储在判决多项式子模块 231中, 判决多项式 子模块 231根据当前检测到的语音激活检测的工作点、 信号长时信噪比和背景 噪声波动程度在四个三维表中查找, 判决多项式子模块 231可以将查找到结果 再与背景噪声电平大小进行运算, 从而可以确定出"、 b、 c和 J的具体取值。
判决多项式子模块 231中存储的三维表的一个具体的例子为: 设定 VAD系 统的有两种工作状态, 这两种工作状态由 op=0和 op=l来表示, 其中的 op代表语 音激活检测的工作点; 将输入信号的信号长时信噪比 lsnr划分为高信噪比、 中 信噪比和低信噪比三类, 这三类分别由 lsnr=2、 lsnr=l和 lsnr=0来表示; 将背景 噪声波动程度 bgsta也划分为三类,按照背景噪声波动程度由 到低的顺序将这 三类背景噪声波动程度表示为 bgsta=2、 bgsta=l和 bgsta=0。 在上述设置的情况 下, 判决多项式子模块 231针对"可以建立起一个三维表, 针对 6 可以建立起一 个三维表, 针对 c可以建立起一个三维表, 针对 可以建立起一个三维表。
在判决多项式子模块 231进行查表时, 可以先计算出"、 b、 c和 J分别对应 的索引值, 之后, 判决多项式子模块 231根据该索引值即可从四个三维表中获 得对应的数值。
判决多项式子模块 231中也可以存储其它判决多项式, 例如, 判决多项式 子模块 231中存储的多项式包括 MSSNR>(a+b*DZCRn)m+c, 其中, a、 6和 c为 系数, 且"、 和 c中的至少一个为变量, a、 6和 c中的至少一个可以为零, m 和 n为常数, 为频谱子带能量与频谱子带能量在历史背景噪 声帧中的长 时滑动平均值之间的修正距离, 为过零率与过零率在历史背景噪声帧中 的长时滑动平均值之间的距离。 本实施例不限制判决多项式子模块 231中存储 的判决多项式的具体形式。
判决子模块 232, 用于根据判决多项式子模块 231中存储的判决多项式组判 决当前带检测的音频帧为前景语音帧还是为背 景噪声帧。
在判决多项式子模块 231中存储的两个判决多项式为: MSSNR > a · DZCR - b 和 Μ^^≥ (- ) · )ΖΟ? + ί的情况下, 判决子模块 232 的一个具体判决过程为: 如 果第二获取模块 220或获取子模块 222计算获得的 MSSNR和 能够使上述两 个判决多项式中的任一个判决多项式满足, 则判决子模块 232将当前待检测的 音频帧判决为前景语音帧, 否则, 判决子模块 232将当前待检测的音频帧判决 为背景噪声帧。
从上述实施例二的描述可知, 实施例二中的判决模块 230通过釆用系数为 变量的判决多项式组,且变量随语音激活检测 工作方式和 /或输入信号特征而变 化, 使判决模块 230中判决准则具有根据语音激活检测工作方式 和 /或输入信号 特征进行自适应调节的能力, 提高了语音激活检测的性能; 在实施例二中的第 一获取模块 210釆用频谱子带能量的情况下, 由于第二获取模块 220获取的频谱 子带能量与频谱子带能量在历史背景噪声帧中 的长时滑动平均值之间的距离 具有良好的分类性能, 因此, 判决模块 230能够更加准确的判断出待检测的音 频帧为前景语音帧还是为背景噪声帧, 进一步提高了语音激活检测装置的检测 性能; 在实施例二中的判决模块 230釆用由 2个判决多项式组成的判决准则的情 况下, 不但没有过多的增加判决准则设计复杂度, 同时还能够保证了判决准则 的稳定性; 从而实施例二提高了语音激活检测的整体性能 。
实施例三、 电子设备。 该电子设备的结构如附图 3所示。
图 3中的电子设备包括收发装置 300和语音激活检测装置 310。
收发装置 300用于接收或发送音频信号。
语音激活检测装置 310可以从收发装置 300接收的音频信号中获取当前带 检测的音频帧, 语音激活检测装置 310的技术方案可以结合参考实施例二中的 技术方案, 在此就不再对其进行赘述了。
本发明实施例的电子设备可以是手机、 视频处理设备、 计算机、 以及服务 器等。
本发明实施例提供的电子设备, 通过釆用至少一个系数为变量的判决多项 式, 且使变量随语音激活检测工作方式或输入信号 特征而变化, 使判决准则具 有自适应调节能力, 从而提高了语音激活检测的性能。
通过以上的实施方式的描述, 本领域的技术人员可以清楚地了解到本发明 可借助软件加必需的硬件平台的方式来实现, 当然也可以全部通过硬件来实 施。 基于这样的理解, 本发明的技术方案对背景技术做出贡献的全部 或者部分 可以以软件产品的形式体现出来, 该计算机软件产品可以存储在存储介质中, 如 ROM/RAM、 磁碟、 光盘等, 包括若干指令用以使得一台计算机设备(可以 是个人计算机, 服务器, 或者网络设备等)执行本发明各个实施例或者 实施例 的某些部分所述的方法。
Next Patent: SELF-SUCTION WATER SUPPLYING FLOWERPOT
