Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD,DEVICE AND CODER FOR VOICE ACTIVITY DETECTION
Document Type and Number:
WIPO Patent Application WO/2011/044842
Kind Code:
A1
Abstract:
A method, a device and a coder for voice activity detection are provided. The method for voice activity detection includes: obtaining the fluctuating characteristic values for representing the fluctuating value of the background noise, when the input signal is the background noise (101); self-adaptively adjusting the parameters related to the judgment criterion of voice activity detection VAD according to the fluctuating characteristic values (102); VAD judging the input signal using the self-adaptively adjusted parameters related to the judgment criterion (103).

Inventors:
WANG, Zhe (Huawei Administration Building, Bantian Longgan, Shenzhen Guangdong 9, 518129, CN)
王喆 (中国广东省深圳市龙岗区坂田华为总部办公楼, Guangdong 9, 518129, CN)
Application Number:
CN2010/077726
Publication Date:
April 21, 2011
Filing Date:
October 14, 2010
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
HUAWEI TECHNOLOGIES CO., LTD. (Huawei Administration Building, Bantian Longgan, Shenzhen Guangdong 9, 518129, CN)
华为技术有限公司 (中国广东省深圳市龙岗区坂田华为总部办公楼, Guangdong 9, 518129, CN)
WANG, Zhe (Huawei Administration Building, Bantian Longgan, Shenzhen Guangdong 9, 518129, CN)
International Classes:
G10L11/02; G10L19/00; G10L21/02
Download PDF:
Claims:
权 利 要 求 书

1、 一种语音激活检测方法, 其特征在于, 包括:

输入信号为背景噪声时, 获取所述背景噪声的波动特征值, 该波动特 征值用于表示所述背景噪声的波动大小;

根据所述波动特征值, 对语音激活检测 VAD的判决准则相关参数进 行自适应调整;

利用自适应调整后的判决准则相关参数, 对所述输入信号进行 VAD 判决。

2、 根据权利要求 1 所述的方法, 其特征在于, 所述判决准则相关参 数包括: 主判决门限、 拖尾触发条件、 拖尾长度与背景噪声相关长时参数 的更新速率中的任意一种或多种。

3、 根据权利要求 2 所述的方法, 其特征在于, 所述判决准则相关参 数包括所述主判决门限时, 根据所述波动特征值, 对 VAD的判决准则相 关参数进行自适应调整包括:

查询波动特征值与判决门限噪声波动偏移量 thr_bias_noise 之间的对 应关系, 获取与所述背景噪声的波动特征值对应的判决门限噪声波动偏移 量 thr_bias_noise, 所述判决门限噪声波动偏移量 thr_bias_noise用于表示 不同波动大小的背景噪声下门限的偏移值;

才艮据公式 v t— - thr_b ias_noi e, 菝取主判决门限 vad_thr, 其中, f snr)为当前背景噪声帧的信噪比 snr对应的基准门限, f2(snr)为当前背景噪声帧的信噪比 snr 对应的判决门限噪声波动偏移量 thr bias noise的力口权系数;

将所述判决准则相关参数中的主判决门限更新为获取到的所述主判 决门限 vad_thr。

4、 根据权利要求 2 所述的方法, 其特征在于, 所述判决准则相关参 数包括所述拖尾触发条件时, 根据所述波动特征值, 对 VAD的判决准则 相关参数进行自适应调整包括:

从连续语音帧长度噪声波动映射表 burst_cnt_noise_tbl[]中查询与所述 背 景 噪 声 的 波 动 特 征 值 对 应 的 连 续 语 音 帧 长 度 bwrW_cW_«o e_tbl [波动特征值], 从确定语音门 限噪声波动偏移表 burst_thr_noise_tbl[]中查询与所述背景噪声的波动特征值对应的确定语音 门限 bwrW_ ^r_ wo^^ tbl彼动特征值;

才艮据公式 M = f3 (snr) + /4 s«r) '½rW— c«t— tbl [波动特征值], 菝取连 续语音帧的数量门限 M, 根据公式

burst— thr = f5 (snr) + f6 snr) - burst _ thr _ noise _ tbl[¾¾jj iiE{t] ,菝取确定语音帧 门限 burst_thr, 其中, f3(snr)为当前背景噪声帧的信噪比 snr对应的基准数 量门限, f4(snr)为当前背景噪声帧的信噪比 snr 对应的连续语音帧长度 系数, f5(snr)为当前背景噪声帧的信噪 比 snr对应的基准语音帧门限, f6(snr)为当前背景噪声帧的信噪比 snr对应 的确定语音门限 burst thr noise Jb/ [波动特征值]的加权系数;

根据获取的所述连续语音帧的数量门限 M 与所述确定语音帧门限 burst thr更新所述判决准则相关参数中的拖尾触发条件。

5、 根据权利要求 4所述的方法, 其特征在于, 所述连续语音帧的数 量门限 M与所述确定语音帧门限 burst_thr随着所述背景噪声的波动特征 值的减小而增大。

6、 根据权利要求 2 所述的方法, 其特征在于, 所述判决准则相关参 数包括所述拖尾长度时, 根据所述波动特征值, 对 VAD的判决准则相关 参数进行自适应调整包括:

从拖尾长度噪声波动映射表 hangover_noise_tbl[]中查询与所述背景噪 声的波动特征值对应的拖尾长度 /? «gover— / [波动特征值];

根据公式 hangover _ max = f7 (snr) + f8 (snr) - hangover _ nosie _ tb [波动特征值], 菝取拖尾 计数器的重置最大值 hangover_max, 其中, f7(snr)为当前背景噪声帧的信 噪比 snr对应的基准重置值, f8(snr)为当前背景噪声帧的信噪比 snr对应的 拖尾长度 hangover _ nosie _ / [波动特征值]的加权系数; 将所述判决准则相关参数中的拖尾长度更新为获取到的所述拖尾计 数器的重置最大值 hangover—max。

7、 根据权利要求 6所述的方法, 其特征在于, 所述拖尾计数器的重 置最大值 hangover_max随着所述得到的波动特征值的增大而增大。

8、 根据权利要求 2至 7任意一项所述的方法, 其特征在于, 所述波 动特征值具体为白化后背景噪声谱熵的长时滑动平均值 hb_noise_mov 的 量化值 idx;

输入信号为背景噪声时, 获取所述背景噪声的波动特征值包括: 接收所述输入信号的当前帧;

将所述输入信号的当前帧在频域上划分为 N个子带, N为大于 1的整 数, 并分别计算所述 N个子带的能量 enrg(i), i=0 , 1, ......, N-1 ;

根据 VAD的判决准则, 判决所述当前帧是否为背景噪声帧; 在所述当前帧为背景噪声帧时, 根据公式

enrg_ n{i) = a · enrg_ + (l - a) - enrg(i), 计算所述背景噪声帧分别在 N 个子带上的长时滑动平均能量 enrg_n(i), 其中, α为用于控制所述背景噪 声帧分别在 Ν 个子带上的长时滑动平均能量 enrg_n(i)更新速率的遗忘系 数, e«rg— «为所述背景噪声帧的能量; 根据公式 enrg— w(i) = enrg(i) I enrg— n(i), 对当前背景噪声帧的频 i脊 进行白化, 得到白化后背景噪声在第 i个子带上的能量 rg_ H ) ;

N-1

根据公式 = - Z iogA, 获取所述白化后背景噪声谱熵 hb, 其中, N-l

pt = enrg_w(i)/ ^ enrg_w(i);

i=0

根据公式 ^— "o se— mov = β · hb—noise—mov + β、 · hb , 菝取所述白 化后背景噪声谱熵的长时滑动平均值 hb_noise_mov, 其中, β为控制所述 白化后背景噪声谱熵的长时滑动平均值 hb_noise_mov 更新速率的遗忘因 子;

根据公式 i x = |( 2b _ noise _ mov - A) / B|, 对所述白化后背景噪声 普; ¾的 长时滑动平均值 hb_noise_mov进行量化, 得到量化值 idx, 其中, A、 B 分别为预设数值。

9、 根据权利要求 8 所述的方法, 其特征在于, 所述背景噪声相关长 时参数的更新速率包括所述背景噪声的长时滑动平均能量 enrg_n(i)的更 新速率;

根据所述波动特征值,对 VAD的判决准则相关参数进行自适应调整包 括: 查询背景噪声更新速率表 alpha_tbl[], 获取与所述背景噪声的量化值 idx对应的所述长时滑动平均能量 enrg_n(i)更新速率的遗忘系数 α;以获取 到的所述遗忘系数 α作为控制所述背景噪声帧分别在 Ν个子带上的长时滑 动平均能量 enrg_n(i)更新速率的遗忘系数; 和 /或

所述背景噪声相关长时参数的更新速率包括白化后背景噪声谱熵的 长时滑动平均值 hb noise mov的更新速率;

根据所述波动特征值, 对 VAD的判决准则相关参数进行自适应调整 包括: 查询背景噪声波动性更新速率表 beta_tbl[], 获取与所述背景噪声的 量化值 idx对应的所述长时滑动平均值 hb_noise_mov更新速率的遗忘因子 β; 以获取到的所述遗忘因子 β作为控制所述白化后背景噪声谱熵的长时 滑动平均值 hb_noise_mov更新速率的遗忘因子。

10、 根据权利要求 9所述的方法, 其特征在于, 所述长时滑动平均能 量 enrg_n(i)更新速率的遗忘系数 α随着所述得到的波动特征值的减小而减 小; 所述长时滑动平均值 hb_noise_mov更新速率的遗忘因子 β随着所述 得到的波动特征值的减小而增大。

1 1、 根据权利要求 8所述的方法, 其特征在于, 还包括:

根据输入信号中背景噪声的电平, 动态调整所述主判决门限、 所述拖 尾长度与所述拖尾触发条件中的任意一个或多个判决准则相关参数。

12、 根据权利要求 2至 7任意一项所述的方法, 其特征在于, 所述波 动特征值具体为背景噪声帧信噪比的长时滑动平均值 SNRn_mo V;

输入信号为背景噪声时, 获取所述背景噪声的波动特征值包括: 接收所述输入信号的当前帧;

根据 VAD的判决准则, 判决所述当前帧是否为背景噪声帧; 在所述当前帧为背景噪声帧时, 根据公式

snrn _ mov = k - snrn _ mov + {\ - k) - snr, 菝取背景噪声帧信噪比的长时滑动平 均值 snrn_mov, 其中, snr为当前背景噪声帧的信噪比, k为控制所述背景 噪声帧信噪比的长时滑动平均值 s nrn_ mo V更新速率的遗忘因子。

13、 根据权利要求 12 所述的方法, 其特征在于, 所述背景噪声相关 长时参数的更新速率包括所述长时滑动平均值 snrn_mov的更新速率。

14、 根据权利要求 13 所述的方法, 其特征在于, 根据所述波动特征 值, 对 VAD的判决准则相关参数进行自适应调整包括: 在当前背景噪声 帧的信噪比 snr大于最后 n个背景噪声帧的信噪比的平均值 snrn时, 和在 当前背景噪声帧的信噪比 snr小于最后 n个背景噪声帧的信噪比的平均值 snrn时, 为控制所述背景噪声帧信噪比的长时滑动平均值 snrn_mo V更新速 率的遗忘因子 k取不同的数值。

15、 根据权利要求 14所述的方法, 其特征在于, 还包括:

根据输入信号中背景噪声的电平, 动态调整所述主判决门限、 所述拖 尾长度与所述拖尾触发条件中的任意一个或多个判决准则相关参数。

16、 根据权利要求 2、 4、 5、 6或 7所述的方法, 其特征在于, 所述 波动特征值具体为背景噪声帧的修正分段信噪比 MSSNR的长时滑动平均 值 fluXbgd;

输入信号为背景噪声时, 获取所述背景噪声的波动特征值包括: 接收所述输入信号的当前帧;

根据 VAD的判决准则, 判决所述当前帧是否为背景噪声帧; 在所述当前帧为背景噪声帧时, 将当前背景噪声帧的快速傅立叶变换 FFT频谱划分为 H个子带, H为大于 1的整数, 并根据公式

H 、 Ρ]( Λ∑ Sj^\-p)Ebmd oId{l) , 分别计算 i个子带的能量 Eband(i), i=0, 1, ......, H-l, 其中, l(i)与 h(i)分别表示第 i 个子带中频率最低的

FFT频点与频率最高的 FFT频点, 表示所述 FFT频谱上第 j个频点的能 量, Eband―。 ld(i)表示前一个背景噪声帧中第 i个子带的能量, P为预设常数; 根据公式 i) = 101og(Ew( /Ew_„( ),分别计算当前背景噪声帧中第 i 个子带的信噪比 snr(i), 为背景噪声的长时滑动平均值, 根据公式

^ ) = q ·¾^) +(1 ~q) -Eb^) ' 使用前一个背景噪声帧中第 i个子带的 能量更新背景噪声的长时滑动平均值^ ^获得, q为预设常数;

ΜΆΧ[ΜΙΝ[ 、 ,1],0] , iG第一集合

才艮据公式 ∞rW = , 分别对当前

MAX[MIN[^^, 1],0] , 第二集合 背景噪声帧中第 i个子带的信噪比 snr(i)进行修正, 其中, msnr(i)为修正后 第 i个子带的信噪比, C1与 C2为大于零的预设实常数, 第一集合与第二 集合中数值的构成集合 [0, H-1]; 根据公式 MSSNR = ^wsnr(i), 获取当前背景噪声帧的修正分段信噪比 MSSNR;

根据公式 fluxbgd = r · £luxb , +(l-r)- MSSNR, 计算当前背景噪声帧的修正 分段信噪比 MSSNR的长时滑动平均值 fluxbgd, 其中, r为用于控制所述当 前背景噪声帧的修正分段信噪比 M S SNR的长时滑动平均值 fluxbgd更新速 率的遗忘系数。

17、 根据权利要求 16所述的方法, 其特征在于, 在从输入信号中第 —帧开始的预设初始期内且 M A«>i¾ rf时, r=0.955; 在从输入信号中第 一帧开始的预设初始期内且 Μ — ^Αζ ^时, r=0.995; 在从输入信号中第 一帧开始的预设初始期之后且 M AW ^^时, r=0.997; 在从输入信号中 第一帧开始的预设初始期之后且 < Quxbgd时, r=0.9997。

18、 根据权利要求 16所述的方法, 其特征在于, 所述判决准则相关 参数包括所述主判决门限时, 根据所述波动特征值, 对 VAD的判决准则 相关参数进行自适应调整包括:

查询长时滑动平均值与判决门限噪声波动偏移量 thr_bias_noise 之间 的对应关系, 获取与所述背景噪声帧的修正分段信噪比 MSSNR的长时滑 动平均值 fluxed对应的判决门限噪声波动偏移量 thr_bias_noise,所述判决 门限噪声波动偏移量 thr_bias_noise 用于表示不同波动大小的背景噪声下 门限的偏移值;

根据公式 v t— /^= fx sni) + f2 (^«r) -thr_b ias_noi e, 菝取主判决门限 vad_thr, 其中, f snr)为当前背景噪声帧的信噪比 snr对应的基准门限, f2(snr)为当前背景噪声帧的信噪比 snr 对应的判决门限噪声波动偏移量 thr bias noise的力口权系数;

将所述判决准则相关参数中的主判决门限更新为获取到的所述主判 决门限 vad_thr。

19、 根据权利要求 16所述的方法, 其特征在于, 所述判决准则相关 参数包括所述主判决门限时, 根据所述波动特征值, 对 VAD的判决准则 相关参数进行自适应调整包括: 获取所述当前背景噪声帧的修正分段信噪比 MSSNR的长时滑动平均 值 fluxbgd对应的波动性级别 flux_idx, 以及所述当前背景噪声帧的信噪比 snr对应的信噪比级别 snr_idx;

查询同时与所述波动性级别 flux_idx及所述信噪比级别 snr_idx对应 的主判决门限 thr _ tbl[snr _ idx {flux _ idx;

将所述判决准则相关参数中的主判决门限更新为所述主判决门限 thr— tt l snr flux 。

20、 根据权利要求 19 所述的方法, 其特征在于, 还包括: 获取对所 述输入信号进行 VAD判决的 VAD装置当前的工作性能对应的判决倾向 op idx;

查询同时与所述波动性级别 flux_idx及所述信噪比级别 snr_idx对应 的主判决门限 thr _ tbl[snr _ Jdx] [ ux _ 具体为: 查询同时与所述波动性 级别 flux_idx、 所述信噪比级别 snr_idx及所述判决倾向 op_idx对应的主 判决门限 vad _thr = thr _ tbl[snr _ x] [Bux _ x] [op _ x];

将所述判决准则相关参数中的主判决门限更新为所述主判决门限 Γ _ /[5ΏΤ _ [ _ 具体为: 将所述判决准则相关参数中的主判决 门限更新为所述主判决门限 vad—thr thr—tbl\snr—idx\、ilux—idx\ op—idx]。

21、 根据权利要求 16所述的方法, 其特征在于, 还包括:

根据输入信号中背景噪声的电平, 动态调整所述主判决门限、 所述拖 尾长度与所述拖尾触发条件中的任意一个或多个判决准则相关参数。

22、 一种语音激活检测装置, 其特征在于, 包括:

获取模块, 用于在输入信号为背景噪声时, 获取所述背景噪声的波动 特征值, 该波动特征值用于表示所述背景噪声的波动大小;

调整模块, 用于根据所述波动特征值, 对 VAD的判决准则相关参数 进行自适应调整;

判决模块, 用于利用自适应调整后的判决准则相关参数, 对所述输入 信号进行 VAD判决。

23、 根据权利要求 22所述的装置, 其特征在于, 还包括:

存储模块, 用于存储所述 VAD的判决准则相关参数, 所述判决准则 相关参数包括: 主判决门限、 拖尾触发条件、 拖尾长度与背景噪声相关长 时参数的更新速率中的任意一种或多种。

24、 根据权利要求 23 所述的装置, 其特征在于, 所述判决准则相关 参数包括所述主判决门限时, 所述调整模块包括:

第一存储单元, 用于存储波动特征值与判决 I' Ί限噪声波动偏移量 thr bias noise之间的对应关系;

第一查询单元, 用于查询波动特征值与判决门限噪声波动偏移量 thr_bias_noise之间的对应关系,获取与所述背景噪声的波动特征值对应的 判决门限噪声波动偏移量 thr_bias_noise, 所述判决门限噪声波动偏移量 thr_bias_noise用于表示不同波动大小的背景噪声下门限的偏移值;

第一获取单元, 用于根据公式

vad _ thr - j (snr) + f2 (snr) - thr—bias—noise, 茨取所述主判决门限 vad thr, 其中, f snr)为当前背景噪声帧的信噪比 snr对应的基准门限, f2(snr)为当 前背景噪声帧的信噪比 snr对应的判决门限噪声波动偏移量 thr_bias_noise 的加权系数;

第一更新单元, 用于将所述判决准则相关参数中的主判决门限更新为 所述第一获取模块获取到的所述主判决门限 vad_thr。

25、 根据权利要求 23 所述的装置, 其特征在于, 所述判决准则相关 参数包括所述拖尾触发条件时, 所述调整模块包括:

第二存储单元, 用于存储连续语音帧长度噪声波动映射表 burst_cnt_noise_tbl[]与确定语音门限噪声波动偏移表 burst_thr_noise_tbl[], 所述连续语音帧长度噪声波动映射表 burst_cnt_noise_tbl[]中包括波动特征 值与连续语音帧长度之间的对应关系, 所述确定语音门限噪声波动偏移表 burst_thr_noise_tbl[]中包括波动特征值与确定语音门限之间的对应关系; 第二查询单元, 用于从连续语音帧长度噪声波动映射表

burst_cnt_noise_tbl[]中查询与所述背景噪声的波动特征值对应的连续语音 帧长度 burst— cnt— noise tbl彼动特征值;, 从确定语音门限噪声波动偏移表 burst_thr_noise_tbl[]中查询与所述背景噪声的波动特征值对应的确定语音 Π burst _ thr— tbl敉动特征值;

第二获取单元, 用于根据公式

M = f3 (snr) + f4 (snr) · burst _ cnt _ noise _ tbl [波动特征值], 菝取连续语音帧的数 量门限 M,才艮据 burst _ thr = f5 (snr) + f6 (snr) · burst _ thr _ noise _ tbl [波动特征值], 获取确定语音帧门限 burst_thr, 其中, f3(snr)为当前背景噪声帧的信噪比 snr对应的基准数量门限, f4(snr)为当前背景噪声帧的信噪比 snr对应的连 续语音帧长度 burst _ cnt _ noise _ tbl [波动特征值]的加权系数, f5 (snr)为当前 背景噪声帧的信噪比 snr对应的基准语音帧门限, f6(snr)为当前背景噪声帧 的信噪比 snr对应的确定语音门限 bwr^_ thr— wo ^ tbl敉动特征值的加 权系数;

第二更新单元, 用于根据所述第二获取单元获取的所述连续语音帧的 数量门限 M与所述确定语音帧门限 burst_thr更新所述判决准则相关参数 中的拖尾触发条件。

26、 根据权利要求 23 所述的装置, 其特征在于, 所述判决准则相关 参数包括所述拖尾长度时, 所述调整模块包括:

第三存储单元, 用于存储拖尾长度噪声波动映射表

hangover_noise_tbl[] , 该拖尾长度噪声波动映射表 hangover_noise_tbl[]中 包括波动特征值与拖尾长度之间的对应关系;

第三查询单元, 用于从拖尾长度噪声波动映射表 hangover_noise_tbl[] 中查询与所述背景噪声的波动特征值对应的拖尾长度 hangover _ nosie _ Zb/ [波动特征值];

第三获取单元, 用于根据公式

hangover _ max = f7 (snr) + fs (snr) · hangover _ nosie _ / [波动特征值], 茨取拖尾计 数器的重置最大值 hangover_max, 其中, f7(snr)为当前背景噪声帧的信噪 比 snr对应的基准重置值, f8(snr)为当前背景噪声帧的信噪比 snr对应的拖 尾长度 hangover _ nosie _ Zb/ [波动特征值]的力口权系数;

第三更新单元, 用于将所述判决准则相关参数中的拖尾长度更新为所 述第三获取模块获取到的计算出的所述拖尾计数器的重置最大值 hangover—max。

27、 根据权利要求 23 所述的装置, 其特征在于, 所述波动特征值具 体为白化后背景噪声谱熵的长时滑动平均值 hb_noise_mov的量化值 idx; 所述获取模块包括:

接收单元, 用于接收所述输入信号的当前帧;

第一划分处理单元, 用于将所述输入信号的当前帧在频域上划分为 N 个子带, N为大于 1的整数,并分别计算所述 N个子带的能量 enrg(i),i=0, 1, , N- 1 ;

判决单元, 用于根据 VAD的判决准则, 判决所述当前帧是否为背景 噪声帧;

第一计算单元, 用于根据所述判决单元的判决结果, 在所述当前帧为 背景噪声帧时, 根据公式 enrg— η(ί) = a · enrg_ + (l - a) - enrg(i), 计算 所述背景噪声帧分别在 N个子带上的长时滑动平均能量 enrg_n(i), 其中, α 为用于控制所述背景噪声帧分别在 Ν 个子带上的长时滑动平均能量 enrg n(i)更新速率的遗忘系数, enrg— «为所述背景噪声帧的能量;

白化处理单元, 用于根据公式 e"rg— ¼ ) = £?"rg ')/£?"rg— 对当 前背景噪声帧的频谱进行白化, 得到白化后背景噪声在第 i个子带上的能 量 enrg _ w i);

N— 1

第四获取单元, 用于根据公式 ) = - log , 获取所述白化后背

N-1

景噪声谱熵 hb, 其中, Pi = enrg_w(i)/Yj enrg_w(i);

i=0

第五获取单元, 用于根据公式

hb noise mov = β - hb noise mov + (\ - β) - hb , 菝取所述白化后背景噪声 谱熵的长时滑动平均值 hb_noise_mov, 其中, β为控制所述白化后背景噪 声谱熵的长时滑动平均值 hb_noise_mov更新速率的遗忘因子;

量化处理单元, 用于根据公式 ^ = |( ^ _ «0 «? _ (^ -入)/ 8|, 对所述白 化后背景噪声谱熵的长时滑动平均值 hb_noise_mov 进行量化, 得到量化 值 idx, 其中, A、 B分别为预设数值。

28、 根据权利要求 27 所述的装置, 其特征在于, 所述背景噪声相关 长时参数的更新速率包括所述背景噪声的长时滑动平均能量 enrg_n(i)的 更新速率; 所述调整模块包括:

第四存储单元, 用于存储背景噪声更新速率表 alpha_tbl[], 该背景噪 声更新速率表 alpha_tbl[]包括量化值与长时滑动平均能量 enrg_n(i)更新速 率的遗忘系数之间的对应关系;

第四查询单元, 用于查询背景噪声更新速率表 alpha_tbl[], 获取与所 述背景噪声的量化值 idx对应的所述长时滑动平均能量 enrg_n(i)更新速率 的遗忘系数 α;

第四更新单元, 以所述第四查询单元获取到的所述遗忘系数 α作为控 制所述背景噪声帧分别在 Ν个子带上的长时滑动平均能量 enrg_n(i)更新速 率的遗忘系数; 和 /或

所述背景噪声相关长时参数的更新速率包括白化后背景噪声谱熵的 长时滑动平均值 hb_noise_mov的更新速率; 所述调整模块包括: 第五存储单元, 用于存储背景噪声波动性更新速率表 beta_tbl[], 该背 景噪声波动性更新速率表 b e ta_ tb 1 [ ]包括量化值与长时滑动平均值 hb noise mov更新速率的遗忘因子之间的对应关系;

第五查询单元, 用于查询背景噪声波动性更新速率表 beta_tbl[], 获取 与所述背景噪声的量化值 idx对应的所述长时滑动平均值 hb_noise_mo V更 新速率的遗忘因子 β ;

第五更新单元, 用于以所述第五查询单元获取到的所述遗忘因子 β作 为控制所述白化后背景噪声谱熵的长时滑动平均值 hb_noise_mov 更新速 率的遗忘因子。

29、 根据权利要求 23 所述的装置, 其特征在于, 所述波动特征值具 体为背景噪声帧信噪比的长时滑动平均值 s nrn_ mov;

所述获取模块包括:

接收单元, 用于接收所述输入信号的当前帧;

判决单元, 用于根据 VAD的判决准则, 判决所述当前帧是否为背景 噪声帧;

第六获取单元, 用于根据所述判决单元的判决结果, 在所述当前帧为 背景噪声帧时, 根据公式 《/ _ (^ = ^«/ _wov + (1— 〉 , 菝取背景噪 声帧信噪比的长时滑动平均值 snrn_mov, 其中, snr为当前背景噪声帧的 信噪比, k为控制所述背景噪声帧信噪比的长时滑动平均值 s nrn_ mo V更新 速率的遗忘因子。

30、 根据权利要求 29 所述的装置, 其特征在于, 所述背景噪声相关 长时参数的更新速率包括所述长时滑动平均值 snrn_mov的更新速率;所述 调整模块包括:

控制单元, 用于在当前背景噪声帧的信噪比 snr大于最后 n个背景噪 声帧的信噪比的平均值 snrn时, 和在当前背景噪声帧的信噪比 snr小于最 后 n个背景噪声帧的信噪比的平均值 s nrn时, 为控制所述背景噪声帧信噪 比的长时滑动平均值 snrn_mov更新速率的遗忘因子 k取不同的数值。

31、 根据权利要求 23 所述的装置, 其特征在于, 所述波动特征值具 体为背景噪声帧的修正分段信噪比 MSSNR的长时滑动平均值 fluxbgd; 所述获取模块包括:

接收单元, 用于接收所述输入信号的当前帧;

判决单元, 用于根据 VAD的判决准则, 判决所述当前帧是否为背景 噪声帧;

第二划分处理单元, 用于根据所述判决单元的判决结果, 在所述当前 帧为背景噪声帧时,将当前背景噪声帧的快速傅立叶变换 FFT频谱划分为 H个子带, H为大于 1的整数, 并根据公式

H 、 PuΛ∑ Sj + il -p)Ebmd oId(T) , 分别计算 i个子带的能量 Eband(i), i=0 , 1, ......, H-l , 其中, l(i)与 h(i)分别表示第 i 个子带中频率最低的

FFT频点与频率最高的 FFT频点, 表示所述 FFT频谱上第 j个频点的能 量, Eband―。 ld(i)表示前一个背景噪声帧中第 i个子带的能量。 P为预设常数; 第二计算单元, 用于根据公式^ ^ .^^^l-^ ^W , 使用 前一个背景噪声帧中第 i 个子带的能量更新背景噪声的长时滑动平均值 ^ Τ ^ 其中, q为预设常数;

第三计算单元, 用于根据公式 ^ ) = ioi0g(Eted(o/^^), 分别计算 当前背景噪声帧中第 i个子带的信噪比 snr(i);

修正单元, 用于根据公式

ΜΆΧ[ΜΤΝ[^^ , 1], 0] , 第一集合

msnr(j) = C1 , 分别对当前背景噪声帧中

MAX[MIN[ r^ ,1],0] , 第二集合 第 i个子带的信噪比 snr(i)进行修正, 其中, msnr(i)为修正后第 i个子带的 构成集合 [0, H-l] ; 第七获取单元, 用于根据公式 M¾A« = 2^r( ), 获取当前背景噪声 帧的修正分段信噪比 MSSNR;

第四计算单元, 用于根据公式 flUXbgd = r . flUxbgd + (l - r) . MSSNR, 计算 当前背景噪声帧的修正分段信噪比 MSSNR的长时滑动平均值 fluxbgd, 其 中, r为用于控制所述当前背景噪声帧的修正分段信噪比 MSSNR的长时 滑动平均值 fluxbgd更新速率的遗忘系数。

32、 根据权利要求 31 所述的装置, 其特征在于, 所述判决准则相关 参数包括所述主判决门限时, 所述调整模块包括:

第一存储单元, 用于存储波动特征值与判决门限噪声波动偏移量 thr bias noise之间的对应关系;

第一查询单元, 用于查询波动特征值与判决门限噪声波动偏移量 thr_bias_noise之间的对应关系,获取与所述背景噪声的波动特征值对应的 判决门限噪声波动偏移量 thr_bias_noise, 所述判决门限噪声波动偏移量 thr_bias_noise用于表示不同波动大小的背景噪声下门限的偏移值;

第一获取单元, 用于根据公式

vad _ thr - fx (snr) + f2 (snr) · thr—bias—noise, 茨取所述主判决门限 vad thr, 其中, f snr)为当前背景噪声帧的信噪比 snr对应的基准门限, f2(snr)为当 前背景噪声帧的信噪比 snr对应的判决门限噪声波动偏移量 thr_bias_noise 的加权系数;

第一更新单元, 用于将所述判决准则相关参数中的主判决门限更新为 所述第一获取模块获取到的所述主判决门限 vad_thr。

33、 根据权利要求 31 所述的装置, 其特征在于, 所述判决准则相关 参数包括所述主判决门限时, 所述调整模块包括:

第六存储单元, 用于存储主判决门限表 thr_tbl[], 该主判决门限表 thr_tbl[]包括波动性级别、 信噪比级别与主判决门限 vad_thr之间的对应关 系;

第八获取单元, 用于获取所述当前背景噪声帧的修正分段信噪比 MSSNR的长时滑动平均值 fluxbgd对应的波动性级别 flux_idx,以及所述当 前背景噪声帧的信噪比 snr对应的信噪比级别 snrjdx;

第六查询单元, 用于从所述主判决门限表 thr_tbl[]中查询同时与所述 波动性级别 flux_idx 及所述信噪比级别 snrjdx 对应的主判决门限 thr _ [£ux _ idx\;

第六更新单元, 用于将所述判决准则相关参数中的主判决门限更新为 所述第六查询单元查询到的所述主判决门限 thr— tbl、snr—idx、ilux—idx 。

34、 根据权利要求 33 所述的装置, 其特征在于, 所述主判决门限表 thr_tbl[]具体包括波动性级别、信噪比级别、性能级别与主判决门限 vad_thr 之间的对应关系;

所述第八获取单元还用于获取进行 VAD判决的 VAD装置当前的工作 性能对应的判决倾向 op_idx;

所述第六查询单元具体用于从所述主判决门限表 thr_tbl[]中查询同时 与所述波动性级别 flux_idx、 所述信噪比级别 snrjdx 及所述判决倾向 Op idx对应的主判决门限 vad—th = thr _tbl[snr _idx\; 所述第六更新单元具体用于将所述判决准则相关参数中的主判决 I' 1 限更新 为 所 述第 六 查询 单元 查询 到 的 所 述主 判 决 门 限 vad _ thr = thr _ tbl[snr _ idx\ [Bux _ idx\ [op _ idx\。

35、 根据权利要求 23至 34任意一项所述的装置, 其特征在于, 还包 括:

调整模块, 用于根据输入信号中背景噪声的电平, 动态调整所述主判 决门限、 所述拖尾长度与所述拖尾触发条件中的任意一个或多个判决准则 相关参数。 36、 一种编码器, 其特征在于, 包括权利要求 22至 35任意一项所述的语 音激活检测装置。

Description:
语音激活检测方法与装置、 编码器 本申请要求了 2009年 10月 15 日提交的,申请号为 200910207311. 4, 发明名称为 "语音激活检测方法与装置、 编码器" 的中国专利申请的优 先权, 其全部内容通过引用结合在本申请中。 技术领域

本发明实施例涉及通信技术, 尤其是一种语音激活检测方法与装置、 编 码器。 背景技术

在通信系统中, 尤其是无线通信系统或者移动通信系统中, 信道带宽是 稀缺资源。 据统计, 双向通话中通话双方说话的时间大 4既只占总通话时间的 —半左右, 另一半处于静音状态。 由于通信系统只在人说话的时候传输信号, 在静音时停止信号的传输,却无法将静音时占 用的带宽分配给其它通信业务, 严重浪费了有限的信道带宽资源。

为了实现信道资源的充分利用, 现在技术中, 通过语音激活检测 ( voice activity detection, 以下简称: VAD )技术, 来检测通话双方何时开始说话, 何时停止说话, 即: 获知语音在何时激活, 以便在语音未激活时将信道带宽 分配给其它通信业务使用。 随着通信网络的发展, VAD技术还可以检测彩铃 等输入信号。在基于 VAD技术的 VAD系统中,通常根据预先设置的判断准则, 包括判决参数与判决逻辑, 将输入信号判断为前景信号或背景噪声。 其中, 前景信号包括语音信号、 音乐信号、 双音多频( Dual Tone Multi Frequency, 以下简称: DTMF )信号等, 背景噪声不包括这些信号, 该过程也称为 VAD 判决。

在 VAD技术发展初期, 采用静态的判决准则, 即: 无论输入信号的特性 如何, VAD的判决参数与判决逻辑都固定不变。 例如: 在基于 G.729标准的 VAD技术中, 无论输入信号为何种类型, 信噪比 (signal to noise ratio, 以下 简称: SNR ) 多大, 背景噪声的特性如何, 都使用同样的一组判决参数, 以 同样的一组判决逻辑与判决门限来进行 VAD判决。 由于 G.729标准的 VAD技 术基于高 SNR条件下设计、 提出, 其在低 SNR条件下的性能较差。 随着 VAD 技术的发展, 提出了动态的判决准则, VAD技术可以根据输入信号的不同特 性, 选择不同的判决参数和 /或不同的判决逻辑, 将输入信号判断为前景信号 或背景噪声。 由于采用动态的判决准则根据输入信号的具体 特征来制定判决 参数或者判决逻辑, 优化了判决流程, 提高了判决效率与判决准确率, 因此, 提高了 VAD判决性能。并且,采用动态的判决准则可以 根据具体的应用需求, 为不同特性的输入信号设定不同的 VAD输出。 例如: 运营商希望在 VAD系统 也能一定程度上传递某些说话人背景的信息时 , 可以在背景噪声含信息量较 大的情况下设定 VAD的判决倾向, 使其更容易将含信息量较大的背景噪声也 判为语音帧。 目前, 在自适应多码率语音编码器( Adaptive Multi-rate, 以下 简称: AMR )中已经实现了动态判决。 AMR可以依据输入信号中背景噪声的 电平来动态调整 VAD的判决门限、 拖尾长度与拖尾触发条件。

但是现有的 AMR进行 VAD判决时, 只能自适应于背景噪声的电平大小, 尚无法自适应于背景噪声的波动性, 因此, 对拥有不同类型背景噪声的输入 信号的 VAD判决性能大相径庭。 例如: 同一背景噪声的电平下, AMR在背景 噪声为汽车噪声的情况下有非常较高的 VAD判决性能, 而在背景噪声为串音 ( babble )噪声的情况下, VAD判决性能大大降低, 造成了信道带宽资源的 巨大浪费。 发明内容

本发明实施例所要解决的技术问题是: 提供一种语音激活检测方法与 装置、 编码器, 以自适应于背景噪声的波动性进行 VAD判决, 从而提高 VAD判决性能, 节省有限的信道带宽资源, 实现信道带宽的高效利用。 本发明实施例提供的一种语音激活检测方法, 包括:

输入信号为背景噪声时, 获取所述背景噪声的波动特征值, 该波动特 征值用于表示所述背景噪声的波动大小;

根据所述波动特征值, 对语音激活检测 VAD的判决准则相关参数进 行自适应调整;

利用自适应调整后的判决准则相关参数, 对所述输入信号进行 VAD 判决。

本发明实施例提供的一种语音激活检测装置, 包括:

获取模块, 用于在输入信号为背景噪声时, 获取所述背景噪声的波动 特征值, 该波动特征值用于表示所述背景噪声的波动大 小;

调整模块, 用于根据所述波动特征值, 对 VAD的判决准则相关参数 进行自适应调整;

判决模块, 用于利用自适应调整后的判决准则相关参数, 对所述输入 信号进行 VAD判决。

本发明实施例提供的一种编码器, 包括本发明上述实施例提供的语音 激活检测装置。

基于本发明上述实施例提供的语音激活检测方 法与装置、 编码器, 可 以在输入信号为背景噪声时, 获取用于表示背景噪声的波动大小的波动特 征值, 根据该波动特征值对 VAD的判决准则相关参数进行自适应调整, 并利用自适应调整后的判决准则相关参数, 对输入信号进行 VAD判决, 与现有技术相比, 由于 VAD的判决准则相关参数可以自适应于背景噪声 的波动性,可以在不同类型背景噪声的情况下 获得较高的 VAD判决性能, 提高 VAD的判决效率与判决准确率, 从而提高有限的信道带宽资源的利 用率。

下面通过附图和实施例, 对本发明的技术方案做进一步的详细描述。 附图说明 实施例或现有技术描述中所需要使用的附图作 简单地介绍, 显而易见地, 下面描述中的附图仅仅是本发明的一些实施例 , 对于本领域普通技术人员 来讲, 在不付出创造性劳动性的前提下, 还可以根据这些附图获取其他的 附图。

图 1为本发明 VAD方法一个实施例的流程图;

图 2为本发明获取背景噪声的波动特征值一个实 例的流程图; 图 3为本发明获取背景噪声的波动特征值另一个 施例的流程图; 图 4为本发明获取背景噪声的波动特征值又一个 施例的流程图; 图 5为本发明根据背景噪声的电平动态调整 VAD的判决准则相关参 数一个实施例的流程图;

图 6为本发明 VAD装置第一实施例的结构示意图;

图 7为本发明 VAD装置第二实施例的结构示意图;

图 8为本发明 VAD装置第三实施例的结构示意图;

图 9为本发明 VAD装置第四实施例的结构示意图;

图 10为本发明 VAD装置第五实施例的结构示意图;

图 11为本发明 VAD装置第六实施例的结构示意图;

图 12为本发明 VAD装置第七实施例的结构示意图;

图 13为本发明 VAD装置第八实施例的结构示意图;

图 14为本发明 VAD装置第九实施例的结构示意图;

图 15为本发明 VAD装置第十实施例的结构示意图;

图 16为本发明 VAD装置第十一实施例的结构示意图。 具体实施方式 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进 行清楚、 完整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员在没 有作出创造性劳动前提下所获取的所有其他实 施例, 都属于本发明保护的 范围。

图 1为本发明 VAD方法一个实施例的流程图。 如图 1所示, 该实施例 的 VAD方法包括:

步骤 101, 输入信号为背景噪声时, 获取该背景噪声的波动特征值, 该波动特征值用于表示背景噪声的波动大小。

步骤 102, 根据背景噪声的波动特征值对 VAD 的判决准则相关参数 进行自适应调整。

步骤 103, 利用自适应调整后的判决准则相关参数, 对输入信号进行 VAD判决。

本发明上述实施例提供的 VAD方法,可以在输入信号为背景噪声时, 获取用于表示背景噪声的波动大小的波动特征 值, 根据该波动特征值对 VAD的判决准则相关参数进行自适应调整, 使 VAD的判决准则相关参数 自适应于背景噪声的波动性, 这样, 利用自适应调整后的判决准则相关参 数对输入信号进行 VAD判决时, 便可以在不同类型背景噪声的情况下获 得较高的 VAD判决性能,提高 VAD的判决效率与判决准确率,从而提高 有限的信道带宽资源的利用率。

根据本发明的一个具体实施例, VAD 的判决准则相关参数可以包括 主判决门限、 拖尾触发条件、 拖尾长度与背景噪声相关长时参数的更新速 率中的任意一种或多种。

当 VAD的判决准则相关参数包括主判决门限时, 根据本发明的一个 实施例, 步骤 102中具体可以通过以下方式实现:

查询波动特征值与判决门限噪声波动偏移量 thr_bias_noise 之间的对 应关系, 获取与背景噪声的波动特征值对应的判决门限 噪声波动偏移量 thr bias noise ,该判决门限噪声波动偏移量 thr bias noise用于表示不同波 动大小的背景噪声下门限的偏移值。 其中的对应关系可以预先或者临时设 置, 也可以从其它网络实体中获取;

根据公式 vad _ thr - f x isnr) + f 2 (snr) . thr—bias—noise, 茨取 VAD 的主 判决门限 vad_thr。 其中, f^snr)为当前背景噪声帧的信噪比 snr对应的基 准门限, f 2 (snr)为当前背景噪声帧的信噪比 snr对应的判决门限噪声波动偏 移量 thr_bias_noise 的加权系数。 具体地, 可以根据经验值设置 f^snr)与 f snr)对 snr的函数形式;

将 VAD的判决准则相关参数中的主判决门限更新为 获取到的主判决 门限 vad_thr, 从而实现了根据背景噪声的波动特征值对 VAD的主判决门 限 vad_thr的自适应调整。

当 VAD的判决准则相关参数包括拖尾触发条件时, 根据本发明的一 个实施例, 步骤 102中具体可以通过以下方式实现:

从连续语音帧长度噪声波动映射表 burst_cnt_noise_tbl[]中查询与背景 噪声的波动特征值对应的连续语音帧长度

½rW— c — tbl [波动特征值], 以及从确定语音门限噪声波动偏移表 burst_thr_noise_tbl[]中查询与背景噪声的波动特征 值对应的确定语音门限 ½rW— r— — tbl [波动特征值]。其中的连续语音帧长度噪声波 映射表 burst_cnt_noise_tbl[]与确定语音门限噪声波动偏移 表 burst_thr_noise_tbl[] 也可以预先或者临时设置, 或者从其它网络实体中获取;

才艮据公式 M = f 3 (snr) + / 4 swr) ' ½rW— cW— wo e— tbl [波动特征值], 菝取连 续语音帧的数量门限 M, 根据公式

burst— thr = f 5 (snr) + / 6 0?r) - bwrat— r— MO e— tbl [波动特征值], 菝取确定语音帧 门限 burst_thr。 其中, f 3 (snr)为当前背景噪声帧的信噪比 snr对应的基准数 量门限, f 4 (snr)为当前背景噪声帧的信噪比 snr 对应的连续语音帧长度 burst— cn_t «o^etb哝动特征值的加权系数, f 5 (snr)为当前背景噪声帧的信 噪比 snr对应的基准语音帧门限, f 6 (snr)为当前背景噪声帧的信噪比 snr对 应的确定语音门限 burst _ thr _ noise _ tbl [波动特征值]的加权系数。 具体地, 都可 以根据经验值, 设置 f 3 (snr)、 f 4 (snr) , f 5 (snr)与 f 6 (snr)对 snr的函数形式。 作为一个具体实例, f 3 ( S nr)、 f 4 (snr)、 f 5 (snr)与 f 6 (snr)对 snr的具体函数形式 可以使得连续语音帧的数量门限 M与确定语音帧门限 burst_thr随着得到 的波动特征值的减小而增大;

根据获取的连续语音帧的数量门限 M与确定语音帧门限 burst_thr更 新 VAD的判决准则相关参数中的拖尾触发条件, 从而实现了根据背景噪 声的波动特征值对 VAD的拖尾触发条件的自适应调整。

当 VAD的判决准则相关参数包括拖尾长度时, 根据本发明的一个实 施例, 步骤 102中具体可以通过以下方式实现:

从拖尾长度噪声波动映射表 hangover_noise_tbl[]中查询与背景噪声的 波动特征值对应的拖尾长度 ? «gov£?r— ww e— / [波动特征值]。该拖尾长度 噪声波动映射表 hangover_noise_tbl[]可以预先或者临时设置, 也可以从其 它网络实体中获取;

根据公式

hangover _ max = f 7 (snr) + f s (snr) . hangover _ nosie _ / [波动特征值],茨取 拖尾计数器的重置最大值 hangover_max。 其中, f 7 (snr)为当前背景噪声帧 的信噪比 snr对应的基准重置值, f 8 (snr)为当前背景噪声帧的信噪比 snr对 应的拖尾长度 /z wgover— ww e— / [波动特征值]的加权系数。 具体地, 都可 以根据经验值, 设置 f 7 (snr)与 f 8 (snr)对 snr的函数形式。 作为一个具体实 例, f 7 (snr)与 f 8 (snr)对 snr的具体函数形式可以使得拖尾计数器的重置 最大 值 hangover_max随着得到的波动特征值的增大而增大 ; 将 VAD的判决准则相关参数中的拖尾长度更新为获 取到的拖尾计数 器的重置最大值 hangover_max,从而实现了根据背景噪声的波动特 征值对 VAD的拖尾长度的自适应调整。

根据本发明 VAD方法的一个具体实施例, 可以采用白化后背景噪声谱 熵的长时滑动平均值 hb_noise_mov来表示背景噪声的波动大小。图 2为本 发明获取背景噪声的波动特征值一个实施例的 流程图。 在该实施例中, 波 动特征值具体为白化后背景噪声谱熵的长时滑 动平均值 hb_noise_mov 的 量化值 idx。 如图 2所示, 该实施例的流程包括以下步骤:

步骤 201, 接收输入信号的当前帧。

步骤 202, 将输入信号的当前帧在频域上划分为 N个子带, N为大于 1的整数, 例如: N可以取 32, 并分别计算 N个子带的能量 enrg(i), i=0 , 1, , N- l。

具体地, N个子带可以等宽或不等宽, 或者 N个子带中的任意多个子 带可以等宽。

步骤 203, 根据 VAD 的判决准则, 判决当前帧是否为背景噪声帧。 若当前帧为背景噪声帧, 执行步骤 204; 否则, 不执行本实施例后续流程。

步骤 204, 根据公式 ettrg_tt(i = a - enrg n + (1 - α) · enrg i), 计算背景 噪声帧分别在 N个子带上的长时滑动平均能量 enrg_n(i)。 其中, α为用于 控制背景噪声帧分别在 Ν个子带上的长时滑动平均能量 enrg_n(i)更新速率 的遗忘系数, e«rg— «为背景噪声帧的能量。 步骤 205, 根据公式 e"rg— w( ) = £^rg ')/£?"rg— w(0, 对当前背景噪 声帧的频谱进行白化, 得到白化后背景噪声在第 i 个子带上的能量 enrg_w(i)。

N— 1

步骤 206, 根据公式 = - Z iog , 获取白化后背景噪声谱熵 hb, N-l

其中, Pi = enrg_ w(i)/ ^ enrg_ w(i)。

i=0

步骤 207, 根据公式 hb— noise— mov = β · hb noise mov + \ ~ ) - hb , 获取白化后背景噪声谱熵的长时滑动平均值 hb_noise_mov。 其中, β为控 制白化后背景噪声谱熵的长时滑动平均值 hb_noise_mov 更新速率的遗忘 因子。

本实施例中, 白化后背景噪声谱熵的长时滑动平均值 hb_noise_mov 表示背景噪声的波动大小。 hb_noise_mov越大,表示背景噪声的波动越小, 反之, hb_noise_mov越小, 则表示背景噪声的波动越大。

步骤 208, 根据公式 c x = |( ?b— noise _ mov - A) / B| , 对白化后背景噪声 谱熵的长时滑动平均值 hb_noise_mov进行量化, 得到量化值 idx。 其中, A、 B分别为预设数值。例如: A可以取经 3全值 3. 1 1, B可以取经 3全值 0.05。

与图 2所示的实施例相应, 波动特征值具体为白化后背景噪声谱熵的 长时滑动平均值 hb_noise_mov的量化值 idx时,作为本发明的一个实施例, 背景噪声相关长时参数的更新速率可以包括背 景噪声的长时滑动平均能 量 enrg_n(i)的更新速率。相应的,步骤 102中具体可以通过以下方式实现: 查询背景噪声更新速率表 alpha_tbl[], 获取与背景噪声的量化值 idx 对应的长时滑动平均能量 enrg_n(i)更新速率的遗忘系数 α。 具体地, 该背 景噪声更新速率表 alpha_tbl[]可以预先或者临时设置, 也可以从其它网络 实体中获取。 作为一个具体实例, 背景噪声更新速率表 alpha_tbl[]的设置, 可以使长时滑动平均能量 enrg_n(i)更新速率的遗忘系数 α随着背景噪声的 量化值 idx的减小而减小;

以获取到的遗忘系数 α作为控制背景噪声帧分别在 N个子带上的长时 滑动平均能量 enrg_n(i)更新速率的遗忘系数, 从而实现了根据背景噪声的 波动特征值对背景噪声帧分别在 N个子带上的长时滑动平均能量 enrg_n(i) 更新速率的自适应调整。 另外, 与图 2所示的实施例相应, 波动特征值具体为白化后背景噪声 谱熵的长时滑动平均值 hb_noise_mov的量化值 idx时,作为本发明的另一 个实施例, 背景噪声相关长时参数的更新速率也可以包括 白化后背景噪声 谱熵的长时滑动平均值 hb— noise_mov的更新速率。 相应的, 步骤 102 中 具体可以通过以下方式实现:

查询背景噪声波动性更新速率表 beta— tbl[],获取与背景噪声的量化值 idx对应的长时滑动平均值 hb noise mov更新速率的遗忘因子 β。具体地, 该背景噪声波动性更新速率表 beta_tbl[]可以预先或者临时设置,也可以从 其它网络实体中获取。 作为一个具体实例, 背景噪声波动性更新速率表 beta— tbl[]的具体设置,可以使长时滑动平均值 hb— noise— mov更新速率的遗 忘因子 β随着背景噪声的量化值 idx的减小而增大;

以获取到的遗忘因子 β作为控制白化后背景噪声谱熵的长时滑动平 值 hb_noise_mov 更新速率的遗忘因子, 从而实现了根据背景噪声的波动 特征值对白化后背景噪声语熵的长时滑动平均 值 hb_noise_mov 更新速率 的自适应调整。

针对具有不同波动特征值的背景噪声,对背景 噪声帧分别在 N个子带 上的长时滑动平均能量 enrg_n(i)和白化后背景噪声谱熵的长时滑动平均 值 hb_noise_mov, 采用不同的速率更新, 可以有效的提高对背景噪声的检 测率。

根据本发明 VAD方法的另一个具体实施例, 可以采用背景噪声帧信噪 比的长时滑动平均值 SNRn— mov作为背景噪声的波动特征值,来表示背景 噪声的波动大小。 图 3为本发明获取背景噪声的波动特征值另一个 施例 的流程图。 在该实施例中, 背景噪声的波动特征值具体为背景噪声帧信噪 比的长时滑动平均值 SNRn_mo V。 如图 3所示, 该实施例的流程包括以下 步骤:

步骤 301, 接收输入信号的当前帧。 步骤 302, 根据 VAD 的判决准则, 判决当前帧是否为背景噪声帧。 若当前帧为背景噪声帧, 执行步骤 303 ; 否则, 不执行本实施例的后续流 程。

步骤 303, 根据公式 snr n _ mov = k · snr n _ mov + (l- k ) snr , 菝取背景噪 声帧信噪比的长时滑动平均值 snr n _mo V。

其中, snr为当前背景噪声帧的信噪比, k为控制背景噪声帧信噪比的 长时滑动平均值 sn r n _mo V更新速率的遗忘因子。

与图 3所示的实施例相应, 背景噪声的波动特征值具体为背景噪声帧 信噪比的长时滑动平均值 snr n _mov时,作为本发明的一个实施例, 背景噪 声相关长时参数的更新速率可以包括长时滑动 平均值 snr n _mov 的更新速 率。 相应的, 步骤 102中具体可以通过以下方式实现: 在当前背景噪声帧 的信噪比 snr大于最后 n个背景噪声帧的信噪比的平均值 snr n 时, 和在当 前背景噪声帧的信噪比 snr 小于最后 n 个背景噪声帧的信噪比的平均值 snr n 时, 为控制背景噪声帧信噪比的长时滑动平均值 snr n _mov更新速率的 遗忘因子 k 取不同的数值。 例如: snr n _mov<snr 时, k 的取值为 x, snrn_mov>snr时, k的取值为 y。

对背景噪声帧信噪比的长时滑动平均值 snr n _mov 采用不同的更新速 率向上和向下更新, 可以避免背景噪声帧信噪比的长时滑动平均值 snr n _mov 受突变影响, 从而使得背景噪声帧信噪比的长时滑动平均值 snr n _mov更为稳定。 根据本发明的一个实施例, 在利用当前背景噪声帧的 信噪比 snr更新背景噪声相关长时参数的更新速率可以 包括长时滑动平均 值 snr n _mov之前, 可以根据预先设定, 将当前背景噪声帧的信噪比 snr限 制在一个范围内, 例如: 在当前背景噪声帧的信噪比 snr小于 10时, 限定 当前背景噪声帧的信噪比 snr为 10。

根据本发明 VAD方法的又一个具体实施例, 可以采用背景噪声帧的修 正分段信噪比 MSSNR的长时滑动平均值 flux bsd 作为背景噪声的波动特征 值, 来表示背景噪声的波动大小。 图 4为本发明获取背景噪声的波动特征 值又一个实施例的流程图。 在该实施例中, 背景噪声的波动特征值具体为 背景噪声帧的修正分段信噪比 MSSNR的长时滑动平均值 flux bgd 。 如图 4 所示, 该实施例的流程包括以下步骤:

步骤 401, 接收输入信号的当前帧。

步骤 402, 根据 VAD 的判决准则, 判决当前帧是否为背景噪声帧。 若当前帧为背景噪声帧, 执行步骤 403 ; 否则, 不执行本实施例的后续流 程。

步骤 403, 将当前背景噪声帧的快速傅立叶变换 ( Fast Fourier Transform, 以下简称: FFT ) 频谱划分为 H个子带, H为大于 1的整数, 并根据公式 ? w W = P s i + ^ -p)E bmd rf w,分别计算 i个子带的能 量 E band (i), i=0 , 1, ... ..., H- l。 其中, l(i)与 h(i)分别表示第 i个子带中频 率最低的 FFT频点与频率最高的 FFT频点, 表示 FFT频谱上第 j个频 点的能量, E band ―。 ld (i)表示当前背景噪声帧的前一个帧中第 i个子带的能量。 p为预设常数。 在一个实施例中, p的取值为 0.55。 作为本发明的一个具 体应用实例, H的取值可以为 16。 步骤 404,根据公式 = 101ogU )/E „(,·)),分别计算当前背景噪 声帧中第 i个子带的信噪比 snr(i)。

其中, ^^为背景噪声的长时滑动平均值, 具体可以根据公式

E band _ n {i) = q · E band _ n (7) + (1— C7) · E bmd (7), 使用前一个背景噪声帧中第 i个子 带的能量更新背景噪声的长时滑动平均值 ^获得。 其中, q为预设常 数。 在一个实施例中, q的取值为 0.95。

分别对当前背景噪声帧中第 i个子带的信噪比 snr(i)进行修正。其中, msnr(i) 为修正后第 i个子带的信噪比, C 1与 C2为大于零的预设实常数, 第一集 合与第二集合中数值的构成集合 [0, H-l]。 步骤 406, 根据公式 M¾A¾ = ^ ^i2r ( , 获取当前背景噪声帧的修正分 段信噪比 MSSNRc

步骤 407,根据公式 flux bgd = r · flux bgd + (1 - r) . MSSNR,计算当前背景噪声 帧的修正分段信噪比 MSSNR的长时滑动平均值 flux bgd 。其中, r为用于控 制当前背景噪声帧的修正分段信噪比 MSSNR的长时滑动平均值 flux bgd 更 新速率的遗忘系数。

在一个实施例中, 具体可以按照以下方式对 r进行取值: 在从输入信 号中第一帧开始的预设初始期内且 > Bux bgd 时, r=0.955; 在从输入信 号中第一帧开始的预设初始期内且 Μ^ ^ Αζ ^时, r=0.995 ; 在从输入信 号中第一帧开始的预设初始期之后且 Μ Λ« > Bux bgd 时, r=0.997; 在从输入 信号中第一帧开始的预设初始期之后且 Μ^ ^ Αζ ^时, r=0.9997。

与图 4所示的实施例相应, 当 VAD的判决准则相关参数包括主判决 门限时, 根据本发明的一个实施例, 步骤 102中具体也可以通过以下方式 实现:

查询波动特征值与判决门限噪声波动偏移量 thr_bias_noise 之间的对 应关系, 获取与背景噪声的波动特征值对应的判决门限 噪声波动偏移量 thr bias noise ,该判决门限噪声波动偏移量 thr bias noise用于表示不同波 动大小的背景噪声下门限的偏移值。 其中的对应关系可以预先或者临时设 置, 也可以从其它网络实体中获取; 根据公式 vad _ thr - f x isnr) + f 2 (snr) · thr—bias—noise, 茨取 VAD 的主 判决门限 vad_thr。 其中, f^snr)为当前背景噪声帧的信噪比 snr对应的基 准门限, f 2 (snr)为当前背景噪声帧的信噪比 snr对应的判决门限噪声波动偏 移量 thr_bias_noise 的加权系数。 具体地, 可以根据经验值设置 f^snr)与 f 2 (snr)对 snr的函数形式;

将 VAD的判决准则相关参数中的主判决门限更新为 获取到的主判决 门限 vad_thr。

另外, 与图 4所示的实施例相应, 当 VAD的判决准则相关参数包括 主判决门限时, 根据本发明的另一个实施例, 步骤 102中具体还可以通过 以下方式实现:

获取当前背景噪声帧的修正分段信噪比 MSSNR 的长时滑动平均值 flux bgd 对应的波动性级别 flux_idx, 以及获取当前背景噪声帧的信噪比 snr 对应的信噪比级别 snr_idx;

查询同时与获取到的波动性级别 fl ux _idx及信噪比级别 snr_idx对应 的主判决门限 thr _ tbl[snr _ idx {flux _ idx;

将判决准则相关参数中的主判决门限更新为查 询到的主判决门限 thr— tt l snr flux 。

将当前背景噪声帧的修正分段信噪比 MSSNR 的长时滑动平均值 flux bgd 与信噪比 snr对应到相应的级别后, VAD装置中只需要存储波动性 级别、 信噪比级别与主判决门限之间的对应关系即可 , 由于波动性级别、 信噪比级别数据量远小于其可以涵盖的 flux bgd 与 snr数据, 大大减小了对 应关系占用的 VAD装置的存储空间, 从而实现存储空间的高效利用。

例如: 可以将当前背景噪声帧的修正分段信噪比 MSSNR的长时滑动 平均值 flux bgd 按照大小分为三个波动性级别, 以 flux_idx表示 fluxed的波 动性级别, flux_idx可以取值 0、 1、 2, 分别表示低波动性, 中波动性和 高波动性。 根据一个实施例, 通过如下方式确定 flux_idx的取值: 若 fluxbgd<3.5, flux_idx=0;

若 3.5<=fluxbgd < 6, flux_idx= 1;

若 fluxbgd〉=6, flux_idx=2。

同样, 将信号长时当前背景噪声帧的信噪比 snr按照大小分为四个信 t匕及另 'j, 以 snr idx 示 snr ^Η言 t匕及另 'j, snr idx ^"以 H 0、 1、 2、 3, 来分别表示低信噪比、 中信噪比、 高信噪比与很高信噪比。

进一步地, 获取当前背景噪声帧的修正分段信噪比 MSSNR的长时滑 动平均值 flux bgd 对应的波动性级别 flux_idx, 以及获取当前背景噪声帧的 信噪比 snr对应的信噪比级别 snrjdx时,还可以获取对输入信号进行 VAD 判决的 VAD装置当前的工作性能对应的判决倾向 op_idx, 即: 倾向于判 决当前帧为语音帧或背景噪声帧。 具体地, 该 VAD装置当前的工作性能 可以包括 VAD开启后的语音编码质量与 VAD对带宽的节省。相应的, 可 以查询同时与波动性级别 flux_idx、信噪比级别 snrjdx及性能级别 op_idx 对应的主判决门限 vad _thr = t r _tbl[snr _idx\ \Eux _idx\ \op _idx\, 并将 VAD的判决准则相关参数中的主判决门限更新为 主判决门限

vad _ the = the _ tbl [snr _ j'dx] [£ux _ j'dx] [op _ j'dx]。

进一步结合 VAD装置当前的工作性能对应的判决倾向对 V AD的判决 准则相关参数中的主判决门限进行适应性更新 , 使 VAD的判决准则更适 用于具体的 VAD装置,从而获得更适用于具体环境的更高的 VAD判决性 能, 进一步提高 VAD的判决效率与判决准确率, 从而提高有限的信道带 宽资源的利用率。

在本发明上述各实施例的 VAD方法中, 还可以根据输入信号中背景 噪声的电平, 动态调整 VAD的主判决门限、 拖尾长度与拖尾触发条件中 的任意一个或多个 VAD的判决准则相关参数。 图 5为本发明根据背景噪 声的电平动态调整 VAD的判决准则相关参数一个实施例的流程图, 该实 施例具体可以由 AMR实现。 如图 5所示, 其包括以下步骤: 步骤 501, 将输入信号在频域上划分为 N个子带, 对于每帧输入信号, 分 别计算其在每个子带上的电平 level(i), i=0,l,2...N-l。 同时,持续的估计输入信 号中的背景噪声在每个子带上的电平 bckr_level(i), i=0,l,2...N-l。 则 noise _ level = bckr _ level (i)表示当前背景噪声帧的电平。

N ; = 0

步骤 502, 逸迚公 ^ snr(i) = ievei(if / bckr _ievei(i) 2 , 计算当前帧在每个 子带上的信噪比 snr(i)。

步骤 503, it t^^ sn r_sum= ^snii) , 获得当前帧的信噪比之和 snr sum, 该当前帧的信噪比之和 snr_sum即为 VAD的主判决参数。 同时, 根 据背景噪声电平 noise_level的大小, 调整 VAD的拖尾触发条件与拖尾长度。

通过将当前帧的信噪比之和 snr_sum与一个预先设置的判决门限 vad_thr 进行比较, 便可得到 VAD的中间判决结果或称为第一步判决结果。 具体地, 若当前帧的信噪比之和 snr_sum大于判决门限 vad_thr, VAD中间判决结果为 1, 即: 判决当前帧为语音帧; 否则, VAD中间判决结果为 0, 即: 判决当前帧为 背景噪声帧。

判决门限 vad_thr的大小由背景噪声电平 noise_level控制, 具体通过公式 vad— thr二 [ (VAD— THR— HIGH - VAD— THR— LOW) / (p2 - pi) Mmise— level - pi) + VAD― THR― HIGH 决定。 其中, VAD THR HIGH与 VAD THR LOW分别为判决门限 vad thr取 值范围的上、 下限, p2与 pi分别表示判决门限 vad_thr的上、 下限所对应的背 景噪声电平。可见,判决门限 thr_vad是根据背景噪声电平 noise_level的大小在 一个上、 下限之间内插出来的, 与 noise_level是个线性的关系。 背景噪声电平 noise_level越高,判决门限 thr_vad就越低,从而在背景噪声较大的情况下 能 够确保足够的 VAD的准确率。

VAD的拖尾触发条件也由背景噪声电平 noise_level控制。 所谓拖尾触发 条件, 是指当满足该拖尾触发条件时, 拖尾计数器会被设置为一个拖尾的最 大长度。 当中间判决结果为 0时, 根据拖尾计数器是否大于 0判断是否拖尾。 若拖尾计数器大于 0,则 VAD最终输出由 0变为 1且拖尾计数器减 1,否则, VAD 最终输出维持 0不变。 在 AMR的 VAD中, 拖尾触发条件为出现连续语音帧的 个数 N是否大于一个预设门限。 若出现连续语音帧的个数 N大于该预设门限, 则满足拖尾触发条件, 拖尾计数器被重置。 当 noise_level大于另一个预设门限 时, 认为当前背景噪声比较大, 触发条件中的 N取一个较小值, 以促使拖尾 可以比较容易的发生。 否则, 当 noise_level不大于该另一个预设门限时, 认为 当前背景噪声较小, N取一个较大值, 使拖尾较难发生。

另外, 拖尾的最大长度, 即: 拖尾计数器的最大值, 也由背景噪声电平 noise_level控制。 当背景噪声电平 noise_level大于又一个预设门限时, 认为背 景噪声比较大, 当拖尾被触发时, 拖尾计数器会被设置为一个较大的数值。 否则, 当背景噪声电平 noise_level不大于又一个预设门限时,认为背景 声比 较小, 当拖尾被触发时, 拖尾计数器被设置为一个较小的数值。

图 6为本发明 VAD装置第一实施例的结构示意图。该实施例的 VAD装 置可用于实现本发明上述各实施例的 VAD方法。 如图 6所示, 该实施例 的 VAD装置包括获取模块 601、 调整模块 602与判决模块 603。

其中, 获取模块 601用于在输入信号为背景噪声时, 获取背景噪声的 波动特征值, 该波动特征值用于表示背景噪声的波动大小。 调整模块 602 用于根据获取模块 601获取到的波动特征值, 对 VAD的判决准则相关参 数进行自适应调整。 判决模块 603用于利用调整模块 602 自适应调整后的 判决准则相关参数, 对输入信号进行 VAD判决。

进一步地, 再参见图 6, 本发明实施例的 VAD装置还可以包括存储 模块 604, 用于存储 VAD 的判决准则相关参数, 该判决准则相关参数可 以包括主判决门限、 拖尾触发条件、 拖尾长度、 背景噪声相关长时参数的 更新速率中的任意一种或多种。 相应的, 调整模块 602对存储模块 604中 存储的 VAD的判决准则相关参数进行自适应调整; 判决模块 603利用存 储模块 604中存储的自适应调整后的判决准则相关参数 , 对输入信号进行 VAD判决。

图 7为本发明 VAD装置第二实施例的结构示意图。 与图 6所示的实施 例相比, 该实施例的 VAD装置中, 在 VAD的判决准则相关参数包括主判 决门限时, 调整模块 602包括第一存储单元 701、 第一查询单元 702、 第 —获取单元 703与第一更新单元 704。 其中, 第一存储单元 701用于存储 波动特征值与判决门限噪声波动偏移量 thr_bias_noise 之间的对应关系。 第一查询单元 702用于从第一存储单元 701中查询波动特征值与判决门限 噪声波动偏移量 thr_bias_noise 之间的对应关系, 获取与背景噪声的波动 特征值对应的判决门限噪声波动偏移量 thr_bias_noise, 其中, 判决门限噪 声波动偏移量 thr_bias_noise 用于表示不同波动大小的背景噪声下门限的 偏移值。 第一获取单元 703用于根据公式

vad _thr - f^isnr) + f 2 {snr) · thr—bias—noise ,茨取主判决门限 vad_thr。其中, f snr)为当前背景噪声帧的信噪比 snr对应的基准门限, f 2 (snr)为当前背景 噪声帧的信噪比 snr对应的判决门限噪声波动偏移量 thr_bias_noise的加权 系数。 第一更新单元 704用于将 VAD的判决准则相关参数中的主判决门 限更新为第一获取模块 703获取到的主判决门限 vad_thr。

图 8为本发明 VAD装置第三实施例的结构示意图。 与图 6所示的实施 例相比, 该实施例的 VAD装置中, 在在 V AD的判决准则相关参数包括拖 尾触发条件时, 调整模块 602包括第二存储单元 71 1、 第二查询单元 712、 第二获取单元 713与第二更新单元 714。 其中, 第二存储单元 71 1用于存 储连续语音帧长度噪声波动映射表 burst_cnt_noise_tbl[]与确定语音门限噪 声波动偏移表 burst_thr_noise_tbl[], 其中, 连续语音帧长度噪声波动映射 表 burst_cnt_noise_tbl[]中包括波动特征值与连续语音 帧长度之间的对应关 系, 确定语音门限噪声波动偏移表 burst_thr_noise_tbl[]中包括波动特征值 与确定语音门限之间的对应关系。 第二查询单元 712用于从第二存储单元 71 1 中存储的连续语音帧长度噪声波动映射表 burst_cnt_noise_tbl[]中查询 与 背 景 噪 声 的 波 动 特 征 值 对 应 的 连 续 语 音 帧 长 度 bwrai— «o^e— tbl [波动特征值] , 从确定语音门限噪声波动偏移表 burst_thr_noise_tbl[]中查询与背景噪声的波动特征 值对应的确定语音门限 burst _ thr _ noise _ tbl [波动特征值]。 第二获取单元 713 用于根据公式 M = f 3 (snr) + f 4 (snr) · burst _ cnt _ noise _ tbl [波动特征值], 菝取连续语音帧的数 量门限 M,才艮据 burst _ thr = f 5 (snr) + f 6 (snr) · burst _ thr _ noise _ tbl [波动特征值], 获取确定语音帧门限 burst_thr, 其中, f 3 (snr)为当前背景噪声帧的信噪比 snr对应的基准数量门限, f 4 (snr)为当前背景噪声帧的信噪比 snr对应的连 续语音帧长度 burst _ cnt _ noise _ tbl [波动特征值]的加权系数, f 5 (snr)为当前 背景噪声帧的信噪比 snr对应的基准语音帧门限, f 6 (snr)为当前背景噪声帧 的信噪比 snr对应的确定语音门限 burst— thr— noise_ tbl ¾¾I牛寺征直的力口 ^又 系数。 第二更新单元 714用于根据第二获取单元 713获取的连续语音帧的 数量门限 M与确定语音帧门限 burst_thr更新 VAD的判决准则相关参数中 的拖尾触发条件。

图 9为本发明 VAD装置第四实施例的结构示意图。 与图 6所示的实施 例相比, 该实施例的 VAD装置中, 在 VAD的判决准则相关参数包括拖尾 触发条件时, 调整模块 602 包括第三存储单元 721、 第三查询单元 722、 第三获取单元 723与第三更新单元 724。 其中, 第三存储单元 721用于存 储拖尾长度噪声波动映射表 hangover_noise_tbl[], 该拖尾长度噪声波动映 射表 hangover_noise_tbl[]中包括波动特征值与拖尾长度 间的对应关系。 第三查询单元 722用于从第三存储单元 721中存储的拖尾长度噪声波动映 射表 hangover_noise_tbl[]中查询与背景噪声的波动特征 对应的拖尾长度 /wwgover— "o«'e jb/ [波动特征值]。 第三获取单元 723 用于根据公式 hangover _ max― f 7 (snr) +f snr) h a n g o v e r n_o s 动特細直,菝取拖尾计数 器的重置最大值 hangover_max。 其中, f 7 (snr)为当前背景噪声帧的信噪比 snr对应的基准重置值, f 8 (snr)为当前背景噪声帧的信噪比 snr对应的拖尾 长度 hangover— nosie t^l 的加权系数。第三更新单元 724用于将 VAD 的判决准则相关参数中的拖尾长度更新为第三 获取模块 723获取到的计算 出的拖尾计数器的重置最大值 hangover_max。

图 10为本发明 VAD装置第五实施例的结构示意图, 该实施例的 VAD 装置可用于实现本发明图 2所示实施例的 VAD方法。 该实施例中, 波动 特征值具体为白化后背景噪声谱熵的长时滑动 平均值 hb_noise_mov 的量 化值 idx。 相应的, 获取模块 601 包括接收单元 731、 第一划分处理单元 732、 判决单元 733、 第一计算单元 734、 白化处理单元 735、 第四获取单 元 736、 第五获取单元 737与量化处理单元 738。 其中, 接收单元 731用 于接收输入信号的当前帧。 第一划分处理单元 732用于将接收单元 731接 收到的输入信号的当前帧在频域上划分为 N个子带, N为大于 1的整数, 并分别计算 N个子带的能量 enrg(i), i=0 , 1, , N-l。 判决单元 733 用于根据 VAD的判决准则, 判决接收单元 731接收到的输入信号的当前 帧是否为背景噪声帧。 第一计算单元 734用于根据判决单元 733的判决结 果, 在当前帧为背景噪声帧时, 根据公式

enrg— n i) = a · enrg— n + (l - a) - enrg(i), 计算背景噪声帧分别在 N个子 带上的长时滑动平均能量 enrg_n(i)。 其中, α为用于控制背景噪声帧分别 在 Ν个子带上的长时滑动平均能量 enrg_n(i)更新速率的遗忘系数, enrg _ n 为 背景噪声 帧 的 能量。 白 化处理单元 735 用 于根据公式 enrg_ w(i) = enrg(i) I enrg— n(i), 对当前背景噪声帧的频"普进行白化, 得 到白化后背景噪声在第 i 个子带上的能量 rg_ z)。 第四获取单元 736

N-1

用于根据公式 ^^-Z ogA, 获取白化后背景噪声谱熵 hb, 其中,

N-1

Pi = enrg_w(i)/^enrg_w(i) 。 第 五获取单元 737 用 于根据公式 hb— noise— mov = β . hb noise mov + (\ -^) - hb , 菝取白化后背景噪声錯熵 的长时滑动平均值 hb_noise_mov, 其中, β为控制白化后背景噪声谱熵的 长时滑动平均值 hb_noise_mov 更新速率的遗忘因子。 量化处理单元 738 用于根据公式 Wx = |( ?b—― noise _ mov _ A) / B|, 对白化后背景噪声 普; ¾的长时 滑动平均值 hb_noise_mov进行量化, 得到量化值 idx, 其中, A、 B分别 为预设数值, 可以根据实际需要选取经验值。

图 1 1为本发明 VAD装置第六实施例的结构示意图。在背景噪声 相关长 时参数的更新速率包括背景噪声的长时滑动平 均能量 enrg_n(i)的更新速 率时, 与图 10所示的实施例相比, 该实施例的 VAD装置中, 调整模块 602包括第四存储单元 741、第四查询单元 742与第四更新单元 743。其中, 第四存储单元 741用于存储背景噪声更新速率表 alpha_tbl[], 该背景噪声 更新速率表 alpha_tbl[]包括量化值与长时滑动平均能量 enrg_n(i)更新速率 的遗忘系数之间的对应关系。 第四查询单元 742用于从第四存储单元 741 中查询背景噪声更新速率表 alpha_tbl[], 获取与背景噪声的量化值 idx对 应的长时滑动平均能量 enrg_n(i)更新速率的遗忘系数 α。第四更新单元 743 以第四查询单元 742获取到的遗忘系数 α作为控制背景噪声帧分别在 Ν个 子带上的长时滑动平均能量 enrg_n(i)更新速率的遗忘系数。

图 12为本发明 VAD装置第七实施例的结构示意图。 在背景噪声相关 长时参数的更新速率包括白化后背景噪声谱熵 的长时滑动平均值 hb noise mov的更新速率时,与图 10所示的实施例相比,该实施例的 VAD 装置中, 调整模块 602包括第五存储单元 744、 第五查询单元 745与第五 更新单元 746。 其中, 第五存储单元 744用于存储背景噪声波动性更新速 率表 beta_tbl[], 该背景噪声波动性更新速率表 beta_tbl[]包括量化值与长 时滑动平均值 hb_noise_mov 更新速率的遗忘因子之间的对应关系。 第五 查询单元 745用于从第五存储单元 744中查询背景噪声波动性更新速率表 beta_tbl[], 获取与背景噪声的量化值 idx 对应的长时滑动平均值 hb_noise_mov更新速率的遗忘因子 β。 第五更新单元 746用于以第五查询 单元 745获取到的遗忘因子 β作为控制白化后背景噪声谱熵的长时滑动平 均值 hb_noise_mov更新速率的遗忘因子。

图 13为本发明 VAD装置第八实施例的结构示意图, 该实施例的 VAD 装置可用于实现本发明图 3所示实施例的 VAD方法。 该实施例中, 波动 特征值具体为背景噪声帧信噪比的长时滑动平 均值 SNRn_mov。 相应的, 获取模块 601 包括接收单元 731、 判决单元 733与第六获取单元 751。 其 中, 接收单元 731 用于接收输入信号的当前帧。 判决单元 733 用于根据 VAD的判决准则, 判决接收单元 731接收到的输入信号的当前帧是否为 背景噪声帧。 第六获取单元 751用于根据判决单元 733的判决结果, 在当 前帧为背景噪声帧时, 根据公式 sw _ wov = _WOV + (1_ > Γ, 菝取 背景噪声帧信噪比的长时滑动平均值 snr n _mov。 其中, snr为当前背景噪 声帧的信噪比, k 为控制背景噪声帧信噪比的长时滑动平均值 snr n _mov 更新速率的遗忘因子。

进一步地, 再参见图 13, 背景噪声相关长时参数的更新速率包括长时 滑动平均值 sn r n _mov的更新速率时,调整模块 602可以包括控制单元 752, 用于在当前背景噪声帧的信噪比 snr大于最后 n个背景噪声帧的信噪比的 平均值 snr n 时, 和在当前背景噪声帧的信噪比 snr小于最后 n个背景噪声 帧的信噪比的平均值 snr n 时, 为控制背景噪声帧信噪比的长时滑动平均值 snr n _mov更新速率的遗忘因子 k取不同的数值。

图 14为本发明 VAD装置第九实施例的结构示意图, 该实施例的 VAD 装置可用于实现本发明图 4所示实施例的 VAD方法。 该实施例中, 波动 特征值具体为背景噪声帧的修正分段信噪比 MSSNR 的长时滑动平均值 flux bgd 。 相应的, 获取模块 601包括接收单元 731、 判决单元 733、 第二划 分处理单元 761、 第二计算单元 762、 第三计算单元 763、 修正单元 764、 第七获取单元 765与第四计算单元 766。 其中, 接收单元 731用于接收输 入信号的当前帧。 判决单元 733用于根据 VAD的判决准则, 判决接收单 元 731接收到的输入信号的当前帧是否为背景噪声 帧。 第二划分处理单元 761用于根据判决单元 733的判决结果, 在当前帧为背景噪声帧时, 将当 前背景噪声帧的 FFT频谱划分为 H个子带, H为大于 1的整数, 并根据 公式 ¾ = P ∑ S ) + (1—PU , 分别计算 i 个子带的能量

h i) -l i) +丄 ^(i)

E band (i) , i=0 , 1, ... ..., H- l。 其中, l(i)与 h(i)分别表示第 i个子带中频率 最低的 FFT频点与频率最高的 FFT频点, 表示 FFT频谱上第 j个频点 的能量, E band ―。 ld (i)表示前一个背景噪声帧中第 i个子带的能量。 P为预设 常数, 具体可以根据经验值设置。 第二计算单元 762 用于根据公式 , 使用前一个背景噪声帧中第 i个子带的 能量更新背景噪声的长时滑动平均值¾^^, 其中, q为预设常数, 具体 可以根据经验值设置 。 第 三计算单元 763 用 于根据公式 snr{i) = o M)lE ^ 分别计算当前背景噪声帧中第 i 个子带的信 噪 比 snr(i) 。 修 正 单 元 764 用 于 根 据 公 式

MAX[MIN[ mr ^ ,1],0] , 第一集合

msnr(J) C1 , 分别对当前背景噪声帧中

MAX[MIN[ r ^ ,1],0] , 第二集合 第 i个子带的信噪比 snr(i)进行修正, 其中, msnr(i)为修正后第 i个子带的 信噪比, C 1与 C2为大于零的预设实常数, 第一集合与第二集合中数值的 构成集合 [0, H- l]。 获 取当前背景噪声帧的修正分段信噪比 MSSNR。 第四计算单元 766用于根 据公式 flux^ = r · flux^ + (1 - ) · MSSNR,计算当前背景噪声帧的修正分段 信噪比 MSSNR的长时滑动平均值 flux bgd , 其中, r为用于控制当前背景噪 声帧的修正分段信噪比 MSSNR的长时滑动平均值 flux bsd 更新速率的遗忘 系数。

图 15为本发明 VAD装置第十实施例的结构示意图, 与图 14所示的实 施例相比, 该实施例的 VAD装置中, 在 VAD的判决准则相关参数包括主 判决门限时, 调整模块 602 包括第一存储单元 701、 第一查询单元 702、 第一获取单元 703与第一更新单元 704。 其中, 第一存储单元 701用于存 储波动特征值与判决门限噪声波动偏移量 thr_bias_noise之间的对应关系。 第一查询单元 702用于从第一存储单元 701中查询波动特征值与判决门限 噪声波动偏移量 thr_bias_noise 之间的对应关系, 获取与背景噪声的波动 特征值对应的判决门限噪声波动偏移量 thr_bias_noise, 其中, 判决门限噪 声波动偏移量 thr_bias_noise 用于表示不同波动大小的背景噪声下门限的 偏 移 值 。 第 一 获 取 单 元 703 用 于 根 据 公 式 vad _thr - f^isnr) + f 2 {snr) · thr—bias—noise ,茨取主判决门限 vad_thr。其中, f snr)为当前背景噪声帧的信噪比 snr对应的基准门限, f 2 (snr)为当前背景 噪声帧的信噪比 snr对应的判决门限噪声波动偏移量 thr_bias_noise的加权 系数。 第一更新单元 704用于将 VAD的判决准则相关参数中的主判决门 限更新为第一获取模块 703获取到的主判决门限 vad_thr。

图 16为本发明 VAD装置第十一实施例的结构示意图, 与图 14所示的 实施例相比, 该实施例的 VAD装置中, 在 VAD的判决准则相关参数包括 主判决门限时, 调整模块 602包括第六存储单元 767、 第八获取单元 768、 第六查询单元 769与第六更新单元 770。 其中, 第六存储单元 767用于存 储主判决门限表 thr_tbl[], 该主判决门限表 thr_tbl[]包括波动性级别、信噪 比级别与主判决门限 vad_thr之间的对应关系。 第八获取单元 768用于获 取第四计算单元 766计算出的当前背景噪声帧的修正分段信噪比 MSSNR 的长时滑动平均值 flux bgd 对应的波动性级别 flux_idx, 以及获取当前背景 噪声帧的信噪比 snr对应的信噪比级别 snr_idx。 第六查询单元 769用于从 第六存储单元 767 中存储的主判决门限表 thr_tbl[]中查询同时与波动性级 别 fluxjdx 及 信 噪 比 级 别 snr_idx 对 应 的 主 判 决 门 限 t h_ r [t b 1_ s i 。 第六更新单元 770用于将判决准则相关参数 中 的主判决 门 限更新为第六查询单元查询到 的主判决 门 限 thr _ [£ux _ idx\。

进一步地, 在图 16所示的 VAD装置中, 主判决门限表 thr_tbl[]具体 可以包括波动性级别、 信噪比级别、 判决倾向与主判决门限 vad_thr之间 的对应关系。相应的,第八获取单元 768还用于获取进行 VAD判决的 VAD 装置当前的工作性能对应的判决倾向 op_idx, 即: 倾向于判决当前帧为语 音帧或背景噪声帧。 具体地, 该 VAD装置当前的工作性能可以包括 VAD 开启后的语音编码质量与 VAD对带宽的节省。 第六查询单元 769具体用 于从第六存储单元 767 中存储的主判决门限表 thr_tbl[]中查询同时与波动 性级别 flux_idx、 信噪比级别 snr_idx及性能级别 op_idx对应的主判决门 vad—thr op—idx\。第六更新单元 770具体用 于将判决准则相关参数中的主判决门限更新为 第六查询单元 769查询到的 主判决门限 vad _thr = th _ tbl[sn _ idx [Bux _ idx [op _ idx 。

进一步地, 在本发明上述各实施例提供的 VAD装置中, 还可以包括 控制模块 605, 用于根据输入信号中背景噪声的电平, 动态调整主判决门 限、 拖尾长度与拖尾触发条件中的任意一个或多个 VAD的判决准则相关 参数, 如图 16所示为其中一个实施例。 具体地, 可以采用图 5所示实施 例的流程, 来动态调整主判决门限、 拖尾长度与拖尾触发条件中的任意一 个或多个 VAD的判决准则相关参数。

本发明实施例还提供了一种编码器, 其具体可以包括本发明图 6至图 16任意一个实施例提供的 VAD装置。

本领域普通技术人员可以理解: 实现上述方法实施例的全部或部分步 骤可以通过程序指令相关的硬件来完成, 前述的程序可以存储于一计算机 可读取存储介质中, 该程序在执行时, 执行包括上述方法实施例的步骤; 而前述的存储介质包括: ROM、 RAM , 磁碟或者光盘等各种可以存储程 序代码的介质。

本发明实施例可以在输入信号为背景噪声时, 获取用于表示背景噪声 的波动大小的波动特征值, 根据该波动特征值对 VAD的判决准则相关参 数进行自适应调整, 并利用自适应调整后的判决准则相关参数, 对输入信 号进行 VAD判决, 与现有技术相比, 由于 VAD的判决准则相关参数可以 自适应于背景噪声的波动性, 可以在不同类型背景噪声的情况下获得较高 的 VAD判决性能,提高 VAD的判决效率与判决准确率,从而提高有限的 信道带宽资源的利用率。

最后所应说明的是: 以上实施例仅用以说明本发明的技术方案, 而非对 本发明作限制性理解。 尽管参照上述较佳实施例对本发明进行了详细 说明, 本领域的普通技术人员应当理解: 其依然可以对本发明的技术方案进行修改 或者等同替换, 而这种修改或者等同替换并不脱离本发明技术 方案的精神和 范围。