华为技术有限公司 (中国广东省深圳市龙岗区坂田华为总部办公楼, Guangdong 9, 518129, CN)
| 权 利 要 求 书 1、 一种实现通信系统中背景噪声的跟踪的方法, 其特征在于, 所述方法包 括: 才艮据输入的音频信号, 计算当前帧的信噪比 SNR; 若所述当前帧的信噪比 SNR不小于门限 1, 则累加帧计数器 cnt 2, 并计算 所述当前帧的音调特征以及信号稳定性特征; 当所述帧计数器 cnt 2累加至时间窗口长度时, 则根据所述计算得到的所述 时间窗口各帧的音调特征值和信号稳定性特征值, 判断出所述时间窗口中含有 噪声区间的可能性大小; 根据判断出的所述时间窗口含有噪声区间的可能性大小, 提取所述时间窗 口中的噪声特征。 2、 如权利要求 1所述的方法, 其特征在于, 所述根据输入的音频信号, 计 算当前帧的信噪比 SNR的步骤, 包括: 根据输入的音频信号, 获取当前帧的频谱信息, 将当前帧的频谱划分为多 个子带; 根据得到的各子带, 计算每个子带的信噪比 snr (i); 根据计算得到的每个子带的 s nr (i), 得到当前帧的 SNR。 3、 如权利要求 1所述的方法, 其特征在于, 所述根据所述计算得到的所述 时间窗口各帧的音调特征值和信号稳定性特征值, 判断出所述时间窗口中含有 噪声区间的可能性大小, 包括: 根据所述音调特征值和信号稳定性特征值判断当前帧是否为噪声帧, 若当 前帧为噪声帧, 则判断所述时间窗口中含有噪声区间的可能性大小。 4、 如权利要求 1所述的方法, 其特征在于, 所述计算所述当前帧的音调特 征以及信号稳定性特征的步骤, 包括: 计算所述当前帧的音调特征值、 所述当前帧的谱波动值、 所述当前帧的频 谱峰值位置波动值以及所述当前帧的频谱最大峰谷比位置波动值。 5、 如权利要求 4所述的方法, 其特征在于, 计算所述当前帧的音调特征值 包括计算频谱最大的 3个归一化峰谷比的和: tonal = i + PVR 2 + PVR 其中尸 ^2,3分别表示当前帧频谱中最大的 3个归一化峰谷比, 归一化峰谷比 表示为 PVR = [(peak - val, ) + (peak - valr )] I Eavg 其中; 表示 FFr谱的某个局部峰值, ra/ nV 分别表示 FFr谱峰值;? 左右两侧各 4个 频点范围内搜索得到的最小值, 表示;? ei^两侧距;? ei^最近的局部谷值, Eavg表示 FFr频谱能量的均值。 6、如权利要求 4所述的方法,其特征在于,计算所述当前帧的谱波动值 s pdev 包括: spdev = ∑ (Ew (0 - Mf N 其中 M Ew(;o的均值, 为第子带经谱减后的能量, 表示为 其中 表示当前帧第子带的能量, Eavg«表示第子带的能量滑动平均, 表示为 Eavg{i) = a-Eavg{i) + {l-a)-Es{i) 其中《是遗忘系数 7、 如权利要求 4所述的方法, 其特征在于, 计算所述当前帧的频谱峰值位 置波动值 包括: Pflu, = idxpm^ (0) - idxpmax (- 1) 其中 idxpmax O)和 Wxpmax (-1)分别表示当前和前一帧中频谱最大峰值的 频点索引。 8、 如权利要求 4所述的方法, 其特征在于, 计算所述当前帧的频谱最大峰 谷比位置波动值 Α ^包括: MPflUX = (°) - 其中 ^^ (0)和^^ (-1)分别表示当前帧和其前一帧具有最大峰谷比的 FFr频点 索引, 峰谷比? vr的计算方法为 其中 表示局部峰值 的能量, E, — — ,和 E,A— +,分别表示^ 左侧第个和右侧 第个 FFr频点的能量。 9、 如权利要求 4至 8任一项所述的方法, 其特征在于, 所述判断出所述时 间窗口中含有噪声区间的可能性大小的步骤之前, 所述方法还包括: 若所述当前帧的谱波动值小于门限 3, 则累加弱谱波动计数器 cnt 3; 若所述当前帧的音调特征值小于门限 4, 则累加弱音调计数器 cnt 4 ; 若所述当前帧的频谱最大峰谷比位置波动值小于门限 5,则累加稳定最大峰 谷比位置计数器 cnt 5 ; 若所述当前帧的频谱峰值位置波动值大于门限 6,则累加频谱峰值位置波动 计数器 cnt 6 ; 根据所述当前帧的谱波动值、 音调特征值、 频谱最大峰谷比位置波动值、 频谱峰值位置波动值以及各计数器, 判断所述时间窗口中是否存在噪声帧。 10、 如权利要求 9所述的方法, 其特征在于, 当所述帧计数器 cnt 2累加至 时间窗口长度时, 所述判断所述时间窗口中是否存在噪声帧的步骤, 包括: 如果所述弱音调计数器 cnt 4不大于门限 7, 则所述时间窗口中无噪声帧; 如果所述弱音调计数器 cnt 4大于门限 7,则若所述弱谱波动计数器 cnt 3大 于门限 8、 所述稳定最大峰谷比位置计数器 cnt 5小于门限 9、 所述频谱峰值位 置波动计数器 cnt 6大于门限 10, 且所述当前帧的谱波动值小于门限 11, 则所 述当前帧为噪声帧; 否则, 若所述稳定最大峰谷比位置计数器 cnt 5小于门限 9, 且所述频谱峰值位置波动计数器 cnt 6大于门限 10,则所述时间窗口中存在噪声 帧; 否则, 所述时间窗口中无噪声帧。 11、 如权利要求 10所述的方法, 其特征在于, 若所述时间窗口中存在噪声 帧, 所述判断出所述时间窗口中含有噪声区间的可能性大小的步骤, 包括: 若所述弱谱波动计数器 cnt 3等于所述时间窗口长度, 则所述时间窗口为全 噪声区间; 若所述弱谱波动计数器 cnt 3小于所述时间窗口长度且大于预设长度, 则所 述时间窗口为大部分为噪声区间且存在少量的非噪声区间。 12、 如权利要求 11所述的方法, 其特征在于, 若所述时间窗口包含的噪声 区间的类型为大部分为噪声区间且存在少量的非噪声区间, 则所述方法还包括: 判断所述少量的非噪声区间在所述时间窗口出现的位置类型, 所述位置类 型包括: 时间窗口的前端、 时间窗口的末端、 时间窗口的两端。 1 3、 如权利要求 12所述的方法, 其特征在于, 所述判断所述少量的非噪声 区间在所述时间窗口出现的位置类型的步骤, 包括: 根据所述弱谱波动计数器 cnt 3,获取不满足令所述弱谱波动计数器 cnt 3累 加的帧, 根据所述获取的帧, 得到所述帧的位置, 根据所述位置获得所述少量 的非噪声区间在所述时间窗口出现的位置类型。 14、 如权利要求 1 3所述的方法, 其特征在于, 所述根据判断出的所述时间 窗口含有噪声区间的可能性大小, 提取所述时间窗口的噪声特征的步骤, 包括: 若所述时间窗口为全噪声区间时, 则提取所述时间窗口最末端的噪声区间 的特征值; 或, 提取所述时间窗口内所有噪声区间的特征均值; 或, 提取所述 时间窗口内部分或全部噪声区间的加权特征值; 若所述时间窗口为大部分为噪声区间且存在少量的非噪声区间时, 如果所 述非噪声区间不在所述时间窗口的末端, 则提取所述时间窗口最末端的噪声区 间的特征值; 或, 提取所述时间窗口中靠近末端的部分噪声区间的加权特征值; 如果所述非噪声区间在时间窗口的末端时, 则提取所述时间窗口中噪声特征的 最小值; 或, 提取部分噪声区间的加权特征值。 15、 如权利要求 1 所述的方法, 其特征在于, 所述判断出所述时间窗口中 含有噪声区间的可能性大小的步骤之前, 所述方法还包括: 根据所述音调特征值和信号稳定性特征值, 和各音调特征值和信号稳定性 特征值对应的门限进行比较, 对于满足各自的条件的音调特征值和信号稳定性 特征值对应的计数器进行累加。 16、 如权利要求 15所述的方法, 其特征在于, 所述根据所述音调特征值和 信号稳定性特征值, 和各音调特征值和信号稳定性特征值对应的门限进行比较, 对于满足各自的条件的音调特征值和信号稳定性特征值对应的计数器进行累 力口, 包括: 若所述当前帧的谱波动值小于门限 3, 则累加弱谱波动计数器 cnt 3; 若所述当前帧的音调特征值小于门限 4, 则累加弱音调计数器 cnt 4 ; 若所述当前帧的频谱最大峰谷比位置波动值小于门限 5,则累加稳定最大峰 谷比位置计数器 cnt 5 ; 若所述当前帧的频谱峰值位置波动值大于门限 6,则累加频谱峰值位置波动 计数器 cnt 6 ; 根据所述当前帧的谱波动值、 音调特征值、 频谱最大峰谷比位置波动值、 频谱峰值位置波动值以及各计数器, 判断所述时间窗口中是否存在噪声帧。 17、 如权利要求 15或 16所述的方法, 其特征在于, 当所述帧计数器 cnt 2 累加至时间窗口长度时, 根据所述计算得到的所述时间窗口各帧的音调特征值 和信号稳定性特征值, 判断出所述时间窗口中含有噪声区间的可能性大小包括: 当所述帧计数器 cnt 2累加至时间窗口长度时, 根据所述当前帧的音调特征 值和信号稳定性特征值以及各音调特征值和信号稳定性特征值对应的计数器, 判断所述时间窗口中是否存在噪声帧; 若所述时间窗口中存在噪声帧, 则判断所述时间窗口中含有噪声区间的可 能性大小。 18、 如权利要求 17所述的方法, 其特征在于, 当所述帧计数器 cnt 2 累加 至时间窗口长度时, 所述判断所述时间窗口中是否存在噪声帧的步骤, 包括: 如果所述弱音调计数器 cnt 4不大于门限 7, 则所述时间窗口中无噪声帧; 如果所述弱音调计数器 cnt 4大于门限 7,则若所述弱谱波动计数器 cnt 3大 于门限 8、 所述稳定最大峰谷比位置计数器 cnt 5小于门限 9、 所述频谱峰值位 置波动计数器 cnt 6大于门限 10, 且所述当前帧的谱波动值小于门限 11, 则所 述当前帧为噪声帧; 否则, 若所述稳定最大峰谷比位置计数器 cnt 5小于门限 9, 且所述频谱峰值位置波动计数器 cnt 6大于门限 10,则所述时间窗口中存在噪声 帧; 否则, 所述时间窗口中无噪声帧。 19、 如权利要求 18所述的方法, 其特征在于, 若所述时间窗口中存在噪声 帧, 则判断所述时间窗口中含有噪声区间的可能性大小的步骤, 包括: 若所述弱谱波动计数器 cnt 3等于所述时间窗口长度, 则所述时间窗口为全 噪声区间; 若所述弱谱波动计数器 cnt 3小于所述时间窗口长度且大于预设长度, 则所 述时间窗口为大部分为噪声区间且存在少量的非噪声区间。 20、 如权利要求 19所述的方法, 其特征在于, 若所述时间窗口包含的噪声 区间的类型为大部分为噪声区间且存在少量的非噪声区间, 则所述方法还包括: 判断所述少量的非噪声区间在所述时间窗口出现的位置类型, 所述位置类 型包括: 时间窗口的前端、 时间窗口的末端、 时间窗口的两端。 21、 如权利要求 20所述的方法, 其特征在于, 所述判断所述少量的非噪声 区间在所述时间窗口出现的位置类型的步骤, 包括: 根据所述弱谱波动计数器 cnt 3,获取不满足令所述弱谱波动计数器 cnt 3累 加的帧, 根据所述获取的帧, 得到所述帧的位置, 根据所述位置获得所述少量 的非噪声区间在所述时间窗口出现的位置类型。 22、 如权利要求 21所述的方法, 其特征在于, 所述根据判断出的所述时间 窗口含有噪声区间的可能性大小, 提取所述时间窗口的噪声特征的步骤, 包括: 若所述时间窗口为全噪声区间时, 则提取所述时间窗口最末端的噪声区间 的特征值; 或, 提取所述时间窗口内所有噪声区间的特征均值; 或, 提取所述 时间窗口内部分或全部噪声区间的加权特征值; 若所述时间窗口为大部分为噪声区间且存在少量的非噪声区间时, 如果所 述非噪声区间不在所述时间窗口的末端, 则提取所述时间窗口最末端的噪声区 间的特征值; 或, 提取所述时间窗口中靠近末端的部分噪声区间的加权特征值; 如果所述非噪声区间在时间窗口的末端时, 则提取所述时间窗口中噪声特征的 最小值; 或, 提取部分噪声区间的加权特征值。 23、 如权利要求 1所述的方法, 其特征在于, 当所述帧计数器 cnt 2大于所 述时间窗口长度时, 所述方法还包括: 获得当前帧的谱波动值, 若所述当前帧的谱波动值小于门限 1 1, 则所述当 前帧为噪声帧; 否则, 所述当前帧为非噪声帧。 24、 一种实现通信系统中背景噪声的跟踪的装置, 其特征在于, 所述装置 包括: 第一处理模块, 用于根据输入的音频信号, 计算当前帧的信噪比 SNR ; 第二处理模块, 用于若所述当前帧的信噪比 SNR不小于门限 1, 则累加帧计 数器 cnt 2, 并计算所述当前帧的音调特征以及信号稳定性特征; 第三处理模块, 用于当所述帧计数器 cn t 2累加至时间窗口长度时, 则根据 所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值, 判断出 所述时间窗口中含有噪声区间的可能性大小。 第四处理模块, 用于根据判断出的所述时间窗口中含有噪声区间的可能性 大小, 提取所述时间窗口中的噪声特征。 25、 如权利要求 24所述的装置, 其特征在于, 所述第一处理模块, 包括: 划分单元, 用于根据输入的音频信号, 获取当前帧的频谱信息, 将当前帧 的频谱划分为多个子带; 子带计算单元, 用于根据得到的各子带, 计算每个子带的信噪比 snr (i) ; 获得单元, 用于根据计算得到的每个子带的 snr (i), 得到当前帧的 SNR。 26、 如权利要求 24所述的装置, 其特征在于, 所述第二处理模块, 包括: 门限判断单元, 用于判断所述当前帧的信噪比 SNR是否大于门限 1; 帧计数器累加单元, 用于若所述判断单元判断结果为否时, 累加帧计数器 cnt 2 ; 计算单元, 用于计算所述当前帧的谱波动值、 所述当前帧的音调特征值、 所述当前帧的频谱峰值位置波动值以及所述当前帧的频谱最大峰谷比位置波动 值。 27、 如权利要求 26所述的装置, 其特征在于, 所述第三处理模块, 还包括: 累加单元, 用于若所述当前帧的谱波动值小于门限 3, 则累加弱谱波动计数 器 cnt 3;若所述当前帧的音调特征值小于门限 4, 则累加弱音调计数器 cnt 4 ; 若 所述当前帧的频谱最大峰谷比位置波动值小于门限 5,则累加稳定最大峰谷比位 置计数器 cnt 5 ; 若所述当前帧的频谱峰值位置波动值大于门限 6, 则累加频谱 峰值位置波动计数器 cnt 6 ; 判断单元, 用于根据所述当前帧的谱波动值、 音调特征值、 频谱最大峰谷 比位置波动值、 频谱峰值位置波动值以及各计数器, 判断所述时间窗口中是否 存在噪声帧。 28、 如权利要求 27所述的装置, 其特征在于, 所述判断单元具体用于如果 所述弱音调计数器 cnt 4大于门限 7, 则所述时间窗口中无噪声帧; 如果所述弱 音调计数器 cnt 4不大于门限 7, 则若所述弱谱波动计数器 cnt 3大于门限 8、 所 述稳定最大峰谷比位置计数器 cnt 5小于门限 9、 所述频谱峰值位置波动计数器 cnt 6大于门限 10, 且所述当前帧的谱波动值小于门限 11, 则所述当前帧为噪声 帧; 否则, 若所述稳定最大峰谷比位置计数器 cnt 5小于门限 9, 且所述频谱峰 值位置波动计数器 cnt 6大于门限 1 0, 则所述时间窗口中存在噪声帧; 否则, 所 述时间窗口中无噪声帧。 29、 如权利要求 28所述的装置, 其特征在于, 所述第三处理模块, 具体用 于若所述弱谱波动计数器 cnt 3等于所述时间窗口长度, 则所述时间窗口为全噪 声区间; 若所述弱谱波动计数器 cnt 3小于所述时间窗口长度且大于预设长度, 则所述时间窗口为大部分为噪声区间且存在少量的非噪声区间; 若所述时间窗 口中无噪声帧。 30、 如权利要求 29所述的装置, 其特征在于, 若所述时间窗口为大部分为 噪声区间且存在少量的非噪声区间, 所述第三处理模块还包括: 位置类型判断 单元,用于判断所述少量的非噪声区间在所述时间窗口出现的位置类型, 所述位 置类型包括: 时间窗口的前端、 时间窗口的末端、 时间窗口的两端。 31、 如权利要求 30所述的装置, 其特征在于, 所述位置类型判断单元具体 用于根据所述弱谱波动计数器 cnt 3,获取不满足令所述弱谱波动计数器 cnt 3累 加的帧, 根据所述获取的帧, 得到所述帧的位置, 根据所述位置获得所述少量 的非噪声区间在所述时间窗口出现的位置类型。 32、 如权利要求 30所述的装置, 所述第四处理模块具体用于若所述时间窗 口为全噪声区间时, 则提取所述时间窗口最末端的噪声区间的特征值; 或, 提 取所述时间窗口内所有噪声区间的特征均值; 或, 提取所述时间窗口内部分或 全部噪声区间的加权特征值; 若所述时间窗口为大部分为噪声区间且存在少量 的非噪声区间时, 如果所述非噪声区间不在所述时间窗口的末端, 则提取所述 时间窗口最末端的噪声区间的特征值; 或, 提取所述时间窗口中靠近末端的部 分噪声区间的加权特征值; 如果所述非噪声区间在时间窗口的末端时, 则提取 所述时间窗口中噪声特征的最小值; 或, 提取部分噪声区间的加权特征值。 33、 如权利要求 26 所述的装置, 其特征在于, 所述第三处理模块,还用于 当所述帧计数器 cnt 2大于所述时间窗口长度时, 若所述当前帧的谱波动值小于 门限 11, 则所述当前帧为噪声帧; 否则, 所述当前帧为非噪声帧。 |
技术领域
本发明涉及通信领域, 特别涉及一种实现通信系统中背景噪声的跟踪 的方 法和装置。 背景技术
在语音通信系统中, f it VAD ( Vo i ce Act ivi ty Detec t ion, 语音激活检测) 技术, 可以获知语音何时是激活状态, 从而可以实现只在激活状态传输信号, 有效地节约带宽资源。 另外, 由于语音通信系统中, 说话人输入给终端的语音 信号中通常都夹带有背景噪声, 通过赚 oi se Suppres s ion,噪声抑制)技术, 可以有效降低或者抑制语音中夹带的背景噪声 , 显著改善听者的主观感受。
在语音激活检测 VAD 中, 区别当前信号是语音还是非语音, 本质上是看当 前信号的特征是更接近背景噪声的特征还是更 接近语音的特征, 更接近的一方 则为当前信号的类别。 在噪声抑制 NS中, 为了削弱背景噪声对语音的影响, 也 需要知道当前背景噪声的某些特征, 这样才能把这些特征从语音信号中去除掉, 从而达到抑制噪声的目的。 于是无论是语音激活检测 VAD还是噪声抑制 NS, 都 要涉及到一个关键的技术, 即背景噪声跟踪。
目前, 广泛使用的背景噪声跟踪技术是 AMR ( Audio/Modem Ri ser , 声音 / 调制解调器插卡) VAD2 中所用的背景噪声跟踪技术。 该技术首先计算当前帧的 SNR ( S i gna l to Noi se Ra t io , 信噪比), 如果 SNR较小, 小于背景噪声门限, 则当前帧就被确认为是背景噪声帧; 否则检测当前帧的基音和音调(tone)特征, 如果当前帧具有基音和音调的特征, 则将滞后计数器加 1, 否则进一步计算当前 帧与其之前相邻若干帧的谱波动大小, 如果当前帧的谱波动较大, 大于一个门 限, 则认为当前帧可能不是噪声帧且将滞后计数器 加 1, 否则认为当前帧可能是 噪声帧且将连续噪声帧计数器加 1。 如果连续噪声帧计数器达到了 50帧, 则可 确认当前帧应为背景噪声帧。 并且, 在连续噪声帧计数器累加的过程中, 允许 个别不确信的帧出现(以滞后计数器来表示) 。 当连续噪声计数器达到 50帧时, 如果滞后计数器不大于 6 (即不确信的帧不大于 6帧)时,则确认当前帧为噪声帧, 即此时不影响对当前噪声帧的确认。 如果在连续噪声计数器累加的过程中, 滞 后计数器超过 6帧, 则重置连续噪声帧计数器, 当前信号不确认为背景噪声。
一方面, 上述背景噪声跟踪技术在跟踪速度上存在缺陷 , 当背景噪声发生 突变时(指向 SNR增大的方向变化, 比如噪声电平突然升高的情况), 依靠 SNR 和背景噪声门限的比较已无法识别出噪声信号 ,只能等待连续 50个噪声帧出现, 导致跟踪速度慢。 如果说话人的频率较快, 无法满足出现连续 50个噪声帧的条 件, AMR VAD2将无法跟踪上背景噪声。 另一方面, 上述背景噪声跟踪技术在跟 踪的准确性上存在缺陷, 由于很多音乐信号中没有明显的基音和音调特 征, 则 如果依据连续噪声计数器大于等于 50且滞后计数器不大于 6的条件, 会将某些 音乐信号也错误的判断为是背景噪声。 发明内容
为了提高跟踪背景噪声的速度、 提高跟踪背景噪声的准确性, 本发明实施 例提供了一种实现通信系统中背景噪声的跟踪 的方法和装置。 所述技术方案如 下:
一方面,提供了一种实现通信系统中背景噪声 的跟踪的方法, 所述方法包 括:
才艮据输入的音频信号, 计算当前帧的信噪比 SNR;
若所述当前帧的信噪比 SNR不小于门限 1, 则累加帧计数器 cnt 2, 并计算 所述当前帧的音调特征以及信号稳定性特征;
当所述帧计数器 cnt 2累加至时间窗口长度时, 则根据所述计算得到的所述 时间窗口各帧的音调特征值和信号稳定性特征 值, 判断出所述时间窗口中含有 噪声区间的可能性大小;
根据判断出的所述时间窗口含有噪声区间的可 能性大小, 提取所述时间窗 口中的噪声特征。
再一方面,提供了一种实现通信系统中背景噪 声的跟踪的装置, 所述装置包 括: 第一处理模块, 用于根据输入的音频信号, 计算当前帧的信噪比 SNR ; 第二处理模块, 用于若所述当前帧的信噪比 SNR不小于门限 1, 则累加帧计 数器 cnt 2, 并计算所述当前帧的音调特征以及信号稳定性 特征;
第三处理模块, 用于当所述帧计数器 cn t 2累加至时间窗口长度时, 则根据 所述计算得到的所述时间窗口各帧的音调特征 值和信号稳定性特征值, 判断出 所述时间窗口中含有噪声区间的可能性大小;
第四处理模块, 用于根据判断出的所述时间窗口含有噪声区间 的可能性大 小, 提取所述时间窗口中的噪声特征。
本发明实施例提供的技术方案的有益效果是:
通过连续的在一定长度的时间窗口中分析背景 噪声的存在性, 可以快速的 检测或跟踪变化频繁且剧烈的背景噪声。 同时, 通过对音调特征, 频谱峰值位 置稳定性和最大峰谷比位置稳定性的检测显著 的降低了发生在音乐信号的背景 噪声误跟踪现象。 附图说明
为了更清楚地说明本发明实施例或现有技术中 的技术方案, 下面将对实施 例或现有技术描述中所需要使用的附图作简单 地介绍, 显而易见地, 下面描述 中的附图仅仅是本发明的一些实施例, 对于本领域普通技术人员来讲, 在不付 出创造性劳动性的前提下, 还可以根据这些附图获得其他的附图。
图 1是本发明实施例 1提供的实现通信系统中背景噪声的跟踪的方 的流 程示意图;
图 2是本发明实施例 2提供的实现通信系统中背景噪声的跟踪的方 的流 程示意图;
图 3是本发明实施例 3提供的实现通信系统中背景噪声的跟踪的装 的示 意图。 具体实施方式
为使本发明的目的、 技术方案和优点更加清楚, 下面将结合附图对本发明 实施方式作进一步地详细描述。
实施例 1 本领域技术人员可以获知: 背景噪声跟踪技术的性能可以用两个指标来衡 量, 即跟踪的速度和跟踪的准确性。 其中, 跟踪的速度指识别出某背景噪声信 号的时间与该信号实际发生时间之间的距离, 距离越短跟踪速度就越快。 跟踪 的准确性指能够正确识别出背景噪声信号和非 背景噪声信号, 进而只在背景噪 声信号中提取特征参数。
如前所述, 现有的噪声跟踪技术普遍在跟踪准确性和跟踪 速度上都存在不 足。 跟踪速度的不足主要出现在有变化较剧烈的背 景噪声存在时, 现有噪声跟 踪技术需要一段比较长的时间, 只有在背景噪声变的平稳且持续一段较长的时 间之后才能有效的跟踪上。 跟踪准确性的不足主要出现在有音乐信号存在 时, 由于很多的音乐信号中没有明显的基音和音调 特征, 现有背景噪声跟踪技术会 把此类音乐信号误当成噪声信号进行跟踪, 需要特别注意的是, 此处没有明显 的基音和音调特征的音乐信号是一种泛指, 传输的信号中除语音信号、 背景噪 声信号以外的任何信号, 只要没有明显的基音和音调特征的都可称为音 乐信号。
有鉴于此, 本发明实施例提供了一种实现通信系统中背景 噪声的跟踪的方 法, 旨在改善现有背景噪声跟踪技术在有突变背景 噪声存在的场景下, 跟踪速 度较慢的问题, 以及改善现有背景噪声跟踪技术在有音乐信号 存在时的误跟踪 问题, 参见图 1, 该方法内容如下:
Sl: 4艮据输入的音频信号, 计算当前帧的信噪比 SNR;
S2:若当前帧的信噪比 SNR不小于门限 1, 则累加帧计数器 cnt 2, 并计算当 前帧的音调特征以及信号稳定性特征;
其中, 音调特征, 包括但不限于提取——频谱的最大峰谷比, 频谱的局部 峰谷比的线性组合, 频谱的局部峰值数量, 部分频谱的局部峰值数量, 频谱的 最大峰均比, 频谱的局部峰均比的线性组合等。 其中,信号稳定性特征, 包括但 不限于提取一一总能量波动, 子带能量波动, 频谱最大峰值位置波动, 频谱最 大峰谷比位置波动, 多个频谱局部峰值位置波动等。
S 3:当帧计数器 cnt 2 累加至时间窗口长度时, 则根据计算得到的时间窗口 各帧的音调特征值和信号稳定性特征值, 判断出时间窗口中含有噪声区间的可 能性大小;
时间窗中含有噪声区间的可能性大小指时间窗 中是否含有噪声及含有噪声 的位置。 对于一个时间窗中的音频帧, 可能存在下列噪声区间可能性: 当前帧 为噪声帧, 存在噪声帧。
S4:才艮据判断出的时间窗口含有噪声区间的可 能性大小, 提取时间窗口中的 噪声特征。
对于当前帧为噪声帧的情况, 可以直接提起当前帧的噪声特性, 对于存在 噪声帧的情况又具体包括: 全噪声区间、 大部分为噪声区间而仅有少量非噪声 区间。 对不同的类型根据不同情况提取噪声特征。
本发明实施例提供的方法,通过连续的在一定 长度的时间窗口中分析背景 噪声的存在性, 可以快速的检测或跟踪变化频繁且剧烈的背景 噪声。 同时, 通 过对音调特征, 频谱峰值位置稳定性和最大峰谷比位置稳定性 的检测显著的降 低了发生在音乐信号的背景噪声误跟踪现象。
实施例 2
为了改善现有背景噪声跟踪技术在有突变背景 噪声存在的场景下, 跟踪速 度较慢的问题, 以及现有背景噪声跟踪技术在有音乐信号存在 时的误跟踪问题, 本发明实施例提供了一种实现通信系统中背景 噪声的跟踪的方法, 参见图 2, 该 方法内容如下:
101 : 才艮据输入的音频信号, 计算当前帧的信噪比 SNR。
对于输入的音频信号, 各音频信号以帧格式的形式进行传输, 首先需要对 于当前帧进行信噪比的计算, 其中, 计算方法如下:
101A:获取当前帧的频谱信息, 将当前帧的频谱非均匀的划分为 16个子带。 其中,本实施例以将当前帧的频谱非均匀的划 分为 16个子带为例进行说明, 具体实现时, 可以采用均匀的划分方式, 本实施例对此不做限制。 另外, 具体 实现时, 对划分得到的子带数目不做限制, 例如, 当对于频域分辨率要求较高 的情况, 则子带数目可以适当增加, 但同时计算的复杂度会增大。 具体应用时, 根据技术人员的实际需要进行选择, 本实施例对此不做限制。
101B: 根据得到的子带, 计算每个子带的 snr (i)。
其中, snr (i) = Es (i) / En (i) ; snr (i)表示当前帧第 i个子带的 SNR, Es (i) 和 En (i)分别表示当前帧和背景噪声估计中第 i子带的能量。
101C: 根据计算得到的每个子带的 snr (i), 得到当前帧的 SNR。 其中, 当前帧的 SNR表示为所有子带 snr (i)的和, 即 Μ? = Χ Γ( )。
102: 判断当前帧的 SNR是否小于门限 1, 如果是, 执行步骤 103; 否则执 行步骤 104
其中, 该门限 1可以称为噪声门限, 且该门限 1 的取值为一较小的数值, 通常 SNR的数值单位为分贝 DB, 相应地, 该门限 1的数值单位也为 DB, 具体实 现时, 对门限的数值单位不做限制。
103: 确认当前帧是噪声帧。
进一步地, 为了防止将能量较低的语音末尾当做背景噪声 , 由于该语音末 尾由于能量较低, 所以其 SNR会有可能小于上述门限 1, 相应地, 在步骤 103还 包括: 将连续噪声计数器 cnt l加 1, 之后判断连续噪声计数器 cnt l是否大于门 限 2, 如果是, 则将当前帧确认为噪声帧; 否则, 则当前帧是语音末尾, 流程结 束。
104: 当前帧的 SNR不小于门限 1, 将帧计数器 cnt 2加 1
105: 在将帧计数器 cnt 2加 1 的同时, 计算当前帧的音调特征值参数和信 号稳定性参数; 且对最小子带能量緩存进行更新。
其中, 上述音调特征值参数包括但不限于: 频谱的最大峰谷比, 频谱的局 部峰谷比的线性组合, 频谱的局部峰值数量, 部分频谱的局部峰值数量, 频谱 的最大峰均比, 频谱的局部峰均比的线性组合等。 优选地, 本实施例是以频谱 最大的 3个归一化峰谷比的和来表示音调特征值。 详见如下: tonal = PVR maxl + PVR mm2 + PVR max3
其中 ^^ 3 分别表示当前帧频谱中最大的 3个归一化峰谷比, 归一化峰谷比 表示为 PVR = [(peak - val, ) + (peak - val )] / E
其中?^樣示^! 1 谱的某个局部峰值, ra/,和 分别表示 谱峰值 左右两侧各 4个 频点范围内搜索得到的最小值, 表示 ?£>α洒侧距^ α撮近的局部谷值,
E avg 表示 频谱能量的均值。
其中, 上述信号稳定性参数包括但不限于: 总能量波动, 子带能量波动, 频谱 最大峰值位置波动, 频谱最大峰谷比位置波动, 多个频谱局部峰值位置波动等。 优选地, 本实施例以谱波动值、 当前帧的频谱峰值位置波动值、 当前帧的频谱 最大峰谷比位置的波动值为例进行说明。 分别详见如下:
1 普波动值( spdev ), 计算方法如下:
其中 M E w (0的均值, E w (0为第子带经谱减后的能量, 表示为
E W ( ) = E ·)/ ()
其中 表示当前帧第子带的能量, E avg (0表示第子带的能量滑动平均, 表示为
E avg (i) = a-E avg (i) + (\-a)-E s (i)
其中《是遗忘系数
2、当前帧的频普峰值位置波动值( ^ ∞ ),表示 FFT( Fast Fourier Transform, 傅立叶变换)谱最大峰值位置的前后变化大小 ,计算方法如下:
P idx p max (0)― idx p max (― 1)
其中^ ^ (0)和 max (-l)分别表示当前和前一帧中频谱最大峰 的 FFr频点索引。 3、 频谱最大峰谷比位置波动值 Mp flux ), 表示帧内具有最大峰谷比的 FFT 谱峰值位置的前后变化大小, 其计算方法如下。
M P flux = idx pwmaK (0) - idx pwmaK (-1)
其中 W~ max(0)和 W> max (-l)分别表示当前帧和其前一帧具有最大 谷比的^频点 索引, 峰谷比 的计算方法为
其中 — 表示局部峰值^啲能量, — ,和 分别表示^:左侧第个和右侧 第个 频点的能量。 其中, 该步骤 105 中所涉及的对最小子带能量緩存进行更新, 其作用是存 储当前时间窗口中各个子带的最小能量值。
106: 根据步骤 105得到的参数值, 和各参数对应的门限进行比较后, 针对 各参数而言, 对于满足各自的条件的参数对应的计数器加 1。 详见如下:
106A:判断步骤 105得到的当前帧的谱波动值是否小于门限 3, 如果是, 则 将弱谱波动计数器 cnt3加 1; 否则, 保持弱谱波动计数器 cnt3不变。
106B:判断步骤 105得到的音调特征值是否小于门限 4, 如果是, 则将弱音 调计数器 cnt4加 1; 否则, 保持弱音调计数器 cnt4不变。
106C:判断步骤 105得到的频谱最大峰谷比位置波动值是否小于 门限 5, 如 果是, 则将稳定最大峰谷比位置计数器 cnt5加 1; 否则, 保持稳定最大峰谷比 位置计数器 cnt5不变。
106D:判断步骤 105得到的频谱峰值位置波动值是否大于门限 6, 如果是, 则将频谱峰值位置波动计数器 cnt6加 1; 否则, 保持频谱峰值位置波动计数器 cnt6不变。
优选地, 上述门限 3可以取值为 12、 门限 4可以取值为 15、 门限 5可以取 值为 1、 门限 6可以取值为 0。 本实施例对各门限具体取值大小和取值单位不 做 限制, 根据实际应用进行设置。
107: 判断帧计数器 cnt2 计数是否等于预设的时间窗口长度; 如果是, 则 执行步骤 108; 否则, 执行步骤 114。
其中, 帧计数器 cnt2的目的是为了建立一个时间窗口, 本实施例中将该时 间窗口的长度预设为 30,即该时间窗口由 30帧帧长组成,相当于帧计数器 cnt2 计数达到 30,本实施例中在每一个这样的时间窗口内都 对信号特征进行分析, 从中提取出可能存在的背景噪声特征。
108: 判断弱音调计数器 cnt4是否大于门限 7, 如果是, 则执行步骤 109; 否则, 执行步骤 112。
109: 弱音调计数器 cnt4大于门限 7, 则认为在过去的 30帧中存在噪声帧, 则判断是否同时满足如下条件: 弱谱波动计数器 cnt3>门限 8、 稳定最大峰谷比 位置计数器 cnt5〈门限 9、 频谱峰值位置波动计数器 cnt6>门限 10、 当前帧的谱 波动 spdev〈门限 11, 如果是, 则执行步骤 113; 否则, 执行步骤 110。
110: 判断是否同时满足如下条件: 稳定最大峰谷比位置计数器 cnt5〈门限 9、 频谱峰值位置波动计数器 cnt6>门限 10; 如果是, 则执行步骤 111; 否则, 执行步骤 112。
111: 将最小子带能量緩存中存储的子带能量作为噪 声子带能量的特征。 其中, 若执行到步骤 111, 则表示过去的 30帧中至少存在噪声帧, 且将最 小子带能量緩存中存储的子带能量作为噪声特 征。
112: 将各计数器 cntl-6重置为 0, 并将最小子带能量緩存清空。
其中, 若执行到步骤 112, 则表示过去的 30帧中不存在噪声帧。
113: 确认当前帧为噪声帧。
其中, 若执行到步骤 113, 则可确认当前帧为噪声帧。
114: 判断帧计数器 cnt2是否大于 30, 如果否, 则执行步骤 115; 否则, 执行步骤 116。
115: 继续读取当前帧的下一帧, 返回执行步骤 101。
116: 判断谱波动是否小于门限 11, 如果是, 则执行步骤 113, 即确认当前 帧为噪声帧; 否则, 执行步骤 112, 即将各计数器 cnt l-6重置为 0, 并将最小 子带能量緩存清空。
其中, 若当前帧为非噪声帧, 则可以不用提取时间窗口的噪声特征; 若当 前帧为噪声帧, 则可以直接提取该噪声帧的特征值; 若判断出时间窗户存在噪 声帧, 则可以通过以下方式方法, 提取到该时间窗口的噪声特征, 详见如下: 进一步地, 若判断结果为时间窗口存在噪声帧时, 则根据上述音调特征统 计值和信号稳定性统计值, 可以判断得出该时间窗口中含有背景噪声区间 的类 型(即包括全噪声区间、 大部分为噪声区间而仅有少量非噪声区间), 具体如下:
1、 判断该时间窗口中含有背景噪声区间是否为全 噪声区间; 例如, 根据弱 谱波动计数器 cnt 3, 判断该弱谱波动计数器 cnt 3是否等于时间窗口长度, 如果 是, 则认为该时间窗口中含有背景噪声区间为全噪 声区间; 否则, 则认为该时 间窗口中含有背景噪声区间不为全噪声区间;
2、 判断该时间窗口中含有背景噪声区间是否是大 部分为噪声区间而仅有少 量非噪声区间; 例如, 根据弱谱波动计数器 cnt 3, 判断该弱谱波动计数器 cnt 3 是否小于时间窗口长度且大于预设取值 (该预设取值为本领域技术根据实际需 要所设定的经验值), 如果是, 则认为该时间窗口中是大部分为噪声区间而仅 有 少量非噪声区间;
3、 判断该时间窗口中不存在噪声区间。 即如前所述, 若执行到步骤 112, 则表示过去的 30帧中不存在噪声帧。
进一步地, 若上述判断得出该时间窗口中含有背景噪声区 间是大部分为噪 声区间而仅有少量非噪声区间, 则进一步包括: 判断上述少量的非噪声区间在 该时间窗口中出现的位置, 例如, 上述少量的非噪声区间是否位于该时间窗口 的前端, 或, 上述少量的非噪声区间是否位于该时间窗口的 末端, 或, 上述少 量的非噪声区间是否位于该时间窗口的两端。 方法如下: 获取不满足令弱谱波 动计数器 cnt 3+l的帧, 对于获取的帧得到帧的位置信息, 根据所得到的位置信 息, 可以得出帧所在时间窗口的位置。 例如, 对于输入的音频信号的每个帧, 在进行处理时, 都会在緩存中记录其相关的信息, 例如, 对于满足令弱谱波动 计数器 cnt 3+l的帧, 在緩存中将其标识记为 " 1" ; 对于满足令弱谱波动计数器 cnt 3+l的帧, 在緩存中将其标识记为 " 0" ; 相应地, 此时, 可以才艮据緩存中记 录的相关内容, 可以获知不满足令弱谱波动计数器 cnt 3+l的帧的位置信息, 并 进而可以获知少量的非噪声区间在该时间窗口 中出现的位置。
当需要提取背景噪声的特征时, 本发明实施例提供的方法还包括:
1、 当该时间窗口中含有背景噪声区间为全噪声区 间时, 根据实际需要进行 背景噪声的特征的提取。 例如: 提取该时间窗口最末端的噪声区间的特征值作 为该背景噪声在该时间窗口的特征; 或, 提取该时间窗口内所有噪声区间的特 征均值作为该背景噪声在该时间窗口的特征; 或, 提取该时间窗口内部分或全 部噪声区间的加权特征值作为该背景噪声在该 时间窗口的特征, 本发明实施例 对提取的方式和方法不做限制。
2、 当该时间窗口中含有背景噪声区间为大部分为 噪声区间而仅有少量非噪 声区间时,
1 )若非噪声区间不在时间窗口的末端时, 则提取该时间窗口最末端的噪声 区间的特征值作为该背景噪声在该时间窗口的 特征; 或, 提取时间窗口中靠近 末端的部分噪声区间的加权特征值作为该背景 噪声在该时间窗口的特征;
2 )若非噪声区间在时间窗口的末端时, 则提取时间窗口中的最小特征值作 为该背景噪声在该时间窗口的特征; 或, 提取部分噪声区间的加权特征值作为 该背景噪声在该时间窗口的特征。
综上所述, 本发明实施例提供的方法, 通过连续的在一定长度的时间窗口 中分析背景噪声的存在性, 可以快速的检测或跟踪变化频繁且剧烈的背景 噪声。 同时, 通过对音调特征, 频谱峰值位置稳定性和最大峰谷比位置稳定性 的检测 显著的降低了发生在音乐信号的背景噪声误跟 踪现象。 实施例 3
与上述方法实施例相应地,本发明实施例提供 了一种实现通信系统中背景 噪声的跟踪的装置,参见图 3,该装置包括:
第一处理模块 301, 用于根据输入的音频信号, 计算当前帧的信噪比 SNR ; 第二处理模块 302, 用于若当前帧的信噪比 SNR不小于门限 1, 则累加帧计 数器 cnt 2, 并计算当前帧的音调特征以及信号稳定性特征 ;
第三处理模块 303, 用于当帧计数器 cn t 2 累加至时间窗口长度时, 则根据 计算得到的时间窗口各帧的音调特征值和信号 稳定性特征值, 判断出时间窗口 中含有噪声区间的可能性大小; 第四处理模块 304, 用于根据判断出的时间窗口含有噪声区间的可 能性大 小, 提取时间窗口中的噪声特征。
其中,第一处理模块 301, 包括:
划分单元, 用于根据输入的音频信号, 获取当前帧的频谱信息, 将当前帧 的频谱划分为多个子带;
子带计算单元, 用于根据得到的各子带, 计算每个子带的信噪比 snr(i); 获得单元, 用于根据计算得到的每个子带的 snr(i), 得到当前帧的 SNR。 其中,第二处理模块 302, 包括:
门限判断单元, 用于判断当前帧的信噪比 SNR是否大于门限 1;
帧计数器累加单元, 用于若判断单元判断结果为否时, 累加帧计数器 cnt2; 计算单元, 用于计算当前帧的谱波动值、 当前帧的音调特征值、 当前帧的 频谱峰值位置波动值以及当前帧的频谱最大峰 谷比位置波动值。
其中, 第三处理模块 303, 还包括:
累加单元, 用于若当前帧的谱波动值小于门限 3, 则累加弱谱波动计数器 cnt3;若当前帧的音调特征值小于门限 4, 则累加弱音调计数器 cnt4; 若当前帧 的频谱最大峰谷比位置波动值小于门限 5, 则累加稳定最大峰谷比位置计数器 cnt5; 若当前帧的频谱峰值位置波动值大于门限 6, 则累加频谱峰值位置波动计 数器 cnt6;
判断单元, 用于根据当前帧的谱波动值、 音调特征值、 频谱最大峰谷比位 置波动值、 频谱峰值位置波动值以及各计数器, 判断时间窗口中是否存在噪声 帧。
其中, 判断单元具体用于如果弱音调计数器 cnt4大于门限 7, 则时间窗口 中无噪声帧; 如果弱音调计数器 cnt4不大于门限 7, 则若弱谱波动计数器 cnt3 大于门限 8、 稳定最大峰谷比位置计数器 cnt5小于门限 9、 频谱峰值位置波动 计数器 cnt6大于门限 10, 且当前帧的谱波动值小于门限 11, 则当前帧为噪声 帧; 否则, 若稳定最大峰谷比位置计数器 cnt5小于门限 9, 且频谱峰值位置波 动计数器 cnt6大于门限 10, 则时间窗口中存在噪声帧; 否则, 时间窗口中无噪 声帧。
其中, 第三处理模块 303, 具体用于若弱谱波动计数器 cnt3等于时间窗口 长度, 则时间窗口为全噪声区间; 若弱谱波动计数器 cnt3小于时间窗口长度且 大于预设长度, 则时间窗口为大部分为噪声区间且存在少量的 非噪声区间; 若 时间窗口中无噪声帧。
若时间窗口为大部分为噪声区间且存在少量的 非噪声区间, 第三处理模块 303还包括: 位置类型判断单元,用于判断少量的非噪声区 间在时间窗口出现的 位置类型, 位置类型包括: 时间窗口的前端、 时间窗口的末端、 时间窗口的两 端。
其中, 位置类型判断单元具体用于根据弱谱波动计数 器 cnt 3, 获取不满足 令弱谱波动计数器 cnt 3累加的帧, 根据获取的帧, 得到帧的位置, 根据位置获 得少量的非噪声区间在时间窗口出现的位置类 型。
第四处理模块 304 具体用于若时间窗口为全噪声区间时, 则提取时间窗口 最末端的噪声区间的特征值; 或, 提取时间窗口内所有噪声区间的特征均值; 或, 提取时间窗口内部分或全部噪声区间的加权特 征值; 若时间窗口为大部分 为噪声区间且存在少量的非噪声区间时, 如果非噪声区间不在时间窗口的末端, 则提取时间窗口最末端的噪声区间的特征值; 或, 提取时间窗口中靠近末端的 部分噪声区间的加权特征值; 如果非噪声区间在时间窗口的末端时, 则提取时 间窗口中噪声特征的最小值; 或, 提取部分噪声区间的加权特征值。 所述第三处理模块,还用于当所述帧计数器 cnt 2大于所述时间窗口长度时, 若所述当前帧的谱波动值小于门限 1 1, 则所述当前帧为噪声帧; 否则, 所述当 前帧为非噪声帧。
综上所述, 本发明实施例提供的装置, 通过连续的在一定长度的时间窗口 中分析背景噪声的存在性, 可以快速的检测或跟踪变化频繁且剧烈的背景 噪声。 同时, 通过对音调特征, 频谱峰值位置稳定性和最大峰谷比位置稳定性 的检测 显著的降低了发生在音乐信号的背景噪声误跟 踪现象。 本发明实施例中的 "接收" 一词可以理解为主动从其他模块获取也可以是 接收其他模块发送来的信息。
本领域技术人员可以理解附图只是一个优选实 施例的示意图, 附图中的模 块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的 模块可以按照实施例描述分 布于实施例的装置中, 也可以进行相应变化位于不同于本实施例的一 个或多个 装置中。 上述实施例的模块可以合并为一个模块, 也可以进一步拆分成多个子 模块。
上述本发明实施例序号仅仅为了描述, 不代表实施例的优劣。
本发明实施例中的部分步骤, 可以利用软件实现, 相应的软件程序可以存 储在可读取的存储介质中, 如光盘或硬盘等。
以上所述仅为本发明的较佳实施例, 并不用以限制本发明, 凡在本发明的 精神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的 保护范围之内。
Next Patent: METHOD AND APPARATUS FOR RECALLING MESSAGE
