华为技术有限公司 (中国广东省深圳市龙岗区坂田华为总部办公楼, Guangdong 9, 518129, CN)
| 权 利 要 求 书 1、 一种音频信号检测方法, 其特征在于, 包括: 将输入的音频信号分为多个音频信号帧; 对每一帧音频信号帧进行前景 /背景检测; 当检测到背景信号帧时, 将一个背景帧计数器加上一个步长值; 获得所述 背景信号帧的音乐特征值, 将所述音乐特征值累加到一个背景音乐特征累加值; 当背景帧计数器达到一个预先设定的数量时, 将背景音乐特征累加值与一 个门限做比较, 当背景音乐特征累加值符合门限判定法则时, 则检测到背景音 乐。 2、 根据权利要求 1所述的方法, 其特征在于, 获得所述背景信号帧的音乐 特征值包括: 获得所述背景信号帧的频谱; 获得至少部分频谱上局部峰点的位置和能量; 根据位置和能量, 分别计算所有局部峰点中每一个对应的归一化峰谷距离, 得到多个归一化峰谷距离值; 根据所述多个归一化峰谷距离值, 获得音乐特征值。 3、 根据权利要求 2所述的方法, 其特征在于, 釆用如下方式计算所述局部 峰点的归一化峰谷距离: 对于每一个局部峰点, 分别获得其左右各相邻 4个频点内的最小值; 计算局部峰值与左侧最小值的差值及局部峰值与右侧最小值的差值, 用两 个差值之和除以所述音频帧的频谱的能量均值或部分频谱能量均值, 获得归一 化峰谷距离。 4、 根据权利要求 2所述的方法, 其特征在于, 采用如下方式计算该峰点的 归一化峰谷距离: 对于每一个局部峰点, 计算所述局部峰点与左侧相邻的至少一个频点的距 离, 所述局部峰点与右侧相邻的至少一个频点的距离; 用两个距离之和除于所述音频帧的频谱能量均值或部分频谱能量均值, 获 得归一化峰谷距离。 5、 根据权利要求 2所述的方法, 其特征在于, 根据所述多个归一化峰谷距 离值获得音乐特征值, 包括: 选择归一化峰谷距离值的最大值作为音乐特征值; 或 计算归一化峰谷距离值中最大的至少两个值之和 , 得到音乐特征值。 6、 根据权利要求 2所述的方法, 其特征在于, 所述门限判断法则为: 所述 音乐特征累加值大于门限。 7、 根据权利要求 1所述的方法, 其特征在于, 获得所述背景信号帧的音乐 特征值包括: 根据背景信号帧的频语, 获得频谱上局部峰值对应的峰谷距离的最大值的 第一位置; 根据背景信号帧的前一帧的频普, 获得频 i脊上局部峰值对应的峰谷距离的 最大值的第二位置; 计算第一位置和第二位置的差值, 得到音乐特征值。 8、 根据权利要求 7所述的方法, 其特征在于, 所述门限判断法则为: 所述 音乐特征累加值小于门限。 9、 根据权利要求 1至 8任一项所述的方法, 其特征在于: 所述门限根据保 护帧值调整, 当保护帧值大于 0时, 采用第一门限值, 否则采用第二门限值。 10、 根据权利要求 1 所述的方法, 其特征在于, 检测到背景音乐后, 还包 括 ·· 将当前音频帧之后的预定数量的音频帧标识为背景音乐。 11、 根据权利要求 10所述的方法, 其特征在于, 还包括: 当检测到背景信号帧时, 则将预设的保护帧值减一, 当保护帧值大于 0, 则 所述门限采用第一门限值, 否则所述门限采用第二门限值; 其中, 当所述门限 判断法则为音乐特征累加值大于所述门限时, 第一门限值小于第二门限值; 当 所述门限判断法则为音乐特征累加值小于所述门限时, 第一门限值大于第二门 限值。 12、 一种编码器, 其特征在于, 包括: 背景帧识别器, 用于对输入的每一帧音频信号进行检测, 输出背景信号帧 或前景信号帧的检测结果; 背景音乐识别器, 用于当检测到背景信号帧时, 根据所述背景信号帧的音 乐特征值对所述背景信号帧进行检测, 输出检测到背景音乐的检测结果; 其中, 所述背景音乐识别器包括: 背景帧计数器, 用于当检测到背景信号帧时, 将步长值加到其值上; 音乐特征值获得单元, 用于获得所述背景信号帧的音乐特征值; 音乐特征值累加器, 用于累加所述音乐特征值; 判决器, 用于在背景帧计数器达到预先设定的数量时, 确定背景特征累加 值符合门限判定法则 , 输出检测到背景音乐的检测结果。 13、 根据权利要求 12所述的编码器, 其特征在于, 所述音乐特征值获得单 元包括: 频谱获得单元, 用于获得所述背景信号帧的频 -潜; 峰点获得单元, 用于获得至少部分频语上的局部峰点; 计算单元, 用于分别计算所有局部峰点中每一个对应的归一化峰谷距离, 得到多个归一化峰谷距离值; 并根据所述多个归一化峰谷距离值, 获得音乐特 征值。 14、 根据权利要求 13所述的编码器, 其特征在于, 釆用如下方式计算所述 局部峰点的归一化峰谷距离: 对于每一个局部峰点, 分别获得其左右各相邻 4个频点内的最小值; 计算局部峰值与左侧最小值的差值及局部峰值与右侧最小值的差值, 用两 个差值之和除以所述音频帧的频语的能量均值或部分频谱能量均值, 获得归一 化峰谷距离。 15、 根据权利要求 13所述的编码器, 其特征在于, 采用如下方式计算该峰 点的归一化峰谷距离: 对于每一个局部峰点 , 计算所述局部峰点与左侧相邻的至少一个频点的距 离, 所述局部峰点与右侧相邻的至少一个频点的距离; 用两个距离之和除以所述音频帧的频谱能量均值或部分频谱能量均值, 获 得归一化峰谷距离。 16、 根据权利要求 12所述的编码器, 其特征在于, 所述音乐特征值获得单 元包括: 第一位置获得单元, 用于获得背景信号帧的频谱, 获得频谱上局部峰值对 应的峰谷距离的最大值的第一位置; 第二位置获得单元, 用于获得背景信号帧的前一帧的频谱, 获得频谱上局 部峰值对应的峰谷距离的最大值的第二位置; 计算单元, 用于计算第一位置和第二位置的差值, 得到音乐特征值。 17、 根据权利要求 12所述的编码器, 其特征在于, 还包括: 标识单元, 用于将当前音频帧之后的预定数量帧的音频帧标识为背景音乐。 18、 根据权利要求 17所述的编码器, 其特征在于, 还包括: 门限调整单元, 当检测到背景信号帧时, 则将预设的保护帧值減一, 当保 护帧值大于 0, 则所述门限取第一门限值, 否则所述门限取第二门限值; 其中, 当所述门限判断法则为音乐特征累加值大于所述门限时, 第一门限值小于第二 门限值; 当所述门限判断法则为音乐特征累加值小于所述门限时, 第一门限值 大于第二门限值。 19、 根据权利要求 12所述的编码器, 其特征在于, 所述判决器, 还用于在 背景帧计数器达到预先设定的数量时, 确定背景特征累加值不符合门限判定法 则, 输出检测到非背景音乐的检测结果。 |
本发明涉及音频领域的信号检测技术, 尤其是一种音频信号检测方法和装 置。 背景技术
在通信系统中, 通常对输入的音频信号进行编码后传输到对端 。 在通信系 统中, 尤其是无线 /移动通信系统中, 信道带宽是一个比较稀缺的资源。 在一个 双向的通话中, 某一方说话的时间大^ £只占总通话时间的一半左右, 另一半都 处在静音状态。 在信道带宽比较紧张的情况下, 如果通信系统只在人说话的时 候传输信号, 而在静音时停止信号的传输, 将可以节省出大量的带宽分配给其 它用户。 为了达到这个目的, 通信系统需要知道通话人何时开始说话, 何时停 止说话,即需要知道语音何时是激活的,这就 需要语音激活检测( vo ice act ivi ty detect ion, VAD )。 一般在语音激活时, 语音编码器会釆用较高的速率编码, 而 在无语音的背景信号阶段, 编码器会采用较低的速率编码。 通过语音激活检测 技术, 通信系统能够区分输入的音频信号是语音还是 背景噪音, 并采用不同的 编码技术进行编码。
这种体制在通常的背景环境下都是可行的, 但是当背景信号是音乐信号 时, 较低速率的编码会极大的影响听者的主观感受 。 因此一种新的需求被提出 来, 即 VAD 系统需要能够有效的识别出背景音乐的场景, 并有针对性的提高背 景音乐的编码质量。
在 AMR VAD1中, 有一种检测复杂信号的技术, 一般来说, 这里的复杂信号 就是指音乐信号。 在该 VAD中, 对每一帧信号, 从 AMR编码器中获得该帧的最 大相关向量 bes t -corr—hpm, 并将其归一化在 [0-1]的范围之内。 对归一化后的 最大相关向量 bes t_corr_hpm求其长时的滑动平均相关向量 corr_hp ,计算方法 为:
corr _hp = a - corr _hp + \ - a) - best _ corr _ hp m ,
其中 取值范围在 [0.8,0.98]之间的遗忘系数
将每帧的 corr_hp 都与一高一低两个门限进行比较, 如果出现连续 8 帧 corr_hp都高于高门限的帧时, 或者出现连续 15帧 corr _hp都高于低门限的帧 时,则一个复杂信号标志 comp l ex—warning被设为 1 ,表示复杂信号被检测到了。
发明人在实现本发明的过程中, 发现现有技术至少存在以下缺点: 上述技术虽然可以检测出音乐信号 , 但是并不能区分出是前景音乐还是背 景音乐, 因而不能根据带宽情况对背景音乐信号釆用适 合的编码技术。 并且, 上述技术可能把一些常规的背景噪声如 babble噪声也当做是复杂信号, 从而较 大的影响了节省带宽。
发明内容
本发明的实施例提供一种音频信号检测方法和 装置, 能够从音频信号中检 测出背景音乐。
根据本发明的一实施例, 提供一种音频信号检测方法, 包括:
将输入的音频信号分为多个音频信号帧;
对每一帧音频信号帧进行前景 /背景检测;
当检测到背景信号帧时, 将一个背景帧计数器加上一个步长值; 获得所述 背景信号帧的音乐特征值, 将所述音乐特征值累加到一个背景音乐特征累 加值; 当背景帧计数器达到一个预先设定的数量时, 将背景音乐特征累加值与一 个门限做比较, 当背景音乐特征累加值符合门限判定法则时, 则检测到背景音 乐。
根据本发明的另一实施例, 提供一种编码器, 包括:
背景帧识别器, 用于对输入的每一帧音频信号进行检测, 输出背景信号帧 或前景信号帧的检测结果;
背景音乐识别器, 用于当检测到背景信号帧时, 根据所述背景信号帧的音 乐特征值对所述背景信号帧进行检测, 输出检测到背景音乐的检测结果; 其中, 所述背景音乐识别器包括:
背景帧计数器, 用于当检测到背景信号帧时, 将步长值加到其值上; 音乐特征值获得单元, 用于获得所述背景信号帧的音乐特征值;
音乐特征值累加器, 用于累加所述音乐特征值;
判决器, 用于在背景帧计数器达到预先设定的数量时, 确定背景特征累加 值符合门限判定法则, 输出检测到背景音乐的检测结果。
本发明实施例, 对于背景信号进一步的根据音乐特征值进行判 断, 从而能 够检测出背景音乐, 提高语音 Z音乐分类器的分类性能; 并能够提供更加灵活的 对背景音乐的处理方案, 有针对性的调整背景音乐的编码质量。 附图说明
为了更清楚地说明本发明实施例或现有技术中 的技术方案, 下面将对实施 例或现有技术描述中所需要使用的附图作简单 地介绍, 显而易见地, 下面描述 中的附图仅仅是本发明的一些实施例 , 对于本领域普通技术人员来讲, 在不付 出创造性劳动性的前提下, 还可以根据这些附图获得其他的附图。
图 1为本发明提供的音频信号检测方法的一个实 例的流程示意图; 图 2为获得音频帧的音乐特征值的一个实施例的 程示意图;
图 3为获得音频帧的音乐特征值的另一个实施例 流程示意图;
图 4为获得音频帧的音乐特征值的另一个实施例 流程示意图;
图 5为本发明提供的音频信号检测方法的另一个 施例的流程示意图; 图 6为本发明提供的音频信号检测装置的一个实 例的结构示意图; 图 7为本发明实施例提供的音乐特征值获得单元 个实施例的结构示意图; 图 8 为本发明实施例提供的音乐特征值获得单元另 一个实施例的结构示意 图; 图 9为本发明提供的音频信号检测装置的另一个 施例的结构示意图。 具体实施方式
下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清 楚、 完整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是 全部的实施例。 基于本发明中的实施例, 本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
根据本发明的一个实施例, 一种音频信号检测方法, 用于对音频信号进行 检测以区分背景噪音和背景音乐, 音频信号通常包含多个音频帧。 该方法可以 应用在编码器的前处理装置中。 本发明实施例中提及的背景音乐指的是: 信号 类型为音乐并且为背景信号的音频信号。 参考图 1 , 该方法包括以下步骤:
S100: 将输入的音频信号划分为多个音频信号帧;
S105: 对输入的每一帧音频信号帧进行前景 /背景检测, 判定为前景信号或 背景信号;
具体在判定音频信号帧为前景信号或背景信号 时, 可以采用多种实现方式。 在一种实现方式中, 可以由 VAD对输入的音频信号帧进行判断, 识别出前景信 号帧或背景信号帧。 VAD根据噪声信号的某些固有特征识别出背景噪 声, 并持续 的跟踪, 同时估计出背景噪声的某些特征参数, 例如特征参数 A, 以 An来表示 背景噪声的该参数估计值。 对输入的音频信号帧也提取其相应的特征参数 A, 以 As表示输入信号的 A参数值, 计算该输入信号的特征参数值 As到 An的距离, 当距离小于一个门限时, 就认为 As和 An很近了, 则认为输入信号也是背景噪 声, 否则就认为 As和 An距离较远, 输入信号就是前景信号。 上述的特征参数 A 可以是一个, 也可以是几个, 当特征参数为几个时计算参数距离时就要计算 一 个联合的距离。
S110: 当检测到背景信号帧时, 将一个背景帧计数器加上一个步长值; 获 得该音频帧的音乐特征值 , 将该音乐特征值累加入一个背景音乐特征累加 值; 音乐特征值指表征该音频信号帧属于音乐信号 的特征值。 发明人发现: 与 背景噪音相比, 背景音乐具有明显的峰值特征; 背景音乐的最大峰值位置波动 较不明显。 在一个实施例中, 采用音频信号帧频谱的局部峰值计算获得音乐 特 征值。 在另一个实施例中, 采用相邻音频帧的最大峰值位置波动获得音乐 特征 值。 本领域技术人员可以理解的是, 也可以根据其他特征值获得音乐特征值。 步长值可以取 1 , 或者取大于 1的数。
S115 : 当背景帧计数器达到一个预先设定的数量时, 将背景音乐特征累加 值与一个门限做比较, 当背景音乐特征累加值符合门限判定法则时, 判定为检 测到背景音乐, 否则为背景噪音。
音乐特征值选不同的参数, 门限判断法则也不同。 在一种实施方式中, 音 乐特征值为归一化峰谷距离值时, 判断法则为: 当音乐特征值大于门限值, 则 判定为检测到背景音乐, 否则为背景噪音。 在另一种实施方式中, 音乐特征值 为最大峰值位置波动时, 判断法则为: 当音乐特征值小于门限值, 则判定为检 测到背景音乐, 否则为背景噪音。
在完成本次音频信号检测后, 将背景帧计数器和音乐特征累加值分别清零, 进入下一次音频信号检测过程。 进一步的, 可以将检测帧之后的预定数量帧的 背景信号帧标识为背景音乐, 设置一个保护帧值(保护帧值即预定数量), 在后 续音频信号检测过程中, 每检测到一帧背景帧则将保护帧值减一。 例如, 当当 前背景信号被判定为背景音乐时, 设置背景音乐保护窗口 b_mus _hangover = 1000, 表示需要将其后的 1000帧背景帧都保护为背景音乐帧。 在后续的检测过 程中, 每检测出一个背景†贞, b』us— hangover减 1 , 当 b—腿 s— hangover小于 0 时, b-mus -hangover 等于 0。 进一步的, 上述检测过程中的门限可以根据保护 窗口状态进行调整, 当保护帧值大于 0 , 则采用第一门限值, 否则采用第二门限 值; 其中, 当所述门限判断法则为音乐特征累加值大于所 述门限时, 第一门限 值小于第二门限值; 当所述门限判断法则为音乐特征累加值小于所 述门限时, 第一门限值大于第二门限值。 检测到背景音乐后, 当前帧之后的帧很可能也是 背景音乐, 通过门限值的调整, 使检测到的音乐背景之后的音频帧更倾向于被 判为背景音乐帧。 例如, 采用归一化峰谷距离值表征音乐特征值时, 当背景音 乐保护窗口 b-mus -hangover大于 0时 , 采用第一门限值腿 S - thr=1300, 否则 采用第二门限值 mus _ thr=1500。 由于当当前帧为背景音乐时下一帧也为背景音 乐的概率大于当前帧不是背景音乐时下一帧为 背景音乐的概率, 采用这种方法 调整门限值, 能够提高判断的准确度。
在检测到背景信号为背景音乐时, 可以根据带宽情况灵活的调整背景音乐 的编码方式, 有针对性的提高背景音乐的编码质量。 一般情况下, 音频通信系 统中背景音乐可以被当做是前景信号传输, 采用较高的速率编码; 在带宽紧张 的情况下, 可以把背景音乐做为背景来传输, 较低的速率编码。 此外, 识别背 景音乐还有助于提高语音 /音乐分类器的分类性能, 使其在有音乐背景的情况下 能够调整分类判决方法, 从而提高语音检测的准确率。
上述实施例中, 对于背景信号进一步的根据音乐特征值进行判 断, 从而能 够检测出背景音乐, 提高语音 /音乐分类器的分类性能; 并能够提供更加灵活的 对背景音乐的处理方案, 有针对性的调整背景音乐的编码质量。
参考图 2, 获得该音频帧的音乐特征值的一个实施例包括 :
S200: 对输入的背景信号帧进行 FFT变换, 获得 FFT频谱;
S205: 获得频语上局部峰点的位置和能量大小;
搜索并记录频谱上局部峰点的位置和能量大小 , 局部峰点指频谱上能量大 于前一个频点和后一个频点的频点, 局部峰点的能量为局部峰值。 对频谱上的 第 i个 f f t频点 ff t (i) , 如果 ff t (i-1) <ff t (i)且 ff t (i+1) <ff t (i) ,则第 i个 频点为局部峰点, i为局部峰点位置, ff t (i)为局部峰值。 记录频谱上所有局部 峰点的位置和能量。
S210: 根据位置和能量, 分别计算所有局部峰点中每一个对应的归一化 峰 谷距离得到多个归一化峰谷距离值;
归一化峰谷距离有多种不同计算方式, 在一种实施例中, 采用如下方式计 算归一化峰谷距离: 对于每一个局部峰值 peak(i),搜索其左右各相邻若干个频点 内的最小值, 分别以 vl(i)和 vr(i)表示。 计算局部峰值与左侧最小值的差值及局部 峰值与右侧最小值的差值, 用两个差值之和除以所述音频帧的频谱的能量 均值, 获得归一化峰谷距离。 在另一个实施例中所述两个差值之和也可以除 以所述音 频帧的部分频谱的能量均值, 获得归一化峰谷距离。 以 64点的 FFT频谱为例, 计 算该局部峰值 peak(i)的归一化峰谷距离 D p2v (i),
D (o = 2 - peak(i) - vl(i) - vr(i) (工 )
p 2v avg
其中, peak(i)表示位置为 i的局部峰点的能量, vl(i)和 vr(i)分别表示位置为 i 的局部峰点的左侧最小值和右侧最小值, avg表示该帧频谱的能量均值。 a vg = ~k fft(i) ( 2 )
其中, fft(i)表示位置为 i的频点的能量。
左右相邻的频点数可以根据需要选择, 例如, 可以选择 4 个。 计算每一个 局部峰点对应的归一化峰谷距离, 得到多个归一化峰谷距离值。
在另一种实施例中, 采用如下方式计算归一化峰谷距离: 对于每一个局部 峰点, 计算所述局部峰点与左侧相邻的至少一个频点 的距离, 所述局部峰点与 右侧相邻的至少一个频点的距离; 用两个距离之和除以所述音频帧的频譜能量 均值或部分频谱能量均值, 获得归一化峰谷距离。
例如, 采用位置为 i的局部峰值 peak(i)左右侧相邻 2个频点的距离和, 计 算该局部峰值 peak(i)的归一化峰谷距离 D p2v (i),
D 2 (0 _ 4 · peakji) - fftji _ 1) _ fftji - 2) _ fftji + 1) - fftji + 2)
p 2v avg
其中, ff t ( i-1)、 f f t (i-2)为局部峰值的左侧相邻频点的能量值, ff t (i+1)、 ff t (i+3)为局部峰值的右侧相邻频点的能量值。 avg 为该音频帧的频谱能量均
1 63
值: avg = ~^ fft{i)
S215 : 根据归一化峰谷距离值的最大值, 获得音乐特征值。
选择归一化峰谷距离值的最大值作为音乐特征 值; 或计算归一化峰谷距离 值中最大的至少两个值之和, 得到音乐特征值。 在一种实现方式中, 计算峰谷 距离值中最大的 3 个值之和, 获得音乐特征值。 当然, 根据实际情况, 可以选 择其他数量的峰谷距离值, 如计算最大的 2个或 4个峰谷距离值之和, 获得音 乐特征值。
积累每一帧背景帧的音乐特征值, 背景帧计数器达到一个预先设定的数量 时, 将音乐特征累加值与一个门限比较, 当大于该门限时判为检测到背景音乐, 否则为背景噪声。
该实施例中, 采用局部峰值对应的归一化峰谷距离计算音乐 特征值, 能较 为准确的表征出背景帧的峰值特征, 且算法复杂度低, 易于实现。
参考图 3, 获得该音频帧的音乐特征值的另一个实施例包 括:
S300: 对输入的背景信号帧进行 FFT变换, 获得 FFT频谱;
S305: 选取部分频 ΐ脊, 获得选取的频谱上局部峰点位置和能量大小; 选取部分频语, 可以选取频语上的至少一个局部区域。 例如, 可以选取位 置大于 10的频点作为选取范围, 也可以在位置大于 10的频点中进一步选择两 个局部区域作为选取范围。 搜索并记录选取的频谱上局部峰点的位置和能 量, 局部峰点指频谱上能量值大于前一个频点和后 一个频点的频点, 局部峰点的能 量值为局部峰值。 对频语上的第 i个 ff t频点 ff t (i), 如果 ff t (i_l) <ff t (i) 且 ff t (i+l) <fft (i),则第 i个频点为局部峰点, i为局部峰点位置, ff t (i)为 局部峰值。 记录频语上所有局部峰点的位置和能量。
S310: 根据位置和能量, 分别计算所有局部峰点中每一个对应的归一化 峰 谷距离得到多个归一化峰谷距离值;
归一化峰谷巨离有多种不同计算方式, 在一种实施例中, 采用如下方式计 算归一化峰谷距离: 对于每一个局部峰值 p ea k(i),搜索其左右各相邻若干个频点 内的最小值, 分别以 vl(i)和 vr(i)表示。 计算局部峰值与左侧最小值的差值及局部 峰值与右侧最小值的差值, 用两个差值之和除以所述音频帧的频借的能量 均值, 获得归一化峰谷距离, 在另一个实施例中所述两个差值之和也可以除 以所述音 频帧的部分频傳的能量均值, 获得归一化峰谷距离。 以 64点的 FFT频谱为例, 该 局部峰值 peak①的归一化峰谷距离 D p2v (i),
D (0 = 2 - peak(i) - vl(i) - vr(i) (丄 )
p 2v avg
其中, peak(i)表示位置为 i的局部峰点的能量, vl(i)和 vr(i)分别表示位置为 i 的局部峰点的左侧最小值和右侧最小值, avg表示该帧频普的能量均值。 avg = ^∑ffi(i) ( 2 ) 其中, fft(i)表示位置为 i的频点的能量。
左右相邻的频点数可以根据需要选择, 例如, 可以选择 4 个。 计算每一个 局部峰点对应的归一化峰谷距离, 得到多个归一化峰谷距离值。
在另一种实施例中, 采用如下方式计算归一化峰谷距离: 对于每一个局部 峰点, 计算所述局部峰点与左侧相邻的至少一个频点 的距离, 所述局部峰点与 右侧相邻的至少一个频点的距离; 用两个距离之和除以所述音频帧的频谱能量 均值或部分频谱能量均值, 获得归一化峰谷距离。
例如, 采用位置为 i的局部峰值 peak(i)左右侧相邻 2个频点的距离和, 计 算该局部峰值 peak(i)的归一化峰谷距离 D p2v (i),
η _ . peakji) - fftji _ 1) _ fftji— 2) _ fftji + 1)— ffiji + 2)
a v § ( 3 ) 其中, ff t (i-1)、 fft (i-2)为局部峰值的左侧相邻频点的能量值, fft (i+1)、 fft (i+3)为局部峰值的右侧相邻频点的能量值。 avg 为该音频帧的频谱能量均 值: «vg =
S315: 根据归一化峰谷距离值的最大值, 获得音乐特征值。
选择归一化峰谷距离值的最大值作为音乐特征 值; 或计算归一化峰谷距离 值中最大的至少两个值之和, 得到音乐特征值。 在一种实现方式中, 计算峰谷 距离值中最大的 3 个值之和, 获得音乐特征值。 当然, 根据实际情况, 可以选 择其他数量的峰谷距离值, 如计算最大的 1个或 4个峰谷距离值之和, 获得音 乐特征值。
积累每一帧背景帧的音乐特征值, 背景帧计数器达到一个预先设定的数量 时, 将音乐特征累加值与一个门限比较, 当大于该门限时判为检测到背景音乐, 否则为背景噪声。
采用这种方式, 由于不用计算所有局部峰值的归一化峰谷距离 , 进一步降 低算法复杂度。 一^:情况下, 背景噪音的能量集中在低频部分, 采用这种方式, 也可以去除噪音的影响, 提高判决的准确性。
参考图 4 , 获得该音频帧的音乐特征值的另一个实施例包 括:
S400: 对输入的背景信号帧进行 FFT变换, 获得 FFT频谱;
S405: 获得频谱上局部峰点的位置和能量大小;
搜索并记录频谱上局部峰点及其位置, 局部峰点指频谱上能量值大于前一 个频点和后一个频点的频点, 局部峰点的能量值为局部峰值。 对频谱上的第 i 个 ff t频点 fft (i) , 如果 fft (i-1) <fft (i)且 ff t (i+1) <ff t (i) ,则第 i个频点 为局部峰点, i为局部峰点位置, fft (i)为局部峰值。 记录频谱上所有局部峰点 的位置和能量。
S410: 根据位置和能量, 获得所有局部峰点中峰谷距离最大的频点的第 一 位置;
分别计算每一个局部峰点对应的峰谷距离值; 获得峰谷距离值最大的峰点 并 ΐ己录其位置。
峰谷距离有多种不同计算方式, 在一种实施例中, 采用如下方式计算归一 化峰谷距离: 对于每一个局部峰值 peak (i) , 搜索其左右各相邻若干个频点内的 最小值, 分别以 vl (i)和 vr (i)表示。 计算局部峰值与左侧最小值的差值及局部 峰值与右侧最小值的差值, 两个差值之和即峰谷距离 D。 该局部峰值 peak (i)的 峰谷距离 D:
D = 2 - peakii) - vl(i)― vr(z) ( 4 ) 其中, 左右相邻的频点数可以根据需要选择, 例如, 可以选择 4 个。 计算 每一个局部峰点对应的峰谷距离, 得到多个峰谷距离值, 从中选择最大的峰谷 距离并记录其位置。
在另一种实施例中, 采用如下方式计算峰谷距离: 对于每一个局部峰点, 计算所述局部峰点与左侧相邻的至少一个频点 的距离 , 所述局部峰点与右侧相 邻的至少一个频点的距离; 两个距离之和即峰谷距离。
例如, 采用位置为 i的局部峰值 peak(i)左右侧相邻 2个频点的距离和, 计 算该局部峰值 peak(i)的峰谷距离 D:
D = 4 - peakii) - fftii - 1) - ffl(i - 2) - ffl(i + 1) - jft{i + 2) ( 5 ) 当然, 在计算获得峰谷距离后, 也可以根据公式 2 获得该音频帧的全部或 部分频谱的能量均值, 用峰谷距离除以能量均值对峰谷距离做归一化 处理, 具 体可参见公式 1和公式 3。
S415: 获得前一个音频帧所有局部峰点中归一化峰谷 距离最大的频点的第 二位置;
先搜索出局部峰值 , 按上一个步驟中的计算方法找出峰谷距离最大 的那个 峰值并记录下它的位置。
S420: 计算第一位置和第二位置的差值, 获得最大峰值位置波动作为音乐 特征值。
例如最大峰值出现在当前音频帧 FFT频谱上第 i个频点, 则计算最大峰值 位置波动 f lux=i-idx_o ld,其中 idx_o ld是前一个音频帧的峰谷距离最大的局部 峰值的位置。
积累每一帧背景帧的最大峰值位置波动, 背景帧计数器达到一个预先设定 的数量时, 将累加后的最大峰值位置波动与一个门限比较 , 当小于该门限时判 为检测到背景音乐, 否则为背景噪声。
该实施例中, 利用背景音乐的最大峰值位置波动与背景噪音 项比较不明显 的特性, 采用最大峰值位置波动计算音乐特征值, 能较为准确的表征出背景帧 的峰值特征, 且算法复杂度低, 易于实现。
参考图 5, 下面以输入为 8K采样的音频信号帧的具体判断的过程为例, 描 述音频信号检测方法的一个实施例。
输入为 8K采样的音频信号帧,每帧长度为 10ms, 即每帧包含 80个时域样点。 在本发明的其它实施例中, 输入信号也可以是其它采样率的信号。
将输入的音频信号划分为多个音频信号帧; 对每一帧音频信号帧进行检测; 当检测到背景信号时, 一个背景帧计数器 bcgd— cnt加 1, 同时该帧的音乐特征值 tonality值被加入到一个背景音乐特征累加值 bcgd— tonality中, 表示如下:
当背景帧被检测到后,
bcgd _ cnt = bcgd _ cnt + 1
bcgd _ tonality = bcgd _ tonality + tonality
其中 表示该背景帧的 towfif/z' 值
对于一个背景音频帧, 釆用如下方式获得该帧的音乐特征值:
对输入的背景音频帧进行 128点的 FFT变换, 得到 FFT频谱。 变换前的音频 帧也可以是经过高通滤波和 /或预加重处理后的时域信号。对得到的 FFT频谱 fft(i) : i=0,l,2...63 , 首先搜索频语上局部峰值的位置并记录: 对第 i个 fft频点 fft(i), 如果 fft(i-l)<fft(i) 且 fft(i+l) <fft(i), 则将索引 i保存在一个峰值存储 peak_buf(k)中, peak— buf中的每一个元素即为一个频语峰值的位置索 引。
对 peak— buf中位置索引大于 10的每一个局部峰值 peak(i), 搜索其左右各相邻 5个 fft频点内的最小值, 分别以 vl(i)和 vr(i)表示。 计算该局部峰值 peak(i)的归一化 峰谷距离 D p2v (i),
D ( ) = 2 - peak(i) - vl(i) - vr(i) (丄 )
p 2v avg
其中, peak(i)表示位置为 i的局部峰点的能量, vl(i)和 vr(i)分别表示位置为 i 的局部峰点的左侧最小值和右侧最小值, avg表示该帧频 的能量均值。 avg = ^∑ffld) ( 2 ) 其中, fft(i)表示位置为 i的频点的能量。 在求得的上述位置索引大于 10的所有局部峰值的归一化峰谷距离 D p2v (i) 中搜索并保存最大的 3个, 计算这 3个最大归一化峰谷距离之和以获得音乐特征 值。
当背景帧计数器累加到 100帧时, 即当 bcgd_cnt=100时, 将背景音乐特征 累力。值 bcgd-tonality 与一个音乐检测门限 mus-thr #丈比较。 如果 bcgd-tonality>mus_thr, 则判定当前背景为音乐背景, 否则为非音乐背景。 此 后, 背景帧计数器 bcgd-cnt和背景 tonality累加值 bcgd-tonality均清 0。
在上述过程中, 当当前背景被判定为音乐背景时, 设置背景音乐保护窗口 b_腿 s_hangover = 1000,表示需要将其后的 1000帧背景帧都保护为背景音乐帧。 每检测出一个背景小贞, b—mus— hangover减 1, 当 b—mus— hangover 小于 0 时, b-mus -hangover等于 0。 上述过程中的音乐检测门限 miis thr是一个可变的门 限, 当背景音乐保护窗口 b-腿 s-hangover 大于 0 时, mus-thr=1300, 否则 mus— thr=1500。
是可以通过计算机程序来指令相关的硬件来 完成, 所述的程序可存储于一计算 机可读取存储介质中, 该程序在执行时, 可包括如上述各方法的实施例的流程。 其中, 所述的存储介质可为磁碟、 光盘、 只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体 ( Random Access Memory, RAM) 等。 相应的, 根据本发明的一个实施例, 一种音频信号检测装置, 用于对音频 信号进行检测以区分背景噪音和背景音乐, 音频信号包含多个音频帧, 该检测 装置属于编码器前处理装置。 该音频信号检测装置能够执行前述方法实施例 中 的流程。 参考图 6, 该音频信号检测装置包括:
背景帧识别器 600, 用于对输入的每一帧音频信号进行前景 /背景检测, 输 出背景信号帧或前景信号帧的检测结果; 背景音乐识别器 601 , 用于当检测到背景信号帧时, 根据所述背景信号帧的 音乐特征值对所述背景信号帧进行检测, 输出检测到背景音乐的检测结果; 其 中, 所述背景音乐识别器 601包括:
背景帧计数器 6011 , 用于当检测到背景信号帧时, 将步长值加到其值上; 音乐特征值获得单元 6012, 用于获得所述背景信号帧的音乐特征值; 音乐特征值累加器 6013 , 用于累加所述音乐特征值;
判决器 6014, 用于在背景帧计数器达到预先设定的数量时, 确定背景特征 累加值符合门限判定法则, 输出检测到背景音乐的检测结果。
判决器 6014, 还用于确定背景特征累加值不符合门限判定法 则, 输出检测 到非背景音乐的检测结果。
音乐特征值选不同的参数, 门限判断法则也不同。 在一种实施方式中, 音 乐特征值为归一化峰谷距离值时, 判断法则为: 当音乐特征值大于门限值, 则 判定为检测到背景音乐, 否则为背景噪音。 在另一种实施方式中, 音乐特征值 为最大峰值位置波动时, 判断法则为: 当音乐特征值小于门限值, 则判定为检 测到背景音乐, 否则为背景噪音。
在完成本次音频信号检测后 , 将背景帧计数器和音乐特征累加值分别清零, 进入下一次音频信号检测过程。
该编码器还包括: 编码单元, 用于根据带宽采用不同的编码速率对背景音 乐进行编码。 在检测到背景信号为背景音乐时, 可以根据带宽情况灵活的调整 背景音乐的编码方式, 有针对性的提高背景音乐的编码质量。 一般情况下, 音 频通信系统中背景音乐可以被当做是前景信号 传输, 采用较高的速率编码; 在 带宽紧张的情况下, 可以把背景音乐做为背景来传输, 较低的速率编码。
上述实施例中, 对于背景信号进一步的根据音乐特征值进行判 断, 从而能 够检测出背景音乐, 提高语音 /音乐分类器的分类性能; 并能够提供更加灵活的 对背景音乐的处理方案, 有针对性的调整背景音乐的编码质量。
参考图 7, 在一个实施例中, 音乐特征值获得单元 6012包括: 频谱获得单元 701 , 用于获得所述背景信号帧的频谱;
峰点获得单元 702 , 用于获得至少部分频谱上的局部峰点;
计算单元 702 , 用于分别计算所有局部峰点中每一个对应的归 一化峰谷距 离, 得到多个归一化峰谷距离值; 并根据所述多个归一化峰谷距离值, 获得音 乐特征值。
峰点获得单元 702可以获得频谱上的所有局部峰点, 也可以获得部分频谱 上的局部峰点。 局部峰点指频谱上能量大于前一个频点和后一 个频点的频点, 局部峰点的能量为局部峰值。 选取部分频谱, 可以选取频 上的至少一个局部 区域。 例如, 可以选取位置大于 10的频点作为选取范围, 也可以在位置大于 10 的频点中进一步选择两个局部区域作为选取范 围。
具体的, 可以采用如下方式计算所述局部峰点的归一化 峰谷距离: 对于每一个局部峰点, 分别获得其左右各相邻 4个频点内的最小值; 计算局部峰值与左侧最小值的差值及局部峰值 与右侧最小值的差值, 用两 个差值之和除以所述音频帧的频谱的能量均值 或部分频谱能量均值, 获得归一 化峰谷距离。 具体计算过程可以参照公式 1和公式 2的说明。
还采用如下方式计算该峰点的归一化峰谷距离 :
对于每一个局部峰点, 计算所述局部峰点与左侧相邻的至少一个频点 的距 离, 所述局部峰点与右侧相邻的至少一个频点的距 离;
用两个距离之和除以所述音频帧的频谱能量均 值或部分频谱能量均值, 获 得归一化峰谷距离。 具体计算过程可以参照公式 3的说明。
参考图 8, 在另一个实施例中, 音乐特征值获得单元包括:
第一位置获得单元 801 , 用于获得背景信号帧的频谱, 获得频谱上局部峰值 对应的峰谷距离的最大值的第一位置;
第二位置获得单元 802, 用于获得背景信号帧的前一帧的频谱, 获得频谱上 局部峰值对应的峰谷距离的最大值的第二位置 ;
计算单元 803 , 用于计算第一位置和第二位置的差值, 得到音乐特征值。 具体的, 第一位置获得单元和第二位置获得单元, 可以采用公式 4或公式 5 获得一个音频帧的所有峰谷距离 , 选择峰谷距离最大值并记录其位置。
参考图 9, 进一步的, 该音频信号检测装置还包括:
标识单元 602,用于将当前音频帧之后的预定数量帧的背 信号帧标识为背 景音乐。 检测到背景音乐后, 可以釆用保护窗, 把当前音频帧之后预定数量的 背景帧标识为背景音乐。
进一步的, 该音频信号检测装置还包括:
门限调整单元 603 , 当检测到背景信号帧时, 则将预设的保护帧值减一, 当 保护帧值大于 0,则所述门限取第一门限值,否则所述门限 第二门限值;其中, 当所述门限判断法则为音乐特征累加值大于所 述门限时, 第一门限值小于第二 门限值; 当所述门限判断法则为音乐特征累加值小于所 述门限时, 第一门限值 大于第二门限值。 检测到背景音乐后, 当前帧之后的帧很可能也是背景音乐, 通过门限值的调整, 使检测到的音乐背景之后的音频帧更倾向于被 判为背景音 乐帧。
上述实施例装置中的单元在物理上可以单独存 在, 两个或两个以上的单元 在物理上可以集成成为一个模块。 上述单元在物理上可以是芯片、 集成电路等。 本发明实施例提供的方法及设备可使用在例如 (但不限于)以下各种各样的 电子装置中或与其相关联:移动电话, 无线装置, 个人数据助理(PDA) , 手持式 或便携式计算机, GPS接收机 /导航器, 照相机, MP3播放器, 摄录机, 游戏机, 手表, 计算器, 电视监视器, 平板显示器, 计算机监视器, 电子照片, 电子布 告板或招牌, 投影仪, 建筑结构及美学结构。 也可将类似于本申请所述的装置 配置为自身为非显示装置、 但为单独的显示装置输出显示信号。 以上所述仅为本发明的几个实施例, 本领域的技术人员依据申请文件公开 的可以对本发明进行各种改动或变型而不脱离 本发明的精神和范围。
