Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
AUDIO SIGNAL CLASSIFICATION PROCESSING METHOD, APPARATUS, AND DEVICE
Document Type and Number:
WIPO Patent Application WO/2015/000401
Kind Code:
A1
Abstract:
Provided are an audio signal classification processing method, apparatus, and device. The method comprises: obtaining at least one of the number of tonal components meeting a continuity constraint condition in a to-be-classified frame in an audio signal, the number of contiguous frames of the to-be-classified frame in the audio signal in a low frequency area, and the number of contiguous frames of the to-be-classified frame in the audio signal in a high frequency area (101); and determining whether the to-be-classified frame in the audio signal is a music signal or a voice signal according to the at least one of the number of tonal components meeting the continuity constraint condition in the to-be-classified frame in the audio signal, the number of contiguous frames of the to-be-classified frame in the audio signal in the low frequency area, and the number of contiguous frames of the to-be-classified frame in the audio signal in the high frequency area (102).

Inventors:
XU LIJING (CN)
Application Number:
PCT/CN2014/081400
Publication Date:
January 08, 2015
Filing Date:
July 01, 2014
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
HUAWEI TECH CO LTD (CN)
International Classes:
G10L21/028
Domestic Patent References:
WO2006019556A22006-02-23
Foreign References:
CN102237085A2011-11-09
CN101236742A2008-08-06
US5778335A1998-07-07
US20070271093A12007-11-22
Attorney, Agent or Firm:
LEADER PATENT & TRADEMARK FIRM (CN)
北京同立钧成知识产权代理有限公司 (CN)
Download PDF:
Claims:
权 利 要 求 书

1、 一种音频信号分类处理方法, 其特征在于, 包括:

获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量、 所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续 帧数中的至少一项;

根据获取的所述待分类帧中满足连续性约束条件的音调分量的数量、 所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续 帧数中的至少一项, 确定所述音频信号中待分类帧为音乐信号, 或确定所 述音频信号中待分类帧为语音信号。

2、 根据权利要求 1所述的音频信号分类处理方法, 其特征在于, 所 述获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包 括:

获取音频信号中待分类帧的音调分布参数, 以及待分类帧前 N1帧的 音调分布参数, 并根据所述待分类帧的音调分布参数, 以及待分类帧前 N1 帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数 量, N1为正整数;

所述获取所述音频信号中待分类帧在低频区域的持续帧数和 /或所述 待分类帧在高频区域的持续帧数包括:

获取所述音频信号中待分类帧的能量分布参数, 以及待分类帧前 N1 帧的能量分布参数, 并根据所述音频信号中待分类帧的能量分布参数, 以 及待分类帧前 N1帧的能量分布参数获取所述待分类帧在低频区域的持续 帧数和 /或所述待分类帧在高频区域的持续帧数, N1为正整数;

所述根据所述待分类帧中满足连续性约束条件的音调分量的数量、所 述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧 数中的至少一项, 确定所述音频信号中待分类帧为音乐信号, 否则确定所 述音频信号中待分类帧为语音信号包括:

在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一 阈值、 所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧 在高频区域的持续帧数大于第三阈值时, 确定所述音频信号中待分类帧为 音乐信号, 否则确定所述音频信号中待分类帧为语音信号。 3、 根据权利要求 2所述的音频信号分类处理方法, 其特征在于, 所 述获取音频信号中待分类帧的音调分布参数, 以及待分类帧前 N1帧的音 调分布参数包括:

对接收到的音频信号中的待分类帧和待分类帧前 N1帧进行快速傅里 叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分布参数,以及待分类帧前 N1 帧的音调分量的频域分布信息作为待分类帧前 N1帧的音调分布参数; 所述根据待分类帧的音调分布参数, 以及待分类帧前 N1帧的音调分 布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧和待分类帧前 N1帧的音调分量 的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数

4、 根据权利要求 2所述的音频信号分类处理方法, 其特征在于, 所 述获取所述音频信号中待分类帧的能量分布参数, 以及待分类帧前 N1帧 的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为 待分类帧的能量分布参数, 以及待分类帧前 N1帧的高频能量分布比和声 压级作为待分类帧前 N1帧的能量分布参数;

所述根据音频信号中待分类帧的能量分布参数, 以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧和待分类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第 八阈值的持续帧数;

所述根据音频信号中待分类帧的能量分布参数, 以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧和待分类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第 九阈值、 声压级大于第十阈值的持续帧数。

5、 根据权利要求 1-4 任一所述的音频信号分类处理方法, 其特征在 于, 所述获取音频信号中待分类帧中满足连续性约束条件的音调分量的 数量包括:

获取音频信号中待分类帧的音调分布参数, 待分类帧前 N2帧的音调 分布参数, 以及待分类帧后 L1帧的音调分布参数, 并根据所述待分类帧 的音调分布参数, 待分类帧前 N2帧的音调分布参数以及待分类帧后 L 1帧 的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量, L1为正整数, N2为正整数;

所述获取所述音频信号中待分类帧在低频区域的持续帧数和 /或所述 待分类帧在高频区域的持续帧数包括:

获取所述音频信号中待分类帧的能量分布参数, 以及待分类帧前 N2 帧的能量分布参数以及待分类帧后 L1帧的能量分布参数, 并根据所述音 频信号中待分类帧的能量分布参数, 待分类帧前 N2帧的能量分布参数以 及待分类帧后 L1帧的能量分布参数获取所述待分类帧在低频区域的持续 帧数和 /或所述待分类帧在高频区域的持续帧数;

所述根据所述待分类帧中满足连续性约束条件的音调分量的数量、所 述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧 数中的至少一项, 确定所述音频信号中待分类帧为音乐信号, 否则确定所 述音频信号中待分类帧为语音信号包括:

在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一 阈值、 所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧 在高频区域的持续帧数大于第三阈值时, 确定所述音频信号中待分类帧为 音乐信号, 否则确定所述音频信号中待分类帧为语音信号。

6、 根据权利要求 5所述的音频信号分类处理方法, 其特征在于, 所 述获取音频信号中待分类帧的音调分布参数, 待分类帧前 N2帧的音调分 布参数, 以及待分类帧后 L1帧的音调分布参数包括:

对接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧帧 后 L1帧进行快速傅里叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分布参数, 待分类帧前 N2帧 的音调分量的频域分布信息作为待分类帧前 N2帧的音调分布参数, 以及 待分类帧帧后 L 1帧的音调分量的频域分布信息作为待分类帧帧后 L 1帧的 音调分布参数;

所述根据待分类帧的音调分布参数, 待分类帧前 N2帧的音调分布参 数, 以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续性约 束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧 帧后 L1帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六 阈值的音调分量的数量。

7、 根据权利要求 5所述的音频信号分类处理方法, 其特征在于, 所 述获取所音频信号中待分类帧的能量分布参数, 待分类帧前 N2帧的能量 分布参数以及待分类帧后 L1帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N2帧的高频能量分布比和声压级 作为待分类帧前 N2帧的能量分布参数和待分类帧后 L 1帧的高频能量分布 比和声压级作为待分类帧后 L 1帧的能量分布参数;

所述根据音频信号中待分类帧的能量分布参数, 待分类帧前 N2帧的 能量分布参数以及待分类帧后 L 1帧的能量分布参数获取所述待分类帧在 低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频 能量分布比小于第八阈值的持续帧数;

所述根据音频信号中待分类帧的能量分布参数, 待分类帧前 N2帧的 能量分布参数以及待分类帧后 L 1帧的能量分布参数获取所述待分类帧在 高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。

8、 根据权利要求 1-7任一所述的音频信号分类处理方法, 其特征在 于, 所述获取音频信号中待分类帧中满足连续性约束条件的音调分量的 数量包括: 获取音频信号中待分类帧的音调分布参数, 待分类帧前 N3帧的音调 分布参数, 以及待分类帧后 L2帧的音调分布参数, 并根据所述待分类帧 的音调分布参数, 待分类帧前 N3帧的音调分布参数以及待分类帧后 L2帧 的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量, L2为正整数, L3为正整数, N3为正整数;

所述获取所述音频信号中待分类帧在低频区域的持续帧数和 /或所述 待分类帧在高频区域的持续帧数包括:

获取所述音频信号中待分类帧的能量分布参数, 以及待分类帧前 N3 帧的能量分布参数以及待分类帧后 L3帧的能量分布参数, 并根据所述音 频信号中待分类帧的能量分布参数, 待分类帧前 N3帧的能量分布参数以 及待分类帧后 L3帧的能量分布参数获取所述待分类帧在低频区域的持续 帧数和 /或所述待分类帧在高频区域的持续帧数;

所述根据所述待分类帧中满足连续性约束条件的音调分量的数量、所 述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧 数中的至少一项, 确定所述音频信号中待分类帧为音乐信号, 否则确定所 述音频信号中待分类帧为语音信号包括:

在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一 阈值、 所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧 在高频区域的持续帧数大于第三阈值时, 确定所述音频信号中待分类帧为 音乐信号, 否则确定所述音频信号中待分类帧为语音信号;

若确定所述音频信号中待分类帧为音乐信号, 则确定所述待分类帧前 N4帧和待分类帧后 L3帧中确定为语音信号的帧数目是否大于第四阈值, 若超过, 则将所述音频信号中待分类帧修正为语音信号, N4为正整数; 若确定所述音频信号中待分类帧为语音信号, 则确定所述待分类帧前 N4帧和待分类帧后 L3帧中确定为音乐信号的帧数目是否大于第五阈值, 若大于, 则将所述音频信号中待分类帧修正为音乐信号。

9、 根据权利要求 8所述的音频信号分类处理方法, 其特征在于, 所 述获取音频信号中待分类帧的音调分布参数, 待分类帧前 N3帧的音调分 布参数, 以及待分类帧后 L2帧的音调分布参数包括:

对接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧帧 后 L2帧进行快速傅里叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分布参数, 待分类帧前 N3帧 的音调分量的频域分布信息作为待分类帧前 N3帧的音调分布参数, 以及 待分类帧帧后 L2帧的音调分量的频域分布信息作为待分类帧帧后 L2帧的 音调分布参数;

所述根据待分类帧的音调分布参数, 待分类帧前 N3帧的音调分布参 数, 以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性约 束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧的音调分量的频域分布信息、 待 分类帧前 N3帧的音调分量的频域分布信息和待分类帧帧后 L2帧的音调分 量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的 数量。

10、 根据权利要求 8所述的音频信号分类处理方法, 其特征在于, 所 述获取所音频信号中待分类帧的能量分布参数, 待分类帧前 N3帧的能量 分布参数以及待分类帧后 L2帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N3帧的高频能量分布比和声压级 作为待分类帧前 N3帧的能量分布参数, 以及待分类帧帧后 L2帧的高频能 量分布比和声压级作为待分类帧后 L2帧的能量分布参数;

所述根据音频信号中待分类帧的能量分布参数, 待分类帧前 N3帧的 能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在 低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频 能量分布比小于第八阈值的持续帧数;

所述根据音频信号中待分类帧的能量分布参数, 待分类帧前 N3帧的 能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在 高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧的能量分 布参数和待分类帧后 L2帧的高频能量分布比和声压级获取包括所述待分 类帧在内的高频能量分布比大于第九阈值、 声压级大于第十阈值的持续帧 数。

11、 根据权利要求 3、 6或 9所述的音频信号分类处理方法, 其特征 在于, 所述待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域 上大于第七阈值的音调分量的数量。

12、 一种音频信号分类处理装置, 其特征在于, 包括:

第一获取模块, 用于获取音频信号中待分类帧中满足连续性约束条件 的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所 述待分类帧在高频区域的持续帧数中的至少一项;

分类确定模块, 用于根据所述待分类帧中满足连续性约束条件的音调 分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧的高频 区域的持续帧数中的至少一项, 确定所述音频信号中待分类帧为音乐信 号, 或确定所述音频信号中待分类帧为语音信号。

13、 根据权利要求 12所述的音频信号分类处理装置, 其特征在于, 所述第一获取模块具体用于获取音频信号中待分类帧,以及待分类帧前 N1 帧的音调分布参数, 并根据所述待分类帧, 以及待分类帧前 N1帧的音调 分布参数获取待分类帧中满足连续性约束条件的音调分量的数量, N1为正 整数; 或具体用于获取所述音频信号中待分类帧, 以及待分类帧前 N1帧 的能量分布参数, 并根据所述音频信号中待分类帧, 以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分 类帧在高频区域的持续帧数;

所述分类确定模块具体用于在所述待分类帧中满足连续性约束条件 的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大 于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时, 确定 所述音频信号中待分类帧为音乐信号, 否则确定所述音频信号中待分类帧 为语音信号。

14、 根据权利要求 13所述的音频信号分类处理装置, 其特征在于, 所述第一获取模块获取音频信号中待分类帧的音调分布参数, 以及待 分类帧前 N1帧的音调分布参数包括: 对接收到的音频信号中的待分类帧和待分类帧前 N1帧进行快速傅里 叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分布参数,以及待分类帧前 N1 帧的音调分量的频域分布信息作为待分类帧前 N1帧的音调分布参数; 所述分类确定模块根据待分类帧的音调分布参数,以及待分类帧前 N1 帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数 量包括:

根据接收到的音频信号中的待分类帧和待分类帧前 N1帧的音调分量 的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数

15、 根据权利要求 13所述的音频信号分类处理装置, 其特征在于, 所述第一获取模块获取所音频信号中待分类帧的能量分布参数, 以及 待分类帧前 N1帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为 待分类帧的能量分布参数, 以及待分类帧前 N1帧的高频能量分布比和声 压级作为待分类帧前 N1帧的能量分布参数;

所述分类确定模块根据音频信号中待分类帧的能量分布参数, 以及待 分类帧前 N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数 包括:

根据所述接收到的音频信号中待分类帧和待分类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第 八阈值的持续帧数;

所述分类确定模块根据音频信号中待分类帧的能量分布参数, 以及待 分类帧前 N1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数 包括:

根据所述接收到的音频信号中待分类帧和待分类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第 九阈值、 声压级大于第十阈值的持续帧数。

16、 根据权利要求 12-15任一所述的音频信号分类处理装置, 其特征 在于, 在延时 LI帧获取所述待分类帧的分类结果时, L1为正整数, 所述 第一获取模块具体用于获取音频信号中待分类帧, 待分类帧前 N2帧, 以 及待分类帧后 L1帧的音调分布参数, 并根据所述待分类帧, 待分类帧前 N2帧以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续性约 束条件的音调分量的数量, N2为正整数; 或, 具体用于获取所述音频信号 中待分类帧,以及待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数, 并根据所述音频信号中待分类帧, 待分类帧前 N2帧以及待分类帧后 L1帧 的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类 帧在高频区域的持续帧数;

所述分类确定模块具体用于在所述待分类帧中满足连续性约束条件 的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大 于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时, 确定 所述音频信号中待分类帧为音乐信号, 否则确定所述音频信号中待分类帧 为语音信号。

17、 根据权利要求 16所述的音频信号分类处理装置, 其特征在于, 所述第一获取模块获取音频信号中待分类帧的音调分布参数, 待分类 帧前 N2帧的音调分布参数, 以及待分类帧后 L1帧的音调分布参数包括: 对接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧帧 后 L1帧进行快速傅里叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分布参数, 待分类帧前 N2帧 的音调分量的频域分布信息作为待分类帧前 N2帧的音调分布参数, 以及 待分类帧帧后 L1帧的音调分量的频域分布信息作为待分类帧帧后 L1帧的 音调分布参数;

所述分类确定模块根据待分类帧的音调分布参数, 待分类帧前 N2帧 的音调分布参数, 以及待分类帧后 L1帧的音调分布参数获取待分类帧中 满足连续性约束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧 帧后 L1帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六 阈值的音调分量的数量。 18、 根据权利要求 16所述的音频信号分类处理装置, 其特征在于, 所述第一获取模块获取所音频信号中待分类帧的能量分布参数, 待分 类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数包括: 获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N2帧的高频能量分布比和声压级 作为待分类帧前 N2帧的能量分布参数和待分类帧帧后 L1帧的高频能量分 布比和声压级作为待分类帧后 L1帧的能量分布参数;

所述分类确定模块根据音频信号中待分类帧的能量分布参数, 待分类 帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述 待分类帧在低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频 能量分布比小于第八阈值的持续帧数;

所述分类确定模块根据音频信号中待分类帧的能量分布参数, 待分类 帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述 待分类帧在高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。

19、 根据权利要求 12-18任一所述的音频信号分类处理装置, 其特征 在于,

在延时 L2+L3帧获取所述待分类帧的分类结果时, L2和 L3为正整数, 所述第一获取模块具体用于获取音频信号中待分类帧, 待分类帧前 N3帧, 以及待分类帧后 L2帧的音调分布参数, 并根据所述待分类帧, 待分类帧 前 N3帧以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性 约束条件的音调分量的数量, N3为正整数; 或,

具体用于获取所述音频信号中待分类帧, 以及待分类帧前 N3帧以及 待分类帧后 L2帧的能量分布参数, 并根据所述音频信号中待分类帧, 待 分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在 低频区域的持续帧数或所述待分类帧在高频区域的持续帧数; 所述分类处理模块具体用于在所述待分类帧中满足连续性约束条件 的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大 于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时, 确定 所述音频信号中待分类帧为音乐信号, 否则确定所述音频信号中待分类帧 为语音信号; 若确定所述音频信号中待分类帧为音乐信号, 则确定所述待 分类帧前 N4帧和待分类帧中后 L3帧中确定为语音信号的帧数目是否大于 第四阈值, 若超过, 则将所述音频信号中待分类帧修正为语音信号; 若确 定所述音频信号中待分类帧为语音信号, 则确定所述待分类帧前 N4帧和 待分类帧中后 L3帧中确定为音乐信号的帧数目是否大于第五阈值, 若大 于, 则将所述音频信号中待分类帧修正为音乐信号, N4为正整数。

20、 根据权利要求 19所述的音频信号分类处理装置, 其特征在于, 所述第一获取模块获取音频信号中待分类帧的音调分布参数, 待分类 帧前 N3帧的音调分布参数, 以及待分类帧后 L2帧的音调分布参数包括: 对接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧帧 后 L2帧进行快速傅里叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分布参数, 待分类帧前 N3帧 的音调分量的频域分布信息作为待分类帧前 N3帧的音调分布参数, 以及 待分类帧后 L2帧的音调分量的频域分布信息作为待分类帧后 L2帧的音调 分布参数;

所述分类确定模块根据待分类帧的音调分布参数, 待分类帧前 N3帧 的音调分布参数, 以及待分类帧后 L2帧的音调分布参数获取待分类帧中 满足连续性约束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧 后 L2帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈 值的音调分量的数量。

21、 根据权利要求 19所述的音频信号分类处理装置, 其特征在于, 所述第一获取模块获取所音频信号中待分类帧的能量分布参数, 待分 类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数包括: 获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N3帧的高频能量分布比和声压级 作为待分类帧前 N3帧的能量分布参数, 以及待分类帧帧后 L2帧的高频能 量分布比和声压级作为待分类帧后 L2帧的能量分布参数;

所述分类确定模块根据音频信号中待分类帧的能量分布参数, 待分类 帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述 待分类帧在低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频 能量分布比小于第八阈值的持续帧数;

所述分类确定模块根据音频信号中待分类帧、 待分类帧前 N3帧和待 分类帧后 L2帧的能量分布参数获取所述待分类帧在高频区域的持续帧数 包括:

根据所述接收到的音频信号中待分类帧的能量分布参数, 待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的高频能量分布比和声压级获 取包括所述待分类帧在内的高频能量分布比大于第九阈值、 声压级大于第 十阈值的持续帧数。

22、 根据权利要求 14、 17或 20所述的音频信号分类处理装置, 其特 征在于, 所述第一获取模块获取的待分类帧中持续帧数大于第六阈值的音 调分量的数量为在频域上大于第七阈值的音调分量的数量。

23、 一种音频信号分类处理设备, 其特征在于, 包括:

接收器, 用于接收音频信号;

处理器, 与所述接收器连接, 用于获取接收器接收到的音频信号中待 分类帧中满足连续性约束条件的音调分量的数量、 所述音频信号中待分类 帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至 少一项, 根据所述待分类帧中满足连续性约束条件的音调分量的数量、 所 述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧 数中的至少一项, 确定所述音频信号中待分类帧为音乐信号, 或确定所述 音频信号中待分类帧为语音信号。

24、 根据权利要求 23所述的音频信号分类处理设备, 其特征在于, 所述处理器具体用于获取音频信号中待分类帧, 以及待分类帧前 N 1帧的 音调分布参数, 并根据所述待分类帧, 以及待分类帧前 N帧的音调分布参 数获取待分类帧中满足连续性约束条件的音调分量的数量, N1为正整数; 获取所述音频信号中待分类帧, 以及待分类帧前 N1帧的能量分布参数, 并根据所述音频信号中待分类帧, 以及待分类帧前 N1帧的能量分布参数 获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域 的持续帧数, N1为正整数; 在所述待分类帧中满足连续性约束条件的音调 分量的数量大于第一阈值、 所述待分类帧在低频区域的持续帧数大于第二 阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时, 确定所述音 频信号中待分类帧为音乐信号, 否则确定所述音频信号中待分类帧为语音 信号。

25、 根据权利要求 24所述的音频信号分类处理设备, 其特征在于, 所述处理器获取音频信号中待分类帧的音调分布参数, 以及待分类帧 前 N1帧的音调分布参数包括:

对接收到的音频信号中的待分类帧和待分类帧前 N1帧进行快速傅里 叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分布参数,以及待分类帧前 N1 帧的音调分量的频域分布信息作为待分类帧前 N1帧的音调分布参数; 所述处理器根据待分类帧的音调分布参数, 以及待分类帧前 N1帧的 音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包 括:

根据接收到的音频信号中的待分类帧和待分类帧前 N1帧的音调分量 的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数 26、 根据权利要求 24所述的音频信号分类处理设备, 其特征在于, 所述处理器获取所音频信号中待分类帧的能量分布参数, 以及待分类 帧前 N1帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为 待分类帧的能量分布参数, 以及待分类帧前 N1帧的高频能量分布比和声 压级作为待分类帧前 N1帧的能量分布参数; 所述处理器根据音频信号中待分类帧的能量分布参数, 以及待分类帧 前 N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括: 根据所述接收到的音频信号中待分类帧和待分类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第 八阈值的持续帧数;

所述处理器根据音频信号中待分类帧的能量分布参数, 以及待分类帧 前 N1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括: 根据所述接收到的音频信号中待分类帧和待分类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第 九阈值、 声压级大于第十阈值的持续帧数。

27、 根据权利要求 23-26任一所述的音频信号分类处理设备, 其特征 在于, 在延时 L1帧获取所述待分类帧的分类结果时, L1为正整数, 所述 处理器具体用于获取音频信号中待分类帧, 待分类帧前 N2帧, 以及待分 类帧后 L1帧的音调分布参数, 并根据所述待分类帧, 待分类帧前 N2帧以 及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续性约束条件 的音调分量的数量, N2为正整数; 获取所述音频信号中待分类帧, 以及待 分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数, 并根据所述音频信 号中待分类帧, 待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数获 取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的 持续帧数; 在所述待分类帧中满足连续性约束条件的音调分量的数量大于 第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分 类帧在高频区域的持续帧数大于第三阈值时, 确定所述音频信号中待分类 帧为音乐信号, 否则确定所述音频信号中待分类帧为语音信号。

28、 根据权利要求 27所述的音频信号分类处理设备, 其特征在于, 所述处理器获取音频信号中待分类帧的音调分布参数,待分类帧前 N2 帧的音调分布参数, 以及待分类帧后 L1帧的音调分布参数包括:

对接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧帧 后 L1帧进行快速傅里叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分布参数, 待分类帧前 N2帧 的音调分量的频域分布信息作为待分类帧前 N2帧的音调分布参数, 以及 待分类帧帧后 L1帧的音调分量的频域分布信息作为待分类帧帧后 L1帧的 音调分布参数;

所述处理器根据待分类帧的音调分布参数, 待分类帧前 N2帧的音调 分布参数, 以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连 续性约束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧 帧后 L1帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六 阈值的音调分量的数量。

29、 根据权利要求 27所述的音频信号分类处理设备, 其特征在于, 所述处理器获取所音频信号中待分类帧的能量分布参数, 待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N2帧的高频能量分布比和声压级 作为待分类帧前 N2帧的能量分布参数和待分类帧后 L1帧的高频能量分布 比和声压级作为待分类帧后 L1帧的能量分布参数;

所述处理器根据音频信号中待分类帧的能量分布参数,待分类帧前 N2 帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类 帧在低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频 能量分布比小于第八阈值的持续帧数;

所述处理器根据音频信号中待分类帧的能量分布参数,待分类帧前 N2 帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类 帧在高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。

30、 根据权利要求 23-29任一所述的音频信号分类处理设备, 其特征 在于, 在延时 L2+L3帧获取所述待分类帧的分类结果时, L2和 L3为正整 数, 所述处理器具体用于获取音频信号中待分类帧, 待分类帧前 N3帧, 以及待分类帧后 L2帧的音调分布参数, 并根据所述待分类帧, 待分类帧 前 N3帧以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性 约束条件的音调分量的数量,N3为正整数;获取所述音频信号中待分类帧, 以及待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数, 并根据所述 音频信号中待分类帧, 待分类帧前 N3帧以及待分类帧后 L2帧的能量分布 参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频 区域的持续帧数; 在所述待分类帧中满足连续性约束条件的音调分量的数 量大于第一阈值、 所述待分类帧在低频区域的持续帧数大于第二阈值或所 述待分类帧在高频区域的持续帧数大于第三阈值时, 确定所述音频信号中 待分类帧为音乐信号, 否则确定所述音频信号中待分类帧为语音信号; 若 确定所述音频信号中待分类帧为音乐信号, 则确定所述待分类帧前 N4帧 和待分类帧后 L4帧中确定为语音信号的帧数目是否大于第四阈值, 若超 过, 则将所述音频信号中待分类帧修正为语音信号, N4为正整数; 若确定 所述音频信号中待分类帧为语音信号, 则确定所述待分类帧前 N4帧和待 分类帧后 L4帧中确定为音乐信号的帧数目是否大于第五阈值, 若大于, 则将所述音频信号中待分类帧修正为音乐信号。

31、 根据权利要求 30所述的音频信号分类处理设备, 其特征在于, 所述处理器获取音频信号中待分类帧的音调分布参数,待分类帧前 N3 帧的音调分布参数, 以及待分类帧后 L2帧的音调分布参数包括:

对接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧帧 后 L2帧进行快速傅里叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分布参数, 待分类帧前 N3帧 的音调分量的频域分布信息作为待分类帧前 N3帧的音调分布参数和待分 类帧帧后 L2帧的音调分量的频域分布信息作为待分类帧后 L2帧的音调分 布参数;

所述处理器根据待分类帧的音调分布参数, 待分类帧前 N3帧的音调 分布参数, 以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连 续性约束条件的音调分量的数量包括: 根据接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧 帧后 L2帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六 阈值的音调分量的数量。

32、 根据权利要求 30所述的音频信号分类处理设备, 其特征在于, 所述处理器获取所音频信号中待分类帧的能量分布参数, 待分类帧前

N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N3帧作为待分类帧前 N3帧的能量 分布参数, 以及待分类帧帧后 L2帧的高频能量分布比和声压级作为待分 类帧后 L2帧的能量分布参数;

所述处理器根据音频信号中待分类帧的能量分布参数,待分类帧前 N3 帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类 帧在低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频 能量分布比小于第八阈值的持续帧数;

所述处理器根据音频信号中待分类帧的能量分布参数,待分类帧前 N3 帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类 帧在高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。

33、 根据权利要求 25、 28或 31所述的音频信号分类处理设备, 其特 征在于, 所述处理器获取的待分类帧中持续帧数大于第六阈值的音调分量 的数量为在频域上大于第七阈值的音调分量的数量。

Description:
音频信号分类处理方法、 装置及设备

技术领域

本发明实施例涉及信号处理技术领域, 尤其涉及一种音频信号分类处 理方法、 装置及设备。 背景技术

在移动通信系统的语音质量评估中, 现有的语音质量评估模型不适用 于音乐信号。 但是, 实际应用中的待分析信号中可能会包括音乐信 号, 比 如彩铃等。 语音质量评估模型会将其视为语音信号, 给出错误的质量评估 结果。 针对该问题, 在将待分析信号输入至语音质量评估模块之前 , 应先 对其进行信号分类。 如果识别出该段信号为语音信号, 将其送入语音质量 评估模块进行质量评估; 如果识别出该段信号为音乐信号, 则不送入语音 质量评估模块。

现有技术提供有应用于语音音乐联合编码器的 音频信号分类方法, 但 是该分类方法是针对具有高采样率的语音音乐 联合编码器, 对于语音质量 评估模型而言, 其中存在的音乐信号普遍缺少高频信息, 利用现有的应用 于语音音乐联合编码器的音频信号分类方法, 仅能识别出少数的音乐信 号, 且分类正确率低, 不能够满足语音质量评估的要求。 发明内容

本发明提供一种音频信号分类处理方法、 装置及设备, 用于提高音频 信号的分类正确率。

本发明的第一个方面是提供一种音频信号分类 处理方法, 包括: 获取音频信号中待分类帧中满足连续性约束条 件的音调分量的数量、 所述音频信号中待分类帧在低频区域的持续帧 数和所述待分类帧在高频 区域的持续帧数中的至少一项;

根据获取的所述待分类帧中满足连续性约束条 件的音调分量的数量、 所述待分类帧在低频区域的持续帧数或所述待 分类帧在高频区域的持续 帧数, 确定所述音频信号中待分类帧为音乐信号, 或确定所述音频信号中 待分类帧为语音信号。

在上述第一个方面的第一种可能中, 在所述获取音频信号中待分类帧 中满足连续性约束条件的音调分量的数量包括 :

获取音频信号中待分类帧, 以及待分类帧前 N1帧的音调分布参数, 并根据所述待分类帧, 以及待分类帧前 N帧的音调分布参数获取待分类帧 中满足连续性约束条件的音调分量的数量, N1为正整数;

所述获取所述音频信号中待分类帧在低频区域 的持续帧数和 /或所述 待分类帧在高频区域的持续帧数包括:

获取所述音频信号中待分类帧, 以及待分类帧前 N1帧的能量分布参 数, 并根据所述音频信号中待分类帧, 以及待分类帧前 N1帧的能量分布 参数获取所述待分类帧在低频区域的持续帧数 和 /或所述待分类帧在高频 区域的持续帧数, N1为正整数;

所述根据所述待分类帧中满足连续性约束条件 的音调分量的数量、所 述待分类帧在低频区域的持续帧数或所述待分 类帧在高频区域的持续帧 数, 确定所述音频信号中待分类帧为音乐信号, 否则确定所述音频信号中 待分类帧为语音信号包括:

在所述待分类帧中满足连续性约束条件的音调 分量的数量大于第一 阈值、 所述待分类帧在低频区域的持续帧数大于第二 阈值或所述待分类帧 在高频区域的持续帧数大于第三阈值时, 确定所述音频信号中待分类帧为 音乐信号, 否则确定所述音频信号中待分类帧为语音信号 。

结合上述第一个方面的第一种可能的第二种可 能中, 上述获取音频信 号中待分类帧的音调分布参数, 以及待分类帧前 N1帧的音调分布参数包 括:

对接收到的音频信号中的待分类帧和待分类帧 前 N1帧进行快速傅里 叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信 号中的待分类帧作为 待分类帧的音调分布参数, 以及待分类帧前 N1帧的音调分量的频域分布 信息作为待分类帧前 N1帧的音调分布参数;

所述根据待分类帧的音调分布参数, 以及待分类帧前 N1帧的音调分 布参数获取待分类帧中满足连续性约束条件的 音调分量的数量包括: 根据接收到的音频信号中的待分类帧和待分类 帧前 N1帧的音调分量 的频域分布信息获取待分类帧中持续帧数大于 第六阈值的音调分量的数 结合上述第一个方面的第一种可能的第三种可 能中, 上述获取所音频 信号中待分类帧的能量分布参数, 以及待分类帧前 N1帧的能量分布参数 包括:

获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 以及待分类帧前 N1帧的高频能量分布比和声 压级作为待分类帧前 N1帧的能量分布参数;

所述根据音频信号中待分类帧的能量分布参数 , 以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在低频区 域的持续帧数包括:

根据所述接收到的音频信号中待分类帧和待分 类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内 的高频能量分布比小于第 八阈值的持续帧数;

所述根据音频信号中待分类帧的能量分布参数 , 以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在高频区 域的持续帧数包括:

根据所述接收到的音频信号中待分类帧和待分 类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内 的高频能量分布比大于第 九阈值、 声压级大于第十阈值的持续帧数。

在结合上述第一个方面或第一个方面的任一种 可能的第四种可能中, 在延时 L1帧获取所述待分类帧的分类结果时, L1为正整数, 所述获取音 频信号中待分类帧中满足连续性约束条件的音 调分量的数量包括:

获取音频信号中待分类帧, 待分类帧前 N2帧, 以及待分类帧后 L1帧 的音调分布参数, 并根据所述待分类帧, 待分类帧前 N2帧以及待分类帧 后 L1帧的音调分布参数获取待分类帧中满足连续 约束条件的音调分量 的数量, N2为正整数;

所述获取所述音频信号中待分类帧在低频区域 的持续帧数和 /或所述 待分类帧在高频区域的持续帧数包括:

获取所述音频信号中待分类帧, 以及待分类帧前 N2帧以及待分类帧 后 L1帧的能量分布参数, 并根据所述音频信号中待分类帧, 待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在低频 域 的持续帧数和 /或所述待分类帧在高频区域的持续帧数;

所述根据所述待分类帧中满足连续性约束条件 的音调分量的数量、所 述待分类帧在低频区域的持续帧数或所述待分 类帧在高频区域的持续帧 数, 确定所述音频信号中待分类帧为音乐信号, 否则确定所述音频信号中 待分类帧为语音信号包括:

在所述待分类帧中满足连续性约束条件的音调 分量的数量大于第一 阈值、 所述待分类帧在低频区域的持续帧数大于第二 阈值或所述待分类帧 在高频区域的持续帧数大于第三阈值时, 确定所述音频信号中待分类帧为 音乐信号, 否则确定所述音频信号中待分类帧为语音信号 。

在结合上述第一个方面的第四种可能的第五种 可能中, 所述获取音频 信号中待分类帧的音调分布参数, 待分类帧前 N2帧的音调分布参数, 以 及待分类帧后 L1帧的音调分布参数包括:

对接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧帧 后 L1帧进行快速傅里叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信 号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分 布参数, 待分类帧前 N2帧 的音调分量的频域分布信息作为待分类帧前 N2帧的音调分布参数, 以及 待分类帧帧后 L1帧的音调分量的频域分布信息作为待分类帧 后 L1帧的 音调分布参数;

所述根据待分类帧的音调分布参数, 待分类帧前 N2帧的音调分布参 数, 以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续 约 束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧 帧后 L1帧的音调分量的频域分布信息获取待分类帧 持续帧数大于第六 阈值的音调分量的数量。

在结合上述第一个方面的第四种可能的第六种 可能中, 所述获取所音 频信号中待分类帧的能量分布参数, 待分类帧前 N2帧的能量分布参数以 及待分类帧后 L1帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N2帧的高频能量分布比和声压级 作为待分类帧前 N2帧的能量分布参数和待分类帧后 L 1帧的高频能量分布 比和声压级作为待分类帧后 L 1帧的能量分布参数;

所述根据音频信号中待分类帧的能量分布参数 , 待分类帧前 N2帧的 能量分布参数以及待分类帧后 L 1帧的能量分布参数获取所述待分类帧在 低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比小于第八阈值的持续帧数;

所述根据音频信号中待分类帧的能量分布参数 , 待分类帧前 N2帧的 能量分布参数以及待分类帧后 L 1帧的能量分布参数获取所述待分类帧在 高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。

在结合上述第一个方面、 第一个方面的上述任一种可能的第七种可能 中, 在延时 L2+L3帧获取所述待分类帧的分类结果时, L2和 L3为正整数, 所述获取音频信号中待分类帧中满足连续性约 束条件的音调分量的数量 包括:

获取音频信号中待分类帧, 待分类帧前 N3帧, 以及待分类帧后 L2帧 的音调分布参数, 并根据所述待分类帧, 待分类帧前 N3帧以及待分类帧 后 L2帧的音调分布参数获取待分类帧中满足连续 约束条件的音调分量 的数量, N3为正整数;

所述获取所述音频信号中待分类帧在低频区域 的持续帧数和 /或所述 待分类帧在高频区域的持续帧数包括:

获取所述音频信号中待分类帧, 以及待分类帧前 N3帧以及待分类帧 后 L2帧的能量分布参数, 并根据所述音频信号中待分类帧, 待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在低频 域 的持续帧数和 /或所述待分类帧在高频区域的持续帧数;

所述根据所述待分类帧中满足连续性约束条件 的音调分量的数量、所 述待分类帧在低频区域的持续帧数或所述待分 类帧在高频区域的持续帧 数, 确定所述音频信号中待分类帧为音乐信号, 否则确定所述音频信号中 待分类帧为语音信号包括:

在所述待分类帧中满足连续性约束条件的音调 分量的数量大于第一 阈值、 所述待分类帧在低频区域的持续帧数大于第二 阈值或所述待分类帧 在高频区域的持续帧数大于第三阈值时, 确定所述音频信号中待分类帧为 音乐信号, 否则确定所述音频信号中待分类帧为语音信号 ;

若确定所述音频信号中待分类帧为音乐信号, 则确定所述待分类帧前 N4帧和待分类帧后 L3帧中确定为语音信号的帧数目是否大于第四 值, 若超过, 则将所述音频信号中待分类帧修正为语音信号 , N4为正整数; 若确定所述音频信号中待分类帧为语音信号, 则确定所述待分类帧前 N4帧和待分类帧后 L3帧中确定为音乐信号的帧数目是否大于第五 值, 若大于, 则将所述音频信号中待分类帧修正为音乐信号 。

在结合上述第一个方面的第七中可能的第八种 可能中, 所述获取音频 信号中待分类帧的音调分布参数, 待分类帧前 N3帧的音调分布参数, 以 及待分类帧后 L2帧的音调分布参数包括:

对接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧帧 后 L2帧进行快速傅里叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信 号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分 布参数, 待分类帧前 N3的 音调分量的频域分布信息作为待分类帧前 N3帧的音调分布参数帧和待分 类帧帧后 L2帧的音调分量的频域分布信息作为待分类帧 后 L2帧的音调 分布参数;

所述根据待分类帧的音调分布参数, 待分类帧前 N3帧的音调分布参 数, 以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续 约 束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧 帧后 L2帧的音调分量的频域分布信息获取待分类帧 持续帧数大于第六 阈值的音调分量的数量。

在结合上述第一个方面的第七中可能的第九种 可能中, 所述获取所音 频信号中待分类帧的能量分布参数, 待分类帧前 N3帧的能量分布参数以 及待分类帧后 L2帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N3帧的高频能量分布比和声压级 作为待分类帧前 N3帧的能量分布参数, 以及待分类帧帧后 L2帧的高频能 量分布比和声压级作为待分类帧前 N3帧的能量分布参数;

所述根据音频信号中待分类帧的能量分布参数 , 待分类帧前 N3帧的 能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在 低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比小于第八阈值的持续帧数;

所述根据音频信号中待分类帧的能量分布参数 , 待分类帧前 N3帧的 能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在 高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。

在结合上述第一个方面的第二种可能、第五种 可能或第八种可能的第 十种可能中, 所述待分类帧中持续帧数大于第六阈值的音调 分量的数量为 在频域上大于第七阈值的音调分量的数量。 本发明的第二个方面是提供一种音频信号分类 处理装置, 包括: 第一获取模块, 用于获取音频信号中待分类帧中满足连续性约 束条件 的音调分量的数量、所述音频信号中待分类帧 在低频区域的持续帧数和所 述待分类帧在高频区域的持续帧数中的至少一 项;

分类确定模块, 用于根据所述待分类帧中满足连续性约束条件 的音调 分量的数量、所述待分类帧在低频区域的持续 帧数和所述待分类帧的高频 区域的持续帧数中的至少一项, 确定所述音频信号中待分类帧为音乐信 号, 或确定所述音频信号中待分类帧为语音信号。 在结合上述第二个方面的第一种可能中, 所述第一获取模块具体用于 获取音频信号中待分类帧, 以及待分类帧前 N1帧的音调分布参数, 并根 据所述待分类帧, 以及待分类帧前 N1帧的音调分布参数获取待分类帧中 满足连续性约束条件的音调分量的数量, N1为正整数; 或,

具体用于获取所述音频信号中待分类帧, 以及待分类帧前 N1帧的能 量分布参数, 并根据所述音频信号中待分类帧, 以及待分类帧前 N1帧的 能量分布参数获取所述待分类帧在低频区域的 持续帧数或所述待分类帧 在高频区域的持续帧数;

所述分类确定模块具体用于在所述待分类帧中 满足连续性约束条件 的音调分量的数量大于第一阈值、所述待分类 帧在低频区域的持续帧数大 于第二阈值或所述待分类帧在高频区域的持续 帧数大于第三阈值时, 确定 所述音频信号中待分类帧为音乐信号, 否则确定所述音频信号中待分类帧 为语音信号。

结合上述第二个方面第一种可能的第二种可能 中, 所述第一获取模块 获取音频信号中待分类帧的音调分布参数, 以及待分类帧前 N1帧的音调 分布参数包括:

对接收到的音频信号中的待分类帧和待分类帧 前 N1帧进行快速傅里 叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信 号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分 布参数,以及待分类帧前 N1 帧的音调分量的频域分布信息作为待分类帧前 N1帧的音调分布参数; 所述分类确定模块根据待分类帧的音调分布参 数,以及待分类帧前 N1 帧的音调分布参数获取待分类帧中满足连续性 约束条件的音调分量的数 量包括:

根据接收到的音频信号中的待分类帧和待分类 帧前 N1帧的音调分量 的频域分布信息获取待分类帧中持续帧数大于 第六阈值的音调分量的数 结合上述第二个方面第一种可能的第三种可能 中, 所述第一获取模块 获取所音频信号中待分类帧的能量分布参数, 以及待分类帧前 N1帧的能 量分布参数包括: 获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 以及待分类帧前 N1帧的高频能量分布比和声 压级作为待分类帧前 N1帧的能量分布参数;

所述分类确定模块根据音频信号中待分类帧的 能量分布参数, 以及待 分类帧前 N1帧的能量分布参数获取所述待分类帧在低频 域的持续帧数 包括:

根据所述接收到的音频信号中待分类帧和待分 类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内 的高频能量分布比小于第 八阈值的持续帧数;

所述分类确定模块根据音频信号中待分类帧的 能量分布参数, 以及待 分类帧前 N1帧的能量分布参数获取所述待分类帧在高频 域的持续帧数 包括:

根据所述接收到的音频信号中待分类帧和待分 类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内 的高频能量分布比大于第 九阈值、 声压级大于第十阈值的持续帧数。

结合上述第二个方面或第二个方面的任一种可 能的第四种可能中, 在 延时 L1帧获取所述待分类帧的分类结果时, L1为正整数, 所述第一获取 模块具体用于获取音频信号中待分类帧, 待分类帧前 N2帧, 以及待分类 帧后 L1帧的音调分布参数, 并根据所述待分类帧, 待分类帧前 N2帧以及 待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续 约束条件的 音调分量的数量, N2为正整数; 或, 具体用于获取所述音频信号中待分类 帧, 以及待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数, 并根据 所述音频信号中待分类帧, 待分类帧前 N2帧以及待分类帧后 L1帧的能量 分布参数获取所述待分类帧在低频区域的持续 帧数和 /或所述待分类帧在 高频区域的持续帧数;

所述分类确定模块具体用于在所述待分类帧中 满足连续性约束条件 的音调分量的数量大于第一阈值、所述待分类 帧在低频区域的持续帧数大 于第二阈值或所述待分类帧在高频区域的持续 帧数大于第三阈值时, 确定 所述音频信号中待分类帧为音乐信号, 否则确定所述音频信号中待分类帧 为语音信号。 结合上述第二个方面第四种可能的第五种可能 中, 所述第一获取模块 获取音频信号中待分类帧的音调分布参数, 待分类帧前 N2帧的音调分布 参数, 以及待分类帧后 L1帧的音调分布参数包括:

对接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧帧 后 L1帧进行快速傅里叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信 号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分 布参数, 待分类帧前 N2帧 的音调分量的频域分布信息作为待分类帧前 N2帧的音调分布参数, 以及 待分类帧帧后 L1帧的音调分量的频域分布信息作为待分类帧 后 L1帧的 音调分布参数;

所述分类确定模块根据待分类帧的音调分布参 数, 待分类帧前 N2帧 的音调分布参数, 以及待分类帧后 L1帧的音调分布参数获取待分类帧中 满足连续性约束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧 帧后 L1帧的音调分量的频域分布信息获取待分类帧 持续帧数大于第六 阈值的音调分量的数量。

在结合上述第二个方面第四种可能的第六种可 能中, 所述第一获取模 块获取所音频信号中待分类帧的能量分布参数 , 待分类帧前 N2帧的能量 分布参数以及待分类帧后 L1帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N2帧的高频能量分布比和声压级 作为待分类帧前 N2帧的能量分布参数和待分类帧帧后 L1帧的高频能量分 布比和声压级作为待分类帧后 L1帧的能量分布参数;

所述分类确定模块根据音频信号中待分类帧的 能量分布参数, 待分类 帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述 待分类帧在低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比小于第八阈值的持续帧数;

所述分类确定模块根据音频信号中待分类帧的 能量分布参数, 待分类 帧前 N2帧的能量分布参数以及待分类帧后 L 1帧的能量分布参数获取所述 待分类帧在高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。

结合上述第二个方面和第二个方面的上述任一 种可能的第七种可能 中, 在延时 L2+L3帧获取所述待分类帧的分类结果时, L2和 L3为正整数, 所述第一获取模块具体用于获取音频信号中待 分类帧, 待分类帧前 N3帧, 以及待分类帧后 L2帧的音调分布参数, 并根据所述待分类帧, 待分类帧 前 N3帧以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续 约束条件的音调分量的数量, N3为正整数; 或,

具体用于获取所述音频信号中待分类帧, 以及待分类帧前 N3帧以及 待分类帧后 L3帧的能量分布参数, 并根据所述音频信号中待分类帧, 待 分类帧前 N3帧以及待分类帧后 L3帧的能量分布参数获取所述待分类帧在 低频区域的持续帧数或所述待分类帧在高频区 域的持续帧数;

所述分类处理模块具体用于在所述待分类帧中 满足连续性约束条件 的音调分量的数量大于第一阈值、所述待分类 帧在低频区域的持续帧数大 于第二阈值或所述待分类帧在高频区域的持续 帧数大于第三阈值时, 确定 所述音频信号中待分类帧为音乐信号, 否则确定所述音频信号中待分类帧 为语音信号; 若确定所述音频信号中待分类帧为音乐信号, 则确定所述待 分类帧前 N4帧和待分类帧中后 L3帧中确定为语音信号的帧数目是否大于 第四阈值, 若超过, 则将所述音频信号中待分类帧修正为语音信号 ; 若确 定所述音频信号中待分类帧为语音信号, 则确定所述待分类帧前 N4帧和 待分类帧中后 L3帧中确定为音乐信号的帧数目是否大于第五 值, 若大 于, 则将所述音频信号中待分类帧修正为音乐信号 , N4为正整数。

在结合上述第二个方面的第七种可能的第八种 可能中, 所述第一获取 模块获取音频信号中待分类帧的音调分布参数 , 待分类帧前 N3帧的音调 分布参数, 以及待分类帧后 L2帧的音调分布参数包括:

对接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧帧 后 L2帧进行快速傅里叶变换, 获取功率密度谱; 根据所述功率密度谱获取所述接收到的音频信 号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分 布参数, 待分类帧前 N3帧 的音调分量的频域分布信息作为待分类帧前 N3帧的音调分布参数, 以及 待分类帧帧后 L2帧的音调分量的频域分布信息作为待分类帧 L2帧的音 调分布参数;

所述分类确定模块根据待分类帧的音调分布参 数, 待分类帧前 N3帧 的音调分布参数, 以及待分类帧后 L2帧的音调分布参数获取待分类帧中 满足连续性约束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧 后 L2帧的音调分量的频域分布信息获取待分类帧 持续帧数大于第六阈 值的音调分量的数量。

在结合上述第二个方面的第七种可能的第九种 可能中, 所述第一获取 模块获取所音频信号中待分类帧的能量分布参 数, 待分类帧前 N3帧的能 量分布参数以及待分类帧后 L2帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N3帧的高频能量分布比和声压级 作为待分类帧前 N3帧的能量分布参数, 以及待分类帧帧后 L2帧的高频能 量分布比和声压级作为待分类帧后 L2帧的能量分布参数;

所述分类确定模块根据音频信号中待分类帧的 能量分布参数, 待分类 帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述 待分类帧在低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比小于第八阈值的持续帧数;

所述分类确定模块根据音频信号中待分类帧的 能量分布参数, 待分类 帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述 待分类帧在高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。 在结合上述第二个方面的第二种可能、第五种 可能或第八种可能的第 十种可能中, 所述第一获取模块获取的待分类帧中持续帧数 大于第六阈值 的音调分量的数量为在频域上大于第七阈值的 音调分量的数量。 满足连续 性约束条件的音调分量的数量为在频域上大于 第七阈值的音调分量的数 结合上述第二个方面的第一种可能、 第二种可能或第三中可能的第六 种可能中, 上述第一获取模块具体用于获取接收到的音频 信号中的各帧的 高频能量分布比和声压级; 以及根据所述接收到的音频信号中的各帧的高 频能量分布比和声压级, 获取包括所述待分类帧在内的高频能量分布比 小 于第八阈值的持续帧数, 或, 根据所述接收到的音频信号中的各帧的高频 能量分布比和声压级, 获取包括所述待分类帧在内的高频能量分布比 大于 第九阈值、 声压级大于第十阈值的持续帧数。 本发明的第三个方面是提供一种音频信号分类 处理设备, 包括: 接收器, 用于接收音频信号;

处理器, 与所述接收器连接, 用于获取接收器接收到的音频信号中待 分类帧中满足连续性约束条件的音调分量的数 量、 所述音频信号中待分类 帧在低频区域的持续帧数和所述待分类帧在高 频区域的持续帧数中的至 少一项, 根据所述待分类帧中满足连续性约束条件的音 调分量的数量、 所 述待分类帧在低频区域的持续帧数和所述待分 类帧在高频区域的持续帧 数中的至少一项, 确定所述音频信号中待分类帧为音乐信号, 或确定所述 音频信号中待分类帧为语音信号。

在第三个方面的第一种可能中, 所述处理器具体用于获取音频信号中 待分类帧, 以及待分类帧前 N1帧的音调分布参数, 并根据所述待分类帧, 以及待分类帧前 N帧的音调分布参数获取待分类帧中满足连续 约束条件 的音调分量的数量, N1为正整数; 获取所述音频信号中待分类帧, 以及待 分类帧前 N1帧的能量分布参数, 并根据所述音频信号中待分类帧, 以及 待分类帧前 N1帧的能量分布参数获取所述待分类帧在低频 域的持续帧 数和 /或所述待分类帧在高频区域的持续帧数, N1为正整数; 在所述待分 类帧中满足连续性约束条件的音调分量的数量 大于第一阈值、 所述待分类 帧在低频区域的持续帧数大于第二阈值或所述 待分类帧在高频区域的持 续帧数大于第三阈值时, 确定所述音频信号中待分类帧为音乐信号, 否则 确定所述音频信号中待分类帧为语音信号。

结合上述第第三个方面的第一种可能的第二种 可能中, 所述处理器获 取音频信号中待分类帧的音调分布参数, 以及待分类帧前 N1帧的音调分 布参数包括:

对接收到的音频信号中的待分类帧和待分类帧 前 N1帧进行快速傅里 叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信 号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分 布参数, 以及和待分类帧前 N1帧的音调分量的频域分布信息作为待分类帧 N1帧的音调分布参数; 所述处理器根据待分类帧的音调分布参数, 以及待分类帧前 N1帧的 音调分布参数获取待分类帧中满足连续性约束 条件的音调分量的数量包 括:

根据接收到的音频信号中的待分类帧和待分类 帧前 N1帧的音调分量 的频域分布信息获取待分类帧中持续帧数大于 第六阈值的音调分量的数 结合上述第第三个方面的第一种可能的第三种 可能中, 所述处理器获 取所音频信号中待分类帧的能量分布参数, 以及待分类帧前 N1帧的能量 分布参数包括:

获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 以及待分类帧前 N1帧的高频能量分布比和声 压级作为待分类帧前 N1帧的能量分布参数;

所述处理器根据音频信号中待分类帧的能量分 布参数, 以及待分类帧 前 N1帧的能量分布参数获取所述待分类帧在低频 域的持续帧数包括: 根据所述接收到的音频信号中待分类帧和待分 类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内 的高频能量分布比小于第 八阈值的持续帧数;

所述处理器根据音频信号中待分类帧的能量分 布参数, 以及待分类帧 前 N1帧的能量分布参数获取所述待分类帧在高频 域的持续帧数包括: 根据所述接收到的音频信号中待分类帧和待分 类帧前 Nl帧的高频能 量分布比和声压级获取包括所述待分类帧在内 的高频能量分布比大于第 九阈值、 声压级大于第十阈值的持续帧数。

结合第三个方面或第三个方面的上述任一种可 能的第四种可能中, 在 延时 L1帧获取所述待分类帧的分类结果时, L1为正整数, 所述处理器具 体用于获取音频信号中待分类帧, 待分类帧前 N2帧, 以及待分类帧后 L1 帧的音调分布参数, 并根据所述待分类帧, 待分类帧前 N2帧以及待分类 帧后 L1帧的音调分布参数获取待分类帧中满足连续 约束条件的音调分 量的数量, N2为正整数; 获取所述音频信号中待分类帧, 以及待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数, 并根据所述音频信号中待分 类帧, 待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数获取所述待 分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧 数; 在所述待分类帧中满足连续性约束条件的音调 分量的数量大于第一阈 值、所述待分类帧在低频区域的持续帧数大于 第二阈值或所述待分类帧在 高频区域的持续帧数大于第三阈值时, 确定所述音频信号中待分类帧为音 乐信号, 否则确定所述音频信号中待分类帧为语音信号 。

在结合第三个方面的第四种可能的第五种可能 中, 所述处理器获取音 频信号中待分类帧的音调分布参数, 待分类帧前 N2帧的音调分布参数, 以及待分类帧后 L1帧的音调分布参数包括:

对接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧帧 后 L1帧进行快速傅里叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信 号中的待分类帧帧的 音调分量的频域分布信息作为待分类帧的音调 分布参数, 待分类帧前 N2 帧的音调分量的频域分布信息作为待分类帧前 N2帧的音调分布参数, 以 及待分类帧帧后 L1帧的音调分量的频域分布信息作为待分类帧 后 L1帧 的音调分布参数;

所述处理器根据待分类帧的音调分布参数, 待分类帧前 N2帧的音调 分布参数, 以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连 续性约束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧 帧后 LI帧的音调分量的频域分布信息获取待分类帧 持续帧数大于第六 阈值的音调分量的数量。

在结合第三个方面的第四种可能的第六种可能 中, 所述处理器获取所 音频信号中待分类帧的能量分布参数, 待分类帧前 N2帧的能量分布参数 以及待分类帧后 L 1帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N2帧的高频能量分布比和声压级 作为待分类帧前 N2帧的能量分布参数和待分类帧后 L 1帧的高频能量分布 比和声压级作为待分类帧后 L 1帧的能量分布参数;

所述处理器根据音频信号中待分类帧的能量分 布参数,待分类帧前 N2 帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类 帧在低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比小于第八阈值的持续帧数;

所述处理器根据音频信号中待分类帧的能量分 布参数,待分类帧前 N2 帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类 帧在高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。

结合第三个方面、 第三个方面的上述任一种可能的第七种可能中 , 在 延时 L2+L3帧获取所述待分类帧的分类结果时, L2和 L3为正整数, 所述 处理器具体用于获取音频信号中待分类帧, 待分类帧前 N3帧, 以及待分 类帧后 L2帧的音调分布参数, 并根据所述待分类帧, 待分类帧前 N3帧以 及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续 约束条件 的音调分量的数量, N3为正整数; 获取所述音频信号中待分类帧, 以及待 分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数, 并根据所述音频信 号中待分类帧, 待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数获 取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的 持续帧数; 在所述待分类帧中满足连续性约束条件的音调 分量的数量大于 第一阈值、所述待分类帧在低频区域的持续帧 数大于第二阈值或所述待分 类帧在高频区域的持续帧数大于第三阈值时, 确定所述音频信号中待分类 帧为音乐信号, 否则确定所述音频信号中待分类帧为语音信号 ; 若确定所 述音频信号中待分类帧为音乐信号, 则确定所述待分类帧前 N4帧和待分 类帧后 L3帧中确定为语音信号的帧数目是否大于第四 值, 若超过, 则 将所述音频信号中待分类帧修正为语音信号, N4为正整数; 若确定所述音 频信号中待分类帧为语音信号, 则确定所述待分类帧前 N4帧和待分类帧 后 L3帧中确定为音乐信号的帧数目是否大于第五 值, 若大于, 则将所 述音频信号中待分类帧修正为音乐信号。

结合上述第三个方面的第七种可能的第八种可 能中, 所述处理器获取 音频信号中待分类帧的音调分布参数, 待分类帧前 N3帧的音调分布参数, 以及待分类帧后 L2帧的音调分布参数包括:

对接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧帧 后 L2帧进行快速傅里叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信 号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分 布参数, 待分类帧前 N3帧 的音调分量的频域分布信息作为待分类帧前 N3帧的音调分布参数和待分 类帧帧后 L2帧的音调分量的频域分布信息作为待分类帧 L2帧的音调分 布参数;

所述处理器根据待分类帧的音调分布参数, 待分类帧前 N3帧的音调 分布参数, 以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连 续性约束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧 帧后 L2帧的音调分量的频域分布信息获取待分类帧 持续帧数大于第六 阈值的音调分量的数量。

结合上述第三个方面的第七种可能的第九种可 能中, 所述处理器获取 所音频信号中待分类帧的能量分布参数, 待分类帧前 N3帧的能量分布参 数以及待分类帧后 L2帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N3帧作为待分类帧前 N3帧的能量 分布参数, 以及待分类帧帧后 L2帧的高频能量分布比和声压级作为待分 类帧后 L2帧的能量分布参数;

所述处理器根据音频信号中待分类帧的能量分 布参数,待分类帧前 N3 帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类 帧在低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比小于第八阈值的持续帧数;

所述处理器根据音频信号中待分类帧的能量分 布参数,待分类帧前 N3 帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类 帧在高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。

结合上述第三个方面的第二种可能、 第五种可能或第八种可能的第十 种可能中, 所述处理器获取的待分类帧中持续帧数大于第 六阈值的音调分 量的数量为在频域上大于第七阈值的音调分量 的数量。 满足连续性约束条 件的音调分量的数量为在频域上大于第七阈值 的音调分量的数量。 本发明提供的技术方案, 主要是考虑到音乐信号的特性, 例如音乐信 号的音调持续时间较长, 而语音信号的音调持续时间较短, 音乐信号的能 量可以持续分布在高频区域或低频区域, 而语音信号通常不能持续分布在 高频区域或低频区域, 在考虑音乐信号上述特点的基础上, 本发明实施例 提供的技术方案中, 首先获取音频信号中待分类帧中满足连续性约 束条件 的音调分量的数量, 以及音频信号中待分类帧在低频区域的持续帧 数和 / 或所述待分类帧在高频区域的持续帧数, 并根据上述信息确认待分类帧的 类型是音乐信号, 还是语音信号, 上述技术方案提供的音频信号分类处理 方法, 能够提高音频信号分类的正确率, 满足语音质量评估的要求。

附图说明 为了更清楚地说明本发明实施例中的技术方案 , 下面将对实施例描述 中所需要使用的附图作一简单地介绍, 显而易见地, 下面描述中的附图是 本发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳 动性的前提下, 还可以根据这些附图获得其他的附图。

图 1为本发明实施例中音频信号分类处理方法的 程示意图一; 图 2为本发明具体实施例中的流程示意图一;

图 3a为输入信号 "法语男声 +笙" 的波形图一;

图 3b为与图 3a对应的语谱图;

图 4a为音频信号 "京胡 +法语男声的信号" 的输入信号的波形图; 图 4b为与图 4a对应的语谱图;

图 5a为输入信号 "韩语男声 +合奏" 的波形图;

图 5b为与图 5a对应的语谱图;

图 6a为输入信号 "法语男声 +笙" 的波形图二;

图 6b为图 6a所示输入信号的初始音调检测结果;

图 6c为图 6a所示输入信号筛选后的音调检测结果;

图 7a为输入信号 "法语男声 +笙" 的波形图三;

图 7b为图 7a对应的音调特征"" m - to∞z - ^的曲线图;

图 8a为输入信号 "京胡 +法语男声" 的波形图;

图 8b为与图 8a对应的高频能量分布比值^ - -^^的曲线图; 图 9a为输入信号 "韩语男声 +合奏" 的波形图;

图%为与图 9a对应的高频能量分布比值 -^ -^^)的曲线图; 图 10为本发明实施例中音频信号分类规则流程示 图一;

图 11a为输入信号 "中文女声 +合奏 +英语男声 +塡 +德语男声 +响板" 的波形图一;

图 l ib为图 11a对应的分类结果示意图;

图 12a为输入信号 "中文女声 +合奏 +英语男声 +塡 +德语男声 +响板" 的波形图二;

图 12b为图 12a对应的平滑后的分类结果示意图;

图 13为本发明实施例中音频信号分类规则流程示 图二;

图 14a为输入信号 "中文女声 +合奏 +英语男声 +塡 +德语男声 +响板" 的波形图三;

图 14b为图 14a对应的实时分类结果示意图;

图 15为本发明实施例中输出延时不固定的情况下 音分类方法流程 图;

图 16a为输入信号 "中文女声 +合奏 +英语男声 +塡 +德语男声 +响板" 的波形图四;

图 16b为图 16a对应的三种分类方式的分类结果示意图;

图 17为本发明实施例中音频信号分类处理装置的 构示意图; 图 18为本发明实施例中音频信号分类处理设备的 构示意图。 具体实施方式

为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本 发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描 述, 显然,所描述的实施例是本发明一部分实施例 , 而不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前 提 下所获得的所有其他实施例, 都属于本发明保护的范围。

针对现有技术中的缺陷, 本发明实施例提供了一种音频信号分类处理 方法, 图 1为本发明实施例中音频信号分类处理方法的 程示意图一, 如 图 1所示, 该方法包括如下歩骤:

歩骤 101、 获取音频信号中待分类帧中满足连续性约束条 件的音调分 量的数量、所述音频信号中待分类帧在低频区 域的持续帧数和所述待分类 帧在高频区域的持续帧数中的至少一项;

歩骤 102、 根据获取的所述待分类帧中满足连续性约束条 件的音调分 量的数量、所述待分类帧在低频区域的持续帧 数和所述待分类帧在高频区 域的持续帧数中的至少一项, 确定所述音频信号中待分类帧为音乐信号, 否则确定所述音频信号中待分类帧为语音信号 。

本发明实施例提供的音频信号分类处理方法, 在进行音频信号中的各 帧进行分类时, 既可以无输出延时的输出分类结果, 即对于接收到的音频 信号帧, 实时输出分类结果, 也可以存在一定的输出延时, 即对于接收到 的音频信号帧, 延迟一段时间给出分类结果。 本发明上述实施例提供的技术方案, 主要是考虑到音乐信号的特性, 例如音乐信号的音调持续时间较长, 而语音信号的音调持续时间较短, 音 乐信号的能量可以持续分布在高频区域或低频 区域, 而语音信号通常不能 持续分布在高频区域或低频区域, 在考虑音乐信号上述特点的基础上, 本 发明实施例提供的技术方案中, 首先获取音频信号中待分类帧中满足连续 性约束条件的音调分量的数量, 以及音频信号中待分类帧在低频区域的持 续帧数和 /或所述待分类帧在高频区域的持续帧数, 并根据上述信息确认 待分类帧的类型是音乐信号, 还是语音信号, 上述技术方案提供的音频信 号分类处理方法, 能够提高音频信号分类的正确率, 满足语音质量评估的 要求。

本发明上述实施例中, 其中根据输出延时要求的不同, 可以分为三种 情况, 一是在实时获取所述待分类帧的分类结果时, 需要根据待分类帧, 以及待分类帧之前的 N帧的信息进行判断, 二是在允许较小的分类结果输 出延时, 即输出延时为 L1帧时, L1为正整数, 可以根据待分类帧, 待分 类帧前 L1帧, 以及待分类帧后 L1帧进行判断; 三是允许较大分类结果输 出延时, 即输出延时为 L2+L3帧时, L2和 L3为正整数, 先根据待分类帧, 待分类帧前 L2帧, 以及待分类帧后 L2帧进行判断, 获取初歩的待分类帧 的分类结果,然后再根据待分类帧前 L3帧和待分类帧中后 L3帧进行修改。 其中,在无输出延时时,对于最先接收到的音 频信号中的帧无法进行分类, 可以将最先接收到的帧设置默认值, 默认其为语音信号或音乐信号。

具体的, 在无输出延时, 即实时获取所述待分类帧的分类结果时, 图 1所示实施例中的歩骤 101获取音频信号中待分类帧中满足连续性约束 条 件的音调分量的数量具体包括:

获取音频信号中待分类帧, 以及待分类帧前 N1帧的音调分布参数, 并根据所述待分类帧, 以及待分类帧前 N1帧的音调分布参数获取待分类 帧中满足连续性约束条件的音调分量的数量, N1为正整数;

图 1所示实施例的歩骤 102中获取所述音频信号中待分类帧在低频区 域的持续帧数和 /或所述待分类帧在高频区域的持续帧数包括

获取所述音频信号中待分类帧, 以及待分类帧前 N1帧的能量分布参 数, 并根据所述音频信号中待分类帧, 以及待分类帧前 N1帧的能量分布 参数获取所述待分类帧在低频区域的持续帧数 和 /或所述待分类帧在高频 区域的持续帧数, N1为正整数;

图 1所示实施例的歩骤 103中根据所述待分类帧中满足连续性约束条 件的音调分量的数量、所述待分类帧在低频区 域的持续帧数和所述待分类 帧在高频区域的持续帧数中的至少一项, 确定所述音频信号中待分类帧为 音乐信号, 否则确定所述音频信号中待分类帧为语音信号 包括:

在所述待分类帧中满足连续性约束条件的音调 分量的数量大于第一 阈值、 所述待分类帧在低频区域的持续帧数大于第二 阈值或所述待分类帧 在高频区域的持续帧数大于第三阈值时, 确定所述音频信号中待分类帧为 音乐信号, 否则确定所述音频信号中待分类帧为语音信号 。

上述实施例中, 其中获取音频信号中待分类帧的音调分布参数 , 以及 待分类帧前 N1帧的音调分布参数包括:

对接收到的音频信号中的待分类帧和待分类帧 前 N1帧进行快速傅里 叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信 号中的待分类帧作为 待分类帧的音调分布参数, 以及待分类帧前 N1帧的音调分量的频域分布 信息作为待分类帧前 N1帧的音调分布参数。

而上述的根据待分类帧的音调分布参数, 以及待分类帧前 N1帧的音 调分布参数获取待分类帧中满足连续性约束条 件的音调分量的数量包括: 根据接收到的音频信号中的待分类帧和待分类 帧前 N1帧的音调分量 的频域分布信息获取待分类帧中持续帧数大于 第六阈值的音调分量的数 另外, 上述获取所音频信号中待分类帧的能量分布参 数, 以及待分类 帧前 N1帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 以及待分类帧前 N1帧的高频能量分布比和声 压级作为待分类帧前 N1帧的能量分布参数。

而上述根据音频信号中待分类帧的能量分布参 数,以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在低频区 域的持续帧数包括:

根据所述接收到的音频信号中待分类帧和待分 类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内 的高频能量分布比小于第 八阈值的持续帧数;

上述根据音频信号中待分类帧的能量分布参数 , 以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在高频区 域的持续帧数包括:

根据所述接收到的音频信号中待分类帧和待分 类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内 的高频能量分布比大于第 九阈值、 声压级大于第十阈值的持续帧数。

在允许 L1帧分类结果输出延时, 即延时 L1帧获取所述待分类帧的分 类结果时, 图 1所示实施例的歩骤 101中获取音频信号中待分类帧中满足 连续性约束条件的音调分量的数量包括:

获取音频信号中待分类帧, 待分类帧前 N2帧, 以及待分类帧后 L1帧 的音调分布参数, 并根据所述待分类帧, 待分类帧前 N2帧以及待分类帧 后 L1帧的音调分布参数获取待分类帧中满足连续 约束条件的音调分量 的数量, N2为正整数;

图 1所示实施例的歩骤 102中获取所述音频信号中待分类帧在低频区 域的持续帧数和 /或所述待分类帧在高频区域的持续帧数包括

获取所述音频信号中待分类帧, 以及待分类帧前 N2帧以及待分类帧 后 L1帧的能量分布参数, 并根据所述音频信号中待分类帧, 待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在低频 域 的持续帧数和 /或所述待分类帧在高频区域的持续帧数;

图 1所示实施例的歩骤 103中根据所述待分类帧中满足连续性约束条 件的音调分量的数量、所述待分类帧在低频区 域的持续帧数和所述待分类 帧在高频区域的持续帧数中的至少一项, 确定所述音频信号中待分类帧为 音乐信号, 否则确定所述音频信号中待分类帧为语音信号 包括:

在所述待分类帧中满足连续性约束条件的音调 分量的数量大于第一 阈值、 所述待分类帧在低频区域的持续帧数大于第二 阈值或所述待分类帧 在高频区域的持续帧数大于第三阈值时, 确定所述音频信号中待分类帧为 音乐信号, 否则确定所述音频信号中待分类帧为语音信号 。

在上述实施例中, 其中获取音频信号中待分类帧的音调分布参数 , 待 分类帧前 N2帧的音调分布参数, 以及待分类帧后 L1帧的音调分布参数包 括:

对接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧帧 后 L1帧进行快速傅里叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信 号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分 布参数, 待分类帧前 N2帧 的音调分量的频域分布信息作为待分类帧前 N2帧的音调分布参数, 以及 待分类帧帧后 L1帧的音调分量的频域分布信息作为待分类帧 后 L1帧的 音调分布参数;

所述根据待分类帧的音调分布参数, 待分类帧前 N2帧的音调分布参 数, 以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续 约 束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧 帧后 L1帧的音调分量的频域分布信息获取待分类帧 持续帧数大于第六 阈值的音调分量的数量。

另外, 上述获取所音频信号中待分类帧的能量分布参 数, 待分类帧前

N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N2帧的高频能量分布比和声压级 作为待分类帧前 N2帧的能量分布参数和待分类帧后 L1帧的高频能量分布 比和声压级作为待分类帧后 L1帧的能量分布参数;

所述根据音频信号中待分类帧的能量分布参数 , 待分类帧前 N2帧的 能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在 低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比小于第八阈值的持续帧数;

所述根据音频信号中待分类帧的能量分布参数 , 待分类帧前 N2帧的 能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在 高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 LI帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。

在允许分类结果输出延时为 L2+L3帧, 即延时 L2+L3帧获取所述待分 类帧的分类结果时, 图 1所示实施例的歩骤 101中获取音频信号中待分类 帧中满足连续性约束条件的音调分量的数量包 括:

获取音频信号中待分类帧, 待分类帧前 N3帧, 以及待分类帧后 L2帧 的音调分布参数, 并根据所述待分类帧, 待分类帧前 N3帧以及待分类帧 后 L2帧的音调分布参数获取待分类帧中满足连续 约束条件的音调分量 的数量, N3为正整数;

图 1所示实施例的歩骤 102中获取所述音频信号中待分类帧在低频区 域的持续帧数和 /或所述待分类帧在高频区域的持续帧数包括

获取所述音频信号中待分类帧, 以及待分类帧前 N3帧以及待分类帧 后 L2帧的能量分布参数, 并根据所述音频信号中待分类帧, 待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在低频 域 的持续帧数和 /或所述待分类帧在高频区域的持续帧数。

图 1所示实施例的歩骤 103中根据所述待分类帧中满足连续性约束条 件的音调分量的数量、所述待分类帧在低频区 域的持续帧数和所述待分类 帧在高频区域的持续帧数中的至少一项, 确定所述音频信号中待分类帧为 音乐信号, 否则确定所述音频信号中待分类帧为语音信号 包括:

在所述待分类帧中满足连续性约束条件的音调 分量的数量大于第一 阈值、 所述待分类帧在低频区域的持续帧数大于第二 阈值或所述待分类帧 在高频区域的持续帧数大于第三阈值时, 确定所述音频信号中待分类帧为 音乐信号, 否则确定所述音频信号中待分类帧为语音信号 ;

若确定所述音频信号中待分类帧为音乐信号, 则确定所述待分类帧前 L3帧和待分类帧中后 L3帧中确定为语音信号的帧数目是否大于第四 值, 若超过, 则将所述音频信号中待分类帧修正为语音信号 ;

若确定所述音频信号中待分类帧为语音信号, 则确定所述待分类帧前 L3帧和待分类帧中后 L3帧中确定为音乐信号的帧数目是否大于第五 值, 若大于, 则将所述音频信号中待分类帧修正为音乐信号 。

在上述实施例中, 所述获取音频信号中待分类帧的音调分布参数 , 待 分类帧前 N3帧的音调分布参数, 以及待分类帧后 L2帧的音调分布参数包 括:

对接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧帧 后 L2帧进行快速傅里叶变换, 获取功率密度谱;

根据所述功率密度谱获取所述接收到的音频信 号中的待分类帧的音 调分量的频域分布信息作为待分类帧的音调分 布参数, 待分类帧前 N3帧 的音调分量的频域分布信息作为待分类帧前 N3帧的音调分布参数, 以及 待分类帧帧后 L2帧的音调分量的频域分布信息作为待分类帧 后 L2帧的 音调分布参数;

所述根据待分类帧的音调分布参数, 待分类帧前 N3帧的音调分布参 数, 以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续 约 束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧 帧后 L2帧的音调分量的频域分布信息获取待分类帧 持续帧数大于第六 阈值的音调分量的数量。

另外, 所述获取所音频信号中待分类帧的能量分布参 数, 待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N3帧作为待分类帧前 N3帧的能量 分布参数, 以及待分类帧帧后 L2帧的高频能量分布比和声压级作为待分 类帧后 L2帧的能量分布参数;

所述根据音频信号中待分类帧的能量分布参数 , 待分类帧前 N3帧的 能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在 低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比小于第八阈值的持续帧数;

所述根据音频信号中待分类帧的能量分布参数 , 待分类帧前 N3帧的 能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在 高频区域的持续帧数包括: 根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。

上述针对是否允许输出延时的三种情形下, 其中待分类帧中持续帧数 大于第六阈值的音调分量的数量为在频域上大 于第七阈值的音调分量的 数量。

以下分别针对上述允许分类结果输出延时等情 况进行详细说明。 首 先, 以允许 L1帧的少量固定输出延时为例, 本实施例中 L1取值为 15。 图 2为本发明具体实施例中的流程示意图一, 如图 2所示, 包括如下的歩骤: 歩骤 201、 对当前帧第 i帧进行 FFT变换, 本歩骤中是针对接收到的 每帧都进行 FFT变换;

歩骤 202、 基于 FFT变换结果, 获取第 i帧的音调分布参数, 及其能 量分布参数;

歩骤 203、 判断 i〉Ll是否成立, 即当前帧之前是否已存在 L1个帧, 如果是执行歩骤 204, 否则结束本流程, 继续执行针对后续的各帧执行上 述歩骤 201和歩骤 202的操作;

歩骤 204、 在:[〉1^时, 则可以获取第 i-Ll帧的音频信号分类结果, 具体的可以过去的信息, 即按照上述歩骤 201和歩骤 202获取的第 i-Ll 帧之前的若干帧的音调分布参数和能量分布参 数, 现在的信息, 即第 i-Ll 帧的音调分布参数和能量分布参数, 以及未来的信息, 即第 i-Ll帧之后 的 L1帧的音调分布参数和能量分布参数,获取第 i-Ll帧的音频信号分类 结果;

歩骤 205, 输出第 i-Ll帧的音频信号分类结果。

具体的, 对于音乐信号和语音信号的音调分布情况, 可以参照图 3a 和图 3b, 图 3a为输入信号 "法语男声 +笙" 的波形图一, 图 3b为与图 3 对应的语谱图。 在图 3a的输入信号波形中, 采样率为 8kHz, 其中, 横轴 为样本点, 纵轴为归一化幅值; 图 3b的语谱图, 对应的采样率也为 8kHz, 频率分析范围为 (T4kHz。 其中, 横轴为帧, 与图 3a横轴的样本点相对应; 纵轴为频率 (Hz)。 在语谱图中, 某个频率范围内的亮度越高, 表示信号在 该频段的能量越大。 如果信号在某频段持续保持较大的能量, 在语谱图上 就会形成一条 "亮带" , 也就是音调。 通过图 3b的音调分布情况可知, 在前半段的语音信号中, 除了基频处的音调持续时间稍长一些, 更高频率 处的音调持续时间都是很短的。 在语音信号中, 能够检测出音调的地方为 浊音。 由于浊音的长度通常较短, 与之相对应的音调持续时间也较短; 而 在后半段的音乐信号中, 音调持续时间明显较长。

对于音乐信号和语音信号的能量分布情况, 可以参照图 4a和图 4b, 图 4a为音频信号 "京胡 +法语男声的信号" 的输入信号的波形图, 图 4b 为与图 4a对应的语谱图。 在图 4a的波形图中, 其中, 横轴为样本点; 纵 轴为归一化幅值; 图 4b的语谱图中, 横轴为帧; 纵轴为频率 (Hz)。 通过 图 4b的能量分布情况可知:在前半段的音乐信号 ,能量基本分布在 1kHz 以上, 在 1kHz至 4kHz均有分布; 在后半段的语音信号中, 大部分浊音的 能量主要分布在 1kHz以下; 清音的能量在低频至较高频率范围内均有分 布。 因此, 语音信号的能量不可能持续分布在相对较高的 频率范围内。

另外, 部分音乐信号的能量能够持续分布在低频区域 ; 相比之下, 语 音信号的能量不可能持续分布在低频区域。 以图 5a和图 5b所示的 "韩语 男声 +合奏" 的音频信号为例说明, 图 5a为输入信号 "韩语男声 +合奏" 的波形图, 其中, 横轴为样本点; 纵轴为归一化幅值; 图 5b为与图 5a对 应的语谱图, 其中, 横轴为帧; 纵轴为频率 (Hz)。 通过可以看出如下的能 量分布情况: 图 5b前半段的语音信号的能量分布情况与图 4b的语音信号 类似。 由于浊音和清音的能量分布特性不同, 造成语音信号的能量分布具 有较大的波动。 因此, 语音信号的能量既不可能持续分布在相对较高 的频 率范围内, 也不可能持续分布在低频范围内; 在后半段的音乐信号中, 能 量主要分布在 1kHz以下。

综上所述, 音乐信号与语音信号的不同之处主要有: 一是部分音乐信 号的音调持续时间较长, 语音信号的音调持续时间通常较短; 二是部分音 乐信号的能量能够持续分布在相对较高的频率 范围内; 语音信号的能量不 能持续分布在相对较高的频率范围内; 三是部分音乐信号的能量能够持续 分布在低频区域; 语音信号的能量不能持续分布在低频区域。 本发明各实 施例中的低频和高频的划分, 可以根据语音信号的分布区域确定, 将语音 信号主要分布的区域定义为低频区域, 例如将 1kHz以下定义为低频区域, 而将 1kHz定义为高频区域, 当然其具体取值也可以根据具体的应用场景 的不同, 针对的具体语音信号的不同而有所区别。

基于上述分类原理, 需要提取的特征主要有音调特征及能量特征。 具体的, 提取音调特征可以分为三个歩骤:

A、 获取初始音调检测结果, 即各帧的音调分布参数;

B、 通过连续性分析, 对初始音调检测结果进行筛选, 确定待分类帧 中满足连续性约束条件的音调分量, 该音调分量是指能量在频域上的一种 分布形式;

C、 基于筛选后的音调检测结果, 提取音调特征, 即待分类帧的满足 连续性约束条件的音调分量的数量。

其中, 上述获取初始音调检测结果可以包括: 首先, 对各个帧的数据 进行 FFT变换, 获取功率密度谱; 其次, 确定功率密度谱中的局部极大点; 最后, 针对以局部极大点为中心的若干功率密度谱系 数进行分析, 进一歩 确定局部极大点是否为真正的音调分量。

本实施例中, 设输入信号的采样率为 8kHz, 有效带宽为 4kHz, FFT 取值为 1024, 功率密度谱的局部极大点为 本实施例中, 如何选取以局部极大点为中心的若干功率密度 谱系数进 行分析, 是比较灵活的, 可以根据算法需要设定。 例如可以采用如下方式 实现

如果局部极大点 " ^满足以下条件:

P f - p {f±i) ≥7dB , 其中 = 2,3 · · ,10 即判断局部极大点与相邻的其他点的数值差异 较大时, 本实施例中差 异为 ΊάΒ , 则说明该局部极大点是真正的音调分量。 对于上述音调连续性分析的歩骤, 可以设

V 2 )表示初始音调检测结果, 取值为 1表示第 k帧数据在 f 处存在音调分量, 取值为 0表示第 k帧数据在 f 处不存在音 调分量。 相对于第 k帧, 位于第 k帧之前的 L 1帧数据被称为过去帧, 位 于第 k帧之后的 L 1数据被称为未来帧。 设第 k帧数据在/; c处存在音调分 量, 即 to^L/Z^^r^Vm ] [ ] = l。 针对位于第 k帧/; c处的音调分量, 音调 连续性分析的歩骤为:

歩骤 1、 统计该音调分量与过去多少帧的音调分量具有 连续性, 表示 为 num_left,初始化变量" " m — 为 0,不具有连续性的巾贞数用 """^"。"-。"^ 标识, 初始化变量" -" ^- 为 0 , 并记录待分析音调分量所处的位置: pos _cur = fie ,

检杳 tonal _ flag _ original[k - 3))的取值.

如果取值全为 o, 说明第(k-i)帧数据在^" - e"^ 3 ^/^^^-^ 3 )区 间不存在音调分量, 即位于第 k帧 ^处的音调分量与第(k-l)帧的音调分 量之间出现间断, 记录下本次不连续性事件:

num _ non _ tonal = num _ non _ tonal + 1.

说明第 ( k_ 1 )巾贞数 据在 位于第 k帧 处的 音调分量与第(k-1)帧的音调分量之间具有连 性:

记录第(k-1)帧音调分量所处的位置: po S _ CUr = p OS _ CUr + X ;

统计出现连续性的巾贞数: n 画- 1 Φ = num— left + 1.

设置变量 num _ non _ tonal为 Q .

依次检测第(k-1)帧、第(k-2)帧等与前一帧的 调分量之间是否存在 连续性。 在每次检测之前, 首先需要判断 大小:

如果 " Mm -画 - 画 1 ≥ al , 说明待分析音调分量与过去帧音调分量之间 的间断已经超过预设的范围, 已不再具有连续性。 不必继续检测下去, 输 出 num— left ·

如果 / < , 说明待分析音调分量与过去帧音调分量之间 的间断还在预设的范围内, 继续检测下去。 直到检测完过去 L1帧数据, 输出"画- fe

歩骤 2、 统计该音调分量与未来多少帧的音调分量具有 连续性, 表示 为 num right . 类似于上述歩骤 1, 依次检测第 k帧、第(k+i)帧等与后一帧的音调分 量之间是否存在连续性, 输出" Mm - Ai

歩骤 3: 根据 及 " Μ ™_π , 对初始音调检测结果进行筛选, 如 果满足以下两个条件之一:

(num left + num right)≥ al

num right≥ a3 说明位于第 k帧 fx处的音调分量具有一定的连续性, 保留初始音调 检测结果, 否则不保留。 在本实施例中, 可以设 "1 = 5 ; Ω2 = 10 . Ω3 = 8 0 以图 3a和图 3b给出的法语男声 +笙的音频信号为例, 给出音调连续 性分析的实例, 如图 6a和 6b所示, 图 6a为输入信号 "法语男声 +笙" 的 波形图二; 图 6b为图 6a所示输入信号的初始音调检测结果。 其中, 横轴 为帧, 与图 6a横轴的样本点相对应; 纵轴取值为(T511 , 每点对应的频域 分辨率为 4000 Hz /512= 7. 8125Hz。 如果某帧数据在纵轴某点对应的频率 范围内存在音调分量, 将其标识为白色, 否则为黑色。 如果连续若干帧信 号在某个频率范围内存在音调分量, 会形成 "白线" 。 该 "白线"与图 3b 语谱图中的 "亮带"是相对应的; 图 6c为图 6a所示输入信号筛选后的音 调检测结果。 与图 6b的初始音调检测结果相比, 在前半段的语音信号中, 仅保留了基频及其附近的音调持续时间稍长的 少量音调分量, 其余的音调 分量均已去掉; 在后半段的音乐信号中, 绝大部分的音调分量均被保留下 来。

最后进行音调特征提取, 其中针对筛选后的音调检测结果, 统计较低 频率至高频范围(对应于 fl4≤ < F / 2 )的每帧音调分量的数量, 表示为

- tonal jag 如果" 越大,说明对应信号中音调分量持续时 间越长, 该信号是音乐信号的可能性越大。

如上述图 6c所示, 语音信号在基频及其附近频率范围内可能会存 在 少许音调持续时间稍长的音调分量。 因此, 统计每帧音调分量的数量的范 围不是从 = G 开始的, 而是从 , = 4 开始的, 这样可以避免将某些基频音 调分量持续时间较长的语音信号误判为音乐信 号。 即上述统计的满足连续 性约束条件的音调分量的数量为在频域上大于 第七阈值的音调分量的数 量。 在本实施例中, 可以设 " 4 = 4 0

仍以图 3a和图 3b给出的 "法语男声 +笙" 的音频信号为例说明, 如 图 7a和图 7b所示, 图 7a为输入信号 "法语男声 +笙"的波形图三; 图 7b 为图 7a对应的音调特征" 的曲线图。 其中, 横轴为帧, 与图

7a横轴的样本点相对应; 纵轴为音调分量的数量。 由图 7a和图 7b可见, 在前半段的语音信号中, nwn j mal - flag始终为 0 , 与后半段笙的音调特征 具有明显区别。

本发明上述实施例中的能量特征提取方式如下 , 在提取能量特征之前, 首先需要计算各帧的高频能量分布比值 及声压级 ^ Ζ ^, 其中 k表示帧数。

其中, 表示第 k 帧的 FFT变换的实部, Im_ (/)表示第 k帧的 FFT变换的虚部。 分母表示第 k帧的总能量; 分子表示第 k帧在

/ = Ω 5 ~ / 2 _1)所对应的较高频率范围内的能量总和。 如果

ratio— energy -hf ^软小, 说明第 k帧能量主要分布在低频; 反之, 说明第 k 帧能量主要分布在较高频率范围内。

其中, 表示第 k 帧的功率密度谱。 如果 ^)较小, 说明第 k帧总能量较小, 如果 较大, 则说明第 k帧总能量较大。

基于高频能量分布比值及声压级, 进一歩分析能量在高频的分布特性 及能量在低频的分布特性。

在获取能量在高频的分布特性时, 仍以图 4给出的 "京胡 +法语男声" 的音频信号为例, 其中图 8a为输入信号 "京胡 +法语男声" 的波形图, 图

8b为与图 8a对应的高频能量分布比值^^- -^^)的曲线图, 其中, 横轴为帧, 与图 8a横轴的样本点相对应; 纵轴为高频能量分布比值。 通 过图 8b可知高频能量分布比值曲线的变化情况:

在前半段的音乐信号中, 除了演奏间隙的短暂停顿处, 高频能量分布 比值基本上大于 0. 8, 说明该段京胡信号的能量能够持续分布在较高 频率 范围内;

在后半段的语音信号中, 少量的浊音以及部分清音的高频能量分布比 值较大, 大部分浊音以及部分清音的高频能量分布比值 都是比较小的, 导 致高频能量分布比值曲线的波动较大, 说明语音信号的能量是无法持续分 布在较高频率范围内的。

针对第 k帧, 为了表示能量在高频的分布特性, 基于高频能量分布比 值 及声压级 ( 提取以下特征:

num_big_ratio_energy_left . 表示位于第 k帧之前的 L1帧数据中, 能量 能够持续分布在高频的过去帧的帧数;

画— big— mtio— energy— right : 表示位于第 k帧之后的 LI帧数据中, 能量 能够持续分布在高频的未来帧的帧数。

在提取上述特征之前,首先检査高频能量分布 比值 ^^ -^W及 声压级 是否满足以下条件: ifati。― energy _hf、k、> a6、 &&、spl k、> αΊ)。如果 满足该条件,进一歩分析第 k帧能量是否能够持续分布在较高频率范围内

获取聽 m _ big _ ratio _ energy _ left的歩骤为:

歩骤 1、 num - big - ratio - ener sy - le ft 0;

歩骤 2、 初始化变量"画 为 0;

歩骤 3、 检査 raz '。- j/^- 1 )及 ^ - 1 )是否满足以下条件:

{ratio energy _hf(k— i)> αβ) & & (spl(k -l)> al) 如果不满足上述条件, 说明第(k-i)帧数据的能量没有分布在较高频 率范围内, 记录下本次事件. 聽 m non big ratio - num non big ratio + 1. 如果满足上述条件, 说明第(k-1)帧数据的能量持续分布在较高频 范围内, 统计能量能够持续分布在高频的过去帧的帧数 :

num big ratio energy left― num big ratio energy left + 1.

设置变量 num non big ratio为 Q。

类似于歩骤 3, 依次检测第(k-2)帧、 第(k-1)帧等数据的能量能否持 续分布在较高频率范围内。 在每次检测之前, 首先需要判断

num non big ratio的大小, 如果 num non big ratio≥ 8, 说明能量无法持续 分布在较高频率范围内的状态已经超过预设的 范围, 不必继续检测下去, 输出聽 m big ratio energy left . 如果 num non big ratio < "8, 说明能量无法 持续分布在较高频率范围内的状态还在预设的 范围内, 继续检测下去, 直 到检测完过去 L1帧数据, 输出"画— g-rario— i rg) je/。 获取醒—big _ ratio _ energy _ right的歩骤是类似的。 依次检测第(k+ 1 )帧 否持续分布在较高频率范围内, 输出

对于低频能量的分布特性获取, 以图 5a给出的 "韩语男声 +合奏" 的 输入信号为例, 观察能量在低频的分布特性, 如图 9a和图 9b所示, 图 9a 为输入信号 "韩语男声 +合奏" 的波形图, 图%为与图 9a对应的高频能 量分布比值 ^- ^-^^的曲线图。 其中, 横轴为帧; 纵轴为高频能量 分布比值。 通过观察图%所示的在高频能量分布比值曲线 的变化情况, 可知, 在前半段的语音信号中, 高频能量分布比值曲线的波动较大, 说明 语音信号的能量是无法持续分布在低频的; 在后半段的音乐信号中, 高频 能量分布比值基本上小于 0.1, 说明该段合奏信号的能量能够持续分布在 低频。

针对第 k帧, 为了表示能量在低频的分布特性, 基于高频能量分布比 值 mtio energy D及声腿 , 提取以下特征:

醒―羅 II mtio— energy— left :表示能量能够持续分布在低频的过去帧的 num _ small _ ratio _ energy _ right . 表示位于第 k帧之后的 LI帧数据中, 能 量能够持续分布在低频的未来帧的帧数;

与聽 m _ big _ ratio _ e" - 等参数的获取过程不同,

™m_sm^_ ra ^_ e/^_fe/t并不是仅仅针对过去 L1 帧数据分析得出的, 而 一帧 ratio -energy _hf{i){i≥0) f 就会更新一次

rari。_ e " e rg) j/ 是否满足条件: ratio— energy— hf、k、<a9。 如果满足该条件, 进一歩分析第 k帧能量是否能够持续分布在低频范围内。

中, 获取 num small ratio energy right的歩骤为.

歩骤 1、 初始化 num sma ^ ra ti energy right为 Q ·

歩骤 2、 依次检测第(k+1)帧、 第(k+2)帧等的高频能量分布比值 ratio _ energy _ hf {i ) ( < ζ·≤ ( 是否满足条件: ratio— energy _hf(f)< a9。如果不 满足上述条件, 不必继续检测下去, 输出 聽 / «-腿^-/¾!^-£^/¾)-/^/^; 如 果满足上述条件,

num small ratio energy right― num small ratio energy right + 1, 继续检 ^贝 []下 去, 直到检测完未来 LI帧数据, 输出"画_腿"1/^ 0 _£^/^-/^ 。

在本实施例中, 可以设置 = 15(3 ; «6 = 0.4. α7 = 30. Ω8 = 5. Ω9 = 0.1。 如上述分类原理分析所述, 绝大多数音乐信号具有不同于语音信号的 特性; 相比之下, 语音信号缺乏独有的特性, 很难 100%确定某段信号就是 语音信号。 因此, 在分类时将明显不同于语音信号的音乐信号识 别出来, 其余则判为语音信号。

具体的, 分类规则可以如图 10所示, 对于第 k帧数据, 其可以包括 如下的歩骤:

歩骤 301、 判断音调分量的数量是否大于 0, 即"画 -to" - g >0 如 果满足条件, 则可以输出初始分类结果为音乐信号; 否则继续分析育 特 歩骤 302、 分析能量在较高频率范围内的分布特性, 首先判断 a 6 && S plW> a )。 若是, 执行歩骤 303, 否则执行歩骤

304;

歩骤 303、 判断是否满足 "画 _ g-rari 0 _£ rg)-n ≥"ll, 或者满足 num big ratio energy left + num big ratio energy right≥ alO 或者

腿 m— big— ratio— energy— left≥ cdi, 如果满足, 则输出初始分类结果为音乐信 号, 否则, 执行歩骤 304;

歩骤 304、 判断高频能量分布比值是否小于 a9, 即

ratio _energy_hf{k)≤a9 f 如果是, 则执行歩骤 305, 否则输出初始分类结果 为语音信号; 歩骤 305、 判断是否满足 "画 _腿"1/^ 0 _£^/^-/£^≥"13, 或者满足 num small ratio energy left + num small ratio energy right≥ al2 或者 num _ small _ ratio _ energy _ right >a\\ ^ 如果满足, 则输出初始分类结果为音乐 信号, 否则输出初始分类结果为语音信号。

在本实施例中, 可以设置 ω10 = 15 ; "11 = 10; «12 = 30. "13 = 30。

参见图 11a和图 lib所示的, 图 11a为输入信号 "中文女声 +合奏 +英 语男声 +塡 +德语男声 +响板" 的波形图, 其中的三种音乐信号: 合奏、 塡 及响板, 在音调特征或是能量特征方面, 均具有一定的典型性; 图 lib为 图 11a对应的分类结果示意图一, 其中, 横轴为样本点; 纵轴为分类结果, 取值为 0对应语音信号, 取值不为 0对应音乐信号。 由下至上, 纵轴给出 四类分类结果:

MUSIC_音调特征: 仅使用音调特征得到的分类结果, 表示为实线。 由 此可以看出, 图 11a中的哪些信号是适用于有关音调特征的分类 规则的; MUSIC 能量 :特特征征__11:: 仅仅使使用用 ""能能量: 特征 _1"得到的分类结果, 表示为 虚线。 这里的 "能量特征 _1"指的是能量是否能够持续分布在较高频率范 围内。 由此可以看出, 图 11a中的哪些信号是适用于有关能量高频分布特 性的分类规则的;

MUSIC_能量 :特特征征__22:: 仅仅使使用用 ""能能量: 特征 _2"得到的分类结果, 表示为 点划线。 这里的 "能量特征 _2 "指的是能量是否能够持续分布在低频。 由 此可以看出, 图 11a中的哪些信号是适用于有关能量低频分布特 性的分类 规则的;

1^1(_初始分类结果: 将 MUSIC_音调特征、 MUSIC_能量特征_1及 MUSIC_能量特征_2的分类结果综合起来, 就可以得到初始分类结果, 表示 为点线。

通过观察图 lib, 可以看出, 针对不同类型的音乐信号, 不同的分类 规则是如何发挥作用的:

位于 100000-300000点之间的合奏信号: 该段音乐信号在能量上的波 动是很大的, 仅有少数帧的能量能够持续分布在较高频率范 围内, 能量特 征_1/2基本不起作用。 但是, 该段信号的音调具有较好的持续性, 可以利 用音调特征检测出来; 位于 400000-550000点之间的塡信号:音调特征能够起 一定的作用, 但是仅依靠音调特征是无法把完整的塡信号检 测出来的, 如图断续分布的 实线所示。该段信号的能量主要分布在低频, 可以利用能量特征 _2检测出 来;

位于 600000点之后的响板信号: 该段信号几乎检测不出音调分量, 音调特征不起作用。 该段信号的能量主要分布在高频, 可以利用能量特征 _1检测出来。

本发明实施例提供的技术方案, 还可以适应于输出延时较大的应用场 景, 例如当输出延时为 L2+L3时, 设当前帧为第 i帧, 则可以首先按照上 述实施例提供的技术方案, 当 i〉L2时, 根据过去的信息, 第 i_L2帧之前 的若干帧的音调分布参数和能量分布参数, 现在的信息, 即第 i_L2帧的 音调分布参数和能量分布参数, 以及未来的信息, 即第 i_L2帧之后的 L2 帧的音调分布参数和能量分布参数, 获取第 i_L2帧的音频信号分类结果, 其具体的实现方式可以参见上述的实施例, 进一歩当 i〉(L2+L3)时, 可以 进行平滑处理, 即根据待分类帧第 i_L2-L3帧前 N4帧和待分类帧第

1-L2-L3帧后 L3帧的初始分类结果进行修正。

具体的, 上述的前 N4帧可以为前 L3帧, 针对第 k帧, 此时上述修正 处理的过程为:

首先, 对位于第 k帧之前的 L3帧及位于第 k帧之后的 L3帧的初始分 类结果进行统计, 获取被分类为音乐信号的帧数"" m - mw , 以及被分类为 语音信号的巾贞数醒—醒 _ music .

其次, 如果第 k帧的初始分类结果为语音信号, 并且" " _m^c≥ fl l 4 , 将第 k帧的分类结果修正为音乐信号; 如果第 k帧的初始分类结果为音乐 信号, 并且"画 - "。 "—聽 ^≥"1 4 , 将第 k帧的分类结果修正为语音信号。

在本实施例中, 可以设置" 1 4 = 1 6

图 12a为输入信号 "中文女声 +合奏 +英语男声 +塡 +德语男声 +响板" 的波形示意图, 同图 11a所示, 图 12进一歩给出平滑后的结果, 如图 12 所示, 由下至上, 纵轴给出两类分类结果:

1^ 1( _初始分类结果: 表示为实线;

MUS IC_平滑后结果: 对初始分类结果进行平滑, 得到平滑后结果, 表 示为虚线。

观察图 12可知, 位于 100000-300000点之间的合奏信号: 初始分类 结果在 250000-300000点之间存在一处误判,将音乐信号 判为语音信号; 位于 400000-550000点之间的塡信号, 初始分类结果在该信号结尾部分存 在一处误判, 将音乐信号误判为语音信号。 通过平滑处理, 对上述误判进 行了修正。

另外,对于不能够引入输出延时的应用场景, 其中获取音调分布参数, 获取能量分布参数的原理和歩骤与上述技术方 案类似, 不同之前仅在于, 在进行分类时参考的是过去的信息和现在的信 息, 由于无输出延时, 需要 实时获取分类结果, 无法参考未来的信息。

具体的, 提取音调特征可以参照上述实施例, 可以分为三个歩骤:

A、 获取初始音调检测结果, 即各帧的音调分布参数;

B、 通过连续性分析, 对初始音调检测结果进行筛选;

C、 基于筛选后的音调检测结果, 提取音调特征, 即待分类帧的音调 分量的数量。

其中上述歩骤 A, 可以参照上述实施例, 以下主要对歩骤 B和歩骤 C 进行详细说明。

在进行连续性分析时, 设 tonal -fl a g -Original[k][f](0≤f < 表示初始音 调检测结果, 取值为 1表示第 k帧数据在 f 处存在音调分量, 取值为 0表 示第 k帧数据在 f 处不存在音调分量。 相对于第 k帧, 位于第 k帧之前的 L1帧数据被称为过去帧。

设第 k帧数据在 f x 处存在音调分量, 即 i。 针 对位于第 k帧 fx处的音调分量, 音调连续性分析的歩骤为:

歩骤 1: 统计该音调分量与过去多少帧的音调分量具有 连续性, 表示 为腿 m— Ιφ , 初始化变量" "^- 为 0, 初始化表示不连续的变量

n飄―画 丽 1为 Q , 并记录待分析音调分量所处的位置: po S _ CUr = fx., 检杳 tonal flag l][ ] ((pos _cur-3)≤ f ≤ (pos_cur + 3))的取值. 如果取值全为 o, 说明第(k-i)帧数据在 ^- ^- 3 ^/ ^^"^ 3 )区 间不存在音调分量, 即位于第 k帧 处的音调分量与第(k-l)帧的音调分 量之间出现间断, 记录下本次不连续性事件: ― ηοη _ tonal― num _ non _ tonal + 1.

如果 tonal - A ag - ori Sinal[k - l][pos _cur + x]^l{-3≤ x≤3) ^ 说明第 (k- 1 )巾贞数 据在 即位于第 k帧 处的 音调分量与第(k-1)帧的音调分量之间具有连 性:

记录第(k-1)帧音调分量所处的位置: pos—c n c + x

统计出现连续性的巾贞数: n 画- 1 Φ =腿 m— left + 1

设置变量 num _ non _ tonal为。。

类似于歩骤 2, 依次检测第(k-1)帧、 第(k-2)帧等与前一帧的音调分 量之间是否存在连续性。 在每次检测之前, 首先需要判断 "" "^-^^的 大小:

如果" -m^-to^ W, 说明待分析音调分量与过去帧音调分量之间 的间断已经超过预设的范围, 已不再具有连续性。 不必继续检测下去, 输 出 num left ·

如果" -rn^ ^ W, 说明待分析音调分量与过去帧音调分量之间 的间断还在预设的范围内, 继续检测下去。 直到检测完过去 L1帧数据, 输出 num ι Φ

歩骤 2: 根据" -^ 对初始音调检测结果进行筛选;

如果满足条件: 醒— left≥bl, 说明位于第 k帧 fx处的音调分量具有 一定的连续性, 保留初始音调检测结果, 否则不保留。

在本实施例中, 可以设置 W = 5 = 5

进一歩的, 类似上述实施例, 针对筛选后的音调检测结果, 统计较低 频率至高频范围(对应于 ½≤ , < / 2 )的待分类帧的帧音调分量的数量, 表 示为醒 tonal jag。 如果 MMm_toM _/¾g越大, 说明对应信号中音调分量 持续时间越长, 该信号是音乐信号的可能性越大。 在本实施例中, 设置 ½ = 40

对于能量特征提取, 在提取能量特征之前, 首先需要计算每帧高频能 量分布比值 ^-^^^-^^及声压级^ 其中 k表示帧数。 计算每帧 高频能量分布比值 及声压级 的公式与上述是相同 的。

基于高频能量分布比值及声压级, 进一歩分析能量在高频及低频的分 布特性

量分布比值 ratio -energy _hf k)及 ^级 ^), 提取特征

m_big_mtiQ rgy— Ιφ 该特征是指, 位于第 k帧之前的 L1帧数据中, 能量能够持续分布在高频的过去帧的帧数。

在提取该特征之前,首先检査高频能量分布比 值 ^- -^^及声 压级 是否满足以下条件: io— energy - hf b4、 & & (Μί > b5、 如果满 足该条件, 进一歩分析第 k帧能量是否能够持续分布在较高频率范围内

获取聽 m _ big _ ratio _ energy _ left的歩骤为: 歩骤 1、 num - big - ratio - ener sy - ι 0;

歩骤 2初始化变量" "m_M。"_b^_rari。为 0;

歩骤 3、 检査 raz '。- j/^- 1 )及 ^ - 1 )是否满足以下条件: {ratio energy _hf(k— l)> 如果不满足上述条件, 说明第(k-1)帧数据的能量没有分布在较高频 率范围内, i己录下本次事件- m non big ratio - num non big ratio + 1 如果满足上述条件, 说明第(k-i)帧数据的能量持续分布在较高频 范围内:

统计能量能够持续分布在高频的过去帧的帧数 :

num big ratio energy left― num big ratio energy left + 1

设置变量 num - non - - ra ti°为 0

类似于歩骤 3, 依次检测第(k-2)帧、 第(k-1)帧等数据的能量能否持 续分布在较高频率范围内。 在每次检测之前, 首先需要判断

num non big ratio的大小 ·

如果 " _" _^_ ra ^≥ ,说明能量无法持续分布在较高频率范围内 的状态已经超过预设的范围, 不必继续检测下去, 输出

num big ratio energy left .

如果" _" _^_ ra ^<^,说明能量无法持续分布在较高频率 范围内 的状态还在预设的范围内, 继续检测下去, 直到检测完过去 L1帧数据, 输出 num big ratio energy left。 另外, 针对第 k帧, 为了表示能量在低频的分布特性, 基于高频能量 分布比值 ' -^ 及声压级 ^), 提取特征

醒―醒 II— ratio— energy— left。该特征是指能量能够持续分布在低频的 去帧 的帧数。

与聽 m _ big _ ratio _ 参数的获取过程不同,

" -^^-™^_ e/^_fe/t并不是仅仅针对过去 L1 帧数据分析得出的, 而 是每计算出一帧 ratio -energy _hf{i){i≥0) f 就会更新一次

num small ratio energy left

获取 num sma U ratio energy left的歩骤为.

当 二 0时, 初始化腿 m small ratio energy left为 Q .

检查每一巾贞 - -^')^ 0 )是否满足条件: ratio— energy— hf i、<b,; 如果满足上述条件,

num small ratio energy left― num small ratio energy left + 1.

如果不满足上述条件, num small ratio energy left - 0 ·

在本实施例中, 设置 Μ = 0·3; ½ = 30. 6 = 5 ; W = (U。

具体的, 分类规则可以如图 13所示, 对于第 k帧数据, 其可以包括 如下的歩骤:

歩骤 401、 判断音调分量的数量是否大于 0, g卩"目 -to ?M Z- i ¾g > 0。 如 果满足条件, 则可以输出初始分类结果为音乐信号; 否则继续分析能量特 征;

歩骤 402、 分析能量在较高频率范围内的分布特性, 首先判断

Ό - / ^- )〉M)&& )〉 b5)。 若是, 执行歩骤 403, 否则执行歩骤

404;

歩骤 403、 判断是否满足 "画 -b^-rari 0 _i /^-fe/t≥b 8 , 如果满足, 则 输出初始分类结果为音乐信号, 否则, 执行歩骤 404;

歩骤 404、 判断高频能量分布比值是否小于 b7, 即

ratio _energy _hf{k)≤bl ^ 如果是, 则执行歩骤 405, 否则输出初始分类结果 为语音信号;

歩骤 405、 判断是否满足 "画 j e /≥ 9, 如果满足, 则输出初始分类结果为音乐信号, 否则输出初始分类结果为语音信号。 在 本实施例中, 可以设置 ^ = 10, ^ = 3 0。 图 14a为输入信号 "中文女声 +合奏 +英语男声 +塡 +德语男声 +响板" 的波形图三, 同图 11a所示, 其中的三种音乐信号: 合奏、 埙及响板, 在 音调特征或是能量特征方面, 均具有一定的典型性, 图 b进一歩给出实 时分类结果的实例, 其中, 横轴为样本点; 纵轴为分类结果, 取值为 0对 应语音信号, 取值不为 0对应音乐信号, 由图 14a和图 14b可见, 由于没 有未来的信息可供参考, 会将少许音乐信号误判为语音信号。

本发明上述实施例提供的技术方案, 针对无输出延时、 少量输出延时 和大量输出延时三种情况进行了说明, 使得在对输出延时要求不固定的场 景中, 例如语音质量评估应用中, 可以根据实际需要提供上述三种情况下 的分类结果, 且随着输出延时时间的增长, 不仅可以参照待分类帧过去的 信息, 而且可以参照待分类帧未来的信息, 参考信息越多分类的正确率也 会随之提高。 具体的, 图 15为本发明实施例中输出延时不固定的情况下 语音分类方法流程图, 如图 15所示, 包括如下的歩骤:

歩骤 501、 对当前帧第 i帧进行 FFT变换;

歩骤 502、 基于 FFT变换结果, 获取第 i帧的音调分布参数并缓存; 歩骤 503、 基于 FFT变换结果, 获取第 i帧的能量分布参数并缓存; 上述的歩骤 501-503中, 不仅针对第 i帧, 而且针对第 i帧之前接收 到的各个帧的, 都进行了相应处理, 获取了其音调分布参数和能量分布参 数。

歩骤 504、 生成并缓存第 i帧的实时分类结果, 具体的, 本歩骤中基 于歩骤 502和歩骤 503中生成并缓存的过去的信息, 即第 i帧之前的各个 帧的音调分布参数和能量分布参数, 获取第 i帧的音调特征和能量特征, 生成并缓存实时分类结果, 具体实现方式可以参照上述的实施例;

歩骤 505、 当 1〉11时, 其中 L1为允许的少量输出延时, 除了获取接 收的各个帧的实时的分类结果, 还可以生成并缓存第 i-Ll帧的初始分类 结果, 具体的, 在生成第 i-Ll帧的初始分类结果时, 可以参考过去的信 息, 即第 i-Ll帧之前的若干帧的音调分布参数和能量分 参数, 现在的 信息, 即第 i-Ll帧的音调分布参数和能量分布参数, 未来的信息, 即第 i-Ll帧之后 L1帧帧音调分布参数和能量分布参数, 获取更为准确的第 i-Ll帧的初始分类结果, 具体实现方式可以参见上述实施例。 歩骤 506, 当 i〉(L2+L3)时, 生成并缓存第(i_L2-L3)帧修正后的分类 结果, 具体的, 即可以参照过去的信息, 即位于第(i_L2-L3)帧之前若干 帧的初始分类结果, 未来的信息, 即位于第(i_L2-L3)帧之后的 L3帧的初 始分类结果, 对第(i_L2-L3)帧的初始分类结果进行修正, 具体的实现方 式可以参见上述的实施例。

歩骤 507、 根据允许的输出延时的不同, 选择上述歩骤 504、 歩骤 505 和歩骤 506的分类结果, 作为待分类帧第 j帧的分类结果:

如果输出延时满足条件: (i_j)〉= (L2+L3), 输出最优结果, 即第 j帧 修正后的分类结果;

如果输出延时满足条件: (L2+L3)〉(i-j)〉=Ll, 输出次优结果, 即第 j 帧的初始分类结果;

如果输出延时满足条件: (i_j)〈Ll, 输出零延时结果, 即第 j帧的实 时分类结果。

本发明上述实施例中可以将 L2的取值设为与 L1相等。

图 16a为输入信号 "中文女声 +合奏 +英语男声 +塡 +德语男声 +响板" 的波形图四, 同图 11a所示, 其中的三种音乐信号: 合奏、 塡及响板, 在 音调特征或是能量特征方面, 均具有一定的典型性, 图 16b给出了三种分 类方法得到的分类结果,如图 16b所示,其中纵轴上给出的三种分类结果, 依次是 31( _实时分类结果, 用实线表示, ΜΙ^Κ^ 始分类结果, 用点线 表示, MUSIC_修正后的分类结果, 用虚线表示。

如图 16b所示, 根据分类结果的正确率, 修正后的分类结果〉初始分 类结果〉实时分类结果。 因此, 在输出延时允许的情况下, 用户可以充分 利用尽可能多的未来信息, 输出当前条件下可以得到的最好的分类结果。

本发明实施例提供的技术方案, 其提取的特征能够反映出音乐信号不 同于语音信号的更为本质的特征, 使得在低采样率下的分类正确率明显提 高。 由于本发明实施例的技术方案提取特征的方法 并不受限于采样率, 因 此其不仅适用于低采样率, 也适用于高采样率下的信号分类。 在确保较低 的算法复杂度的前提下, 用户可以根据需求灵活选择实时分类结果、 次优 分类结果或是最优分类结果。

本发明实施例还提供了一种与上述方法对应的 音频信号分类处理装 置, 图 Π为本发明实施例中音频信号分类处理装置的 构示意图, 如图 17所示, 该装置包括第一获取模块 11和分类确定模块 12, 其中第一获取 模块 11用于获取音频信号中待分类帧中满足连续性 束条件的音调分量 的数量、 所述音频信号中待分类帧在低频区域的持续帧 数和所述待分类帧 在高频区域的持续帧数中的至少一项; 分类确定模块 12用于根据所述待 分类帧中满足连续性约束条件的音调分量的数 量、所述待分类帧在低频区 域的持续帧数和所述待分类帧的高频区域的持 续帧数中的至少一项, 确定 所述音频信号中待分类帧为音乐信号, 或确定所述音频信号中待分类帧为 语音信号。

本发明上述实施例提供的技术方案, 主要是考虑到音乐信号的特性, 例如音乐信号的音调持续时间较长, 而语音信号的音调持续时间较短, 音 乐信号的能量可以持续分布在高频区域或低频 区域, 而语音信号通常不能 持续分布在高频区域或低频区域, 在考虑音乐信号上述特点的基础上, 本 发明实施例提供的技术方案中, 首先获取音频信号中待分类帧中满足连续 性约束条件的音调分量的数量, 以及音频信号中待分类帧在低频区域的持 续帧数和 /或所述待分类帧在高频区域的持续帧数, 并根据上述信息确认 待分类帧的类型是音乐信号, 还是语音信号, 上述技术方案提供的音频信 号分类处理方法, 能够提高音频信号分类的正确率, 满足语音质量评估的 要求。

本发明上述实施例中, 其中根据有无输出延时和输出延时长度的不 同,其中的各个模块的执行的歩骤也会有所不 同,具体包括如下几种情况: 一是在实时获取所述待分类帧的分类结果时, 所述第一获取模块具体 用于获取音频信号中待分类帧, 以及待分类帧前 N1帧的音调分布参数, 并根据所述待分类帧, 以及待分类帧前 N1帧的音调分布参数获取待分类 帧中满足连续性约束条件的音调分量的数量, N1为正整数; 或, 具体用于 获取所述音频信号中待分类帧, 以及待分类帧前 N1帧的能量分布参数, 并根据所述音频信号中待分类帧, 以及待分类帧前 N1帧的能量分布参数 获取所述待分类帧在低频区域的持续帧数或所 述待分类帧在高频区域的 持续帧数;

所述分类确定模块 12具体用于在所述待分类帧中满足连续性约束 件的音调分量的数量大于第一阈值、所述待分 类帧在低频区域的持续帧数 大于第二阈值或所述待分类帧在高频区域的持 续帧数大于第三阈值时, 确 定所述音频信号中待分类帧为音乐信号, 否则确定所述音频信号中待分类 帧为语音信号。

具体的, 上述的第一获取模块获取音频信号中待分类帧 的音调分布参 数, 以及待分类帧前 N1帧的音调分布参数包括:

对接收到的音频信号中的待分类帧和待分类帧 前 N1帧进行快速傅里 叶变换, 获取功率密度谱; 根据所述功率密度谱获取所述接收到的音频信 号中的待分类帧的音调分量的频域分布信息作 为待分类帧的音调分布参 数, 以及待分类帧前 N1帧的音调分量的频域分布信息作为待分类帧 N1 帧的音调分布参数。

上述分类确定模块根据待分类帧的音调分布参 数,以及待分类帧前 N1 帧的音调分布参数获取待分类帧中满足连续性 约束条件的音调分量的数 量包括:

根据接收到的音频信号中的待分类帧和待分类 帧前 N1帧的音调分量 的频域分布信息获取待分类帧中持续帧数大于 第六阈值的音调分量的数 另外, 上述的第一获取模块获取所音频信号中待分类 帧的能量分布参 数, 以及待分类帧前 N1帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 以及待分类帧前 N1帧的高频能量分布比和声 压级作为待分类帧前 N1帧的能量分布参数。

上述分类确定模块根据音频信号中待分类帧的 能量分布参数, 以及待 分类帧前 N1帧的能量分布参数获取所述待分类帧在低频 域的持续帧数 包括:

根据所述接收到的音频信号中待分类帧和待分 类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内 的高频能量分布比小于第 八阈值的持续帧数。

上述分类确定模块根据音频信号中待分类帧的 能量分布参数, 以及待 分类帧前 N1帧的能量分布参数获取所述待分类帧在高频 域的持续帧数 包括:

根据所述接收到的音频信号中待分类帧和待分 类帧前 Nl帧的高频能 量分布比和声压级获取包括所述待分类帧在内 的高频能量分布比大于第 九阈值、 声压级大于第十阈值的持续帧数。 二是在延时 L1帧获取所述待 分类帧的分类结果时, L1为正整数, 所述第一获取模块具体用于获取音频 信号中待分类帧, 待分类帧前 N2帧, 以及待分类帧后 L1帧的音调分布参 数, 并根据所述待分类帧, 待分类帧前 N2帧以及待分类帧后 L1帧的音调 分布参数获取待分类帧中满足连续性约束条件 的音调分量的数量, N2为正 整数; 或, 具体用于获取所述音频信号中待分类帧, 以及待分类帧前 N2 帧以及待分类帧后 L1帧的能量分布参数, 并根据所述音频信号中待分类 帧, 待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数获取所述待分 类帧在低频区域的持续帧数或所述待分类帧在 高频区域的持续帧数;

所述分类确定模块具体用于在所述待分类帧中 满足连续性约束条件 的音调分量的数量大于第一阈值、所述待分类 帧在低频区域的持续帧数大 于第二阈值或所述待分类帧在高频区域的持续 帧数大于第三阈值时, 确定 所述音频信号中待分类帧为音乐信号, 否则确定所述音频信号中待分类帧 为语音信号。

其中, 上述第一获取模块获取音频信号中待分类帧的 音调分布参数, 待分类帧前 N2帧的音调分布参数, 以及待分类帧后 L1帧的音调分布参数 包括:

对接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧帧 后 L1帧进行快速傅里叶变换, 获取功率密度谱; 根据所述功率密度谱获 取所述接收到的音频信号中的待分类帧的音调 分量的频域分布信息作为 待分类帧的音调分布参数, 待分类帧前 N2帧的音调分量的频域分布信息 作为待分类帧前 N2帧的音调分布参数, 以及待分类帧帧后 L1帧的音调分 量的频域分布信息作为待分类帧帧后 L1帧的音调分布参数。

上述分类确定模块根据待分类帧的音调分布参 数, 待分类帧前 N2帧 的音调分布参数, 以及待分类帧后 L1帧的音调分布参数获取待分类帧中 满足连续性约束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧 帧后 LI帧的音调分量的频域分布信息获取待分类帧 持续帧数大于第六 阈值的音调分量的数量。

另外, 上述第一获取模块获取所音频信号中待分类帧 的能量分布参 数, 待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参 数包括:

获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N2帧的高频能量分布比和声压级 作为待分类帧前 N2帧的能量分布参数和待分类帧帧后 L 1帧的高频能量分 布比和声压级作为待分类帧后 L 1帧的能量分布参数。

上述分类确定模块根据音频信号中待分类帧的 能量分布参数, 待分类 帧前 N2帧的能量分布参数以及待分类帧后 L 1帧的能量分布参数获取所述 待分类帧在低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比小于第八阈值的持续帧数。

上述分类确定模块根据音频信号中待分类帧的 能量分布参数, 待分类 帧前 N2帧的能量分布参数以及待分类帧后 L 1帧的能量分布参数获取所述 待分类帧在高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。

三是在延时 L2+L3帧获取所述待分类帧的分类结果时, L2和 L3为正 整数, 所述第一获取模块具体用于获取音频信号中待 分类帧, 待分类帧前 N3帧, 以及待分类帧后 L2帧的音调分布参数, 并根据所述待分类帧, 待 分类帧前 N3帧以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足 连续性约束条件的音调分量的数量, N3为正整数; 或, 具体用于获取所述 音频信号中待分类帧, 以及待分类帧前 N3帧以及待分类帧后 L2帧的能量 分布参数, 并根据所述音频信号中待分类帧, 待分类帧前 N3帧以及待分 类帧后 L2帧的能量分布参数获取所述待分类帧在低频 域的持续帧数或 所述待分类帧在高频区域的持续帧数; 所述分类处理模块具体用于在所述待分类帧中 满足连续性约束条件 的音调分量的数量大于第一阈值、所述待分类 帧在低频区域的持续帧数大 于第二阈值或所述待分类帧在高频区域的持续 帧数大于第三阈值时, 确定 所述音频信号中待分类帧为音乐信号, 否则确定所述音频信号中待分类帧 为语音信号; 若确定所述音频信号中待分类帧为音乐信号, 则确定所述待 分类帧前 N4帧和待分类帧中后 L3帧中确定为语音信号的帧数目是否大于 第四阈值, 若超过, 则将所述音频信号中待分类帧修正为语音信号 ; 若确 定所述音频信号中待分类帧为语音信号, 则确定所述待分类帧前 N4帧和 待分类帧中后 L3帧中确定为音乐信号的帧数目是否大于第五 值, 若大 于, 则将所述音频信号中待分类帧修正为音乐信号 , N4为正整数。

其中, 上述的第一获取模块获取音频信号中待分类帧 的音调分布参 数, 待分类帧前 N3帧的音调分布参数, 以及待分类帧后 L2帧的音调分布 参数包括:

对接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧帧 后 L2帧进行快速傅里叶变换, 获取功率密度谱; 根据所述功率密度谱获 取所述接收到的音频信号中的待分类帧的音调 分量的频域分布信息作为 待分类帧的音调分布参数, 待分类帧前 N3帧的音调分量的频域分布信息 作为待分类帧前 N3帧的音调分布参数, 以及待分类帧后 L2帧的音调分量 的频域分布信息作为待分类帧后 L2帧的音调分布参数。

上述分类确定模块根据待分类帧的音调分布参 数, 待分类帧前 N3帧 的音调分布参数, 以及待分类帧后 L2帧的音调分布参数获取待分类帧中 满足连续性约束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧 后 L2帧的音调分量的频域分布信息获取待分类帧 持续帧数大于第六阈 值的音调分量的数量。

另外, 上述第一获取模块获取所音频信号中待分类帧 的能量分布参 数, 待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参 数包括:

获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N3帧的高频能量分布比和声压级 作为待分类帧前 N3帧的能量分布参数, 以及待分类帧帧后 L2帧的高频能 量分布比和声压级作为待分类帧后 L2帧的能量分布参数。

上述分类确定模块根据音频信号中待分类帧的 能量分布参数, 待分类 帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述 待分类帧在低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比小于第八阈值的持续帧数;

上述分类确定模块根据音频信号中待分类帧的 能量分布参数, 待分类 帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述 待分类帧在高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。

上述三种情况下, 第一获取模块获取的待分类帧中持续帧数大于 第六 阈值的音调分量的数量为在频域上大于第七阈 值的音调分量的数量。

本发明实施例还提供了一种音频信号分类处理 设备, 图 18为本发明 实施例中音频信号分类处理设备的结构示意图 , 如图 18所示, 该设备包 括接收器 21和处理器 22, 其中的接收器 21用于接收音频信号; 处理器 22与所述接收器 21连接, 用于获取接收器接收到的音频信号中待分类帧 中满足连续性约束条件的音调分量的数量、所 述音频信号中待分类帧在低 频区域的持续帧数和所述待分类帧在高频区域 的持续帧数中的至少一项, 根据所述待分类帧中满足连续性约束条件的音 调分量的数量、 所述待分类 帧在低频区域的持续帧数和所述待分类帧在高 频区域的持续帧数中的至 少一项, 确定所述音频信号中待分类帧为音乐信号, 或确定所述音频信号 中待分类帧为语音信号。

本发明上述实施例提供的技术方案, 主要是考虑到音乐信号的特性, 例如音乐信号的音调持续时间较长, 而语音信号的音调持续时间较短, 音 乐信号的能量可以持续分布在高频区域或低频 区域, 而语音信号通常不能 持续分布在高频区域或低频区域, 在考虑音乐信号上述特点的基础上, 本 发明实施例提供的技术方案中, 首先获取音频信号中待分类帧中满足连续 性约束条件的音调分量的数量, 以及音频信号中待分类帧在低频区域的持 续帧数和 /或所述待分类帧在高频区域的持续帧数, 并根据上述信息确认 待分类帧的类型是音乐信号, 还是语音信号, 上述技术方案提供的音频信 号分类处理方法, 能够提高音频信号分类的正确率, 满足语音质量评估的 要求。

本发明上述实施例中, 其中的处理器可以由软件流程实现, 也可以通 过使用数字信号处理 (Digital Signal Processing, 以下简称: DSP ) 芯 片等硬件实体设备实现。

本发明上述实施例中, 其中根据有实时获取所述待分类帧的分类结 果,或者是允许分类结果输出延时的长短,处 理器可以包括如下几种情况: 一是在实时获取所述待分类帧的分类结果时, 所述处理器具体用于获 取音频信号中待分类帧, 以及待分类帧前 N1帧的音调分布参数, 并根据 所述待分类帧, 以及待分类帧前 N帧的音调分布参数获取待分类帧中满足 连续性约束条件的音调分量的数量, N1为正整数; 获取所述音频信号中待 分类帧, 以及待分类帧前 N1帧的能量分布参数, 并根据所述音频信号中 待分类帧, 以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在低 频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数, N1为正整 数; 在所述待分类帧中满足连续性约束条件的音调 分量的数量大于第一阈 值、所述待分类帧在低频区域的持续帧数大于 第二阈值或所述待分类帧在 高频区域的持续帧数大于第三阈值时, 确定所述音频信号中待分类帧为音 乐信号, 否则确定所述音频信号中待分类帧为语音信号 。

其中, 处理器获取音频信号中待分类帧的音调分布参 数, 以及待分类 帧前 N1帧的音调分布参数包括:

对接收到的音频信号中的待分类帧和待分类帧 前 N1帧进行快速傅里 叶变换, 获取功率密度谱; 根据所述功率密度谱获取所述接收到的音频信 号中的待分类帧的音调分量的频域分布信息作 为待分类帧的音调分布参 数, 以及待分类帧前 N1帧的音调分量的频域分布信息作为待分类帧 N1 帧的音调分布参数。

处理器根据待分类帧的音调分布参数, 以及待分类帧前 N1帧的音调 分布参数获取待分类帧中满足连续性约束条件 的音调分量的数量包括: 根据接收到的音频信号中的待分类帧和待分类 帧前 N1帧的音调分量 的频域分布信息获取待分类帧中持续帧数大于 第六阈值的音调分量的数 另外, 处理器获取所音频信号中待分类帧的能量分布 参数, 以及待分 类帧前 N1帧的能量分布参数包括:

获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 以及待分类帧前 N1帧的高频能量分布比和声 压级作为待分类帧前 N1帧的能量分布参数。

处理器根据音频信号中待分类帧的能量分布参 数,以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在低频区 域的持续帧数包括:

根据所述接收到的音频信号中待分类帧和待分 类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内 的高频能量分布比小于第 八阈值的持续帧数。

处理器根据音频信号中待分类帧的能量分布参 数,以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在高频区 域的持续帧数包括:

根据所述接收到的音频信号中待分类帧和待分 类帧前 N1帧的高频能 量分布比和声压级获取包括所述待分类帧在内 的高频能量分布比大于第 九阈值、 声压级大于第十阈值的持续帧数。

二是在延时 L1帧获取所述待分类帧的分类结果时, L1为正整数, 所 述处理器具体用于获取音频信号中待分类帧, 待分类帧前 N2帧, 以及待 分类帧后 L1帧的音调分布参数, 并根据所述待分类帧, 待分类帧前 N2帧 以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续 约束条 件的音调分量的数量, N2为正整数; 获取所述音频信号中待分类帧, 以及 待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数, 并根据所述音频 信号中待分类帧, 待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数 获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域 的持续帧数; 在所述待分类帧中满足连续性约束条件的音调 分量的数量大 于第一阈值、所述待分类帧在低频区域的持续 帧数大于第二阈值或所述待 分类帧在高频区域的持续帧数大于第三阈值时 , 确定所述音频信号中待分 类帧为音乐信号, 否则确定所述音频信号中待分类帧为语音信号 。

其中, 处理器获取音频信号中待分类帧的音调分布参 数, 待分类帧前

N2帧的音调分布参数, 以及待分类帧后 L1帧的音调分布参数包括:

对接收到的音频信号中的待分类帧、 待分类帧前 N2帧和待分类帧帧 后 L1帧进行快速傅里叶变换, 获取功率密度谱; 根据所述功率密度谱获 取所述接收到的音频信号中的待分类帧的音调 分量的频域分布信息作为 待分类帧的音调分布参数, 待分类帧前 N2帧的音调分量的频域分布信息 作为待分类帧前 N2帧的音调分布参数, 以及待分类帧帧后 L1帧的音调分 量的频域分布信息。

处理器根据待分类帧的音调分布参数, 待分类帧前 N2帧的音调分布 参数, 以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续 约束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧的音调分 量的频域分布信息作 为待分类帧的音调分布参数, 待分类帧前 N2帧的音调分量的频域分布信 息作为待分类帧前 N2帧的音调分布参数, 以及待分类帧帧后 L1帧的音调 分量的频域分布信息获取待分类帧中持续帧数 大于第六阈值的音调分量 的数量。

另外, 处理器获取所音频信号中待分类帧的能量分布 参数, 待分类帧 前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数包括: 获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N2帧的高频能量分布比和声压级 作为待分类帧前 N2帧的能量分布参数, 以及待分类帧帧后 L1帧的高频能 量分布比和声压级作为待分类帧后 L1帧的能量分布参数。

处理器根据音频信号中待分类帧的能量分布参 数, 待分类帧前 N2帧 的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类帧 在低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比小于第八阈值的持续帧数。

处理器根据音频信号中待分类帧的能量分布参 数, 待分类帧前 N2帧 的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类帧 在高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N2帧和待分类 帧后 L1帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。

三是在分类结果输出延时为 L2+L3帧时, L2和 L3为正整数, 所述处 理器具体用于获取音频信号中待分类帧, 待分类帧前 N3帧, 以及待分类 帧后 L2帧的音调分布参数, 并根据所述待分类帧, 待分类帧前 N3帧以及 待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续 约束条件的 音调分量的数量, N3为正整数; 获取所述音频信号中待分类帧, 以及待分 类帧前 N3帧以及待分类帧后 L2帧的能量分布参数, 并根据所述音频信号 中待分类帧, 待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数获取 所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持 续帧数; 在所述待分类帧中满足连续性约束条件的音调 分量的数量大于第 一阈值、 所述待分类帧在低频区域的持续帧数大于第二 阈值或所述待分类 帧在高频区域的持续帧数大于第三阈值时, 确定所述音频信号中待分类帧 为音乐信号, 否则确定所述音频信号中待分类帧为语音信号 ; 若确定所述 音频信号中待分类帧为音乐信号, 则确定所述待分类帧前 N4帧和待分类 帧后 L3帧中确定为语音信号的帧数目是否大于第四 值, 若超过, 则将 所述音频信号中待分类帧修正为语音信号, N4为正整数; 若确定所述音频 信号中待分类帧为语音信号, 则确定所述待分类帧前 N4帧和待分类帧后 L3帧中确定为音乐信号的帧数目是否大于第五 值, 若大于, 则将所述音 频信号中待分类帧修正为音乐信号。

其中, 处理器获取音频信号中待分类帧的音调分布参 数, 待分类帧前 N3帧的音调分布参数, 以及待分类帧后 L2帧的音调分布参数包括:

对接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧帧 后 L2帧进行快速傅里叶变换, 获取功率密度谱; 根据所述功率密度谱获 取所述接收到的音频信号中的待分类帧的音调 分量的频域分布信息作为 待分类帧的音调分布参数, 待分类帧前 N3帧的音调分量的频域分布信息 作为待分类帧前 N3帧的音调分布参数, 以及待分类帧后 L2帧的音调分量 的频域分布信息作为待分类帧后 L2帧的音调分布参数。

处理器根据待分类帧的音调分布参数, 待分类帧前 N3帧的音调分布 参数, 以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续 约束条件的音调分量的数量包括:

根据接收到的音频信号中的待分类帧、 待分类帧前 N3帧和待分类帧 后 L2帧的音调分量的频域分布信息获取待分类帧 持续帧数大于第六阈 值的音调分量的数量。

另外, 处理器获取所音频信号中待分类帧的能量分布 参数, 待分类帧 前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数包括: 获取接收到的音频信号中待分类帧的高频能量 分布比和声压级作为 待分类帧的能量分布参数, 待分类帧前 N3帧的高频能量分布比和声压级 作为待分类帧前 N3帧的能量分布参数, 以及待分类帧帧后 L2帧的高频能 量分布比和声压级作为待分类帧后 L2帧的能量分布参数。

处理器根据音频信号中待分类帧的能量分布参 数, 待分类帧前 N3帧 的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧 在低频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比小于第八阈值的持续帧数。

处理器根据音频信号中待分类帧的能量分布参 数, 待分类帧前 N3帧 的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧 在高频区域的持续帧数包括:

根据所述接收到的音频信号中待分类帧、 待分类帧前 N3帧和待分类 帧后 L2帧的高频能量分布比和声压级获取包括所述 分类帧在内的高频 能量分布比大于第九阈值、 声压级大于第十阈值的持续帧数。

上述三种情况下, 处理器获取的待分类帧中持续帧数大于第六阈 值的 音调分量的数量为在频域上大于第七阈值的音 调分量的数量。 本领域普通 技术人员可以理解: 实现上述各方法实施例的全部或部分歩骤可以 通过程 序指令相关的硬件来完成。 前述的程序可以存储于一计算机可读取存储介 质中。 该程序在执行时, 执行包括上述各方法实施例的歩骤; 而前述的存 储介质包括: R0M、 RAM, 磁碟或者光盘等各种可以存储程序代码的介质 。 最后应说明的是: 以上各实施例仅用以说明本发明的技术方案, 而非 对其限制; 尽管参照前述各实施例对本发明进行了详细的 说明, 本领域的 普通技术人员应当理解: 其依然可以对前述各实施例所记载的技术方案 进 行修改, 或者对其中部分或者全部技术特征进行等同替 换; 而这些修改或 者替换, 并不使相应技术方案的本质脱离本发明各实施 例技术方案的范 围。