WANG ZHE (CN)
SHLOMOT EYAL (US)
LIU YUANYUAN (CN)
WANG ZHE (CN)
SHLOMOT EYAL (US)
WO2007106384A1 | 2007-09-20 |
CN101256772A | 2008-09-03 | |||
CN1815550A | 2006-08-09 | |||
US5712953A | 1998-01-27 | |||
CN1354455A | 2002-06-19 | |||
US20030101050A1 | 2003-05-29 |
See also references of EP 2339575A4
"IEEE TRANSACTIONS ON AUDIO", vol. 14, 1 May 2006, SPEECH AND LANGUAGE PROCESSJN, article "Advances in unsupervised audio classification and segmentation for the broadcase news and NGSW corpora", pages: 907 - 919
权 利 要 求 书 1、 一种信号分类方法, 其特征在于, 所述方法包括: 获得当前信号帧的频谱波动参数; 若所述当前信号帧为前景帧,则将所述当前信号帧的频谱波动参数緩存在 第一緩存数组; 若所述当前信号帧属于最初第一数目帧信号帧,则将所述当前信号帧的谱 波动方差设置为一特定值 ,并将所述当前信号帧的谱波动方差緩存在第二緩存 数组; 否则,根据所述第一緩存数组緩存的所有信号帧的频谱波动参数获得所 述当前信号帧的谱波动方差,并将所述当前信号帧的谱波动方差緩存在第二緩 存数组; 获得所述第二緩存数组中緩存的所有信号帧中谱波动方差大于等于第一 阈值的比例, 若所述比例大于等于第二阈值, 则所述当前信号帧为语音帧, 若 所述比例小于第二阈值, 则所述当前信号帧为音乐帧。 2、 根据权利要求 1所述的信号分类方法, 其特征在于: 所述第一阈值包括自适应第一阈值;获得自适应第一阈值的方法包括根据 修正的子带信噪比和 MSSNR获得或根据信噪比获得。 3、 根据权利要求 2所述的信号分类方法, 其特征在于, 根据 MSSNR 获得自适应第一阈值包括: 根据当前信号帧更新 MSSNR的最大值; 根据更新后的 MSSNR的最大值 确定 MSSNR的阈值; 获得包括当前信号帧在内的若千帧的 MSSNR中大于所 述 MSSNR的阈值的帧数和小于等于所述 MSSNR的阈值的帧数; 获得大于所 述 MSSNR的阈值的帧数和小于等于所述 MSSNR的阈值的帧数的差异测度, 并根据该差异测度获得自适应第一阈值。 4、 根据权利要求 2所述的信号分类方法, 其特征在于, 使用信噪比获 得自适应第一阈值包括: 根据当前信号帧更新信噪比的最大值;根据更新后的信噪比的最大值确定 信噪比的阈值;获得包括当前信号帧在内的若干帧的信噪比中大于所述信噪比 的阈值的帧数和小于等于所述信噪比的阈值的帧数;获得大于所述信噪比的阈 值的帧数和小于等于所述信噪比的阈值的帧数的差异测度,并根据该差异测度 获得自适应第一阈值。 5、 根据权利要求 1所述的信号分类方法, 其特征在于, 结合其他参数 辅助谱波动方差进行信号分类, 包括: 结合第一峰度和 /或第二峰度进行辅助判决。 6、 根据权利要求 1至 5任一项所述的信号分类方法, 其特征在于, 在 获得当前信号帧为语音帧或音乐帧的判决结果后 , 所述方法还包括: 对所述判决结果釆用一帧拖尾, 从而获得最终判决结果。 7、 根据权利要求 1所述的信号分类方法, 其特征在于: 确定当前信号帧为前景帧的方法包括使用 MSSNR或信噪比, 若 MSSNR 大于等于第三阈值或信噪比大于等于第四阈值, 则当前信号帧为前景帧。 8、 根据权利要求 1所述的信号分类方法, 其特征在于, 在获得所述第 二緩存数组中緩存的所有信号帧中谱波动方差大于等于第一阈值的比例之前, 所述方法还包括: 对所述第二緩存数组中緩存的前若千个谱波动方差进行加窗平滑。 9、 一种信号分类方法, 其特征在于, 所述方法包括: 获得确定为前景帧的当前信号帧的频谱波动参数并緩存; 根据緩存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并 緩存; 获得緩存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比 例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值, 则所述当前信号帧为音乐帧。 10、 根据权利要求 9所述的信号分类方法, 其特征在于: 所述第一阈值包括自适应第一阈值;获得自适应第一阈值的方法包括根据 修正的子带信噪比和 MSSNR获得或根据信噪比获得。 11、 根据权利要求 10所述的信号分类方法, 其特征在于, 根据 MSSNR 获得自适应第一阈值包括: 根据当前信号帧更新 MSSNR的最大值; 根据更新后的 MSSNR的最大值 确定 MSSNR的阈值; 获得包括当前信号帧在内的若千帧的 MSSNR中大于所 述 MSSNR的阈值的帧数和小于等于所述 MSSNR的阈值的帧数; 获得大于所 述 MSSNR的阈值的帧数和小于等于所述 MSSNR的阈值的帧数的差异测度, 并根据该差异测度获得自适应第一阈值。 12、 根据权利要求 10所述的信号分类方法,其特征在于,使用信噪比获 得自适应第一阈值包括: 根据当前信号帧更新信噪比的最大值;根据更新后的信噪比的最大值确定 信噪比的阈值;获得包括当前信号帧在内的若千帧的信噪比中大于所述信噪比 的阈值的帧数和小于等于所述信噪比的阈值的帧数;获得大于所述信噪比的阈 值的帧数和小于等于所述信噪比的阈值的帧数的差异测度,并根据该差异测度 获得自适应第一阈值。 13、 一种信号分类装置, 其特征在于, 所述装置包括: 第一获取模块, 用于获得当前信号帧的频谱波动参数; 前景帧确定模块, 用于确定所述当前信号帧为前景帧, 并将确定为前景帧 的所述当前信号帧的频谱波动参数緩存在第一緩存模块; 第一緩存模块,用于緩存所述前景帧确定模块緩存的所述当前信号帧的频 谱波动参数; 设置模块,用于若所述当前信号帧属于最初第一数目帧信号帧, 则将所述 当前信号帧的谱波动方差设置为一特定值,并将所述当前信号帧的谱波动方差 緩存在第二緩存模块; 第二获取模块, 用于若所述当前信号帧不属于最初第一数目帧信号帧,根 据所述第一緩存模块緩存的所有信号帧的频谱波动参数获得所述当前信号帧 的谱波动方差, 并将所述当前信号帧的谱波动方差緩存在第二緩存模块; 第二緩存模块,用于緩存所述设置模块或所述第二获取模块緩存的所述当 前信号帧的傳波动方差。 第一判决模块,用于获得所述第二緩存模块中緩存的所有信号帧中谱波动 方差大于等于第一阈值的比例, 若所述比例大于等于第二阈值, 则所述当前信 号帧为语音帧, 若所述比例小于第二阈值, 则所述当前信号帧为音乐帧。 14、 根据权利要求 13所述的信号分类装置,其特征在于,所述第一判决 模块包括: 第一阈值确定单元, 用于确定所述第一阈值; 比例获取单元,用于获得所述第二緩存模块中緩存的所有信号帧中谱波动 方差大于等于所述第一阈值确定单元确定的第一阈值的比例; 第二阈值确定单元, 用于确定所述第二阈值; 判断单元,用于比较所述比例获取单元获得的比例与所述第二阈值确定单 元确定的第二阈值, 若所述比例大于等于所述第二阈值, 则所述当前信号帧为 语音帧, 若所述比例小于第二阈值, 则所述当前信号帧为音乐帧。 15、 根据权利要求 13所述的信号分类装置,其特征在于,所述装置还包 括:, 包括: 第二判决模块, 用于结合其他参数辅助所述第一判决模块进行信号分类。 16、 根据权利要求 13至 15任一项所述的信号分类装置, 其特征在于, 所述装置还包括: 判决修正模块 ,用于对所述第一判决模块获得的当前信号帧为语音帧或音 乐帧的判决结果或所述第一判决模块与所述第二判决模块相结合获得的当前 信号帧为语音帧或音乐帧的判决结果采用一帧拖尾, 从而获得最终判决结果。 17、 根据权利要求 13所述的信号分类装置,其特征在于,所述装置还包 括: 加窗模块,用于在所述第一判决模块获得所述第二緩存模块中緩存的所有 信号帧中谱波动方差大于等于第一阈值的比例之前 ,对所述第二緩存模块中緩 存的前若千个谱波动方差进行加窗平滑。 18、 一种信号分类装置, 其特征在于, 所述装置包括: 第三获取模块,用于获得确定为前景帧的当前信号帧的频谱波动参数并緩 存; 第四获取模块,用于根据所述第三获取模块緩存的所有信号帧的频谱波动 参数获得当前信号帧的谱波动方差并緩存; 第三判决模块,用于获得所述第四获取模块緩存的所有信号帧中谱波动方 差大于等于第一阈值的比例, 若所述比例大于等于第二阈值, 则所述当前信号 帧为语音帧, 若所述比例小于第二阈值, 则所述当前信号帧为音乐帧。 |
背景技术 语音编码技术可以压缩语音信号的传输带宽, 增加通信系统的容量, 随着
Internet的日益普及和通信领域的进一步扩展 语音编码技术成为国内和国际标 准化工作中最活跃的领域之一。 随着时间的推移, 语音编码器正朝着多码率, 宽带的方向发展, 其输入信号也呈多元化趋势, 不仅限于语音, 还包含音乐等 其它信号, 而且人们对于通话质量, 尤其是音乐信号的质量要求也在不断的提 高。 对于不同的输入信号, 能够采用不同的码率, 甚至不同的核心编码算法的 编码器, 既可以保证不同类别信号的编码质量, 又可以最大限度的节省带宽, 已成为语音编码器的发展趋势。因此准确的识 别输入信号的类别也随之成为了 业界研究的热点。
判决树是应用较为广泛的一种信号分类方法 ,判决树的信号分类采用长时 判决树和短时判决树相结合进行信号分类判决 。 首先设置一个时间长度的 FIFO ( First-In First-Out先入先出)存储器进行短时信号特征变 量緩冲, 通过 包括当前帧在内的前同一时间长度的短时信号 特征变量来计算长时信号特征, 并依据计算得出的长时信号特征进行语音音乐 分类。在信号开始前同一时间安 长度即 FIFO存储器未存满时, 先用短时信号特征进行判决。 短时和长时判决 采用如图 1和图 2所示判决树进行分类判决。
在实现本发明创造的过程中,发明人发现: 采用判决树进行信号分类的方 法需计算的参数和逻辑分支都比较多, 复杂度较高。 发明内容 本发明实施例提供一种信号分类方法和装置, 使用较少的参数、较简单的 逻辑关系, 以较低的复杂度实现信号的分类。
本发明实施例提供一种信号分类方法, 包括:
获得当前信号帧的频谱波动参数;
若所述当前信号帧为前景帧,则将所述当前信 号帧的频谱波动参数緩存在 第一緩存数組;
若所述当前信号帧属于最初第一数目帧信号帧 ,则将所述当前信号帧的谱 波动方差设置为一特定值,并将所述当前信号 帧的谱波动方差緩存在第二緩存 数组; 否则,根据所述第一緩存数组緩存的所有信号 帧的频谱波动参数获得所 述当前信号帧的谱波动方差,并将所述当前信 号帧的谱波动方差緩存在第二緩 存数组;
获得所述第二緩存数组中緩存的所有信号帧中 谱波动方差大于等于第一 阈值的比例, 若所述比例大于等于第二阈值, 则所述当前信号帧为语音帧, 若 所述比例小于第二阈值, 则所述当前信号帧为音乐帧。
本发明实施例还提供一种信号分类方法, 包括:
获得确定为前景帧的当前信号帧的频谱波动参 数并緩存;
根据緩存的所有信号帧的频谱波动参数获得当 前信号帧的谱波动方差并 緩存;
获得緩存的所有信号帧中谱波动方差大于等于 第一阈值的比例,若所述比 例大于等于第二阈值,则所述当前信号帧为语 音帧,若所述比例小于第二阈值, 则所述当前信号帧为音乐帧。
本发明实施例提供一种信号分类装置, 包括:
第一获取模块, 用于获得当前信号帧的频谱波动参数;
前景帧确定模块, 用于确定所述当前信号帧为前景帧, 并将确定为前景帧 的所述当前信号帧的频谱波动参数緩存在第一 緩存模块;
第一緩存模块,用于緩存所述前景帧确定模块 緩存的所述当前信号帧的频 谱波动参数;
设置模块,用于若所述当前信号帧属于最初第 一数目帧信号帧, 则将所述 当前信号帧的谱波动方差设置为一特定值,并 将所述当前信号帧的谱波动方差 緩存在第二緩存模块;
第二获取模块, 用于若所述当前信号帧不属于最初第一数目帧 信号帧,根 据所述第一緩存模块緩存的所有信号帧的频谱 波动参数获得所述当前信号帧 的谱波动方差, 并将所述当前信号帧的谱波动方差緩存在第二 緩存模块; 第二緩存模块,用于緩存所述设置模块或所述 第二获取模块緩存的所述当 前信号帧的谱波动方差。
第一判决模块,用于获得所述第二緩存模块中 緩存的所有信号帧中谱波动 方差大于等于第一阈值的比例, 若所述比例大于等于第二阈值, 则所述当前信 号帧为语音帧, 若所述比例小于第二阈值, 则所述当前信号帧为音乐帧。
本发明实施例还提供一种信号分类装置, 包括:
第三获取模块,用于获得确定为前景帧的当前 信号帧的频谱波动参数并緩 存;
第四获取模块,用于根据所述第三获取模块緩 存的所有信号帧的频谱波动 参数获得当前信号帧的谱波动方差并緩存;
第三判决模块,用于获得所述第四获取模块緩 存的所有信号帧中谱波动方 差大于等于第一阈值的比例, 若所述比例大于等于第二阈值, 则所述当前信号 帧为语音帧, 若所述比例小于第二阈值, 则所述当前信号帧为音乐帧。 由上述本发明实施例提供的技术方案可以看出 ,本发明实施例采用获得当 前信号帧的频谱波动参数; 若所述当前信号帧为前景帧, 则将所述当前信号帧 的频谱波动参数緩存在第一緩存数组;若所述 当前信号帧属于最初第一数目帧 信号帧, 则将所述当前信号帧的谱波动方差设置为一特 定值, 并将所述当前信 号帧的谱波动方差緩存在第二緩存数组; 否则,根据緩存的所有信号帧的频谱 波动参数获得所述当前信号帧的谱波动方差 ,并将所述当前信号帧的谱波动方 差緩存在第二緩存数组, 以信号谱波动方差作为信号分类的参数,使用 局部统 计量的方法进行信号分类判决, 从而以较少的参数, 较简单的逻辑关系, 以较 低的复杂度实现了信号的分类。 附图说明 为了更清楚地说明本发明实施例中的技术方案 ,下面将对实施例描述中所 需要使用的附图作筒单地介绍, 显而易见地, 下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲 ,在不付出创造性劳动性的前提 下, 还可以根据这些附图获得其他的附图。
图 1为现有技术中釆用短时判决树进行信号分类 示意图;
图 2为现有技术中釆用长时判决树进行信号分类 示意图;
图 3为本发明信号分类方法一个实施例的流程图
图 4为本发明信号分类方法另一个实施例的流程 ;
图 5为本发明信号分类方法又一个实施例的流程 ;
图 6 为本发明实施例中根据修正的子带信噪比和获 得自适应第一阈值的 流程图;
图 7为本发明实施例中根据信噪比获得自适应第 阔值的流程图; 图 8为本发明信号分类装置一个实施例的结构示 图;
图 9为本发明信号分类装置另一个实施例的结构 意图;
图 10为本发明信号分类装置又一个实施例的结构 意图。
具体实施方式 下面将结合本发明实施例中的附图,对本发明 实施例中的技术方案进行清 楚、 完整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是 全部的实施例。基于本发明中的实施例, 本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
图 3为本发明信号分类方法一个实施例的流程图 如图 3所示, 本发明实 施例包括:
5101、 获得当前信号帧的频谱波动参数。
本发明实施例中, 将输入信号进行分帧处理, 得到若千信号帧。 当前正在 处理的, 需要判别信号类别的信号帧称为当前信号帧。 分帧是数字信号处理中 的通用概念, 即将一段长信号划分为若千段短的信号。
对当前信号帧进行时频变换,得到信号频谱, 根据当前信号帧与之前的若 干信号帧的频谱计算当前信号帧的频谱波动参 数 flux。
5102、若所述当前信号帧为前景帧,则将所述 前信号帧的频谱波动参数 緩存在第一緩存数组。
本发明实施例中,信号帧的类型包括前景帧和 背景帧, 前景帧一般指通信 过程中能量较高的信号帧,如通信过程中双方 或多方的语音会话或播放的音乐 如彩铃等, 背景帧一般是指通信过程中语音会话或者播放 的音乐的噪声背景 等。本发明实施例中所进行的信号分类即是区 分前景帧中不同类别的信号, 因 此需要首先确定当前信号帧是否为前景帧。
若确定所述当前信号帧为前景帧 ,则緩存所述当前信号帧的频谱波动参数 flux。 本发明实施例中, 可以设置一个频谱波动参数緩存数组 flux— buf, 为叙 述清楚可以称为第一緩存数组。 flux— buf数组在信号帧为前景帧时进行更新 , 第一緩存数组可以緩存第一数目帧信号帧。
需要说明的是, 本发明实施例中, 获得当前信号帧的频谱波动参数和确定 当前信号帧为前景帧在技术实现上并不做顺序 上的限定,任何对本发明实施例 的简单变换均在本发明实施例的保护范围之内 。 51 03、若所述当前信号帧属于最初第一数目帧信 帧,则将所述当前信号 帧的谱波动方差设置为一特定值,并将所述当 前信号帧的谱波动方差緩存在第 二緩存数组; 否则,根据緩存的所有信号帧的频谱波动参数 获得所述当前信号 帧的谱波动方差, 并将所述当前信号帧的谱波动方差緩存在第二 緩存数组。
本发明实施例中, 可以根据第一緩存数组是否存满, 区分情况获得谱波动 7 ^ var _ flux n , 其中 rar_ Z x„表示第 n巾贞的谱波动方差。
如设第一数目为 ι^ , 若所述当前信号帧属第 1到第 mi 帧信号帧, 则将所 述当前信号帧的谱波动方差设置为一特定值; 若所述当前信号帧不属于第 1 到第 mi 帧信号帧, 也属于从第 + l 帧开始的信号帧, 则可以根据緩存的 个信号帧的 flux获得所述当前信号帧的谱波动方差。
获得当前信号帧的谱波动方差后, 需要緩存所述谱波动方差。本发明实施 例中, 可以设置一个谱波动方差緩存数组 var— flux— buf, 为叙述清楚, 可以称 为第二緩存数组。 var— flux— buf数组在信号帧为前景帧时进行更新。
5104、获得所述第二緩存数组中緩存的所有信 帧中谱波动方差大于等于 第一阈值的比例,若所述比例大于等于第二阈 值,则所述当前信号帧为语音帧, 若所述比例小于第二阈值, 则所述当前信号帧为音乐帧。
本发明实施例中, 可以将 var— flux作为语音音乐分类的判决参数, 当要确 定某一确定为前景帧的当前信号帧是语音帧还 是音乐帧时, 可以通过 var— flux— buf数组中緩存的包括当前信号帧在内的信号帧 中 var— flux大于等于 某一阈值的比例进行确定, 即采用局部统计量法。 为叙述清楚, 可以将上文提 到的阈值称为第一阈值。
当第二緩存数组中緩存的包括当前信号帧在内 的信号帧中 var— flux 大于 等于第一阈值的比例大于某一阈值, 则表示当前信号帧为语音帧, 若所述比例 小于第二阈值, 则所述当前信号帧为音乐帧。 为叙述清楚可以将前述提到的阈 值称为第二阈值。
本发明实施例采用获得当前信号帧的频谱波动 参数;若所述当前信号帧为 前景帧, 则将所述当前信号帧的频谱波动参数緩存在第 一緩存数组; 若所述当 前信号帧属于最初第一数目帧信号帧,则将所 述当前信号帧的谱波动方差设置 为一特定值, 并将所述当前信号帧的谱波动方差緩存在第二 緩存数组; 否则, 根据緩存的所有信号帧的频谱波动参数获得所 述当前信号帧的谱波动方差,并 将所述当前信号帧的谱波动方差緩存在第二緩 存数组,以信号谱波动方差作为 信号分类的参数,使用局部统计量的方法进行 信号分类判决,从而以较少的参 数, 较简单的逻辑关系, 以较低的复杂度实现了信号的分类。 图 4为本发明信号分类方法另一个实施例的流程 , 如图 4所示,本发明 实施例包括:
S201、 获得确定为前景帧的当前信号帧的频谱波动参 数并緩存。
本发明实施例中, 将输入信号进行分帧处理, 得到若千信号帧。 当前正在 处理的, 需要判别信号类别的信号帧称为当前信号帧。 分帧是数字信号处理中 的通用概念, 即将一段长信号划分为若千段短的信号。
信号帧的类型包括前景帧和背景帧,前景帧一 般指通信过程中能量较高的 信号帧, 如通信过程中双方或多方的语音会话或播放的 音乐如彩铃等, 背景帧 一般是指通信过程中语音会话或者播放的音乐 的噪声背景等。
本发明实施例中所进行的信号分类即是区分前 景帧中不同类别的信号,因 此需要确定当前信号帧是否为前景帧。另一方 面本发明实施例中需要得到确定 为前景帧的当前信号帧的频谱波动参数。上述 二者的执行顺序在本实施例中不 获得当前信号帧频谱波动参数的方法包括对当 前信号帧进行时频变换,得 到信号频谱,根据当前信号帧与之前的若千信 号帧的频谱计算当前信号帧的频 谱波动参数 flux。
若获得确定为前景帧的当前信号帧的频谱波动 参数, 则緩存。本发明实施 例中, 可以设置一个频谱波动参数緩存数组 flux— buf, flux— buf数组在信号帧 为前景帧时进行更新。
S202、根据緩存的所有信号帧的频谱波动参数 得当前信号帧的谱波动方 差并緩存。
本发明实施例中, 无论第一数组是否存满, 都可以根据緩存的所有信号帧 的频谱波动参数获得当前信号帧的谱波动方差 。
获得当前信号帧的谱波动方差后, 需要緩存所述谱波动方差。本发明实施 例中, 可以设置一个谱波动方差緩存数组 var— flux— buf, var— flux— buf数组在信 号帧为前景帧时进行更新。
S203、获得緩存的所有信号帧中谱波动方差大 等于第一阈值的比例,若 所述比例大于等于第二阈值, 则所述当前信号帧为语音帧, 若所述比例小于第 二阈值, 则所述当前信号帧为音乐帧。
本发明实施例中, 可以将 var— flux作为语音音乐分类的判决参数, 当要确 定某一确定为前景帧的当前信号帧是语音帧还 是音乐帧时, 可以通过 var— flux— buf数组中緩存的包括当前信号帧在内的信号帧 中 var— flux大于等于 某一阈值的比例进行确定, 即采用局部统计量法。 为叙述清楚, 可以将上文提 到的阈值称为第一阈值。
当包括当前信号帧在内的緩存的信号帧中 var— flux 大于等于第一阈值的 比例大于某一阈值, 则表示当前信号帧为语音帧, 否则为音乐帧。 为叙述清楚 可以将前述提到的阈值称为第二阈值。
由上述本发明实施例提供的技术方案可以看出 ,本发明实施例采用获得确 定为前景帧的当前信号帧的频谱波动参数并緩 存 ,根据緩存的所有信号帧的频 谱波动参数获得当前信号帧的谱波动方差并緩 存,获得緩存的所有信号帧中谱 波动方差大于等于第一阈值的比例, 若所述比例大于等于第二阈值, 则所述当 前信号帧为语音帧, 若所述比例小于第二阈值, 则所述当前信号帧为音乐帧的 技术手段, 以信号谱波动方差作为信号分类的参数,使用 局部统计量的方法进 行信号分类判决, 从而以较少的参数, 较简单的逻辑关系, 以较低的复杂度实 现了信号的分类。 图 5为本发明信号分类方法又一个实施例的流程 , 如图 5所示,本发明 实施例包括:
S301、 获得当前信号帧的频谱波动参数。
本发明实施例中, 将输入信号进行分帧处理, 得到若千信号帧。 当前正在 处理的, 需要判别信号类别的信号帧称为当前信号帧。 分帧是数字信号处理中 的通用概念, 即将一段长信号划分为若千段短的信号。分帧 处理可以通过多种 方式进行, 得到的信号帧的帧长也可以有多种选择, 如 5 ~ 50ms, 某些实施方 式中, 可以取 10ms的帧长。
在设定的釆样率下, 将每一帧信号帧进行时频变换, 得到信号频谱, 即 N1个时频变换系数 ^( ) , 其中, ^(0表示第 n帧的第 i个时频变换系数。 本发 明实施例中, 采样率、 时频变换的方法可以有多种选择, 某些实施方式中, 可 以为 8000Hz采样, 做 128点 FFT ( Fast Fourier Transform, 快速傅立叶变换) 变 换。
对当前信号帧进行时频变换,得到信号频谱后 ,根据当前信号帧与之前的 若千信号帧的频谱计算当前信号帧的频谱波动 参数 flux。 计算方式可以为多 种, 如某些实施方式中可以取一个频率范围, 分析该段频谱的特性。 之前若千 帧的数目可以任意选取, 如某些实施方式中可以选取之前的 3帧, 采用如下计 算方法:
m=\i=ki
其中, 表示第 n帧的频谱波动参数; ^表示在信号频谱中确定一段 频率范围, 其中 < ≤ ^ , 如某些实施方式中可以取 ^ = 2 2 = 48 ; m表示 当前信号帧之前的选取帧数, 如上述公式中可以取 m为 3。 S302、若所述当前信号帧为前景帧,则将所述 前信号帧的频谱波动参数 緩存在第一緩存数组。
本发明实施例中,信号帧的类型包括前景帧和 背景帧, 前景帧一般指通信 过程中能量较高的信号帧,如通信过程中双方 或多方的语音会话或播放的音乐 如彩铃等 , 背景帧一般是指通信过程中语音会话或者播放 的音乐的噪声背景 等。本发明实施例中所进行的信号分类即是区 分前景帧中不同类别的信号, 因 此需要首先确定当前信号帧是否为前景帧。
若确定所述当前信号帧为前景帧,则緩存所述 当前信号帧的频谱波动参数 flux。 本发明实施例中, 可以设置一个频谱波动参数緩存数组 flux— buf, 为叙述 清楚可以称为第一緩存数组。緩存数组的类型 可以为多种, 如某些实施方式中 可以为 FIFO ( First-In First-Out, 先入先出)数组。 flux_buf数组在信号帧为前 景帧时进行更新, 可以用来緩存 1¾个信号帧的 flux, 其中 1¾可以为大于 0的任 意整数,如某些实施方式中可以取 1^=20,为叙述清楚可以将 称为第一数目, 即第一緩存数组可以緩存第一数目帧信号帧。
本发明实施例中可以通过多种实施方式确定前 景帧, 包括使用 MSSNR ( Modified Segmental Signal Noise Ratio, 修正的子带信噪比和 )或 snr ( Signal Noise Ratio, 信噪比) , 下面举例进行说明:
实施方式一、 使用 MSSNR确定前景帧的方法:
获得当前信号帧的 MSSNRn, 当 MSSNRn > alphal 时, 确定当前信号帧 为前景帧, 否则为背景帧。 其中, MSSNRn表示第 n帧的修正的子带信噪比 和, alphal为一设定阈值, 为叙述清楚, 本发明实施例中将阈值 alphal称为第 三阈值, alphal的取值可以为任意数值,如某些实施方式 中可以取 alphal = 50。
本发明实施例中 MSSNRn可以通过多种方式获得,某些实施方式中 可以通 过如下方式获得:
1、 计算当前信号帧频谱子带能量 。 将频谱划分为 w个子带, 0≤^≤ ^, 每个子带的能量记为 , i=0 l 2...w-l
其中, Mi表示第 i子带中包含的频点个数, I表示第 i子带起始频点的索引, e I+k 表示第 I+k个频点的能量。
2、 更新 Ei在背景帧中的长时滑动平均 ^。
每当当前信号帧被确认为背景帧时, 对^进行更新, 更新方法为:
Υ ί =β·Υ ί + (\-β)·Ε ί / = 0,l,2 ..w— 1
其中, β为 0~1之间的小数, 用于控制更新的速度。
3、 计算 MSSNR n
MS S n = ^ MAX(f t · 10 · log(¾, 0)
E,
/ 64, 1)当 2≤ ≤w— 4
其中, =
125, 1)当 i为其他值 实施方式二、 使用 snr确定前景帧的方法:
获得当前信号帧的 snr n , 当 snr n > alpha2时, 确定当前信号帧为前景帧, 否则为背景帧。 其中, snr n 表示第 n帧的信噪比, alpha2为一设定阈值, 为叙 述清楚,本发明实施例中将阈值 alpha2称为第四阈值, alpha2的取值可以为任 意数值, 如某些实施方式中可以取 alpha2 = 15
本发明实施例中 snr n 可以通过多种方式获得, 某些实施方式中可以通过如 下方式获得:
1、 计算当前信号帧的频谱能量 E/ ,
其中, M f 表示当前信号帧包含的频点个数, e k 表示第 k个频点的能量。
2、 更新 E/在背景帧中的长时滑动平均 ^。 每当当前信号帧被确认为背景帧时, 对^:进行更新, 更新方法为:
Ef = -W + ~ ) - Ef i = ,l,2,...Mf - l 其中, /为 0 ~ 1之间的小数, 用于控制更新的速度。
3、 计算 snr n
Ef
snr n = \0 - log(=)
Ef
需要说明的是, 本发明实施例中, 获得当前信号帧的频谱波动参数和确定 当前信号帧为前景帧在技术实现上并不做顺序 上的限定,任何对本发明实施例 的简单变换均在本发明实施例的保护范围之内 。如某些实施方式中也可以先确 定当前信号帧为前景帧,再获得并緩存所述当 前信号帧的频谱波动参数, 即可 以将上述步驟过程表述为:
S301 \ 确定当前信号帧为前景帧。
S302'、 获得并緩存所述当前信号帧的频谱波动参数。
此时与上述 S301中获得当前信号帧的频谱波动参数不同的 , 这里可以 只是获得确定为前景帧的当前信号帧的频谱波 动参数,而作为背景帧的频谱波 动参数不用获得, 从而减少了计算量, 进一步降低了复杂度。
又或者, 某些实施方式中也可以先确定当前信号帧为前 景帧, 然后对每一 帧当前信号帧获取频谱波动参数,进而緩存为 前景帧的当前信号帧的频谱波动 参数。
S303、 获得当前信号帧的谱波动方差并緩存在第二緩 存数组。
本发明实施例中, 可以根据第一緩存数组是否存满, 区分情况获得谱波动 方差 rar _ flux n , 其中 rar _ flux n 表示第 n帧的谱波动方差。 若所述当前信号帧属 于最初第一数目帧信号帧, 则将所述当前信号帧的谱波动方差设置为一特 定 值, 并将所述当前信号帧的谱波动方差緩存在第二 緩存数组; 否则, 根据緩存 的所有信号帧的频谱波动参数获得所述当前信 号帧的谱波动方差,并将所述当 前信号帧的谱波动方差緩存在第二緩存数组。
在 flux— buf数组緩存前!^个^^时, 可以将 rar _y½x„设置为一特定值, 也 就是说, 若所述当前信号帧属于最初第一数目帧信号帧 , 则将所述当前信号帧 的谱波动方差设置为一特定值, 比如置为 0,也即从第 1到第 1^帧判定为前景帧 的信号帧的谱波动方差为 0。
若所述当前信号帧不属于最初第一数目帧信号 帧,也即从第!^ + 1帧开始, 可以根据緩存的1^个信号帧的 flux计算 mi 帧之后每个确定为前景帧的信号帧 的谱波动方 var— flwc„。 此时计算当前信号帧的谱波动方差的方法可以 有多 种, 如某些实施方式中, 可以采用如下方法:
当緩存第 11 1 个£11¾时, 利用緩存的 11 1 个£11¾初始化 flux的均值丽 _βια„, mi
mov _ flux n = fliiXf
=1
初始化后, 从第 + 1个确定为前景帧的信号帧开始, /^v_ ¾x可以 根据如下方法, 每个前景帧更新一次:
mov _ flux n = <j * mov _ flux η _γ + (1— σ) flux n 为 0 ~ 1的小数, 用于控制更新速度。
则从第 + 1个确定为前景帧的信号帧开始, ra r_ i« ^可以根据包括当前 信号帧在内的緩存的1¾帧信号帧的 flux确定, 可以用公式表示为:
nil
var _flux n = - mov—flux η γ, 其中 n大于
在本发明实施例的另外一些实施方式中,也可 以不采用前述设置的方式确 定第 1到第 mi 帧判定为前景帧的信号帧的谱波动方差, 而采用根据緩存的所 有信号帧的谱波动参数获得当前信号帧的谱波 动方差的方法, 如:
当 flux— buf数组緩存前 s个 flux时, 1≤ s≤ Wl , 计算 flux的均值 mov _ flux n 和 var _ flux n , mov _ flux n = flux^ ) / s s
var _ flux n = flux n _ k — mov _ flux n ) 2 , 其中 n大于 S。
k=\
通过上述方法, 本实施方式中, 无论对于第一緩存数组是否存满的情况, 都是在根据緩存的所有信号帧的频谱波动参数 获得当前信号帧的谱波动方差。 通过上述方式获得当前信号帧的谱波动方差后 , 需要緩存所述谱波动方 差。 本发明实施例中, 可以设置一个谱波动方差緩存数组 var— flux— buf, 为叙 述清楚, 可以称为第二緩存数组。 緩存数组的类型可以为多种, 如某些实施方 式中可以为 FIFO数组。 var— flux— buf数组在信号帧为前景帧时进行更新, 可 以用来緩存 m 3 个信号帧的 var— flux, 其中 m 3 可以为大于 0的正整数, 如某些 实施方式中可以取 m 3 =120。
S304、 对所述第二緩存数组中緩存的前若千个谱波动 方差进行加窗平滑。 某些实施方式中, 可以对 var— flux— buf数组緩存的 var— flux的前若千个进行 加窗平滑, 如对第 mi+1个到第 mi+mz个信号帧的 var— flux加一个倾斜窗, 防止 初始几个数值不稳定而影响语音音乐的判决。 其中 m 2 可以为大于 0的正整数, 如取 m 2 =20, 力口窗可以表示如下:
win _ var _ flux n = var _ flux n * window 其中 window = n mi , 1 = 11^+1 , 11^+2..., 11^+1112。 某些实施方式中, 也可以使用 hamming窗等其它类型窗。
S305、获得所述第二緩存数组中緩存的所有 号帧中谱波动方差大于等于 第一阈值的比例,若所述比例大于等于第二阈 值,则所述当前信号帧为语音帧, 若所述比例小于第二阈值, 则所述当前信号帧为音乐帧。 本发明实施例中, 可以将 var— flux作为语音音乐分类的判决参数, 当要确 定某一确定为前景帧的当前信号帧是语音帧还 是音乐帧时, 可以通过 var— flux— buf数组中緩存的包括当前信号帧在内的所有信 号帧中 var— flux大于等 于某一阈值的比例进行确定, 即采用局部统计量法。 为叙述清楚, 可以将上文 提到的阈值称为第一阈值。
当包括当前信号帧在内的緩存的信号帧中 var— flux大于等于第一阈值的比 例大于某一阈值, 则表示当前信号帧为语音帧, 否则为音乐帧。 为叙述清楚可 以将前述提到的阈值称为第二阈值, 该第二阈值可以为 0 ~ 1的小数, 如某些实 施方式中取 0.5。
本发明实施例中, 局部统计量法可能会存在如下几种情况:
在 var— flux— buf数组存满之前, 例如只緩存了 m 4 帧 rar _ y¾x„ , m 4 <m 3 , 此 时若要确定当前信号帧,即第 m 4 帧信号帧的类别 ,则可以只计算 m 4 帧中 var— flux 高于第一阈值的帧数占总帧数 m 4 的比例 R, 如果 R大于等于第二阈值, 则判决 当前信号为语音帧, 否则为音乐帧。
若 var— flux— buf数組已存满 , 则计算包括当前信号帧在内的緩存的 m 3 帧中 var _ flux n 高于第一阈值的帧数占总帧数 m 3 的比例 R,如果 R大于等于第二阈值, 则判决当前信号帧为语音帧, 否则为音乐帧。
某些实施方式中, 可以在緩存前 m 5 个信号帧时, 将 R设置为大于等于第二 阈值的数值, 从而将前 m 5 个信号帧判别为语音帧。 m 5 可以取任意非负整数, 如某些实施方式中可以取 m 5 =75。 也即在前 m 5 个信号帧, 获得的緩存的包括当 前信号帧在内的信号帧中谱波动方差大于等于 第一阈值的比例 R是一个预设 值, 从第 m 5 +l个确定为前景帧的信号帧开始, 获得的緩存的包括当前信号帧 在内的信号帧中谱波动方差大于等于第一阈值 的比例 R是通过实际计算得来 的,计算緩存的包括当前信号帧在内的信号帧 中谱波动方差大于等于第一阈值 的比例。 通过这种方式, 可以避免信号起始阶段语音信号被误判为音乐 信号。 本发明实施例中, 第一阈值可以为一预设的固定第一阈值,也可 以为自适 应第一阈值 J: flm 。 固定第一阈值可以为介于 var— flux最大和最小值之间的任 意数值。 Γ:— /ΜΧ 可以根据背景环境自适应的调整, 如根据信号信噪比的变化 来进行调整, 从而具备较好的对加噪信号的识别能力。 — /MX 可以通过多种 方式获得, 如某些实施方式下可以根据 MSSNR n 计算获得, 某些实施方式中可 以根据 81¾计算获得, 下面举例进行说明:
实施方式一、 以 MSSNR n 确定 J — 的方法, 如图 6所示:
S401、 根据当前信号帧更新 MSSNR的最大值。
每一帧都确定一个 MSSNR n 的最大值 max薩 R , 当当前信号帧的 MSSNR n > max SSiW 时则将 mox MSSW 更新为该当前信号帧 MSSNR n 的值; 否则, 将《70¾^ 乘以某一系数, 如 0.9999, 作为更新后的《¾¾^ 。 也即根据每一 帧的 MSSNR n 更新 max画 R 的值。
5402、根据更新后的 MSSNR的最大值确定 MSSNR的阈值, 即根据更新后 的 wox MSSAK 计算 MSSNR^ 自适应阈值 r MSSW ,
T MSSNR = C op *丽 x MSSNR
其中, C。 p 是一个 0 ~ 1的小数, 具体数值需要根据工作点来进行调整, 如 某些实施方式中 Cop = 0.5。 工作点是用于控制语音音乐判决倾向性的外部 输 入。
5403、获得包括当前信号帧在内的若千帧的 MSSNR中大于所述 MSSNR的 阈值的帧数和小于等于所述 MSSNR的阈值的帧数, 获得大于所述 MSSNR的阈 值的帧数和小于等于所述 MSSNR的阈值的帧数的差异测度, 并根据该差异测 度获得自适应第一阈值。
本发明实施例中, 可以使用包括当前信号帧及其前 1-1帧在内的 1帧信号帧 的 MSSNI 直来计算 βιιχ , 1可以为大于 0的任意正整数, 如某些实施方式中
1=512, 方法如下: 1 ) 1帧中 MSSNR^T^^的帧数记为 high bin , MSSNR n < Τ画 R 的帧数记为 low bin, 即 hig in + low hin = 1 。
2 )计 high bin hw bin 的差异测度 ,
d iff = hig in - low bin = 2 * high bin 1
JJ hist j j 根据不同的操作点 diff hist 要加上相应的偏移因子 v。 p 得到偏移后的差异测 度, 即
3 )计算用于计算 Γ — /∞ 的 diff hist 的滑动平均值 ,
diff^=0^diff^ + OA-diff^
其中 ?为 0~1的小数, 用于控制 i f的更新速度, 如某些实施方式中 ? = 0.9。
4) i¾^f要被限制在一定范围 _ ij r 之间, 其中 表示该限定 范围的上下限, 可以为 0~1的小数, 如某些实施方式中; r r =0.6, 限值后的 用最终差异测度 ^ίτ"表示。
5) 的自适应第一阈值 . χ 的计算式为,
和 J。f是根据操作点设定的 T — flm 的最大值和最小值。
可见, 上述方式中利用该差异测度, 外部输入操作点及预先设定的谱波动 方差的自适应阈值的最大值和最小值来计算谱 波动方差的自适应第一阈值。
实施方式二、 以 snr n 确定 的方法, 如图 7所示: S501、 根据当前信号帧更新信噪比的最大值。
每一帧都确定一个 snr 々最大值 max snf , 当当前信号帧 snr n > max snr 时则将 max SM 更新为该当前信号帧 snr n 的值; 否则, 将 max snr 乘以某一系数, 如 0.9999 作为更新后的 max snr 。 也即根据每一帧的 snr n 更新 的值。
S502、 根据更新后的信噪比的最大值确定信噪比的阈 值, 即计算 snr n 的自 适应阈值7 ,
^ snr― C 0 p max snr 其中, C。 p 是一个 0 ~ 1的小数, 具体数值需要根据工作点来进行调整, 如 某些实施方式中 C。 p = 0.5。工作点是用于控制语音音乐判决倾向性的 外部输入。
S503、 获得包括当前信号帧在内的若千帧的 snr中大于所述 snr的阈值的帧 数和小于等于所述 snr的阈值的帧数; 获得大于所述 snr的阈值的帧数和小于等 于所述 snr的阈值的帧数的差异测度, 并根据该差异测度获得自适应第一阈值。 本发明实施例中, 可以使用包括当前信号帧及其前 1-1帧在内的 1帧信号帧 的 snrj 来计算 Γ ν " α χ , 1可以为大于 0的任意正整数,如某些实施方式中 1=512, 方法如下:
1 ) 1帧中 snr n > T厦的帧数记为 high bin , snr n < T snr 的帧数记为 low bin , 即 high bin + low bin = /。
2 ) 计算 high bin 和 l。w bin 的差异测度《¾f to ,
dyj h { = high bin - low bin = 2 * high bin χ 根据不同的操作点 要加上相应的偏移因子 v。 p 得到偏移后的差异测 度, 即
3 )计算用于计算 的 diff hist 的滑动平均值 , 其中 ?为 0~ 1的小数, 用于控制 i¾T f的更新速度, 如某些实施方式中 ? = 0.9。
4) t¾r f要被限制在一定范围 - ^ r 之间, 其中 ^和- ^表示该限定 范围的上下限, 可以为 0~1的小数, 如某些实施方式中; r =0.6, 限值后的 用最终差异测度 表示。
5) rar— Z^的自适应第一阈值 — 的计算式为,
其中, op op
A:
2^X T
down
β-_°Ρ °Ρ
2
^和 。 w "是根据操作点设定的 T _ flux 的最大值和最小值。
可见, 上述方式中利用该差异测度, 外部输入操作点及预先设定的谱波动 方差的自适应阈值的最大值和最小值来计算谱 波动方差的自适应第一阈值。
S306、 结合其他参数辅助谱波动方差进行信号分类。
某些实施方式中, 还可以在利用 var— flux作为主参数进行信号分类时, 结 合其他参数进行联合判决, 以进一步提高信号分类的性能。 所述其他参数可以 有多种选择, 如过零率, 峰度等。 某些实施方式中可以采用参数峰度 1^或1^ 2 进行辅助判决, 为叙述清楚, 可以将 1^称为第一峰度, 将 hp 2 称为第二峰度。 当 hp, > 和/或 hp 2 >T 2 时, 当前信号帧为音乐帧; 或者根据所述 hp,获得的 avg— Pi大于等于7或根据所述 hp 2 获得的 avg— P 2 大于等于 T 2 , 或根据所述 1^获 得的 avg—?大于等于 7^和根据所述 hp 2 获得的 avg— Ρ 2 大于等于 Τ 2 同时满足时,则 当前信号帧为音乐帧, 进一步说明如下: 1、 对当前信号帧的频谱 (/)进行平滑,
lpf.S p n (0) = S p n (0) i = 0 其中, ^(0表示平滑后的频谱系数。
2、平滑后查找 X个频谱峰值 peak(i),i=0,l,2,3,x-l; x的取值为小于 的正整 数。
3、 对这 X个峰值从大到小进行排序;
4、 排序后, 取前 N个最大的 peak(i), 如 5个, 按下式计算 Ιιρ^ Ιιρ 2 , 如果 查找到的峰值小于 5个, 则将 Ν设为实际查找到的峰值个数, 使用这 Ν个峰值进 行如下计算,
其中 N为实际用来计算 h Pl 和 hp 2 的的峰值的个数。
某些实施方式中, 也可以在查找到的 X个频语峰值中, 通过其他方式取 N 个 peak(i), 而不一定通过上述排序的方式; 或者排序后不取最大的前几个, 而 是选取几个,任何在本发明实施例基础上的筒 单变换均在本发明实施例的保护 范围之内。
5、 当 hpi^T^ 或 hp 2 >T 2 时当前信号帧为音乐帧, 其中 7^和丁 2 为经验 值。
也即在本发明实施例中, 在利用響 _flw n 作为主参数对当前信号帧进行判 决之后,可以分别通过参数!^或!^,或根据 1^与 hp 2 的组合进行辅助判决, 从而提高本发明对某些特殊音乐种类的识别率 ,修正使用局部统计量方法得到 的判决结果。
某些实施方式中, 也可以先计算 hpi和 hp 2 的滑动平均 avg— 和 avg— P 2 , 当 avg— > Ύ χ 和 /或 avg_P 2 > T 2 时, 当前信号帧判为音乐帧, 其中 1 和 Τ 2 为 经验值。 从而避免突然出现的极大值或极小值影响判决 结果。
avg_P 1 和 avg_P 2 可以通过^口下方 '法获得:
vg_ P i = γ* avg_P x + (1 - γ) * hp^
avg _Ρ 2 = γ * avg _Ρ 2 + (\ - γ)* hp 2
其中, y可以为 0 ~ 1的小数, 如某些实施方式中 ^ = 0.995。 需要说明的是, 该步骤中其他参数的获得,根据其他参数进行 的辅助判决 也可以在 S305之前进行,本发明实施例并不限制处理顺 ,在本发明实施例基
S307、 对初始判决结果采用一帧拖尾, 从而获得最终判决结果。
某些实施方式中, 可以将前述步驟 S305或 S306中得到的判决结果称为当 前信号帧的初始判决结果 SMd— raw,可以通过釆用一帧的拖尾来得到当前信号 帧的最终判决结果 SMd— out, 避免在不同类别信号间出现频繁的切换。
此处以 last— SMd— raw和 last— SMd— out分别表示上一帧的初始判决结果和最 终判决结果。 如果 last— SMd— raw = SMd— raw, 则 SMd— out = SMd— raw; 否则 SMd— out = last— SMd— out。 在每帧进行最终判决判决后将 last— SMd— raw和 last— SMd— out分别更新为当前信号帧的判决结果。
例如, 假设上一帧的初始判决结果 last— SMd— raw是语音, 上一帧的最终判 决结果 last— SMd— out是语音。如果当前信号帧的初始判决结果 SMd— raw是音乐, 由于 last— SMd— raw与 SMd— raw不相同, 则当前信号帧最终判决结果 SMd— out就 为语音, 即与 last— SMd— out相同。 并将 last— SMd— raw更新为音乐, last— SMd— out 更新为语音。 图 8为本发明信号分类装置一个实施例的结构示 图,如图 8所示, 本发明 实施例包括:
第一获取模块 601 , 用于获得当前信号帧的频谱波动参数;
前景帧确定模块 602, 用于确定所述当前信号帧为前景帧, 并将确定为前 景帧的所述当前信号帧的的频谱波动参数緩存 在第一緩存模块 603;
第一緩存模块 603 , 用于緩存所述前景帧确定模块 602緩存的所述当前信 号帧的频谱波动参数;
设置模块 604, 用于若所述当前信号帧属于最初第一数目帧信 号帧, 则将 所述当前信号帧的谱波动方差设置为一特定值 ,并将所述当前信号帧的谱波动 方差緩存在第二緩存模块 606;
第二获取模块 605, 用于若所述当前信号帧不属于最初第一数目帧 信号 帧,根据所述第一緩存模块 603緩存的所有信号帧的频谱波动参数获得所述 当 前信号帧的谱波动方差,并将所述当前信号帧 的谱波动方差緩存在第二緩存模 块 606;
第二緩存模块 606, 用于緩存所述设置模块 604或所述第二获取模块 605 緩存的所述当前信号帧的谱波动方差。
第一判决模块 607,用于获得所述第二緩存模块 606中緩存的所有信号帧中 谱波动方差大于等于第一阈值的比例, 若所述比例大于等于第二阈值, 则所述 当前信号帧为语音帧,若所述比例小于第二阈 值,则所述当前信号帧为音乐帧。
本发明实施例提供的装置, 采用获得当前信号帧的频谱波动参数; 若所述 当前信号帧为前景帧,则将所述当前信号帧的 频谱波动参数緩存在第一緩存模 块 603; 若所述当前信号帧属于最初第一数目帧信号帧 , 则将所述当前信号帧 的谱波动方差设置为一特定值,并将所述当前 信号帧的谱波动方差緩存在第二 緩存模块 606; 否则, 根据緩存的所有信号帧的频谱波动参数获得所 述当前信 号帧的谱波动方差, 并将所述当前信号帧的谱波动方差緩存在第二 緩存模块 606, 以信号谱波动方差作为信号分类的参数, 使用局部统计量的方法进行信 号分类判决, 从而以较少的参数, 较筒单的逻辑关系, 以较低的复杂度实现了 信号的分类。 某些实施方式中, 如图 9所示的本发明信号分类装置另一实施例的结 示 意图, 除了包括图 8所示模块, 还可以进一步包括:
第二判决模块 608,用于结合其他参数辅助所述第一判决模块 607进行信号 分类。判决修正模块 609, 用于对所述第一判决模块 607获得的当前信号帧为语 音帧或音乐帧的判决结果或所述第一判决模块 607与所述第二判决模块 608相 结合获得的当前信号帧为语音帧或音乐帧的判 决结果采用一帧拖尾,从而获得 最终判决结果。加窗模块 610, 用于在所述第一判决模块 607获得所述第二緩存 模块 606中緩存的所有信号帧中谱波动方差大于等于 第一阈值的比例之前, 对 所述第二緩存模块 606中緩存的前若千个谱波动方差进行加窗平滑 。
第一判决模块 607可以包括:
第一阈值确定单元 6071 , 用于确定所述第一阈值;
比例获取单元 6072, 用于获得所述第二緩存模块 606中緩存的所有信号 帧中谱波动方差大于等于所述第一阈值确定单 元 6071 确定的第一阈值的比 例;
第二阈值确定单元 6073 , 用于确定所述第二阈值; 值确定单元 6073确定的第二阈值, 若所述比例大于等于所述第二阈值, 则所述 当前信号帧为语音帧,若所述比例小于第二阈 值,则所述当前信号帧为音乐帧。 下面结合前述方法实施例对本发明实施例提供 的信号分类装置进行说明: 第一获取模块 601获得当前信号帧的频谱波动参数;若前景帧 确定模块 602 确定当前信号帧为前景帧,则将所述当前信号 帧的频谱波动参数緩存在第一緩 存模块 603; 若所述当前信号帧属于最初第一数目帧信号帧 , 则由设置模块 604 将所述当前信号帧的谱波动方差设置为一特定 值,并将所述当前信号帧的谱波 动方差緩存在第二緩存模块 606; 若所述当前信号帧不属于最初第一数目帧信 号帧,则由第二获取模块 605根据所述第一緩存模块 603緩存的所有信号帧的频 谱波动参数获得所述当前信号帧的谱波动方差 ,并将所述当前信号帧的谱波动 方差緩存在第二緩存模块 606; 某些实施方式中, 可以由加窗模块 610对所述第 二緩存模块 606中緩存的前若千个谱波动方差进行加窗平滑 ;第一判决模块 607 获得所述第二緩存模块 606中緩存的所有信号帧中谱波动方差大于等于 第一阈 值的比例, 若所述比例大于等于第二阈值, 则所述当前信号帧为语音帧, 若所 述比例小于第二阈值, 则所述当前信号帧为音乐帧; 某些实施方式中, 可以由 第二判决模块 608结合其他参数辅助谱波动方差进行信号分类 ; 某些实施方式 中, 可以由判决修正模块 609对初始判决结果采用一帧拖尾, 从而获得最终判 决结果。 图 10为本发明信号分类装置又一个实施例的结构 意图, 如图 10所示, 本 发明实施例包括:
第三获取模块 701 , 用于获得确定为前景帧的当前信号帧的频谱波 动参数 并緩存;
第四获取模块 702, 用于根据所述第三获取模块 701緩存的所有信号帧的 频谱波动参数获得当前信号帧的谱波动方差并 緩存;
第三判决模块 703 ,用于获得所述第四获取模块 702緩存的所有信号帧中谱 波动方差大于等于第一阈值的比例, 若所述比例大于等于第二阈值, 则所述当 前信号帧为语音帧, 若所述比例小于第二阈值, 则所述当前信号帧为音乐帧。
本发明实施例提供的装置,釆用获得确定为前 景帧的当前信号帧的频谱波 动参数并緩存 ,根据緩存的所有信号帧的频谱波动参数获得 前信号帧的谱波 动方差并緩存, 获得緩存的所有信号帧中谱波动方差大于等于 第一阈值的比 例, 若所述比例大于等于第二阈值, 则所述当前信号帧为语音帧, 若所述比例 小于第二阈值, 则所述当前信号帧为音乐帧的技术手段, 以信号谱波动方差作 为信号分类的参数,使用局部统计量的方法进 行信号分类判决,从而以较少的 参数, 较简单的逻辑关系, 以较低的复杂度实现了信号的分类。
由于前述方法实施例已对信号分类进行了比较 详细的说明,上述实施例中 的信号分类装置用于实现前述信号分类方法, 所以对信号分类装置执行方法时 的具体细节只进行简单说明 ,在此不再赘述,可以参考前述方法实施例的 容。 本发明实施例中以语音和音乐为例进行说明, 但可以理解的,根据本发明 实施例的方法也可以对其他输入信号进行分类 , 如语音和噪声。 同时本发明在 釆用局部统计量的方法进行信号分类时釆用了 当前信号帧的频谱波动参数、谱 波动方差等参数作为依据,实际实现中也可以 釆用当前信号帧的其他参数作为 判决依据。
本领域普通技术人员可以理解:实现上述方法 实施例的全部或部分步驟可 以通过程序指令相关的硬件来完成,前述的程 序可以存储于一计算机可读取存 储介质中, 该程序在执行时, 执行包括上述方法实施例的步骤; 而前述的存储 介质包括: ROM、 RAM, 磁碟或者光盘等各种可以存储程序代码的介质 。
最后所应说明的是: 以上实施例仅用以说明本发明的技术方案, 而非对本 发明作限制性理解。尽管参照上述较佳实施例 对本发明进行了详细说明,本领 域的普通技术人员应当理解:其依然可以对本 发明的技术方案进行修改或者等 同替换, 而这种修改或者等同替换并不脱离本发明技术 方案的精神和范围。
Next Patent: DATA FORWARDING METHOD AND SERVICE SINGLE BOARD