Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND APPARATUS FOR ESTIMATING INTERCHANNEL DELAY OF SOUND SIGNAL
Document Type and Number:
WIPO Patent Application WO/2011/137852
Kind Code:
A1
Abstract:
A method and apparatus for estimating the interchannel delay of a sound signal are provided, which are related to the communication field and can realize the stabilization of a sound field in a cross talk. The method includes: calculating the error between the actual phase difference and the predicted phase difference of the interchannel of the sound signal, wherein the predicted phase difference is predicted according to the predetermined interchannel delay of the sound signal(101); judging whether the sound signal is the sound signal in the cross talk according to the error(102); setting the interchannel delay corresponding to the sound signal to be a fixed value if the sound signal is the sound signal in the cross talk(103).

Inventors:
WU, Wenhai (Huawei Administration Building, Bantian Longgang Distric, Shenzhen Guangdong 9, 518129, CN)
吴文海 (中国广东省深圳市龙岗区坂田华为总部办公楼, Guangdong 9, 518129, CN)
MIAO, Lei (Huawei Administration Building, Bantian Longgang Distric, Shenzhen Guangdong 9, 518129, CN)
苗磊 (中国广东省深圳市龙岗区坂田华为总部办公楼, Guangdong 9, 518129, CN)
Application Number:
CN2011/074991
Publication Date:
November 10, 2011
Filing Date:
May 31, 2011
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
HUAWEI TECHNOLOGIES CO., LTD. (Huawei Administration Building, Bantian Longgang Distric, Shenzhen Guangdong 9, 518129, CN)
华为技术有限公司 (中国广东省深圳市龙岗区坂田华为总部办公楼, Guangdong 9, 518129, CN)
WU, Wenhai (Huawei Administration Building, Bantian Longgang Distric, Shenzhen Guangdong 9, 518129, CN)
吴文海 (中国广东省深圳市龙岗区坂田华为总部办公楼, Guangdong 9, 518129, CN)
MIAO, Lei (Huawei Administration Building, Bantian Longgang Distric, Shenzhen Guangdong 9, 518129, CN)
International Classes:
G10L21/00; H04R3/00; H04S7/00
Attorney, Agent or Firm:
BEIJING ZBSD PATENT & TRADEMARK AGENT LTD. (501/B, Fortune BuildingNo. 17 Daliushu Road, Haidian District, Beijing 1, 100081, CN)
Download PDF:
Claims:
权 利 要求 书

1、 一种声音信号通道间延时估计的方法, 其特征在于, 包括:

计算声音信号通道间的实际相位差与预测相位差之间的误差, 所述预测相 位差根据所述声音信号通道间预定延时预测;

根据所述误差判断所述声音信号是否为交叉说话时的声音信号;

若所述声音信号为交叉说话时的声音信号, 则将所述声音信号对应的通道 间延时设置为固定值。

2、 根据权利要求 1所述的方法, 其特征在于, 所述通道间预定延时包括通 道间估计延时或通道间固定值延时中的至少一个, 所述通道间估计延时为利用 通道间的相关性估计的延时。

3、 根据权利要求 2所述的方法, 其特征在于, 当所述通道间预定延时为通 道间估计延时时, 所述计算声音信号通道间的实际相位差与预测相位差之间的 误差包括:

计算声音信号通道间的实际相位差, 与根据通道间估计延时预测的所述声 音信号通道间的预测相位差之间的第一误差;

所述根据所述误差判断所述声音信号是否为交叉说话时的声音信号包括: 判断所述第一误差是否在第一预定范围内;

若所述第一误差不在第一预定范围内, 则判定所述声音信号为交叉说话时 的声音信号。

4、 根据权利要求 2所述的方法, 其特征在于, 当所述通道间预定延时为通 道间固定值延时时, 所述计算声音信号通道间的实际相位差与预测相位差之间 的误差包括:

计算声音信号通道间的实际相位差, 与根据通道间固定值延时预测的所述 声音信号通道间的预测相位差之间的第二误差;

所述根据所述误差判断所述声音信号是否为交叉说话时的声音信号包括: 判断所述第二误差是否在第二预定范围内;

若所述第二误差在第二预定范围内, 则判定所述声音信号为交叉说话时的 声音信号。

5、 根据权利要求 2所述的方法, 其特征在于, 当所述通道间预定延时为通 道间估计延时和通道间固定值延时时, 所述计算声音信号通道间的实际相位差 与预测相位差之间的误差包括:

计算声音信号通道间的实际相位差, 与根据通道间估计延时预测的所述声 音信号通道间的预测相位差之间的第一误差;

计算声音信号通道间的实际相位差, 与根据固定值延时预测的所述声音信 号通道间的预测相位差之间的第二误差;

所述根据所述误差判断所述声音信号是否为交叉说话时的声音信号包括: 根据所述第二误差和第一误差的比值判断所述声音信号是否为交叉说话时的声 音信号; 或者根据所述第二误差和第一误差的比值以及第一误差判断所述声音 信号是否为交叉说话时的声音信号。

6、 根据权利要求 5所述的方法, 其特征在于, 所述根据所述第二误差和第 一误差的比值判断所述声音信号是否为交叉说话时的声音信号, 包括:

判断所述比值是否小于第一门限值;

若所述比值小于所述第一门限值, 则判定所述声音信号为交叉说话时的声 音信号。

7、 根据权利要求 5所述的方法, 其特征在于, 所述根据所述第二误差和第 一误差的比值以及第一误差判断所述声音信号是否为交叉说话时的声音信号, 包括:

判断所述声音信号的前一帧声音信号是否为交叉说话时的声音信号; 若所述声音信号的前一帧声音信号不是交叉说话时的声音信号, 则判断所 述第二误差和第一误差的比值是否小于第一门限值, 并且所述第一误差是否大 于第二门限值; 若所述比值小于第一门限值, 并且所述第一误差大于第二门限 值, 则判定所述声音信号为交叉说话时的声音信号;

若所述声音信号的前一帧声音信号是交叉说话时的声音信号, 则判断所述 第二误差和第一误差的比值是否小于第一门限值, 并且所述第一误差是否大于 第三门限值; 若所述比值小于第一门限值, 并且所述第一误差大于第三门限值, 则判定所述声音信号为交叉说话时的声音信号。

8、 根据权利要求 1或 3或 4或 6或 7所述的方法, 其特征在于, 在判定所 述声音信号为交叉说话时的声音信号之后, 该方法还包括:

统计声音信号为交叉说话时的声音信号的次数, 并判断所述次数是否大于 预设次数门限;

若所述次数大于所述预设次数门限, 则所述将所述声音信号对应的通道间 延时设置为固定值包括: 将统计中的最后一帧交叉说话时的声音信号对应的通 道间延时设置为固定值。

9、 一种声音信号通道间延时估计的装置, 其特征在于, 包括:

计算单元, 用于计算声音信号通道间的实际相位差与预测相位差之间的误 差, 所述预测相位差根据所述声音信号通道间预定延时预测;

第一判断单元, 用于根据所述计算单元计算得到的所述误差判断所述声音 信号是否为交叉说话时的声音信号;

处理单元, 用于在所述第一判断单元判定所述声音信号为交叉说话时的声 音信号时, 将所述声音信号对应的通道间延时设置为固定值。

10、 根据权利要求 9 所述的装置, 其特征在于, 所述通道间预定延时包括 通道间估计延时或通道间固定值延时中的至少一个, 所述通道间估计延时为利 用通道间的相关性估计的延时。

11、 根据权利要求 9 所述的装置, 其特征在于, 当所述通道间预定延时为 通道间估计延时时, 所述计算单元包括:

第一计算模块, 用于计算声音信号通道间的实际相位差, 与根据通道间估 计延时预测的所述声音信号通道间的预测相位差之间的第一误差;

所述第一判断单元包括第一判断模块, 用于判断所述第一计算模块计算得 到的所述第一误差是否在第一预定范围内; 当所述第一误差不在第一预定范围 内时, 判定所述声音信号为交叉说话时的声音信号。

12、 根据权利要求 9 所述的装置, 其特征在于, 当所述通道间预定延时为 通道间固定值延时时, 所述计算单元包括:

第二计算模块, 用于计算声音信号通道间的实际相位差, 与根据通道间固 定值延时预测的所述声音信号通道间的预测相位差之间的第二误差;

所述第一判断单元包括第二判断模块, 用于判断所述第二计算模块计算得 到的所述第二误差是否在第二预定范围内; 当所述第二误差在第二预定范围内 时, 判定所述声音信号为交叉说话时的声音信号。

1 3、 根据权利要求 9 所述的装置, 其特征在于, 当所述通道间预定延时为 通道间估计延时和通道间固定值延时时, 所述计算单元包括:

第三计算模块, 用于计算声音信号通道间的实际相位差, 与根据通道间估 计延时预测的所述声音信号通道间的预测相位差之间的第一误差;

第四计算模块, 用于计算声音信号通道间的实际相位差, 与根据通道间固 定值延时预测的所述声音信号通道间的预测相位差之间的第二误差;

所述第一判断单元, 包括第三判断模块, 用于根据所述第二误差和第一误 差的比值判断所述声音信号为交叉说话时的声音信号; 或者

所述第一判断单元还包括: 第四判断模块, 用于根据所述第二误差和第一 误差的比值, 以及第一误差判断所述声音信号是否为交叉说话时的声音信号。

14、 根据权利要求 1 3所述的装置, 其特征在于, 所述第三判断模块用于判 断所述比值是否小于第一门限值;

当所述比值小于所述第一门限值时, 判定所述声音信号为交叉说话时的声 音信号。

15、 根据权利要求 1 3所述的装置, 其特征在于, 所述第四判断模块用于, 判断所述声音信号的前一帧声音信号是否为交叉说话时的声音信号;

当所述声音信号的前一帧声音信号不是交叉说话时的声音信号时, 判断所 述第二误差和第一误差的比值是否小于第一门限值, 并且所述第一误差是否大 于第二门限值; 在所述比值小于第一门限值, 并且所述第一误差大于第二门限 值时, 判定所述声音信号为交叉说话时的声音信号;

当所述声音信号的前一帧声音信号是交叉说话时的声音信号时, 判断所述 第二误差和第一误差的比值是否小于第一门限值, 并且所述第一误差是否大于 第三门限值; 当所述比值小于第一门限值, 并且所述第一误差大于第三门限值 时, 判定所述声音信号为交叉说话时的声音信号。

16、 根据权利要求 9或 11或 12或 14或 15所述的装置, 其特征在于, 该 装置还包括:

统计单元, 用于在所述第一判断单元判定所述声音信号为交叉说话时的声 音信号之后, 统计声音信号为交叉说话时的声音信号的次数;

第二判断单元, 用于判断所述统计单元统计的所述次数是否大于预设次数 门限;

所述处理单元还用于, 在所述次数大于预设次数门限时, 将统计中的最后 一帧交叉说话时的声音信号对应的通道间延时设置为固定值。

Description:
声音信号通道间延时估计的方法及装置 本申请要求于 2010 年 6 月 30 日提交中国知识产权局、 申请号为 201010222476. 发明名称为 "声音信号通道间延时估计的方法及装置" 的 中国专利申请的优先权, 在此并入其全部内容作为参考。 技术领域

本发明涉及通信领域, 尤其涉及一种声音信号通道间延时估计的方法 及 装置。 背景技术

在立体声编码中, 通常并不是直接对左右声道信号进行编码, 而是将左 右声道信号进行下混, 对下混之后的信号进行编码。 再编码一些额外的边带 信息。 在解码端通过下混信号和边带信息来恢复立体 声信号。 通常情况, 发 声物体相对于录制左右声道的两个麦克来说, 会有距离的变动或者距离差, 这样必然造成左右两路声道信号之间不能完全 同步, 即左右两路声道信号之 间有一定的延时。 如何正确估计这个延时, 并在解码端恢复出这个延时, 以 保证合成后信号的场强是必要的。

目前在进行通道间延时估计时, 通过求左右通道间的加权互相关函数, 并搜索求取加权互相关函数的最大值所对应的 延时作为左右通道间的延时。 对于单一的发生体, 由于其存在单一的左右声道, 且该左右声道相对于录制 左右声道的两个麦克来说位置固定, 因此釆用上述的方法可以估计出比较准 确的通道间延时。

对于多个发生体即交叉说话时, 由于存在多个左声道和多个右声道, 使 得声场出现一会向左一会向右的摆动, 以及右声场向左偏左声道向右偏的情 况, 致使不能辨别哪个左右声道是由同一发生体发 出; 若釆用上述方法对交 叉说话时的通道间延时进行估计, 估计出的通道间延时是不准确的, 导致估 计的声场的不稳定。 发明内容

本发明的实施例提供一种声音信号通道间延时 估计的方法及装置, 能够 在交叉说话时, 实现声场的稳定。

本发明实施例提供一种声音信号通道间延时估 计的方法, 包括: 计算声音信号通道间的实际相位差与预测相位 差之间的误差, 所述预测 相位差根据所述声音信号通道间预定延时预测 ;

根据所述误差判断所述声音信号是否为交叉说 话时的声音信号; 若所述声音信号为交叉说话时的声音信号, 则将所述声音信号对应的通 道间延时设置为固定值。

本发明实施例还提供一种声音信号通道间延时 估计的装置, 包括: 计算单元, 用于计算声音信号通道间的实际相位差与预测 相位差之间的 误差, 所述预测相位差根据所述声音信号通道间预定 延时预测;

第一判断单元, 用于根据所述计算单元计算得到的所述误差判 断所述声 音信号是否为交叉说话时的声音信号;

处理单元, 用于在所述第一判断单元判定所述声音信号为 交叉说话时的 声音信号时, 将所述声音信号对应的通道间延时设置为固定 值。

本发明实施例提供的技术方案, 对声音信号进行是否为交叉说话时的声 音信号的检测, 当检测到声音信号为交叉说话时的声音信号, 则将该声音信 号对应的通道间延时设置为固定值; 与现有技术中不区分是否为交叉说话时 的声音信号, 统一釆用通道间延时估计的方法相比, 本发明的技术方案将检 测出的交叉说话时的声音信号对应的通道间延 时设置为一固定值, 避免了通 道间错误的延时估计, 造成的声场的不稳定, 从而能够在交叉说话时, 实现 声场的稳定。 附图说明

为了更清楚地说明本发明实施例或现有技术中 的技术方案, 下面将对实 施例或现有技术描述中所需要使用的附图作简 单地介绍, 显而易见地, 下面 描述中的附图仅仅是本发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。

图 1为本发明实施例 1中声音信号通道间延时估计的方法流程图; 图 2为本发明实施例 2中声音信号通道间延时估计的方法流程图; 图 3为现有技术中估计声音信号通道间延时的方 流程图;

图 4为本发明实施例 3中声音信号通道间延时估计的方法流程图; 图 5为本发明实施例 4中声音信号通道间延时估计的方法流程图; 图 6为本发明实施例 5中声音信号通道间延时估计的方法流程图; 图 7为本发明实施例 6中声音信号通道间延时估计的方法流程图; 图 8为本发明实施例 7中一种声音信号通道间延时估计的装置组成 图; 图 9为本发明实施例 7 中另一种声音信号通道间延时估计的装置组成 框 图;

图 10为本发明实施例 7中另一种声音信号通道间延时估计的装置组 框 图;

图 11为本发明实施例 7中另一种声音信号通道间延时估计的装置组 框 图;

图 12为本发明实施例 7中另一种声音信号通道间延时估计的装置组 框 图;

图 1 3为本发明实施例 7中另一种声音信号通道间延时估计的装置组 框 图。 具体实施方式

下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行 清楚、 完整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而 不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员在没有作 出创造性劳动前提下所获得的所有其他实施例 , 都属于本发明保护的范围。

实施例 1

本发明的实施例提供一种声音信号通道间延时 估计的方法, 如图 1所示, 该方法包括: 101、 计算声音信号通道间的实际相位差与预测相位 差之间的误差, 所述 预测相位差根据所述声音信号通道间预定延时 预测。

其中, 所述通道间预定延时包括通道间估计延时或通 道间固定值延时中 的至少一个, 所述通道间估计延时为利用通道间的相关性估 计的延时; 所述 误差可以通过计算声音信号通道间的实际相位 差, 与根据通道间估计延时或 通道间固定值延时中的至少一个预测的所述声 音信号通道间的预测相位差获 取。

其中, 所述误差可以为在某段频带内各频点对应的实 际相位差与预测相 位差之差的绝对值之和, 或者还可以为在某个频带内各频点对应的实际 相位 差与预测相位差之差的绝对值的平均值, 本发明实施例对此不进行限制; 所 述误差还可以为在某个频带内各频点对应的实 际相位差与预测相位差之差的 平方和, 或者还可以为在某个频带内各频点对应的实际 相位差与预测相位差 之差的平方的平均值。

102、 根据所述误差判断所述声音信号是否为交叉说 话时的声音信号。

103、 若所述声音信号为交叉说话时的声音信号, 则将所述声音信号对应 的通道间延时设置为固定值。

其中, 所述固定值为一经验值, 用户可以根据具体的实施具体设置, 本 发明实施例对此不进行限制, 例如, 该固定值可以为 " 0"。 将所述声音信号 对应的通道间延时设置为固定值, 以便保持场强的稳定性。

本发明实施例中, 对声音信号进行是否为交叉说话时的声音信号 的检测, 当检测到声音信号为交叉说话时的声音信号, 则将该声音信号对应的通道间 延时设置为固定值; 与现有技术中不区分是否为交叉说话时的声音 信号, 统 一釆用通道间延时估计的方法相比, 本发明实施例将检测出的交叉说话时的 声音信号对应的通道间延时设置为一固定值, 避免了通道间错误的延时估计, 造成的声场的不稳定, 从而能够在交叉说话时, 实现声场的稳定。

实施例 2

本发明的实施例提供一种声音信号通道间延时 估计的方法, 为了保证准 确的检测声音信号是否为交叉说话时的声音信 号, 设置了声音信号为交叉说 话时的声音信号时的次数, 当达到该次数表明当前的声音信号为非常稳定 的 交叉说话时的声音信号, 如图 2所示, 该方法包括:

201、 计算声音信号通道间的实际相位差与预测相位 差之间的误差, 所述 预测相位差根据所述声音信号通道间预定延时 预测。

其中, 所述通道间预定延时包括通道间估计延时或通 道间固定值延时中 的至少一个, 所述通道间估计延时为利用通道间的相关性估 计的延时; 所述 误差可以通过计算声音信号通道间的实际相位 差, 与根据通道间估计延时或 通道间固定值延时中的至少一个预测的所述声 音信号通道间的预测相位差获 取。

其中, 所述误差可以为在某段频带内各频点对应的实 际相位差与预测相 位差之差的绝对值之和, 或者还可以为在某个频带内各频点对应的实际 相位 差与预测相位差之差的绝对值的平均值, 本发明实施例对此不进行限制; 所 述误差还可以为在某个频带内各频点对应的实 际相位差与预测相位差之差的 平方和, 或者还可以为在某个频带内各频点对应的实际 相位差与预测相位差 之差的平方的平均值。

202、 根据所述误差判断所述声音信号是否为交叉说 话时的声音信号; 若 所述声音信号为交叉说话时的声音信号, 则执行步骤 203; 若所述声音信号不 是交叉说话时的声音信号, 则执行步骤 205。

进一步, 需要说明的是, 当接收到当前帧的声音信号并判断其为交叉说 话时的声音信号时, 有可能是由于说话时的声音信号不稳定, 出现了误判的 情况, 为了更准确的判定当前接收到的声音信号是否 为交叉说话时的声音信 号, 设定了声音信号为交叉说话时的声音信号的次 数门限, 当声音信号为交 叉说话时的声音信号的次数达到该设置的次数 门限时, 可以确定当前接收到 的声音信号确实是交叉说话时的声音信号, 因此当根据所述误差判断所述声 音信号为交叉说话时的声音信号之后, 执行步骤 203。

203、 统计声音信号为交叉说话时的声音信号的次数 , 并判断所述次数是 否大于预设次数门限; 若所述次数大于所述预设次数门限, 表明当前的说话 情景确实是交叉说话, 接收到的声音信号确实为交叉说话时的声音信 号, 则 执行步骤 204 ; 若所述次数小于或等于所述预设次数门限,表 明当前的说话情 景并不是交叉说话, 接收到的声音信号也并不是交叉说话时的声音 信号, 则 执行步骤 205。

其中, 所述预设门限次数为一经验值, 用户可以根据具体的需求具体设 置, 本发明实施例对此不进行限制, 例如可以将该门限次数设置为 3次。

204、 将统计中的最后一帧交叉说话时的声音信号对 应的通道间延时设置 为固定值。

其中, 所述固定值为一经验值, 用户可以根据具体的实施具体设置, 本 发明实施例对此不进行限制, 例如, 该固定值可以为 " 0"。 将统计中的最后 一帧交叉说话时的声音信号对应的通道间延时 设置为固定值, 以便保持场强 的稳定性。

205、 根据现有技术中的声音信号通道间延时估计的 方法, 获取所述声音 信号对应的通道间延时。

其中, 根据现有技术中的声音信号通道间延时估计的 方法, 可以釆用但 不局限于如下的方法实现, 通过求左右通道间的加权互相关函数, 并搜索求 取加权互相关函数的最大值所对应的延时作为 左右通道间的延时。 具体可以 包括, 如图 3所示:

2051、 对所述声音信号的左右两个声道信号进行时频 变换, 所述声音信 号的左右两个声道信号变换到频域。

2052、 计算所述左右两个声道信号频域的加权互相关 函数。

其中, 在计算所述左右两个声道信号频域的加权互相 关函数时, 可以在 部分频带或者全部频带计算。

当在全频带计算时, 可以釆用公式 1获取加权的互相关函数 Cf (k) , 公式 1-1为: (公式 1 ) 当在部分频带计算时, 可以釆用公式 2获取加权的互相关函数 Cf(k) , 公 式 2为: (公式 2 )

其中, 为加权函数, (A)为; r 2 (A)的共轭函数, x x (k) , x 2 (k)^ 为左路声道信号、 右路声道信号的时频变换, k为频率点索引, N为时频变换 长度。

2053、 将所述频域的加权互相关函数进行频时变换, 得到时域的加权互 相关函数。

其中, 所述频时变换可以釆用现有技术中的任一中频 时变换方法, 例如, FFT ( Fast Fourier Transform, 快速傅立叶变换) 变换。

2054、 搜索时域的加权互相关函数的最大值, 并将所述最大值对应的时 间索引作为所述声音信号对应的通道间延时。

其中, 在搜索时域的加权互相关函数的最大值时, 可以从加权互相关函 数绝对值中搜索得到所述最大值, 也可以从加权互相关函数中搜索得到所述 最大值, 本发明实施例对此不进行限制。

例如, 当从加权互相关函数绝对值中搜索得到所述最 大值时, 可以釆用 公式 3获取所述最大值 , 所述公式 3为:

ί arg max | C r (n) | arg max | C r (ri) \<N 12

d =\

x [arg max | C r (n) | -N arg max | C r {n) |> Nil (公式 3 ) 当从加权互相关函数中搜索得到所述最大值时 , 可以釆用公式 4获取所 述最大值 , 所述公式 4为: ί arg max(C r («)) arg max(C r («)) <N 12

d =<

[arg max(C r (")) - N arg max(C r (")) > N/2 (八戈 4 ) 其中 | (^(«) |为(^ («)的幅度, argmax | (C («)) |为最大的互相关函数绝对值 对应的索引值, N为时频变换长度。

本发明实施例中, 对声音信号进行是否为交叉说话时的声音信号 的检测, 当检测到声音信号为交叉说话时的声音信号, 则将该声音信号对应的通道间 延时设置为固定值; 与现有技术中不区分是否为交叉说话时的声音 信号, 统 一釆用通道间延时估计的方法相比, 本发明实施例将检测出的交叉说话时的 声音信号对应的通道间延时设置为一固定值, 避免了通道间错误的延时估计, 造成的声场的不稳定, 从而能够在交叉说话时, 实现声场的稳定。

并且, 本发明实施例设置了声音信号为交叉说话时的 声音信号时的次数 门限, 当达到该次数门限后, 才将统计中的最后一帧交叉说话时的声音信号 对应的通道间延时设置为固定值, 从而避免了由于单次检测失误而将非交叉 说话时的声音信号, 当作交叉说话时的声音信号处理, 从而能够保证准确的 检测声音信号是否为交叉说话时的声音信号。

实施例 3

本发明实施例提供一种声音信号通道间延时估 计的方法, 在计算实际相 位差和预测相位差之间的误差时, 该预测相位差可以根据通道间估计延时或 通道间固定值延时中的至少一个估计获取; 本发明实施例以根据通道间估计 延时预测获取预测相位差为例, 具体阐述该声音信号通道间延时估计的方法, 如图 4所示, 该方法包括:

301、 根据现有技术中的声音信号通道间时延估计方 法, 获取声音信号对 应的通道间估计延时。

其中, 根据现有技术中的声音信号通道间时延估计方 法, 获取声音信号 对应的通道间估计延时, 可以参考实施例 2 中的步骤 205 中的描述, 此处将 不再赘述。

302、 计算声音信号通道间的实际相位差, 与根据所述通道间估计延时预 测的所述声音信号通道间的预测相位差之间的 第一误差。

其中, 所述第一误差为, 当所述预测相位差根据所述声音信号通道间估 计延时预测时, 计算声音信号通道间的实际相位差与预测相位 差之间的误差 获取, 所述计算声音信号通道间的实际相位差, 与根据所述通道间估计延时 预测的所述声音信号通道间的预测相位差之间 的第一误差, 可以包括:

在某段频带内计算各频点的声音信号通道间的 实际相位差 IPDW ,该实际 相位差可以釆用公式 5中计算获得, 公式 5为:

IPD{k) = X x {k) * 0<k<Max (公式 5)

其中, 为; r 2 )的共轭函数, ^) , ;τ 2 )分别为左路声道信号、 右 路声道信号的时频变换, k为频点取值, 其取值范围为 [1 , Max] , Max为某段 频带的最大频点。

在低频段内计算各频点的声音信号通道间的预 测相位差 /PD' ( t) ,该预测相 位差可以釆用公式 6中计算获得, 公式 6为:

-2nd '*k

IPD \k) = g - ~

N 0<k<Max (公式 6) 计算实际相位差 与预测相位差 之间的第一误差。其中, 所述 第一误差可以为在某段频带内各频点对应的实 际相位差与所述预测相位差之 差的绝对值之和, 或者还可以为在某个频带内各频点对应的实际 相位差与预 测相位差之差的绝对值的平均值, 本发明实施例对此不进行限制; 所述误差 还可以为在某个频带内各频点对应的实际相位 差与预测相位差之差的平方 和, 或者还可以为在某个频带内各频点对应的实际 相位差与预测相位差之差 的平方的平均值。

例如, 将在某段频带内各频点对应的实际相位差与所 述预测相位差之差 的绝对值之和作为第一误差,则计算 /PD( t)和 在 [1 , Max]范围内相位差 的差的绝对值之和, 可釆用公式 7 , 公式 7为:

(公式 7 ) 例如, 将在某段频带内各频点对应的实际相位差与所 述预测相位差之差 的绝对值的平均值作为第一误差,计算 /PD( t)和 在 [1 , Max]范围内相位 差之差的绝对值的平均值, 可以釆用公式 8 , 公式 8为:

Max-l

—— Y \ IPD(k) -IPD k) \ (公式 8 )

Max k=[ 例如, 将在某段频带内各频点对应的实际相位差与所 述预测相位差之差 的平方和作为第一误差,则计算 /PD(t)和 /PD'(t)在 [1 , Max]范围内相位差的差 的平方和, 可釆用公式 9 , 公式 9为:

Max-l

^(IPDi^ -IPD k)) 2 (公式 9 )

k=l 例如, 将在某段频带内各频点对应的实际相位差与所 述预测相位差之差 的平方的平均值作为第一误差,则计算 /PD(t)和 在 [1 , Max]范围内相位 差之差的平方的平均值, 可釆用公式 10 , 公式 10为:

(公式 10 )

303、 判断所述第一误差是否在第一预定范围内; 若所述第一误差不在第 一预定范围内, 表明检测的声音信号为交叉说话声音信号, 则执行步骤 304; 若所述第一误差在第一预定范围内 , 表明检测的声音信号为非交叉说话声音 信号; 则执行步骤 306。

其中, 所述第一预定范围为一经验范围, 根据非交叉说话声音信号的通 道间延时设置, 当该第一误差在所述第一预定范围内时, 表明检测的声音信 号为非交叉说话声音信号, 即为单一发生体对应的声音信号; 当第一误差不 在所述第一预定范围内时, 表明检测的声音信号为交叉说话声音信号; 其可 以是用户设置的固定范围, 也可以是在一定时间周期内统计的非交叉说话 声 音信号的通道间延时的范围, 本发明实施例对此不进行限制。

304、 统计声音信号为交叉说话时的声音信号的次数 , 并判断所述次数是 否大于预设次数门限; 若所述次数大于所述预设次数门限, 表明当前的说话 情景确实是交叉说话, 接收到的声音信号确实为交叉说话时的声音信 号, 则 执行步骤 305 ; 若所述次数小于或等于所述预设次数门限,表 明当前的说话情 景并不是交叉说话, 接收到的声音信号也并不是交叉说话时的声音 信号, 则 执行步骤 306。

其中, 所述预设门限次数为一经验值, 用户可以根据具体的需求具体设 置, 本发明实施例对此不进行限制, 例如可以将该门限次数设置为 3次。

305、 将统计中的最后一帧交叉说话时的声音信号对 应的通道间延时设置 为固定值。

其中, 所述固定值为一经验值, 用户可以根据具体的实施具体设置, 本 发明实施例对此不进行限制, 例如, 该固定值可以为 "0"。 将统计中的最后 一帧交叉说话时的声音信号对应的通道间延时 设置为固定值, 以便保持场强 的稳定性。

306、 将步骤 301中获取的通道间估计延时作为所述声音信号 对应的通道 间延时。

本发明实施例中, 对声音信号进行是否为交叉说话时的声音信号 的检测, 当检测到声音信号为交叉说话时的声音信号, 则将该声音信号对应的通道间 延时设置为固定值; 与现有技术中不区分是否为交叉说话时的声音 信号, 统 一釆用通道间延时估计的方法相比, 本发明实施例将检测出的交叉说话时的 声音信号对应的通道间延时设置为一固定值, 避免了通道间错误的延时估计, 造成的声场的不稳定, 从而能够在交叉说话时, 实现声场的稳定。

并且, 本发明实施例设置了声音信号为交叉说话时的 声音信号时的次数 门限, 当达到该次数门限后, 才将统计中的最后一帧交叉说话时的声音信号 对应的通道间延时设置为固定值, 从而避免了由于单次检测失误而将非交叉 说话时的声音信号, 当作交叉说话时的声音信号处理, 从而能够保证准确的 检测声音信号是否为交叉说话时的声音信号。

实施例 4

本发明实施例提供一种声音信号通道间延时估 计的方法, 本发明实施例 以根据通道间固定值延时预测获取预测相位差 为例, 具体阐述该声音信号通 道间延时估计的方法, 如图 5所示, 该方法包括:

401、 计算声音信号通道间的实际相位差, 与根据通道间固定值延时预测 的所述声音信号通道间的预测相位差之间的第 二误差。

其中, 所述第二误差为, 当所述预测相位差根据所述声音信号通道间间 固定值延时预测时, 计算声音信号通道间的实际相位差与预测相位 差之间的 误差获取, 所述计算计算声音信号通道间的实际相位差, 与根据所述通道间 固定值延时预测的所述声音信号通道间的预测 相位差之间的第二误差, 可以 包括:

在低频段内计算各频点的声音信号通道间的实 际相位差 IPD{k、 ,该实际相 位差可以釆用实施例 3中的公式 5中计算获得, 此处将不再赘述。

在低频段内计算各频点的声音信号通道间的预 测相位差 IPD'W,该预测相 位差可以釆用实施例 3中的公式 6中计算获得, 但该预测相位差 /ΡΖ)' (Α)由通 道间固定值延时预测获得, 当该通道间固定值延时为 0 时, 所述预测相位差 IPD' (k) =0 o

当设置为所述通道间固定值延时为 0 时, 计算所述第二误差, 其中, 所 述第二误差可以为在某段频带内各频点对应的 实际相位差与预测相位差之差 的绝对值之和, 或者还可以为在某个频带内各频点对应的实际 相位差与预测 相位差之差的绝对值的平均值, 本发明实施例对此不进行限制; 所述误差还 可以为在某个频带内各频点对应的实际相位差 与预测相位差之差的平方和, 或者还可以为在某个频带内各频点对应的实际 相位差与预测相位差之差的平 方的平均值。

例如, 将在某段频带内各频点对应的实际相位差与所 述预测相位差之差 的绝对值之和作为第二误差,则计算 /PD( t)和 在 [ 1 , Max]范围内相位差 的差的绝对值之和, 可釆用公式 1 1 , 公式 1 1为:

IPD(k) \ (公式 1 1 ) 例如, 将在某段频带内各频点对应的实际相位差与所 述预测相位差之差 的绝对值的平均值作为第二误差,计算 /PD( t)和 在 [ 1 , Max]范围内相位 差之差的绝对值的平均值, 可以釆用公式 12 , 公式 12为: ^-H IPD ( k

Max k=l (公式 12) 例如, 将在某段频带内各频点对应的实际相位差与所 述预测相位差之差 的平方和作为第二误差,则计算 /PD(t)和 /PD'(t)在 [1, Max]范围内相位差的差 的平方和, 可釆用公式 13, 公式 13为:

Max-l

YJPDik (公式 13)

k=\ 例如, 将在某段频带内各频点对应的实际相位差与所 述预测相位差之差 的平方的平均值作为第二误差,则计算 /PD(t)和 在 [1, Max]范围内相位 差之差的平方的平均值, 可釆用公式 14, 公式 14为:

Max-l

-∑(IPD(k)f (公式 14)

Max k=l

402、 判断所述第二误差是否在第二预定范围内; 若所述第二误差在所述 第二预定范围内,表明检测的声音信号为交叉 说话声音信号,则执行步骤 403; 若所述第一误差不在第一预定范围内, 表明检测的声音信号为非交叉说话声 音信号; 则执行步骤 405。

其中, 所述第二预定范围为一经验范围, 根据交叉说话声音信号的通道 间延时设置, 当该第二误差在所述第二预定范围内时, 表明检测的声音信号 为交叉说话声音信号; 当第二误差不在所述第二预定范围内时, 表明检测的 声音信号为非交叉说话声音信号, 即为单一发生体对应的声音信号; 其可以 是用户设置的固定范围, 也可以是在一定时间周期内统计的非交叉说话 声音 信号的通道间延时的范围, 本发明实施例对此不进行限制。

403、 统计声音信号为交叉说话时的声音信号的次数 , 并判断所述次数是 否大于预设次数门限; 若所述次数大于所述预设次数门限, 表明当前的说话 情景确实是交叉说话, 接收到的声音信号确实为交叉说话时的声音信 号, 则 执行步骤 404; 若所述次数小于或等于所述预设次数门限,表 明当前的说话情 景并不是交叉说话, 接收到的声音信号也并不是交叉说话时的声音 信号, 则 执行步骤 405。 其中, 所述预设门限次数为一经验值, 用户可以根据具体的需求具体设 置, 本发明实施例对此不进行限制, 例如可以将该门限次数设置为 3次。

404、 将统计中的最后一帧交叉说话时的声音信号对 应的通道间延时设置 为固定值。

其中, 所述固定值为一经验值, 用户可以根据具体的实施具体设置, 本 发明实施例对此不进行限制, 例如, 该固定值可以为 "0"。 将统计中的最后 一帧交叉说话时的声音信号对应的通道间延时 设置为固定值, 以便保持场强 的稳定性。

405、 根据现有技术中的声音信号通道间时延估计方 法, 获取声音信号对 应的通道间估计延时。

其中, 根据现有技术中的声音信号通道间时延估计方 法, 获取声音信号 对应的通道间估计延时, 可以参考实施例 2 中的步骤 205 中的描述, 此处将 不再赘述。

本发明实施例中, 对声音信号进行是否为交叉说话时的声音信号 的检测, 当检测到声音信号为交叉说话时的声音信号, 则将该声音信号对应的通道间 延时设置为固定值; 与现有技术中不区分是否为交叉说话时的声音 信号, 统 一釆用通道间延时估计的方法相比, 本发明实施例将检测出的交叉说话时的 声音信号对应的通道间延时设置为一固定值, 避免了通道间错误的延时估计, 造成的声场的不稳定, 从而能够在交叉说话时, 实现声场的稳定。

并且, 本发明实施例设置了声音信号为交叉说话时的 声音信号时的次数 门限, 当达到该次数门限后, 才将统计中的最后一帧交叉说话时的声音信号 对应的通道间延时设置为固定值, 从而避免了由于单次检测失误而将非交叉 说话时的声音信号, 当作交叉说话时的声音信号处理, 从而能够保证准确的 检测声音信号是否为交叉说话时的声音信号。

实施例 5

本发明实施例提供一种声音信号通道间延时估 计的方法, 本发明实施例 以根据通道间估计延时和通道间固定值延时预 测获取预测相位差为例, 具体 阐述该声音信号通道间延时估计的方法, 如图 6所示, 该方法包括:

501、 根据现有技术中的声音信号通道间时延估计方 法, 获取声音信号对 应的通道间估计延时。

其中, 根据现有技术中的声音信号通道间时延估计方 法, 获取声音信号 对应的通道间估计延时, 可以参考实施例 2 中的步骤 205 中的描述, 此处将 不再赘述。

502、 计算声音信号通道间的实际相位差, 与根据所述通道间估计延时预 测的所述声音信号通道间的预测相位差之间的 第一误差。

其中, 所述第一误差为, 当所述预测相位差根据所述声音信号通道间估 计延时预测时, 计算声音信号通道间的实际相位差与预测相位 差之间的误差 获取, 所述计算声音信号通道间的实际相位差, 与根据所述通道间估计延时 预测的所述声音信号通道间的预测相位差之间 的第一误差,可以参考实施例 3 中的步骤 302中的描述, 此处将不再赘述。

503、 计算声音信号通道间的实际相位差, 与根据通道间固定值延时预测 的所述声音信号通道间的预测相位差之间的第 二误差。

其中, 所述第二误差为, 当所述预测相位差根据所述声音信号通道间间 固定值延时预测时, 计算声音信号通道间的实际相位差与预测相位 差之间的 误差获取, 所述计算声音信号通道间的实际相位差, 与根据通道间固定值延 时预测的所述声音信号通道间的预测相位差之 间的第二误差, 可以参考实施 例 4中的步骤 401中的描述, 此处将不再赘述。

504、 根据所述第二误差和第一误差的比值判断所述 声音信号是否为交叉 说话时的声音; 若所述声音信号为交叉说话时的声音, 则执行步骤 505 ; 若所 述声音信号为非交叉说话时的声音, 则执行步骤 507。

其中 , 根据所述第二误差和第一误差的比值判断所述 声音信号是否为交 叉说话时的声音包括: 判断所述比值是否小于第一门限值; 若所述比值小于 所述第一门限值, 则判定所述声音信号为交叉说话时的声音信号 , 则执行步 骤 504; 若所述比值大于或等于所述第一门限值, 则判定所述声音信号为非交 叉说话时的声音信号, 则执行步骤 507。

505、 统计所述声音信号为交叉说话时的声音信号的 次数, 并判断所述次 数是否大于预设次数门限; 若所述次数大于所述预设次数门限, 表明当前的 说话情景确实是交叉说话, 接收到的声音信号确实为交叉说话时的声音信 号 , 则执行步骤 506; 若所述次数小于或等于所述预设次数门限, 表明当前的说话 情景并不是交叉说话, 接收到的声音信号也并不是交叉说话时的声音 信号, 则执行步骤 507。

其中, 所述预设门限次数为一经验值, 用户可以根据具体的需求具体设 置, 本发明实施例对此不进行限制, 例如可以将该门限次数设置为 3次。

506、 将统计中的最后一帧交叉说话时的声音信号对 应的通道间延时设置 为固定值。

其中, 所述固定值为一经验值, 用户可以根据具体的实施具体设置, 本 发明实施例对此不进行限制, 例如, 该固定值可以为 "0"。 将统计中的最后 一帧交叉说话时的声音信号对应的通道间延时 设置为固定值, 以便保持场强 的稳定性。

507、 将步骤 501中获取的通道间估计延时作为所述声音信号 对应的通道 间延时。

其中, 需要说明的时, 在计算第一误差和计算第二误差在具体执行时 没 有先后之分, 本发明实施例为了描述的方便, 将计算第一误差放在步骤 502 中描述, 将计算第二误差放在 503 中描述; 在具体执行本发明实施例时, 也 可以将计算第二误差的步骤放在步骤 502 中描述, 将计算第一误差的步骤放 在步骤 503中描述, 本发明实施例对此不进行限制。

本发明实施例中, 对声音信号进行是否为交叉说话时的声音信号 的检测, 当检测到声音信号为交叉说话时的声音信号, 则将该声音信号对应的通道间 延时设置为固定值; 与现有技术中不区分是否为交叉说话时的声音 信号, 统 一釆用通道间延时估计的方法相比, 本发明实施例将检测出的交叉说话时的 声音信号对应的通道间延时设置为一固定值, 避免了通道间错误的延时估计, 造成的声场的不稳定, 从而能够在交叉说话时, 实现声场的稳定。 并且, 本发明实施例设置了声音信号为交叉说话时的 声音信号时的次数 门限, 当达到该次数门限后, 才将统计中的最后一帧交叉说话时的声音信号 对应的通道间延时设置为固定值, 从而避免了由于单次检测失误而将非交叉 说话时的声音信号, 当作交叉说话时的声音信号处理, 从而能够保证准确的 检测声音信号是否为交叉说话时的声音信号。

实施例 6 本发明的实施例提供一种声音信号通道间延时 估计的方法, 本发明实施 例根据所述第二误差和第一误差的比值以及第 一误差判断所述声音信号是否 为交叉说话时的声音信号为了具体阐述声音信 号通道间延时估计的方法; 如 图 7所示, 该方法包括:

601、 根据现有技术中的声音信号通道间时延估计方 法, 获取声音信号对 应的通道间估计延时。

其中, 根据现有技术中的声音信号通道间时延估计方 法, 获取声音信号 对应的通道间估计延时, 可以参考实施例 2 中的步骤 205 中的描述, 此处将 不再赘述。

602、 计算声音信号通道间的实际相位差, 与根据所述通道间估计延时预 测的所述声音信号通道间的预测相位差之间的 第一误差。

其中, 所述第一误差为, 当所述预测相位差根据所述声音信号通道间估 计延时预测时, 计算声音信号通道间的实际相位差与预测相位 差之间的误差 获取, 所述计算声音信号通道间的实际相位差, 与根据所述通道间估计延时 预测的所述声音信号通道间的预测相位差之间 的第一误差,可以参考实施例 3 中的步骤 302中的描述, 此处将不再赘述。

603、 计算声音信号通道间的实际相位差, 与根据通道间固定值延时预测 的所述声音信号通道间的预测相位差之间的第 二误差。

其中, 所述第二误差为, 当所述预测相位差根据所述声音信号通道间间 固定值延时预测时, 计算声音信号通道间的实际相位差与预测相位 差之间的 误差获取, 所述计算声音信号通道间的实际相位差, 与根据通道间固定值延 时预测的所述声音信号通道间的预测相位差之 间的第二误差, 可以参考实施 例 4中的步骤 401中的描述, 此处将不再赘述。

604、 判断所述声音信号的前一帧声音信号是否为交 叉说话时的声音信 号; 若所述声音信号的前一帧声音信号不是交叉说 话时的声音信号, 则执行 步骤 605; 若所述声音信号的前一帧声音信号是交叉说话 时的声音信号, 则执 行步骤 608。

605、 判断所述第二误差和第一误差的比值是否小于 第一门限值, 并且所 述第一误差是否大于第二门限值; 若所述比值小于第一门限值, 并且所述第 一误差大于第二门限值, 表明所述声音信号为交叉说话时的声音信号, 则执 行步骤 606; 否则, 执行步骤 609。

606、 统计所述声音信号为交叉说话时的声音信号的 次数, 并判断所述次 数是否大于预设次数门限; 若所述次数大于所述预设次数门限, 表明当前的 说话情景确实是交叉说话, 接收到的声音信号确实为交叉说话时的声音信 号 , 则执行步骤 607; 若所述次数小于或等于所述预设次数门限, 表明当前的说话 情景并不是交叉说话, 接收到的声音信号也并不是交叉说话时的声音 信号, 则执行步骤 609。

其中, 所述预设门限次数为一经验值, 用户可以根据具体的需求具体设 置, 本发明实施例对此不进行限制, 例如可以将该门限次数设置为 3次。

607、 将统计中的最后一帧交叉说话时的声音信号对 应的通道间延时设置 为固定值, 结束本次通道间延时估计。

其中, 所述固定值为一经验值, 用户可以根据具体的实施具体设置, 本 发明实施例对此不进行限制, 例如, 该固定值可以为 "0"。 将统计中的最后 一帧交叉说话时的声音信号对应的通道间延时 设置为固定值, 以便保持场强 的稳定性。

608、 判断所述第二误差和第一误差的比值是否小于 第一门限值, 并且所 述第一误差是否大于第三门限值; 若所述比值小于第一门限值, 并且所述第 一误差大于第三门限值, 则执行步骤 606; 否则执行步骤 609。

609、 将步骤 601中获取的通道间估计延时作为所述声音信号 对应的通道 间延时, 结束本次通道间延时估计。

其中, 需要说明的时, 在计算第一误差和计算第二误差在具体执行时 没 有先后之分, 本发明实施例为了描述的方便, 将计算第一误差放在步骤 602 中描述, 将计算第二误差放在 603 中描述; 在具体执行本发明实施例时, 也 可以将计算第二误差的步骤放在步骤 602 中描述, 将计算第一误差的步骤放 在步骤 603中描述, 本发明实施例对此不进行限制。

本发明实施例中, 对声音信号进行是否为交叉说话时的声音信号 的检测, 当检测到声音信号为交叉说话时的声音信号, 则将该声音信号对应的通道间 延时设置为固定值; 与现有技术中不区分是否为交叉说话时的声音 信号, 统 一釆用通道间延时估计的方法相比, 本发明实施例将检测出的交叉说话时的 声音信号对应的通道间延时设置为一固定值, 避免了通道间错误的延时估计, 造成的声场的不稳定, 从而能够在交叉说话时, 实现声场的稳定。

并且, 本发明实施例设置了声音信号为交叉说话时的 声音信号时的次数 门限, 当达到该次数门限后, 才将统计中的最后一帧交叉说话时的声音信号 对应的通道间延时设置为固定值, 从而避免了由于单次检测失误而将非交叉 说话时的声音信号, 当作交叉说话时的声音信号处理, 从而能够保证准确的 检测声音信号是否为交叉说话时的声音信号。

进一步, 在对当前声音信号进行检测之前, 先判断该当前声音信号的前 一帧声音信号是否为交叉说话时的声音信号, 并根据判断的结果设置不同的 检测所述当前声音信号是否为交叉说话时的声 音信号第二门限值和第三门限 值, 更进一步的保证检测当前声音信号是否为交叉 说话时的声音信号准确性, 从而进一步的增强了声场的稳定性。

实施例 7 本发明实施例提供一种声音信号通道间延时估 计的装置, 如图 8 所示, 该装置包括: 计算单元 71、 第一判断单元 72和处理单元 73。 计算单元 71 , 用于计算声音信号通道间的实际相位差与预测 相位差之间 的误差, 所述预测相位差根据所述声音信号通道间预定 延时预测。 其中, 所 述通道间预定延时包括通道间估计延时或通道 间固定值延时, 所述通道间估 计延时为利用通道间的相关性估计的延时。

第一判断单元 72 ,用于根据所述计算单元 71计算得到的所述误差判断所 述声音信号是否为交叉说话时的声音信号。

处理单元 73 ,用于在所述第一判断单元 72判定所述声音信号为交叉说话 时的声音信号时, 将所述声音信号对应的通道间延时设置为固定 值。 其中, 所述固定值为一经验值, 用户可以根据具体的实施具体设置, 本发明实施例 对此不进行限制, 例如, 该固定值可以为 " 0"。 将所述声音信号对应的通道 间延时设置为固定值, 以便保持场强的稳定性

进一步, 如图 9所示, 该装置还包括: 统计单元 74和第二判断单元 75。 统计单元 74 ,用于在所述第一判断单元 72判定声音信号为交叉说话时的 声音信号之后, 统计声音信号为交叉说话时的声音信号的次数 。

第二判断单元 75 ,用于判断所述统计单元 74统计的所述次数是否大于预 设次数门限; 在所述次数大于预设次数门限时, 所述处理单元 73还用于将统 计中的最后一帧交叉说话时的声音信号对应的 通道间延时设置为固定值。

进一步的, 当所述通道间预定延时为通道间估计延时时, 如图 10所示, 所述计算单元 71包括: 第一计算模块 711 ; 所述第一判断单元 72包括: 第一 判断模块 721。

第一计算模块 711 , 用于计算声音信号通道间的实际相位差, 与根据通道 间估计延时预测的所述声音信号通道间的预测 相位差之间的第一误差;

第一判断模块 721 ,用于判断所述第一计算模块 711计算得到的所述第一 误差是否在第一预定范围内; 当所述第一误差不在第一预定范围内时, 判定 所述声音信号为交叉说话时的声音信号。

进一步, 当所述通道间预定延时为通道间固定值延时时 , 如图 11所示, 所述计算单元 71包括: 第二计算模块 712 ; 所述第一判断单元 72包括: 第二 判断模块 722。

第二计算模块 712 , 用于计算声音信号通道间的实际相位差, 与根据通道 间固定值延时预测的所述声音信号通道间的预 测相位差之间的第二误差; 第二判断模块 722 ,用于判断所述第二计算模块 712计算得到的所述第二 误差是否在第二预定范围内; 当所述第二误差在第二预定范围内时, 判定所 述声音信号为交叉说话时的声音信号。

进一步, 当所述通道间预定延时为通道间估计延时和通 道间固定值延时 时, 如图 12所示, 所述计算单元 71 包括: 第三计算模块 713和第四计算模 块 714; 所述第一判断单元 72包括: 第三判断模块 723。

第三计算模块 713 , 用于计算声音信号通道间的实际相位差, 与根据通道 间估计延时预测的所述声音信号通道间的预测 相位差之间的第一误差;

第四计算模块 714 , 用于计算声音信号通道间的实际相位差, 与根据通道 间固定值延时预测的所述声音信号通道间的预 测相位差之间的第二误差; 第三判断模块 723 ,用于根据所述第四计算模块 714计算得到的所述第二 误差和所述第三计算模块 713计算得到的所述第一误差的比值, 判断所述声 音信号为交叉说话时的声音信号。 其中, 第三判断模块 723根据所述第四计 算模块 714计算得到的所述第二误差和所述第三计算模 块 713计算得到的所 述第一误差的比值, 判断所述声音信号为交叉说话时的声音信号, 可以包括: 判断所述比值是否小于第一门限值; 当所述比值小于所述第一门限值时, 判 定所述声音信号为交叉说话时的声音信号。

更进一步, 当所述通道间预定延时为通道间估计延时和通 道间固定值延 时时, 如图 13所示, 所述第一判断单元 72还包括: 第四判断模块 724。

第四判断模块 724 ,用于根据所述第四计算模块计算得到的所述 二误差 和所述第三计算模块 713计算得到的所述第一误差的比值以及所述第 一误差, 判断所述声音信号是否为交叉说话时的声音信 号。 其中, 第四判断模块 724 根据所述第四计算模块计算得到的所述第二误 差和所述第三计算模块 713计 算得到的所述第一误差的比值以及所述第一误 差, 判断所述声音信号是否为 交叉说话时的声音信号, 可以包括: 判断所述声音信号的前一帧声音信号是 否为交叉说话时的声音信号; 当所述声音信号的前一帧声音信号不是交叉说 话时的声音信号时, 判断所述第二误差和第一误差的比值是否小于 第一门限 值, 并且所述第一误差是否大于第二门限值; 在所述比值小于第一门限值, 并且所述第一误差大于第二门限值时, 判定所述声音信号为交叉说话时的声 音信号;

当所述声音信号的前一帧声音信号是交叉说话 时的声音信号时, 所述第 四判断模块 724还用于判断所述第二误差和第一误差的比值 是否小于第一门 限值, 并且所述第一误差是否大于第三门限值; 当所述比值小于第一门限值, 并且所述第一误差大于第三门限值时, 判定所述声音信号为交叉说话时的声 音信号。

进一步, 需要说明的是, 该装置对应模块的相应描述, 可以参考其他实 施例中的描述, 本发明实施例将不再赘述。

本发明实施例中, 对声音信号进行是否为交叉说话时的声音信号 的检测, 当检测到声音信号为交叉说话时的声音信号, 则将该声音信号对应的通道间 延时设置为固定值; 与现有技术中不区分是否为交叉说话时的声音 信号, 统 一釆用通道间延时估计的方法相比, 本发明实施例将检测出的交叉说话时的 声音信号对应的通道间延时设置为一固定值, 避免了通道间错误的延时估计, 造成的声场的不稳定, 从而能够在交叉说话时, 实现声场的稳定。

并且, 本发明实施例设置了声音信号为交叉说话时的 声音信号时的次数 门限, 当达到该次数门限后, 才将统计中的最后一帧交叉说话时的声音信号 对应的通道间延时设置为固定值, 从而避免了由于单次检测失误而将非交叉 说话时的声音信号, 当作交叉说话时的声音信号处理, 从而能够保证准确的 检测声音信号是否为交叉说话时的声音信号。

进一步, 在对当前声音信号进行检测之前, 先判断该当前声音信号的前 一帧声音信号是否为交叉说话时的声音信号, 并根据判断的结果设置不同的 检测所述当前声音信号是否为交叉说话时的声 音信号第二门限值和第三门限 值, 更进一步的保证检测当前声音信号是否为交叉 说话时的声音信号准确性, 从而进一步的增强了声场的稳定性。

通过以上的实施方式的描述, 所属领域的技术人员可以清楚地了解到本 发明可借助软件加必需的通用硬件的方式来实 现, 当然也可以通过硬件, 但 很多情况下前者是更佳的实施方式。 基于这样的理解, 本发明的技术方案本 质上或者说对现有技术做出贡献的部分可以以 软件产品的形式体现出来, 该 计算机软件产品存储在可读取的存储介质中, 如计算机的软盘, 硬盘或光盘 等, 包括若干指令用以使得一台计算机设备(可以 是个人计算机, 服务器, 或者网络设备等)执行本发明各个实施例所述 的方法。

以上所述, 仅为本发明的具体实施方式, 但本发明的保护范围并不局限 于此, 任何熟悉本技术领域的技术人员在本发明揭露 的技术范围内, 可轻易 想到变化或替换, 都应涵盖在本发明的保护范围之内。 因此, 本发明的保护 范围应以所述权利要求的保护范围为准。