Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SPEECH SIGNAL PROCESSING METHOD AND DEVICE BASED ON MICROPHONE ARRAY
Document Type and Number:
WIPO Patent Application WO/2011/153904
Kind Code:
A1
Abstract:
The present invention discloses a speech signal processing method based on a microphone array, and the microphone array is composed of more than two directional microphones. The method comprises the following steps: determining the energy values of speech signals of the same frame, received by each directional microphone; determining adjustment parameters of speech signals of the same frame according to energy values; determining the weight of each sampling point signal in the speech signals according to the adjustment parameter of each speech signal, multiplying each sampling point signal in each speech signal by each weight, accumulating product values of sampling point signals corresponding to each speech signal, and outputting accumulated sampling point signals in sequence. The present invention also discloses a speech signal processing device based on the microphone array. The present invention has a simple compute mode, needs no complex calculation and circuit, and has favorable reverberation resistance and orientated pickup functions.

Inventors:
HE, Hongsen (ZTE Plaza, Keji Road South Hi-Tech Industrial Park, Nansha, Shenzhen Guangdong 7, 518057, CN)
何宏森 (中国广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦, Guangdong 7, 518057, CN)
HUANG, Zhihong (ZTE Plaza, Keji Road South Hi-Tech Industrial Park, Nansha, Shenzhen Guangdong 7, 518057, CN)
黄志宏 (中国广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦, Guangdong 7, 518057, CN)
Application Number:
CN2011/074794
Publication Date:
December 15, 2011
Filing Date:
May 27, 2011
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ZTE CORPORATION (ZTE Plaza, Keji Road South Hi-Tech Industrial Park, Nansha, Shenzhen Guangdong 7, 518057, CN)
中兴通讯股份有限公司 (中国广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦, Guangdong 7, 518057, CN)
HE, Hongsen (ZTE Plaza, Keji Road South Hi-Tech Industrial Park, Nansha, Shenzhen Guangdong 7, 518057, CN)
何宏森 (中国广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦, Guangdong 7, 518057, CN)
HUANG, Zhihong (ZTE Plaza, Keji Road South Hi-Tech Industrial Park, Nansha, Shenzhen Guangdong 7, 518057, CN)
International Classes:
G01L19/00; H04R1/20
Attorney, Agent or Firm:
CHINA PAT INTELLECTUAL PROPERTY OFFICE (Suite 717, No. 113 Zhichun RoadHaidian, Beijing 6, 100086, CN)
Download PDF:
Claims:
权利要求书

1、 一种基于传声器阵列的语音信号处理方法, 其特征在于, 所述传声 器阵列由两个以上的指向性传声器构成; 所述方法包括:

确定各指向性传声器接收的相同帧的语音信号的能量值;

根据所述能量值确定所述相同帧的各语音信号的调整参数;

根据各语音信号的调整参数确定语音信号中各取样点信号的权值, 将 各语音信号中各取样点信号与各自的权值相乘, 并对各语音信号的对应取 样点信号的乘积值进行累加, 将累加后的取样点信号依次输出。

2、 根据权利要求 1所述的方法, 其特征在于, 所述根据所述能量值确 定所述相同帧的各语音信号的调整参数, 为:

将所述相同帧的各语音信号的能量值分别与最大的能量值作商; 对各商值进行指数调整处理, 并作为各语音信号的调整参数。

3、 根据权利要求 2所述的方法, 其特征在于, 所述对各商值进行指数 调整处理, 并作为各语音信号的调整参数, 为:

将各商值的 E次方作为各语音信号的调整参数; 其中, E为大于等于 2 小于等于 10的正数。

4、 根据权利要求 1所述的方法, 其特征在于, 所述根据各语音信号的 调整参数确定语音信号中各取样点信号的权值 , 具体按下式计算:

w,(n) = /lw,(n -l) + (l-/l)C ;其中, w )为传声器 i中的当前语音信号帧 中第 n个取样点信号的权值, W -1)为传声器 i中的当前语音信号帧中第 n-1个取样点信号的权值; 为预先设定的遗忘因子, 0< <1; C为当前语 音信号帧的调整参数。

5、 根据权利要求 1所述的方法, 其特征在于, 所述根据各语音信号的 调整参数确定语音信号中各取样点信号的权值, 为:

w,(n) = /lw,(n -l) + (l-/l)C ;其中, w )为传声器 i中的当前语音信号帧 中第 n个取样点信号的初始权值, W -1)为传声器 i中的当前语音信号帧 中第 n-1个取样点信号的初始权值; 为预先设定的遗忘因子, 0< <1; C 为当前语音信号帧的调整参数;

按下式对 w )进行处理, 并将 )作为传声器 i中的当前语音信号帧 中第 n个取样点信号的最终权值:

^ (n) = ^ ( (、 Λ 、 —- , 其中, max ( ) 为取最大值计算。

max ^ (n), w2 ( ),…, wN (n))

6、 根据权利要求 1至 5任一项所述的方法, 其特征在于, 所述传声器 阵列为圓形阵列或球形阵列;所述传声器阵列中的传声器数量为 3至 16个。

7、 一种基于传声器阵列的语音信号处理装置, 其特征在于, 所述传声 器阵列由两个以上的指向性传声器构成; 所述装置包括第一确定单元、 第 二确定单元、 计算单元和输出单元; 其中,

第一确定单元, 用于确定各指向性传声器接收的相同帧的语音信号的 能量值;

第二确定单元, 用于根据所述能量值确定所述相同帧的各语音信号的 调整参数;

计算单元, 用于根据各语音信号的调整参数确定语音信号中各取样点 信号的权值, 将各语音信号中各取样点信号与各自的权值相乘, 并对各语 音信号的对应取样点信号的乘积值进行累加;

输出单元, 用于将累加后的取样点信号依次输出。

8、 根据权利要求 7所述的装置, 其特征在于, 所述第二确定单元进一 步将所述相同帧的各语音信号的能量值分别与最大的能量值作商; 并对各 商值进行指数调整处理, 作为各语音信号的调整参数。

9、 根据权利要求 8所述的装置, 其特征在于, 所述第二确定单元进一 步将各商值的 E次方作为各语音信号的调整参数; 其中, E为大于等于 2 小于等于 10的正数。 10、 根据权利要求 7所述的装置, 其特征在于, 所述计算单元进一步 按下式计算语音信号中各取样点信号的权值:

w,(n) = /lw,(n-l) + (l-/l)C;其中, w )为传声器 i中的当前语音信号帧 中第 n个取样点信号的权值, W -1)为传声器 i中的当前语音信号帧中第 n-1个取样点信号的权值; 为预先设定的遗忘因子, 0< <1; C为当前语 音信号帧的调整参数。

11、 根据权利要求 7 所述的装置, 其特征在于, 所述计算单元进一步 按下述方式计算语音信号中各取样点信号的权值:

w,(n) = /lw,(n-l) + (l-/l)C;其中, w )为传声器 i中的当前语音信号帧 中第 n个取样点信号的初始权值, W -1)为传声器 i中的当前语音信号帧 中第 n-1个取样点信号的初始权值; 为预先设定的遗忘因子, 0< <1; C 为当前语音信号帧的调整参数;

按下式对 w )进行处理, 将 )作为传声器 i中的当前语音信号帧中 第 n个取样点信号的最终权值:

^(n) = ^ ( (、 Λ 、 —-, 其中, max ( ) 为取最大值计算。

max(wl (n), w2 (n), ···, wN (n))

12、 根据权利要求 7至 11任一项所述的装置, 其特征在于, 所述传声 器阵列为圓形阵列或球形阵列; 所述传声器阵列中的传声器数量为 3至 16

Description:
基于传声器阵列的语音信号处理方法及装置 技术领域

本发明涉及语音信号处理技术, 尤其涉及一种基于传声器阵列的语音 信号处理方法及装置。 背景技术

在会议场所, 各种干扰源的存在以及混响等噪音干扰着语音 信号, 会 使语音处理系统的性能急剧下降, 因此语音增强技术颇为重要。 基于传声 器阵列的多通道语音增强算法融合了信号的时 空域信息, 利用噪声同语音 的相关性差异进行消噪, 近几年已经成为多媒体会议、 通信、 声控等系统 所依赖的重要技术。 音质和性能的好坏会严重影响音频会议系统的 整体效 果与市场竟争力, 因此, 针对噪声, 目前常通过传声器阵列技术实现消噪, 这使得音频会议系统的参与人员彻底摆脱手持 传声器并定向到传声器的束 缚, 大大提高了音频会议系统的实用性。 对语音信号处理而言, 需要争取 使进入编码器的语音音质就比较好, 如低混响、 低噪声等, 传声器阵列就 是为保证语音信号的低混响、 低噪声而设计的。

公开号为 CN101496417A、公开日为 2009年 7月 29日的中国专利申请 公开了一种 "语音会议系统", 在不同方向上的多个单向传声器拾取的语音 釆集信号形成多个语音釆集束信号, 其后, 与语音到达方向相对应的语音 釆集束信号的信号电平变高, 语音釆集部分选择信号电平超过设定阔值的 语音釆集束信号, 并将该信号送到通信部分。 该技术方案中, 超过阔值的 语音釆集束信号可能有多个, 这样在小房间就会增加混响, 使声音清晰度 降低。

公开号为 US20050195988A1、公开日为 2005年 9月 8日的美国专利申 请公开了一种 "System and method for beamforming using a microphone array" , 该技术方案是使用传声器阵列聚束的系统和方 法, 其技术方案的实 质是设计了一个聚束器, 该聚束器首先利用描述传声器阵列的特性和结 构 的参数信息来计算频域相关的权值矩阵, 与一个或多个为传声器阵列周围 环境自动生成或计算得到的噪声模型相结合, 来对传声器阵列的最优固定 波束进行设计, 然后, 在对传声器阵列接收的音频信号进行频域聚束 处理 时, 利用此权值矩阵对传声器阵列中的每个传声器 的输出进行频域加权。 该方法需要根据阵列的特性和结构在频域计算 加权矩阵, 以达到形成波束 的目的, 增加了系统的复杂度, 加大了系统的开发难度并且降低了系统的 可靠性。 发明内容

有鉴于此, 本发明的主要目的在于提供一种基于传声器阵 列的语音信 号处理方法及装置, 利用强指向性传声器阵列能将距发言人最近的 语音信 号进行放大, 从而能动态跟踪发言人。

为达到上述目的, 本发明的技术方案是这样实现的:

一种基于传声器阵列的语音信号处理方法, 所述传声器阵列由两个以 上的指向性传声器构成; 所述方法包括:

确定各指向性传声器接收的相同帧的语音信号 的能量值;

根据所述能量值确定所述相同帧的各语音信号 的调整参数;

根据各语音信号的调整参数确定语音信号中各 取样点信号的权值, 将 各语音信号中各取样点信号与各自的权值相乘 , 并对各语音信号的对应取 样点信号的乘积值进行累加, 将累加后的取样点信号依次输出。

优选地, 所述根据所述能量值确定所述相同帧的各语音 信号的调整参 数, 为:

将所述相同帧的各语音信号的能量值分别与最 大的能量值作商; 对各商值进行指数调整处理, 并作为各语音信号的调整参数。

优选地, 所述对各商值进行指数调整处理, 并作为各语音信号的调整 参数, 为:

将各商值的 E次方作为各语音信号的调整参数; 其中, E为大于等于 2 小于等于 10的正数。

优选地, 所述根据各语音信号的调整参数确定语音信号 中各取样点信 号的权值, 具体按下式计算:

w i {n) = w i {n-\) + {\-X)C-其中, w )为传声器 i中的当前语音信号帧 中第 n个取样点信号的权值, W -1)为传声器 i中的当前语音信号帧中第 n-1个取样点信号的权值; 为预先设定的遗忘因子, 0< <1; C为当前语 音信号帧的调整参数。

优选地, 所述根据各语音信号的调整参数确定语音信号 中各取样点信 号的权值, 为:

w i {n) = w i {n-\) + {\-X)C-其中, w )为传声器 i中的当前语音信号帧 中第 n个取样点信号的初始权值, W -1)为传声器 i中的当前语音信号帧 中第 n-1个取样点信号的初始权值; 为预先设定的遗忘因子, 0< <1; C 为当前语音信号帧的调整参数;

按下式对 w )进行处理, 将 )作为传声器 i中的当前语音信号帧中 第 n个取样点信号的最终权值:

v. (n )

^(η) = ^ ( (、 ' 、 —-, 其中, max ( ) 为取最大值计算。

max^ (n), w 2 (n),…, w N (n)) 优选地, 所述传声器阵列为圓形阵列或球形阵列; 所述传声器阵列中 的传声器数量为 4至 16个。

一种基于传声器阵列的语音信号处理装置, 所述传声器阵列由两个以 上的指向性传声器构成; 所述装置包括第一确定单元、 第二确定单元、 计 算单元和输出单元; 其中,

第一确定单元, 用于确定各指向性传声器接收的相同帧的语音 信号的 能量值;

第二确定单元, 用于根据所述能量值确定所述相同帧的各语音 信号的 调整参数;

计算单元, 用于根据各语音信号的调整参数确定语音信号 中各取样点 信号的权值, 将各语音信号中各取样点信号与各自的权值相 乘, 并对各语 音信号的对应取样点信号的乘积值进行累加;

输出单元, 用于将累加后的取样点信号依次输出。

优选地, 所述第二确定单元进一步将所述相同帧的各语 音信号的能量 值分别与最大的能量值作商; 并对各商值进行指数调整处理, 作为各语音 信号的调整参数。

优选地, 所述第二确定单元进一步将各商值的 E次方作为各语音信号 的调整参数; 其中, E为大于等于 2小于等于 10的正数。

优选地, 所述计算单元进一步按下式计算语音信号中各 取样点信号的 权值:

w i {n) = w i {n-\) + {\-X)C-其中, w )为传声器 i中的当前语音信号帧 中第 n个取样点信号的权值, W -1)为传声器 i中的当前语音信号帧中第 n-1个取样点信号的权值; 为预先设定的遗忘因子, 0< <1; C为当前语 音信号帧的调整参数。

优选地, 所述计算单元进一步按下述方式计算语音信号 中各取样点信 号的权值:

w i {n) = w i {n-\) + {\-X)C-其中, w )为传声器 i中的当前语音信号帧 中第 n个取样点信号的初始权值, W -1)为传声器 i中的当前语音信号帧 中第 n-1个取样点信号的初始权值; 为预先设定的遗忘因子, 0< <1; C 为当前语音信号帧的调整参数;

按下式对 w )进行处理, 将 )作为传声器 i中的当前语音信号帧中 第 n个取样点信号的最终权值:

v. (n )

^ (n) = ^ ( (、 1 —- , 其中, max ( ) 为取最大值计算。

max^ (n), w 2 (n),…, w N (n)) 优选地, 所述传声器阵列为圓形阵列或球形阵列; 所述传声器阵列中 的传声器数量为 3至 16个。

本发明中, 釆用 N个强指向性传声器构成圓形阵列, 阵列的拾音覆盖 360度方位;首先对强指向性传声器阵列中各传 声器接收到的语音信号的能 量值, 通过语音信号的能量值信息, 确定出各传声器接收到的当前语音帧 的语音信号的调整参数, 并利用该调整参数计算当前语音帧的各釆样点 信 号的权值, 将所计算出的权值与对应的釆样点信号相乘, 对相同位置的釆 样点信号的乘积进行累加, 并按釆样点的顺序依次输出。 本发明利用传声 器阵列中各传声器所接收语音信号的能量值来 确定各路语音信号的调整参 数, 并利用遗忘因子对各釆样点信号进行平滑处理 , 使得所输出的语音信 号更连贯。 本发明计算方式简单, 不需要复杂的计算和电路, 具有良好的 抗混响和定向拾音功能。 附图说明

图 1为本发明基于传声器阵列的语音信号处理方 的流程图; 图 2为在混响室两个声源相互切换发声时, 传声器阵列中各传声器拾 取的语音信号语音帧的归一化能量变化关系的 示意图;

图 3 为在混响室两个声源相互切换发声时, 传声器阵列的输出信号中 各通道语音帧所占的平均权重变化关系的示意 图;

图 4为在混响室两个声源同时发声时, 传声器阵列中各传声器拾取的 语音信号语音帧的归一化能量变化关系的示意 图; 图 5 为在混响室两个声源同时发声时, 传声器阵列的输出信号中各通 道语音帧所占的平均权重变化关系的示意图;

图 6为在普通房间两个声源相互切换发声时, 传声器阵列中各传声器 拾取的语音信号语音帧的归一化能量变化关系 的示意图;

图 7为在普通房间两个声源相互切换发声时, 传声器阵列的输出信号 中各通道语音帧所占的平均权重变化关系的示 意图;

图 8为在普通房间两个声源同时发声时, 传声器阵列中各传声器拾取 的语音信号语音帧的归一化能量变化关系的示 意图;

图 9为在普通房间两个声源同时发声时, 传声器阵列的输出信号中各 通道语音帧所占的平均权重变化关系的示意图 ;

图 10 为本发明基于传声器阵列的语音信号处理装置 的组成结构示意 图。 具体实施方式

本发明的基本思想为, 釆用 N个强指向性传声器构成圓形阵列, 使传 声器阵列的拾音覆盖 360度方位; 对各传声器拾取的信号分帧计算能量, 通过能量的比较, 保持能量最大通道的语音信号幅度不变, 而弱化其它通 道的语音信号; 语音信号的弱化程度受调整参数的控制; 并且, 为保证基 于能量比较在各通道间进行切换时语音信号平 稳自然而无切换噪声, 引入 平滑机制一遗忘因子, 将当前釆样点和以前釆样点的信号相结合来进 行切 换。

为使本发明的目的、 技术方案和优点更加清楚明白, 以下举实施例并 参照附图, 对本发明进一步详细说明。

本发明的方法中, 传声器阵列中的传声器均为强指向性传声器, 而非 全向性传声器。 所谓强指向性传声器, 即该传声器能按指向进行语音信号 的釆集。 强指向性传声器能有效降低进入各个传声器的 混响强度; 本发明 正是利用强指向性传声器的指向性拾音特点, 利用各传声器所拾取的相同 语音帧的能量来确定各该相同语音帧中各语音 信号中各釆样点信号的权 值, 从而输出较佳的语音信号。 本发明的传声器阵列釆用圓周或球面布局, 以对各方位的语音信号进行釆集。 本发明中, 传声器阵列中的强指向性传 声器的数量一般为 3至 16个, 以在设定的圓周或球面上均匀分布, 达到各 个指向均有相应的传声器进行语音釆集。 圓周或球面的半径一般为 3 至 20cm, 各传声器振膜沿圓周或圓球的径向朝外。

基于传声器阵列, 上述传声器阵列中第 ( =1, 2, ..·, N)个传声器 接收的第 k帧 (帧长为 L毫秒 )釆样信号如 ( 1 ) 式所示:

x i (n) = x i ((k-l)L + j), j = \, 2, ···, L (1)

图 1 为本发明基于传声器阵列的语音信号处理方法 的流程图, 如图 1 所示, 本发明基于传声器阵列的语音信号处理方法具 体包括如下步骤: 步骤 101, 计算第 i ( i =1, 2, ..., Ν)个传声器接收的第 帧信号的 能量。 因正对声源的传声器所釆集到的语音信号相对 来说能量要强, 通过 语音信号的能量能进行声源方位的初步判断; 所计算出的语音信号的能量 值, 同时也作为确定该传声器的语音信号处理的权 重值的依据, 将在以下 步骤中对如何确定相应的权重值。 第 ( =1, 2, .··, N)个传声器接收的 第 帧信号的能量值 如式(2)所示:

AW = i ,(( — D L + Γ (2) 本发明中, 用于计算能量的各通道语音帧长度可取为 400ms; 通道间 自适应切换的系统响应时间取为 400ms。 上述帧长由处理器的处理速度决 定, 也可以取其他的长度, 如 450ms或 500ms等。

步骤 102, 以 N个通道的第 帧信号的能量的最大值为基准, 对式(2) 所确定的能量值进行归一化处理。 本步骤中, 归一化处理即是将各个通道 的第 帧信号的能量值转换到 0至 1之间的数值, 以便于后续处理。 归一 化处理方式如式(3 )所示, 其中 为对 的归一化处理结果。 e l{k) = ^ (3 )

m x(E l (k), E 2 (k , ·'·,Ε Ν (k))

其中, max ( )为取最大值计算。

步骤 103, 根据第 ( =1, 2, .··, N)个传声器接收的第 帧信号的归 一化能量计算调整参数。 确定调整参数的目的是使能量数值大的通道上 的 语音信号变得更大, 而使能量数值小的通道上的语音信号变得更小 , 并依 此拉大能量值较大语音信号与能量值较小语音 信号之间的差异, 这样可以 更突出声源方向的信号, 抑制其它方向的信号, 使声音更清晰, 混响更小。 具体的, 对于归一化后的能量值, 对其分别进行幂运算。 本步骤中, 所选 用的调整指数值为大于等于 2小于等于 10的正数。 为方便运算及考虑到语 音信号的差异量, 调整指数一般选用 4、 5、 6。 调整参数 WW的确定方式如 式(4)所示:

Mk) =[ £i (k)f (4)

其中 称为调整指数, 根据各通道语音帧的能量大小关系调整各通道 信号 在输出信号中所占的比重。

步骤 104, 计算阵列输出信号中第 ( =1, 2, ..·, N)个传声器釆集的 第 n个釆样点信号的权值; 该权值的变化是根据每个釆样点信号逐步计算 得到的, 具体的, 第 n个釆样点信号的权值^ )的确定方式如式(5 )所示: w t (n) = lw t (n - 1) + (1 - λ)^ (k) (5 )

其中 为遗忘因子, 以平滑切换前后语音帧音量, 避免语音信号的忽大忽 小, 并抑制切换时通道的语音帧能量变化太大所导 致的切换噪声。 为事 先设定的参数, 为大于 0小于 1的数, 为保证语音信号的平滑性, 为 近于 1的数, 本发明中可设定 λ =0.9998; λ也可设定为其他值, 如 0.9996、 0.9992、 0.9990等值。 具体取值由用户希望的平滑性来确定。 步骤 105, 对第 i ( i =1, 2, N)个传声器釆集的信号的每个釆样 点的权值按其中的最大值进行归一化处理。 这主要是为了使传声器阵列输 出的能量最大通道的信号音量与能量最大的通 道传声器釆集的信号音量相 等。 对第 ( =1, 2, ..·, N)个传声器釆集的信号的每个釆样点信号的权 值的归一化处理如式(6)所示: max(w 1 (n), w 2 (n), ···, w N (n)) 其中, max ( )为取最大值计算。

步骤 106, 计算传声器阵列的输出釆样点信号, 并依次输出。 所输出的 各釆样点信号如式(7) 所示:

N

s(n) = ^w i (n)x i (n) 式( 7 )是将传声器阵列中各传声器相同帧的语音信 中的各釆样点依次与 所确定的对应权值进行相乘, 并对各传声器的对应釆样点信号进行累加, 作为输出的釆样点信号。

本发明中, 实际工作中在进入本算法处理前的典型前端处 理为, 通过 传声器将语音信号转化为电信号, 经过放大以及模数转换进入数字信号处 理器(DSP, Digital Signal Processor )处理。

以下以传声器阵列由 4个传声器沿圓周均匀分布为例, 说明各应用环境 下语音信号处理结果。 其中, 圓周的半径为 5cm, 遗忘因子 =0.9998, 调 整指数 "=5.0。

图 2为在混响室两个声源相互切换发声时, 传声器阵列中各传声器拾取 的语音信号语音帧的归一化能量变化关系的示 意图, 如图 2所示, 示出了在 混响室两个声源相互切换发声时, 釆用本发明方法计算各传声器拾取的语 音帧的能量后, 传声器阵列中各传声器拾取的语音信号语音帧 的归一化能 量变化关系。 图 3为在混响室两个声源相互切换发声时, 传声器阵列的输出信号中各 通道语音帧所占的平均权重变化关系的示意图 , 如图 3所示, 在混响室两个 声源相互切换发声时, 釆用本发明方法计算各传声器拾取的语音帧能 量后, 传声器阵列的输出信号中各通道语音帧所占的 平均权值变化关系, 可以看 出, 本发明能根据各传声器拾音的语音帧能量大小 而自动切换, 并且切换 过程自然稳定, 各传声器拾取的语音信号经过本发明方法处理 后, 传声器 阵列的输出语音信号音质流畅自然, 混响大大降低。

图 4为在混响室两个声源同时发声时, 传声器阵列中各传声器拾取的语 音信号语音帧的归一化能量变化关系的示意图 , 如图 4所示, 示出了在混响 室两个声源同时发声时, 釆用本发明方法计算各传声器拾取的语音帧能 量, 传声器阵列中各传声器拾取的语音信号语音帧 的归一化能量变化关系。

图 5为在混响室两个声源同时发声时, 传声器阵列的输出信号中各通道 语音帧所占的平均权重变化关系的示意图, 如图 5所示, 在混响室两个声源 同时发声时, 釆用本发明方法计算各传声器拾取的语音帧能 量, 传声器阵 列的输出信号中各通道语音帧所占的平均权重 变化关系。 可以看出, 本发 明能根据各传声器拾音的语音帧能量大小自动 切换, 并且切换过程自然稳 定, 各传声器拾取的语音信号经过本发明方法处理 后, 传声器阵列的输出 语音信号音质流畅自然。

图 6为在普通房间两个声源相互切换发声时, 传声器阵列中各传声器拾 取的语音信号语音帧的归一化能量变化关系的 示意图, 如图 6所示, 示出了 在普通房间两个声源相互切换发声时, 釆用本发明方法计算各传声器拾取 的语音帧能量, 传声器阵列中各传声器拾取的语音信号语音帧 的归一化能 量变化关系。

图 7为在普通房间两个声源相互切换发声时, 传声器阵列的输出信号中 各通道语音帧所占的平均权重变化关系的示意 图, 如图 7所示, 在普通房间 两个声源相互切换发声时, 釆用本发明方法计算各传声器拾取的语音帧能 量, 传声器阵列的输出信号中各通道语音帧所占的 平均权重变化关系。 可 以看出, 本发明能根据各传声器拾音的语音帧能量大小 而自动切换, 并且 切换过程自然稳定, 各传声器拾取的语音信号经过本发明方法处理 后, 传 声器阵列的输出语音信号音质流畅自然, 混响降低。

图 8为在普通房间两个声源同时发声时, 传声器阵列中各传声器拾取的 语音信号语音帧的归一化能量变化关系的示意 图, 如图 8所示, 在普通房间 两个声源同时发声时, 釆用本发明计算各传声器拾取的语音帧能量, 传声 器阵列中各传声器拾取的语音信号语音帧的归 一化能量变化关系;

图 9为在普通房间两个声源同时发声时, 传声器阵列的输出信号中各通 道语音帧所占的平均权重变化关系的示意图, 如图 9所示, 在普通房间两个 声源同时发声时, 釆用本发明计算各传声器拾取的语音帧能量, 传声器阵 列的输出信号中各通道语音帧所占的平均权重 变化关系。 可以看出, 本发 明能根据各传声器拾音的语音帧能量大小自动 切换, 并且切换过程自然稳 定, 各传声器拾取的语音信号经过本发明的方法处 理后, 传声器阵列的输 出语音信号音质流畅自然。

通过以上步骤处理的语音信号可以以数字信号 的方式输出, 也可以数 模转换后模拟信号输出。

图 10 为本发明基于传声器阵列的语音信号处理装置 的组成结构示意 图, 如图 10所示, 所述装置包括第一确定单元 100、 第二确定单元 101、 计算单元 102和输出单元 103; 其中,

第一确定单元 100,用于确定各指向性传声器接收的相同帧的 音信号 的能量值;

第二确定单元 101 ,用于根据所述能量值确定所述相同帧的各语 信号 的调整参数; 计算单元 102,用于根据各语音信号的调整参数确定语音 号中各取样 点信号的权值, 将各语音信号中各取样点信号与各自的权值相 乘, 并对各 语音信号的对应取样点信号的乘积值进行累加 ;

输出单元 103, 用于将累加后的取样点信号依次输出。

本发明中, 传声器阵列由两个以上的指向性传声器构成。

上述第二确定单元 101 进一步将所述相同帧的各语音信号的能量值分 别与最大的能量值作商; 并对各商值进行指数调整处理, 作为各语音信号 的调整参数。

上述第二确定单元 101进一步将各商值的 E次方作为各语音信号的调 整参数; 其中, E为大于等于 2小于等于 10的正数。

上述计算单元 102进一步按下式计算语音信号中各取样点信号 的权值: w,(n) = /lw,(n-l) + (l-/l)C;其中, w )为传声器 i中的当前语音信号帧 中第 n个取样点信号的权值, W -1)为传声器 i中的当前语音信号帧中第 n-1个取样点信号的权值; 为预先设定的遗忘因子, 0< <1; C为当前 语音信号帧的调整参数。

上述计算单元 102进一步按下述方式计算语音信号中各取样点 信号的 权值:

w,(n) = /lw,(n-l) + (l-/l)C;其中, w )为传声器 i中的当前语音信号帧 中第 n个取样点信号的初始权值, W -1)为传声器 i中的当前语音信号帧 中第 n-1个取样点信号的初始权值; 为预先设定的遗忘因子, 0< <1; C为当前语音信号帧的调整参数;

按下式对 w )进行处理, 将 )作为传声器 i中的当前语音信号帧中 第 n个取样点信号的最终权值:

^(n) = ^ ( (、 Λ 、 —-, 其中, max ( ) 为取最大值计算。

max ^ (n), w 2 ( ),…, w N (n)) 上述传声器阵列为圓形阵列或球形阵列; 所述传声器阵列中的传声器 数量为 3至 16个。

本领域技术人员应当理解, 图 10所示的基于传声器阵列的语音信号处 理装置是为实现前述的基于传声器阵列的语音 信号处理方法而设计的, 图 10所示装置中各处理单元的功能可参照前述方 的描述而理解, 各处理单 元的功能可通过运行于处理器上的程序而实现 , 也可通过具体的逻辑电路 而实现。

以上所述, 仅为本发明的较佳实施例而已, 并非用于限定本发明的保 护范围。