Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR RECONSTRUCTING ELECTRONIC LARYNX SPEECH AND SYSTEM THEREOF
Document Type and Number:
WIPO Patent Application WO/2012/003602
Kind Code:
A1
Abstract:
A method for reconstructing electronic larynx speech and a system thereof are provided. The method includes the following steps: firstly, extracting model parameters from the collected speech as a parameter library; then collecting facial images of a sounder, and transmitting the facial images to an image analyzing and processing module to obtain phonation start-stop moments and phonation vowel sorts; then synthesizing voice source waveform by a voice source synthesis module; finally, outputting the voice source waveform by an electronic larynx vibration output module. The voice source synthesis module firstly sets glottis voice source model parameters, thereby synthesizing glottis voice source waveform, then simulates the sounds traveling in a sound channel by a waveguide model, and selects shape parameters of the sound channel according to the phonation vowel sorts, thereby synthesizing electronic larynx voice source waveform. The speech reconstructed by the method and the system thereof is much closer to the sound of the sounder himself.

Inventors:
WAN, Mingxi (No.28 Xianning Road, Xi'an, Shaanxi, Shaanxi, CN)
万明习 (中国陕西省西安市咸宁路28号, Shaanxi, Shaanxi, CN)
WU, Liang (No.28 Xianning Road, Xi'an, Shaanxi, Shaanxi, CN)
吴亮 (中国陕西省西安市咸宁路28号, Shaanxi, Shaanxi, CN)
WANG, Supin (No.28 Xianning Road, Xi'an, Shaanxi, Shaanxi, CN)
Application Number:
CN2010/001022
Publication Date:
January 12, 2012
Filing Date:
July 09, 2010
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
XI'AN JIAOTONG UNIVERSITY (No.28 Xianning Road, Xi'an, Shaanxi, Shaanxi, CN)
西安交通大学 (中国陕西省西安市咸宁路28号, Shaanxi, Shaanxi, CN)
WAN, Mingxi (No.28 Xianning Road, Xi'an, Shaanxi, Shaanxi, CN)
万明习 (中国陕西省西安市咸宁路28号, Shaanxi, Shaanxi, CN)
WU, Liang (No.28 Xianning Road, Xi'an, Shaanxi, Shaanxi, CN)
吴亮 (中国陕西省西安市咸宁路28号, Shaanxi, Shaanxi, CN)
International Classes:
G10L15/24; A61F2/70; G06K9/00; G06T1/40; G10L13/02
Attorney, Agent or Firm:
BEIJING ZHONGYUAN HUAHE INTELLECTUAL PROPERTY AGENCY CO., LTD. (Room 909, Huibin BuildingNo.8, Beichendong Street,Chaoyang District, Beijing 1, 100101, CN)
Download PDF:
Claims:
权 利 要 求

1、 一种电子喉语音重建方法, 首先从采集的语音中提取模型参数作为 参数库, 接着采集发声者的面部图像, 将该图像传输给图像分析与处理模 块,图像分析与处理模块分析处理完之后, 得到发声起止时刻与发声元音类 别, 再接着, 以发声起止时刻和发声元音类别控制嗓音源合成模块并合成 嗓音源波形, 最后, 通过电子喉振动输出模块将上述嗓音源波形输出,电子 喉振动输出模块包括前置电路和电子喉振动器, 其特征在于: 所述嗓音源 合成模块的合成步骤如下:

1 )合成声门嗓音源波形:根据使用者发声的个性特征在参数库内选择 声门嗓音源模型参数,其中,发声起止时刻控制嗓音源合成的开始和结束,所 述声门嗓音源合成采用 LF模型, 具体数学表示如下:

' (0 = E0eat sinO ( ≤t≤te )

",gW = -( )[e -ε(ί- ) - e i e≤t≤tc )

8 et„

上式中, Ee为幅度参数, tp、 、 ta、 tc均为时间参数, 分别代表气流 最大峰值时刻、 最大负峰值时刻、 指数回复段时间常数和基频周期, 其余

2 )根据发声元音类别选择声道的形状参数, 利用波导模型模拟声音在 声道中传播, 按照以下公式计算出嗓音源波形: ί = (1 -^ )",+ - = ui一 ';(",+ + ) 4一 4+ 1

{uT = {1 + η )uM + Γμ- = + η (u* ) 4 + +ι glottis: u * = ug - rgut = - uv ) g ~ - 1

"PS: "。,,, = (卜 )K = " - "; - 1 声道由多个均匀截面积的声管级联表示,上式中, 4和.4,为第/个和第 + 1个声管的面积函数, 和^ -分别为第,个声管中的正向声压和反向声 压, 是第 /个和第 / + 1个声管相邻界面的反射系数。

2、 如权利要求 1所述的电子喉语音重建方法, 其特征在于: 所述图像 分析与处理模块包括如下步骤:

步骤一: 初始化参数: 预设分析矩形框范围、 面积阚值和神经网络权 系数, 然后采集一帧视频图像, 其中面积阈值为分析矩形框面积的百分之 步驟二: 利用基于肤色的检测方法对嘴唇区域进行检测, 即在 YUV 色 彩空间按照下述公式计算矩形框范围的唇色特征值, 并归一化为 0-255灰 度级:

Ζ = 0A93R - 0.589G + 0.0265

步骤三: 利用改进的最大类间方差法计算唇色特征值灰度图像的最佳 分割阈值, 然后, 以此阈值对图像进行二值化分割, 从而, 得到嘴唇的初 步分割图像;

步骤四: 采用面积阈值的方法, 将初步分割图像中面积小于阚值的区 域作为噪声消去, 得到最终的嘴唇分割图像;

步骤五: 对嘴唇区域进行外轮廓和中心点提取: 设定椭圓长轴与 X轴 成零度角, 利用椭圆模型对嘴唇外轮廓进行匹配, 通过一维哈夫变换检测 得到椭圆长短轴的大小;

步骤六: 以归一化半长轴、 归一化半短轴、 长短轴之比和嘴唇归一化 面积值作为一组参数, 计算发声起止时刻和发声元音类别, 其中, 所述归 一化半长轴、 归一化半短轴, 以及嘴唇归一化面积均是指以不发声时静态 半长轴、 半短轴、 嘴唇面积为标准的归一化值。

3、 如权利要求 2所述的电子喉语音重建方法, 其特征在于: 所述图像 分析与处理模块的步 ^六中, 采用人工神经网络算法计算发声起止时刻和 发声元音类别。

4、 如权利要求 3所述的电子喉语音重建方法, 其特征在于: 所述人工 神经网络算法为三层网络, 包括输入层、 隐含层, 以及输出层, 其中, 输 入层包含四个输入, 即归一化半长轴、 归一化半短轴、 长短轴之比和嘴唇 归一化面积值, 输出层包括六个输出, 即不发声、 /©八 /%/, 、 1—1、 以及 /../五个元音。

5、 如权利要求 1或 4所述的电子喉语音重建方法, 其特征在于: 所述 嗓音源合成过程中, 以声道咽腔下部声压波形作为颈部施加的嗓音源波形。

6、 如权利要求 1或 4所述的电子喉语音重建方法, 其特征在于: 所述 嗓音源合成过程中, 以口腔位置声压波形作为口腔内施加的嗓音源波形。

7、 一种应用权利要求 1所述的方法的电子。!¾语音系统,其特征在于:包 括 CMOS图像传感器、与 CMOS图像传感器的输出端相连的 FPGA芯片、与 FPGA 芯片的输出端相连的语音芯片, 以及与语音芯片的输出端相连的电子喉振

Description:
一种电子喉语音重建方法及其系统 技术领域

本发明属于病变语音重建领域, 特别涉及一种电子喉语音重建方法及 其系统。 背景技术

语音或者语言是人类表达感情和相互交流的主 要手段, 然而, 据统计 每年全世界有成千上万的人因为各种喉部外科 手术而暂时或永久丧失发声 能力。 鉴于此, 各种嗓音康复技术应运而生, 其中, 以食管语音、 气管食 管语音, 以及人工电子喉语音最为常见, 而人工电子喉因为使用简单、 适 用范围广、 可长时间发声而被广泛应用。

中国发明专利申请第 200910020897. 3号公开了一种自动调节的咽腔电 子喉语音通讯的方法,其去除了其他的噪音, 从而提高了重建语音的质量。 电 子喉的工作原理是提供缺失的嗓音振动源, 并通过换能器将振动传递进入 声道进行语音调制, 最后通过唇端辐射产生语音。 由此可见, ^供缺失的 嗓音振动源是电子喉最根本的任务, 然而, 目前市面上所见的电子喉所提 供的振动嗓音源多为方波或脉沖信号, 改进的线性换能器虽然能输出声门 嗓音源, 但是这些都不符合实际使用过程中缺失的嗓音 振动源。 无论是颈 外式还是口腔式电子喉, 振动传递进入声道的位置都不是声门, 而且对于 不同病人的不同手术情况, 不仅是声带缺失,而且包括部分声道的缺失, 这 些都需要在电子喉振动源中得到补偿, 因此从电子喉本质方面改进以提高 电子喉语音质量是十分必要的。

鉴于以上问题, 实有必要提供一种可以解决上述技术问题的电 子喉语 音重建方法及其系统 发明内容

本发明所要解决的技术问题是提供一种电子喉 语音重建方法及其系 统,通过本方法重建的语音不仅补偿了缺失声 道的声学特性, 而且保留了使 用者的个性特点, 更接近使用者本身的声音特点, 语音质量更好。

为实现上述目的, 本发明提供了一种电子喉语音重建方法, 首先从采 集的语音中提取模型参数作为参数库, 接着采集发声者的面部图像, 将该 图像传输给图像分析与处理模块, 图像分析与处理模块分析处理完之后,得 到发声起止时刻与发声元音类别, 再接着, 以发声起止时刻和发声元音类 别控制嗓音源合成模块并合成噪音源波形, 最后, 通过电子喉振动输出模 块将上述嗓音源波形输出, 电子喉振动输出模块包括前置电路和电子喉振 动器, 所述嗓音源合成模块的合成步骤如下:

1 )合成声门嗓音源波形, 即根据使用者发声的个性特征在参数库内选 择声门嗓音源模型参数, 其中, 发声起止时刻控制嗓音源合成的开始和结 束,所述声门嗓音源合成采用 LF模型, 具体数学表示如下:

u {t)二 E e al sinO ) (0<^< t e )

上式中, Ee为幅度参数, t p 、 t e . t a 、 tc均为时间参数, 分别代表气流 最大峰值时刻、 最大负峰值时刻、 指数回复段时间常数和基频周期, 其余 参数可由以上五个参数按照以下公式联合求得 :

s _ =l— e— ― "

π

U e 0 1 e { sin wJ e ― cos ω g e )- + ω λ/(α +ω )

E„ =—E n e at ' sin ω ί

2.0 ^ <o.i

2— 2.34^+1.34尺 0.1<R <0.5

2A6-132R + 0.64(R a 一 0.5)

2 )根据发声元音类别选择声道的形状参数, 利用波导模型模拟声音在 声道中传播, 按照以下公式计算出嗓音源波形-.

< ι = (卜^; )",+ - ψ Μ = - '; « + ",一 +1 ) — 4 - 4 + ι

"7 = (1 + )",— +1 + = u; +l + η (u + ) A i + A l

l— r Λ 一、

glottis

[ li PS: R N ~~ L 声道由多个均匀截面积的声管级联表示,上式 中, 4和 4+,为第 ζ·个和第 ,+ι个声管的面积函数, 《,+和 「分别为第 个声管中的正向声压和反向声 压, 是第/个和第 /+1个声管相邻界面的反射系数。 作为本发明的优选实施例, 所述图像分析与处理模块包括如下步骤: 步骤一: 初始化参数, 即预设分析矩形框范围、 面积阔值和神经网络 权系数, 然后采集一帧视频图像, 其中面积阈值为分析矩形框面积的百分 之一;

步骤二: 利用基于肤色的检测方法对嘴唇区域进行检测 , 即在 YUV 色 彩空间按照下述公式计算矩形框范围的唇色特 征值, 并归一化为 0-255 灰 度级:

Z = 0.493Λ - 0.589G + 0.0265

步骤三: 利用改进的最大类间方差法计算唇色特征值灰 度图像的最佳 分割闹值, 然后, 以此阈值对图像进行二值化分割, 从而, 得到嘴唇的初 步分割图像;

步骤四: 采用面积阈值的方法, 将初步分割图像中面积小于阈值的区 域作为噪声消去, 得到最终的嘴唇分割图像;

步骤五: 对嘴唇区域进行外轮廓和中心点提取: 设定椭圆长轴与 X轴 成零度角, 利用椭圓模型对嘴唇外轮廓进行匹配, 通过一维哈夫变换检测 得到椭圆长短轴的大小;

步骤六: 以归一化半长轴、 归一化半短轴、 长短轴之比和嘴唇归一化 面积值作为一组参数, 计算发声起止时刻和发声元音类别, 其中, 所述归 一化半长轴、 归一化半短轴, 以及嘴唇归一化面积均是指以不发声时静态 半长轴、 半短轴、 嘴唇面积为标准的归一化值。

作为本发明的另一优选实施例,所述图像分析 与处理模块的步骤六 中,采用人工神经网络算法计算发声起止时刻 和发声元音类别。

作为本发明的另一优选实施例,所述人工神经 网络算法为三层网络,包 括输入层、 隐含层, 以及输出层, 其中, 输入层包含四个输入, 即归一化 半长轴、 归一化半短轴、 长短轴之比和嘴唇归一化面积值, 输出层包括六 个输出, 即不发声、 /◎*、 / %八 、 1—1、 以及 /../五个元音。

作为本发明的另一优选实施例, 所述嗓音源合成过程中, 以声道咽腔 下部声压波形作为颈部施加的嗓音源波形。

作为本发明的另一优选实施例, 所述嗓音源合成过程中, 以口腔位置 声压波形作为口腔内施加的嗓音源波形。

为了实现上述目的, 本发明还提供了一种电子喉语音系统, 包括 CMOS 图像传感器、 与 CMOS图像传感器的输出端相连的 FPGA芯片、 与 FPGA芯片 的输出端相连的语音芯片, 以及与语音芯片的输出端相连的电子喉振动器 。

本发明电子喉语音重建方法及其系统至少具有 以下优点: 首先,在嗓音 源合成模块的声门嗓音源 LF模型中, 声门波形由幅度参数 Ee以及 t p 、 t e , t a 、 t c 四个时间参数共同表征,而这五个参数可 以从语音中提取出来,因此对 于不同的使用者来说, 可以从其失声前保留的语音中提取出来作为合 成参 数,故重建语音具有使用者的个性特点; 另外, 在嗓音源合成模块的声道波 导模型中, 根据视频信号判断的发声元音类别选择声道形 状参数, 依据使 用者咽喉部手术切除情况, 选择合适的振动器施加位置, 因此, 针对施加 部位合成对应声道空间位置的声压波形作为电 子喉嗓音源波形, 如此,不仅 符合使用者的实际情况, 而且极大的保留了使用者的个性特征, 使重建语 音更接近使用者本人的原始语音, 改善重建语音质量。 附图的简要说明

图 1是本发明电子喉语音重建方法的流程示意图

图 2是本发明嘴唇运动图像处理和控制参数提取 序流程图; 图 3是本发明嗓音源合成流程图;

图 4是本发明不同发声和使用情况下合成的电子 嗓音源波形图; 图 5是本发明电子喉振动输出模块示意图;

图 6是本发明电子喉语音系统的一个结构框图。 实现发明的最佳方式

下面结合附图对本发明电子喉语音重建方法及 其系统进行详细描述: 本发明以计算机系统为平台, 根据使用者失声的具体情况及个人发声 特点调整噪音源波形的合成, 同时利用视频信号对嗓音源合成进行实时控 制,最终通过并口连接的电子喉振动输出模块 将上述嗓音源波形输出。

本发明电子喉语音重建方法的系统包括图像采 集设备、 与图像采集设 备的输出端相连的图像处理及分析模块、 与图像处理及分析模块的输出端 相连的嗓音源合成模块, 以及与嗓音源合成模块的输出端相连的电子喉 振 动输出模块。

请参阅图 1 所述, 当系统启动后, 图像采集设备, 即摄像头采集使用 者发声过程中的面部图像, 并将该面部图像传输给图像处理及分析模块, 图 像处理及分析模块接收到该数据后进行处理与 分析, 即通过嘴唇检测、 分 割、 边缘提取和拟合, 从而得到嘴唇边缘的椭圆模型形状参数, 之后,再通 过人工神经网络算法计算判断发声的起止时刻 和发声元音类别并作为嗓音 源合成的控制信号; 嗓音源合成模块采用发声合成法原理, 根据不同使用 者的情况, 包括手术情况、 发声个性特点, 以及提取的发声起止和发声元 音类别, 合成具有使用者个性特征和符合实际发声需要 的嗓音源波形;最后 通过电子喉振动输出模块将上述合成的嗓音源 波形输出。

由上述可知, 本发明电子喉语音重建方法主要包括三个部分 , 一、 图 像采集及处理; 二、 电子喉嗓音源的合成; 三、 电子喉的振动输出。 下面 详细描述:

本发明的第一部分为图像采集及处理, 主要利用图像处理的方法对嘴 类别, ^为 制信号用以控制电子喉嗓^ "源的动态合成。 ' 一

下面结合图 2所示详细介绍第一部分的具体实现步骤:

1 ) 初始化参数,即预设分析矩形框范围、 面积阈值和神经网络权系 数,然后采集一帧视频图像,其中面积阈值为 分析矩形框面积的百分之一;

2 )利用基于肤色的检测方法对嘴唇区域进行检 , 即在 YUV色彩空间 按照下述公式 (一)计算矩形框范围的唇色特征值以增强嘴 唇区域的区分 度,并归一化为 0-255灰度级, 从而, 得到唇色特征值灰度图像, 公式(一) 如下:

Z = 0.4937? - 0.589G + 0.0265 公式(一) 在上述公式(一) 中, R、 G、 B分别代表红色、 绿色和蓝色分量。

3 )利用改进的最大类间方差(Otsu )法计算唇色特征值灰度图像的最 佳分割阈值, 然后, 以此阈值对图像进行二值化分割, 从而, 得到嘴唇的 初步分割图像;

4 )釆用面积阈值的方法, 将初步分割图像中面积小于阔值的区域作为 噪声消去, 得到最终的嘴唇分割图像;

5 )对嘴唇区域进行外轮廊和中心点提取: 假设椭圆长轴与 X轴成零度 角,利用椭圓模型对嘴唇外轮廓进行拟合, 通过一维哈夫(Hough ) 变换检 测得到椭圆长短轴的大小;

6 )以归一化半长轴、 归一化半短轴、 长短轴之比和嘴唇归一化面积值 四个值作为一组参数, 经过人工神经网络的计算得到发声起止时刻和 发声 元音类别, 用以指导嗓音源合成控制。

需要说明: 在本发明中, 归一化半长轴、 归一化半短轴, 以及嘴唇归 一化面积均是指以不发声时静态的半长轴、 半短轴、 嘴唇面积为标准的归 一化值。

在本实施方式中, 以长短轴的比值和归一化参数作为神经网络的 输 入,因为它们不但能够准确反映嘴型的变化情 况, 而且可以判断发声起止时 刻与元音类别, 具有很好的距离不变性, 可以克服由于使用者与摄像头^ 离变化造成图像中嘴唇面积大小改变而产生的 判断错误, 因此, 得到的判 断信号与语音波形具有很好的吻合度, 判断准确率较高。

另外, 为了满足实时性的要求, 本发明的图像处理在嘴唇分割和椭圆 模型参数匹配中都采用了时空域联合的跟踪控 制方法, 即基于说话时面部 变化緩慢连续的假设, 通过前一帧图像分割的区域信息和椭圓匹配的 参数 信息指导本帧图像的分割的矩形范围和匹配的 参数范围, 很好的利用了帧 内和帧间信息, 不仅提高了处理的速度, 还提高了计算精度。

本发明中的人工神经网络为三层前向神经网络 , 包括输入层 (即归一 化半长轴、 归一化半短轴、 长短轴之比和嘴唇归一化面积值)、 隐含层(三 十个节点)、 输出层 (即不发声、 /◎八 /%八 /®八 1—1、 以及八 ./五个元 音), 其中, 神经网络的节点权系数预先经过样本训练得到 , 训练采用误差 反向传播(BP ) 算法, 样本为不发声静止状态和发各个元音时的嘴唇 形状 参数。

请继续参阅图 3 所示, 本发明的第二个部分为嗓音源的合成, 利用发 声合成法原理, 通过源 -滤波器两步合成电子喉嗓音源, 具体步骤如下: 第一步: 合成声门嗓音源波形: 根据使用者发声的个性特征在参数库 中选择并设置声门嗓音源模型参数, 图像采集及处理模块内得到的发声起 止时刻控制嗓音源合成的开始和结束, 按照 LF模型合成声门嗓音源; 所述声门嗓音源合成采用 LF模型, 具体数学表示如下:

上式中, Ee为幅度参数, t p 、 t e > t a 、 均为时间参数, 分别代表气流 最大峰值时刻、 最大负峰值时刻、 指数回复段时间常数和基频周期, 其余

ω ) 第二步: 根据判断的发声元音类别选择声道的形状参数 , 利用波导模 型模拟声音在声道中传播, 根据以下公式计算出使用者实际使用时, 振动 传递进入声道处的声压波形, 即为合成的电子喉嗓音源:

所述模拟声音在声道中传播的波导模型的具体 数学表示如下: i二 G— )",+一 u i + i二 u I一 r , (",+ + ",— +1 ) _ 4 - 4 + ι

[u- = ( + r )u7 +l + ru\二 u7 +1 + r (", + + u M ) 4 + + ι ghttis '. u; =

Hps: out = (\ - r N )u N + ^ u N + - u N r N « -l 其中, 声道由多个均匀截面积的声管级联而成,表示 为面积函数 4, " 和",「分别为第 个声管中的正向声压和反向声压, 是第 个和第 + 1个声管 相邻界面的反射系数, 由相邻声管的截面积 4和 4 +1 确定, 波导模型通过迭 代可以计算出声道任意位置的声压。

需要说明的是: 第一、 在上述嗓音源合成模块的 LF模型中, 声门嗓音 源波形由幅度参数 Ee及 t p 、 t e 、 t a 、 tc四个时间参数共同确定, 对于不同的 人而言, 由于其解剖结构和发声特点不同, 因此, 声门嗓音源波形具有个 性差异, 这些都可以体现在 LF模型的五个参数中, 而这几个参数都是可以 从语音中提取出来的。 例如, 女性发声时基频普遍高于男性, 因此, 女性 的 tc要比男性小等等。 在本发明中, 为了充分保留使用者的声音特点, 重 建出与患者失声前相同的语音, 需要从患者失声前采集的语音中提取上述 五个参数, 存在参数库内, 使用电子喉时, 只需要在参数库中提取上述参 数,即可重建出具有使用者发声特点的语音, 而对于没有采集到失声前语音 的患者来说, 其可以选择自己喜欢的语音特点的参数, 从而重建出自己喜 欢的语音。

第二、 在上述嗓音源合成模块的波导模型中, 唯一的参数就是声道的 面积函数 4 , 不同的人发声或者同一人发声不同, 其对应的声道形状都不 相同, 故, 本发明中采用元音类别的控制方法, 才艮据不同的发声元音, 选 取不同的声道面积函数用于合成; 而对于不同的使用者, 我们首先建立一 个元音-声道面积函数对应模板库, 合成时只需要才艮据判断元音类别查找相 应的声道函数即可, 这个模板库的建立是利用反求的方法从使用者 录制的 语音中获得声道响应函数, 再从声道响应函数求取最佳匹配的声道面积函 数,这样可以使得使用者的发声个性特征得到 保留。

由以上可知,通过两步合成,可以计算出声道 中任意位置的声压信 号,然而选取声道中哪一个位置的声压信号作 为电子喉嗓音源, 需要根据使 用者具体的手术情况和使用方式来决定。

下面请参阅图 4 所示, 为不同情况下合成的嗓音源的波形图,例如, 由 于喉癌而进行喉切除手术但声道保留较完整的 使用者, 可以采用颈部施加 振动的方式从而充分利用保留的声道作用, 因此, 选取声道咽腔下部的声 压波形作为电子喉嗓音源波形, 图 4 (a)和图 4 (c)即分别为该情况下发元音 为 /©/和 / %/时合成的嗓音源波形; 对于咽部癌症的患者, 需要进行咽切 除术, 如此, 病人不仅丧失了声带, 而且很大部分的声道也被破坏, 此时 必须选取口腔处的声压波形作为嗓音源波形, 图 4 (b)和图 4 (d)即分别为该 情况下发元音为 /◎/和 / %/时合成的嗓音源波形。

如此, 从图 4 可以看出本发明针对不同的手术情况、 使用情况和发声 类别, 从而, 合成不同的电子喉嗓音源波形,不仅符合实际 使用的需要,而 且保留了使用者的个性特点, 很大程度上改善了电子喉重建语音的质量。

请参阅图 5所示, 本发明的第三个模块为电子喉的振动输出模块 ,包括 电子喉振动器以及电子喉振动器前置电路, 计算机通过 LPT并口将合成的 电子喉嗓音源波形信号输入前置电路, 经过数模转换和功率放大后, 由音 频接口输出模拟电压信号, 最后电子喉振动器振动, 从而输出嗓音源。

所述电子喉振动器为线性换能器, 即将电压信号线性转换成机械振 动,因此, 其可以按照合成的嗓音源输出振动, 同时为了满足口腔内施加的 需要, 使用导音管将振动导入口腔内部。

请继续参阅图 5所示, 电子喉振动器前置电路由输入输出接口、 D/A数 模转换、 功率放大和电源控制组成。 输入输出接口分别为 25针数字输入并 口和 3. 5mm模拟输出音频接口, 其中数字输入并口与计算机并口输出端相 连,传输速度为 44100Byte/s,模拟输出音频接口与电子喉振动器 连 接; D/A数模转换器采用 DAC0832 , 数据精度 8位, 可以直接与 LPT并口的 数据位相连; 功率放大器使用 Ti公司的 TPA701音频功率放大器, +3. 5 ~ +5. 5V供电, 输出功率可达 700mW; 电源控制为 5V电池, 提供 +5V直流电压 给各芯片。

在以上实施方式中, 该电子喉的语音系统是以视频采集设备、 计算机 和电子喉振动输出模块为基础实现的, 然而, 为了便于实现, 还可以采用 另外一种实施方式, 如图 6 所示, 在该实施方式中, 电子喉语音系统包括 用于采集图像的 CMOS图像传感器、 与 CMOS图像传感器的输出端相连并用 于对采集到的图像进行分析处理和嗓音源合成 的 FPGA芯片、 与 FPGA芯片 的输出端相连并用于对合成的电子喉嗓音源波 形进行 D/A转换和功率放大 的语音芯片, 以及与语音芯片的输出端相连的电子喉振动器 。

所述 CMOS图像传感器采用 MICRON公司的 MT9M011 , 最大分辨率为 640 x 480, 在该分辨率下的帧率为 60 帧 /s, 用于采集使用者发声过程中的面 部图像。

FPGA芯片支持 SOPC技术, 实现以视频数据为输入, 经过视频数据处理 分析和电子喉嗓音源合成,最终输出电子喉嗓 音源波形数据的功能;该 FPGA 芯片除了包含与 CMOS图像传感器及语音芯片相连的接口外,还 括 LCD、 FLASH , 以及 SDRAM, 其中, LCD为液晶显示屏, 用于显示相关数据, FLASH 为闪存, SDRAM为同步动态随机存储器。 ·

语音芯片采用 A IC23, 包括 D/A转换器和功率放大功能, 经过 D/A转换 和功率放大后, 由音频接口输出到电子喉振动器。

以上所述仅为本发明的一种实施方式,不是全 部或唯一的实施方式,本 领域普通技术人员通过阅读本发明说明书而对 本发明技术方案采取的任何 等效的变换, 均为本发明的权利要求所涵盖。