METHOD, DEVICE AND SYSTEM FOR PROCESSING VIDEO/AUDIO INFORMATION IN VIDEO CONFERENCE

Title:

METHOD, DEVICE AND SYSTEM FOR PROCESSING VIDEO/AUDIO INFORMATION IN VIDEO CONFERENCE

Document Type and Number:

WIPO Patent Application WO/2014/094461

Kind Code:

A1

Abstract:

The embodiments of the present invention relate to a method, device and system for processing video/audio information in a video conference.The method includes: receiving data code streams transmitted from at least two conference terminals, and decoding the data code streams to obtain at least two channels of decoded information; when determining that sign language information exists in the at least two channels of decoded information, converting the sign language into voice information, and performing voice synthesis on the converted voice information to generate synthetic voice information; performing audio mixing on the generated synthetic voice information with other decoded audio information; and transmitting the audio-mixed audio information to at least two conference sites.

Inventors:

NI WEI (CN)

Application Number:

PCT/CN2013/083170

Publication Date:

June 26, 2014

Filing Date:

September 10, 2013

Export Citation:

Click for automatic bibliography generation Help

Assignee:

HUAWEI TECH CO LTD (CN)

International Classes:

H04N7/14

Foreign References:

CN102387338A	2012-03-21
CN101594434A	2009-12-02
CN101115088A	2008-01-30
CN101309390A	2008-11-19
CN101080000A	2007-11-28
CN102984496A	2013-03-20

Download PDF:

View/Download PDF PDF Help

Claims:

权利要求

1、一种视频会议中的视音频信息的处理方法，其特征在于，所述视频会议包括至少两个会场，所述每一会场至少包括一个会议终端，所述方法包括：接收至少两个会议终端发送的数据码流，并将所述数据码流进行解码，得到至少两路解码信息；

确定所述至少两路解码信息中存在手语信息时，将所述手语信息转换为语音信息，并对所述转换后的语音信息进行语音合成处理，生成合成语音信息；将所述生成的合成语音信息同其他解码后的音频信息进行混音处理；将混音之后的音频信息发送给所述至少两个会场。

2、根据权利要求 1所述的视频会议中的视音频信息的处理方法，其特征在于，所述接收至少两个会议终端发送的数据码流，并将所述数据码流进行解码，得到至少两路解码信息之前还包括：

接收用户输入的或者所述会议终端发送的用户属性信息；

所述对所述转换后的语音信息进行语音合成处理，生成合成语音信息具体为：

根据所述用户属性信息，对所述转换后的语音信息进行语音合成处理，生成与所述用户属性信息匹配的合成语音信息。

3、根据权利要求 1所述的视频会议中的视音频信息的处理方法，其特征在于，所述对所述转换后的语音信息进行语音合成处理，生成合成语音信息具体为：

判断发送所述手语信息的所述会议终端所在的会场个数是否超过第一阈值；

如果不超过所述第一阈值，则将所述转换后的所述语音信息进行语音合成处理，生成合成语音信息；

如果超过所述第一阈值，则将不超过所述第一阈值的所述转换后的所述语音信息进行语音合成处理，生成合成语音信息。

4、根据权利要求 1所述的视频会议中的视音频信息的处理方法，其特征在于，所述将所述手语信息转换为语音信息之前还包括：记录解码后得到的每个所述手语信息的第一时刻值；

所述将所述生成的合成语音信息同其他解码后的音频信息进行混音处理具体为：

对所述第一时刻值进行从大至小排序；根据所述第一时刻值的排序，将所述生成的合成语音信息按照预设的增益系数进行增益放大；

计算所述其他解码后的音频信息的能量值，按照所述能量值从大至小排序，将所述其他解码后的音频信息的增益系数进行增益放大；

对增益处理后的所述生成的合成语音信息和所述其他解码后的音频信息进行混音处理，将混音后的音频信息发送给所述至少两个会场。

5、根据权利要求 4所述的视频会议中的视音频信息的处理方法，其特征在于，所述方法还包括：

将参与混音处理的所述其他解码后的音频信息转换为手语信息；

根据所述其他解码后的音频信息的能量值的排序，按照预设的比例将所述转换后的所述手语信息进行缩放处理；

将经过缩放处理后的所述手语信息与所述会议终端中的当前图像进行叠加，用以在至少两个会场显示。

6、根据权利要求 1所述的视频会议中的视音频信息的处理方法，其特征在于，所述方法还包括：

将所述手语信息转换为文本信息，并将所述文本信息与所述会议终端中的当前图像进行叠加处理，用以在至少两个会场显示。

7、一种视频会议中的视音频信息的处理装置，其特征在于，所述装置包括：解码单元，用于接收至少两个会议终端发送的数据码流，并将所述数据码流进行解码，得到至少两路解码信息；

转换合成单元，用于确定所述解码单元中的至少两路解码信息中存在手语信息时，将所述手语信息转换为语音信息，并对所述转换后的语音信息进行语音合成处理，生成合成语音信息；

混音处理单元，用于将所述转换合成单元生成的合成语音信息同其他解码后的音频信息进行混音处理；

发送单元，用于混音处理单元中混音之后的音频信息发送给所述至少两个会场。

8、根据权利要求 7所述的视频会议中的视音频信息的处理装置，其特征在于，所述解码单元还用于，接收用户输入的或者所述会议终端发送的用户属性信息；

所述转换合成单元具体用于，根据所述用户属性信息，对所述转换后的语音信息进行语音合成处理，生成与所述用户属性信息匹配的合成语音信息。

9、根据权利要求 7 所述的视频会议中的视音频信息的处理装置，其特征在于，所述装置还包括，

判断单元，用于判断发送所述手语信息的所述会议终端所在的会场个数是否超过第一阈值，并将判断结果发送给所述转换合成单元；

所述转换合成单元具体用于，当接收到所述判断单元判断所述会场个数不超过所述第一阈值的判断结果时，将转换后的所述语音信息进行语音合成处理，生成合成语音信息；

所述转换合成单元具体用于，当接收到所述判断单元判断所述会场个数超过所述第一阈值的判断结果时，将不超过所述第一阈值的转换后的所述语音信息进行语音合成处理，生成合成语音信息。

10、根据权利要求 7所述的视频会议中的视音频信息的处理装置，其特征在于，所述转换合成单元还用于，记录解码后得到的每个所述手语信息的第一时刻值；

所述混音处理单元具体用于：

对所述第一时刻值进行从大至小排序；

根据所述第一时刻值的排序，将所述生成的合成语音信息按照预设的增益系数进行增益放大；

计算所述其他解码后的音频信息的能量值，按照所述能量值从大至小排序，将所述其他解码后的音频信息的增益系数进行增益放大；

对增益处理后的所述生成的合成语音信息和所述其他解码后的音频信息进行混音处理，将混音之后的音频信息发送给所述至少两个会场。

11、根据权利要求 1 0所述的视频会议中的视音频信息的处理装置，其特征在于，所述装置还包括：

手语转换单元，用于将参与混音处理的所述其他解码后的音频信息转换为手语信息；

缩放处理单元，用于根据所述计算出的所述其他解码后的音频信息的能量值，按照预设的比例将所述转换后的所述手语信息进行缩放处理；

叠加单元，用于将经过缩放处理后的所述手语信息与所述会议终端中的当前图像进行叠加，用以在至少两个会场显示。

12、根据权利要求 7所述的视频会议中的视音频信息的处理装置，其特征在于，所述装置还包括：

文本转换单元，用于将所述手语信息转换为文本信息，并将所述文本信息与所述会议终端中的当前图像进行叠加处理，用以在至少两个会场显示。

1 3、一种视频会议系统，其特征在于，所述系统包括：至少两个会场，所述每一个会场至少包括一个会议终端，以及如权利要求 8至权利要求 14中任一权项所述的视频会议中视音频信息的处理装置。

Description:

视频会议中的视音频信息的处理方法、装置及系统本申请要求于 2012年 12月 21 日提交中国专利局、申请号为

201210560387.7、发明名称为 "视频会议中的视音频信息的处理方法、装置及系统" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域本发明涉及通讯技术领域，尤其涉及一种视频会议中的视音频信息的处理方法、装置及系统。背景技术随着社会的发展和进步，聋哑人士作为社会的弱势群体越来越受到社会的重视和关注。在生活工作中，聋哑人士与正常人之间互相交流也变得越来越多。随着现代教育的普及，手语已经成为聋哑人之间交流，以及与正常人交流的一种通用的方式。但是，手语需要进行专门的训练和学习，正常人一般除了特殊需要外，掌握手语的人士相对较少，造成正常人与聋哑人士的沟通障碍。

目前，聋哑人士之间或者聋哑人士与正常人远程交流时，一般利用专用的设备或系统实现，如利用实现手语、文字、语音转换的终端，或者让第三方介入手语 /语音的互译工作，以此解决聋哑人士之间或� �聋哑人士与正常人面对面交流的问题。

如图 1所示，图 1 是聋哑人士之间进行远程交流的示意图。聋哑人 A进行手语表达，利用视频通讯终端 A (如视频电话，视讯会议终端，桌面软终端等）采集到其手语图像后，经通讯网络传输到视频通讯终端 B , 聋哑人 B通过视频通讯终端 B的呈现，看到聋哑人 A的手语图像，理解对方表达的意思。反之亦然，进而完成整个交流过程。

如图 2所示，图 2 是聋哑人士与正常人进行远程交流的示意图，聋哑人的手语图像由视频通讯终端 A采集，经过多点控制单元分发给正常人和翻译者所在的视频通讯终端 B、 C中呈现；经翻译者理解之后，将其翻译成语音被视频通讯终端拾取，并通过多点控制单元分发给正常人所在的视频通讯终端 B中，正常人通过翻译者的语音，理解了聋哑人表达的内容。

正常人的语音由视频通讯终端 B拾取，并通过多点控制单元分发给翻译者所在的视频通讯终端 C中，翻译者将其翻译成手语，手语图像经视频通讯终端采集，通过多点控制单元分发给聋哑人，聋哑人通过翻译者的手语图像，理解了正常人表达的内容。

随着聋哑人士与正常人之间交流和沟通的逐渐增长，现有技术也暴露出以下弊端： 1 )聋哑人士与正常人进行交流时，每次会议均需要第三方翻译者的参与，增加了沟通的人力成本； 2 )当多方会议中，若有多个聋哑人士出示手语动作或者多个正常人同时讲话时，翻译者针对这种情况无法很好的处理，以清晰的表达出各个讲话人的内容。因此，现有技术存在一定的局限性，没有解决有聋哑人士参与多方会议交流面临的问题。发明内容本发明的目的是为了解决现有技术中聋哑人士参与多方远程视频会议时，无法自由有效交流的问题，提供了一种视频会议中的视音频信息的处理方法、装置与系统。

在第一方面，本发明实施例提供了一种视频会议中的视音频信息的处理方法，所述视频会议包括至少两个会场，所述每一会场至少包括一个会议终端，所述方法包括：

接收至少两个会议终端发送的数据码流，并将所述数据码流进行解码，得到至少两路解码信息；

确定所述至少两路解码信息中存在手语信息时，将所述手语信息转换为语音信息，并对所述转换后的语音信息进行语音合成处理，生成合成语音信息；将所述生成的合成语音信息同其他解码后的音频信息进行混音处理；将混音之后的音频信息发送给所述至少两个会场。

在第一种可能的实现方式中，所述接收至少两个会议终端发送的数据码流，并将所述数据码流进行解码，得到至少两路解码信息之前还包括：

接收用户输入的或者所述会议终端发送的用户属性信息；

所述对所述转换后的语音信息进行语音合成处理，生成合成语音信息具体为：

根据所述用户属性信息，对所述转换后的语音信息进行语音合成处理，生成与所述用户属性信息匹配的合成语音信息。

在第二种可能的实现方式中，所述对所述转换后的语音信息进行语音合成处理，生成合成语音信息具体为：

判断发送所述手语信息的所述会议终端所在的会场个数是否超过第一阈值；

如果不超过所述第一阈值，则将所述转换后的所述语音信息进行语音合成处理，生成合成语音信息；

如果超过所述第一阈值，则将不超过所述第一阈值的所述转换后的所述语音信息进行语音合成处理，生成合成语音信息。

在第三种可能的实现方式中，所述将所述手语信息转换为语音信息之前还包括：记录解码后得到的每个所述手语信息的第一时刻值；

所述将所述生成的合成语音信息同其他解码后的音频信息进行混音处理具体为：

对所述第一时刻值进行从大至小排序；

根据所述第一时刻值的排序，将所述生成的合成语音信息按照预设的增益系数进行增益放大；

计算所述其他解码后的音频信息的能量值，按照所述能量值从大至小排序，将所述其他解码后的音频信息的增益系数进行增益放大；

对增益处理后的所述生成的合成语音信息和所述其他解码后的音频信息进行混音处理，将混音后的音频信息发送给所述至少两个会场。

结合第一方面或第一方面的第三种可能的实现方式，在在第四种可能的实现方式中，所述方法还包括：

将参与混音处理的所述其他解码后的音频信息转换为手语信息；

根据所述其他解码后的音频信息的能量值的排序，按照预设的比例将所述转换后的所述手语信息进行缩放处理；

将经过缩放处理后的所述手语信息与所述会议终端中的当前图像进行叠加，用以在至少两个会场显示。

在第五种可能的实现方式中，所述方法还包括：将所述手语信息转换为文本信息，并将所述文本信息与所述会议终端中的当前图像进行叠加处理，用以在至少两个会场显示。

在第二方面，本发明实施例提供了一种视频会议中的视音频信息的处理装置，所述装置包括：

解码单元，用于接收至少两个会议终端发送的数据码流，并将所述数据码流进行解码，得到至少两路解码信息；

转换合成单元，用于确定所述解码单元中的至少两路解码信息中存在手语信息时，将所述手语信息转换为语音信息，并对所述转换后的语音信息进行语音合成处理，生成合成语音信息；

混音处理单元，用于将所述转换合成单元生成的合成语音信息同其他解码后的音频信息进行混音处理；

发送单元，用于混音处理单元中混音之后的音频信息发送给所述至少两个会场。

在第一种可能的实现方式中，所述解码单元还用于，接收用户输入的或者所述会议终端发送的用户属性信息；

所述转换合成单元具体用于，根据所述用户属性信息，对所述转换后的语音信息进行语音合成处理，生成与所述用户属性信息匹配的合成语音信息。

在第二种可能的实现方式中，所述装置还包括：

判断单元，用于判断发送所述手语信息的所述会议终端所在的会场个数是否超过第一阈值，并将判断结果发送给所述转换合成单元；

所述转换合成单元具体用于，当接收到所述判断单元判断所述会场个数不超过所述第一阈值的判断结果时，将转换后的所述语音信息进行语音合成处理，生成合成语音信息；

所述转换合成单元具体用于，当接收到所述判断单元判断所述会场个数超过所述第一阈值的判断结果时，将不超过所述第一阈值的转换后的所述语音信息进行语音合成处理，生成合成语音信息。

在第三种可能的实现方式中所述转换合成单元还用于，记录解码后得到的每个所述手语信息的第一时刻值；

所述混音处理单元具体用于：对所述第一时刻值进行从大至小排序；根据所述第一时刻值的排序，将所述生成的合成语音信息按照预设的增益系数进行增益放大；

计算所述其他解码后的音频信息的能量值，按照所述能量值从大至小排序，将所述其他解码后的音频信息的增益系数进行增益放大；

对增益处理后的所述生成的合成语音信息和所述其他解码后的音频信息进行混音处理，将混音之后的音频信息发送给所述至少两个会场。

结合第二方面或第二方面的第三种可能的实现方式，在第四种可能的实现方式中，所述装置还包括：

手语转换单元，用于将参与混音处理的所述其他解码后的音频信息转换为手语信息；

缩放处理单元，用于根据所述计算出的所述其他解码后的音频信息的能量值，按照预设的比例将所述转换后的所述手语信息进行缩放处理；

叠加单元，用于将经过缩放处理后的所述手语信息与所述会议终端中的当前图像进行叠加，用以在至少两个会场显示。

在第五种可能的实现方式中，所述装置还包括：文本转换单元，用于将所述手语信息转换为文本信息，并将所述文本信息与所述会议终端中的当前图像进行叠加处理，用以在至少两个会场显示。

在第三方面，本发明实施例提供了一种视频会议中的视音频信息的处理系统，所述系统包括：至少两个会场，所述每一个会场至少包括一个会议终端，以及如权利要求 8至权利要求 14中任一权项所述的视频会议中视音频信息的� �� 理装置。

因此，通过应用本发明实施例提供的视频会议中的视音频信息的处理方法、装置与系统，多点控制单元将会议终端发送的数据码流解码后，当解码后的数据信息为手语信息时，将手语信息转换为语音信息，并对转换后的语音信息进行处理后生成合成语音信息；将生成的合成语音信息同其他解码后的音频信息进行混音处理；将混音之后的音频信息发送给至少两个会场，从而解决了现有技术中聋哑人士参与多方远程视频会议时，无法自由有效交流的问题。附图说明图 1为现有技术中聋哑人士之间进行远程交流的� �意图；

图 2为现有技术中聋哑人士与正常人进行远程交� �的示意图；

图 3 为本发明实施例一提供的视频会议中的视音频信息的处理方法流程图；

图 4为本发明实施例提供的视频会议中的视音频� �息的处理系统示意图；图 5为本发明实施例提供的图像叠加示意图；

图 6为本发明实施例提供的图像叠加示意图；

图 7 为本发明实施例二提供的视频会议中的视音频信息的处理装置结构图；图 8 为本发明实施例三提供的视频会议中的视音频信息的处理装置结构图。具体实施方式为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。

下面以图 3为例说明本发明实施例提供的信息的处理方� �，图 3为本发明实施例一提供的视频会议中的视音频信息的处理方法流程图，在本发明实施例中实施主体为多点控制服务器，下面以多点控制单元（Mul t ipo int Control Uni t , 简称： MCU ) 为例进行说明。如图 3所示，该实施例包括以下步骤：

步骤 310、接收至少两个会议终端发送的数据码流，并将所述数据码流进行解码，得到至少两路解码信息。

具体地，在多方会议中，如图 4所示，图 4为本发明实施例提供的视频会议中的视音频信息的处理系统示意图，各个会议终端存在于多方会议的各个会场中，且视频会议包括至少两个会场（作为图示，图 4中包括 4个会场，每个会场包括 1个会议终端，可以理解，实际应用中不限于 4个会场），每一会场至少包括一个会议终端，会议终端用于采集及输出会场中的音视频信息、拾取原始用户信息，所述原始用户信息具体为用户的手语信息、语音信息等，会议终端将原始用户信息进行编码，形成数据码流，并将数据码流发送至 MCU , MCU 接收会议终端发送的数据码流。

在本发明实施例中，所述会议终端是指具有采集图像、拾取声音、接受外部输入功能的设备，并负责将获取的视频图像发送给显示器进行显示，以及将收到的音频信息发送给扬声器进行播放，例如，视讯终端。

MCU接收到数据码流后，对数据码流进行解码，得到至少两路解码信息，所述解码信息包括会议终端采集的手语信息，拾取的音频信息等。

步骤 320、确定至少两路解码信息中存在手语信息时，将所述手语信息转换为语音信息，并对所述转换后的语音信息进行语音合成处理，生成合成语音信息。

具体地， MCU进行解码后， MCU确定至少两路解码信息中存在手语信息时，则 MCU将手语信息转换为语音信息。

所述 MCU确定至少两路解码信息中存在手语信息具体为， MCU进行解码后，根据解码后的数据进行还原，当 MCU将解码后的数据可以还原为手语信息时，则 MCU将手语信息转换为语音信息；当 MCU将解码后的数据可以还原为音频信息时，则对音频信息进行混音处理，或者将音频信息转换为手语信息等。

进一步地，所述手语信息为在会议终端采集的任一聋哑人做出的手势动作，当会场中聋哑人需要表达自身的意见时，则聋哑人面对会议终端进行手语表达，会议终端采集聋哑人的手语信息，经编码后发送给 MCU, MCU在进行解码后，得到手语信息，则将手语信息转换为语音信息。

MCU将手语信息转换为语音信息后，对转换后的语音信息进行语音合成，生成合成语音信息。

所述 MCU对所述转换后的语音信息进行语音合成处理，生成合成语音信息具体为：

MCU 判断发送手语信息的所议终端所在的会场个数是否超过第一阈值；如果不超过所述第一阈值，则将转换后的所述语音信息进行语音合成处理，生成合成语音信息；如果超过所述第一阈值，则将不超过所述第一阈值的转换后的所述语音信息进行语音合成处理，生成合成语音信息。

在本发明实施例中，所述第一阈值为 MCU可以承受的最大混音的会场个数，一般最大混音的会场为四方混音。

其中， MCU在执行将手语信息转换为语音信息之前， MCU还记录解码后得到的每个手语信息的第一时刻值。 MCU 记录所述第一时刻值，是用于在后续进行混音处理过程中，根据记录的每个手语信息的第一时刻值，选择参与混音处理的语音信息。

步骤 330、将所述生成的合成语音信息通其他解码后的音频信息进行混音处理。

具体地， MCU将生成的合成语音信息同其他解码后的音频信息进行混音处理，所述混音处理为使得多方会议中的用户都接收到语音质量令人满意的信号。

所述 MCU将所述生成的合成语音信息同其他解码后的音频信息进行混音处理具体为：

MCU对步骤 320 中的第一时刻值进行从大至小排序；根据所述第一时刻值的排序， MCU将生成的合成语音信息按照预设的增益系数进行增益放大；并计算其他解码后的音频信息的能量值，按照能量值从大至小排序，将其他解码后的音频信息的增益系数进行增益放大； MCU 对增益处理后的生成的合成语音信息和其他解码后的音频信息进行混音处理。

在本发明实施例中，参与混音处理的音频信息的个数不超过第一阈值。进一步地，当解码信息中解码后的数据信息不包括音频信息时，则 MCU将生成的多个合成语音信息进行混音处理，且参与混音处理的多个合成语音信息不超过第一阈值。

更进一步地，在本发明实施例中，当解码信息中解码后的数据信息包括手语信息和音频信息时，则说明既存在聋哑人表达，也存在正常人表达，则 MCU 优先将手语信息转换为语音信息，生成合成语音信息，并在不超过第一阈值的情况下，将合成语音信息同其他解码后的音频信息进行混音处理，当合成语音信息超过第一阈值的情况下，优先仅将合成语音信息进行混音处理，将其他解码后的音频信息舍弃，已保证优先处理聋哑人的表达，解决聋哑人与正常人的交流问题。

步骤 340、将混音之后的音频信息发送给所述至少两个会场。

具体地， MCU在将生成的合成语音信息同其他解码后的音频信息进行混音处理后，将混音之后的音频信息发送到至少两个会场，所述至少两个会场包括发送数据码流的会场，及未发送数据码流的会场。

因此，通过应用本发明实施例提供的视频会议中的视音频信息的处理方法、装置与系统，多点控制单元将会议终端发送的数据码流解码后，当解码后的数据信息为手语信息时，将手语信息转换为语音信息，并对转换后的语音信息进行处理后生成合成语音信息；将生成的合成语音信息同其他解码后的音频信息进行混音处理；将混音之后的音频信息发送给至少两个会场，从而解决了现有技术中聋哑人士参与多方远程视频会议时，无法自由有效交流的问题。

可选地，在步骤 310之前，本发明实施例还包括， MCU接收用户输入的或者会议终端发送的用户属性信息的步骤， MCU通过接收用户属性信息，从而在进行语音合成处理时，生成与用户属性信息匹配的合成语音信息，使得会场中的收听者在收听时感觉真实，增强交流临场感。

MCU接收用户输入的或者所述会议终端发送的用户属性信息。

具体地，在多方会议开始前，聋哑人可将自身的属性信息输入 MCU中，所述用户属性信息包括：性别、年龄、国籍等；或者，聋哑人可将自身的属性信息输入到其所在会场中的会议终端中，由会议终端统一发送给 MCU。

MCU根据所述用户属性信息，对所述转换后的语音信息进行语音合成处理，生成与所述用户属性信息匹配的合成语音信息。

具体地， MCU在将手语信息转换为语音信息后，根据手语信息，获取与手语信息对应的用户属性信息，并根据用户属性信息，对转换后的语音信息进行语音合成处理，生成与用户属性信息匹配的合成语音信息。例如，会议终端采集的手语信息是一位中国中年男性所做出的，则 MCU在将手语信息转换为的语音信息后，则获取与该手语信息对应的用户属性信息，并根据用户属性信息，对转换后的语音信息进行语音合成处理，生成与用户属性信息匹配的合成语音信息，同时 MCU还根据手语信息的快慢，来调整合成语音信息的语速，音调等，使得其他会场的正常人在收听时。感觉更真实，增强交流临场感。

可选地，在步骤 340之后，本发明实施例还包括，将参与混音处理的其他解码后的音频信息转换为手语信息，及将转换后的手语信息进行处理的步骤， MCU通过执行将其他解码后的音频信息转换为手语信息，及将转换后的手语信息进行处理的步骤，使得会场中的聋哑人在表达自身意愿的同时，也明确正常人表达的意愿，使得更好地实现聋哑人与正常人自由有效地交流。

MCU将参与混音处理的所述其他解码后的音频信息转换为手语信息。

具体地， MCU将参与混音处理的其他解码后的音频信息转换为手语信息，对未参与混音处理的其他解码后的音频信息则不进行转换。

MCU根据所述计算出的所述其他解码后的音频信息的能量值，按照预设的比例将所述转换后的所述手语信息进行缩放处理。

具体地， MCU根据在步骤 330中的其他解码后的音频信息的能量值的排序，按照预设的比例将转换后的手语信息进行缩放处理。进一步地，对能量值大的转换后的手语信息对应的图像进行放大处理，对能量值小的转换后的手语信息对应的图像进行缩小处理。

利用叠加模式或者多画面模式， MCU将经过缩放处理后的所述手语信息与所述会议终端中的当前图像进行叠加，用以在至少两个会场显示。

具体地，利用叠加模式或者多画面模式， MCU 将经过缩放处理后的手语信息与会议终端中的当前图像进行叠加，用以在至少两个会场显示。

所述叠加模式具体是指将多个手语信息一同叠加在会议终端中的当前图像上，并呈现在会议终端的显示屏中，此种叠加模式会遮挡到会议终端中的当前图像，如图 5所示；所述多画面模式具体是指，将多个手语信息及会议终端中的当前图像一同呈现在会议终端的显示屏中，此种多画面模式不会遮挡到会议终端中的当前图像，如图 6所示。

例如，如图 5所示的叠加模式，且在图 5中，各会场的图像为将音频信息转换后得到的，会场 2中的图像由于对应的音频信息能量值最大，因此，在转换为手语信息后，图像进行放大处理，会场 3和会场 4的图像由于对应的音频信息能量值最小，因此，在转换为手语信息后，图像进行缩小处理。再例如，如图 6的多画面模式，同理，在此不再复述。

通过上述对转换后的手语信息进行放大或者缩小处理，使得会场中的聋哑人在观看正常人表达的意愿时，选择性的同时观看多个会场中的正常人表达的意愿，且根据正常人的音频信息，有重点的观看正常人表达的意愿，使得更好地实现聋哑人与正常人自由有效地交流。

优选地，在步骤 340之后，本发明实施例还包括，将手语信息转换为文本信息的步骤，通过执行手语信息转换为文本信息的步骤，可辅助多方会议的沟通，尤其是在手语信息未在会场的主屏幕播放时，利用文字信息可以辅助会议的沟通交流。

MCU将所述手语信息转换为文本信息，并将所述文本信息与所述会议终端中的当前图像进行叠加处理，用以在至少两个会场显示。

具体地， MCU将手语信息转换为文本信息，在转换后，将文本信息与会议终端中的当前图像进行图像叠加处理。手语信息转换为字幕形式的文本信息，当聋哑人的手语信息没有在会场的主屏幕中播放时，利用文本信息可以辅助会议的沟通交流。

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。

下面以一个具体的实施例为例说明本发明实施例提供的信息的处理方法。例如，多方会议中，会场 1和会场 2的聋哑人进行手语表达，会场 3和会场 4的正常人通过语音表达，归属于会场 1和会场 2的会议终端采集聋哑人手语信息，编码后，发送给 MCU, 归属于会场 3和会场 4的用户终端拾取正常人的说话声音，编码后，发送给 MCU, MCU解码后，得到会场 1的第一手语信息和会场 2的第二手语信息，得到会场 3的第一音频信息和会场 4的第二音频信息， MCU记录得到每个手语信息的第一时刻值，并将手语信息转换为语音信息，即第一手语信息转换为第一语音信息，第二手语信息转换为第二语音信息。

MCU明确发送手语信息的会场个数为 2 , 与第一阈值进行比较，预先设定第一阈值为 4 , 说明 MCU能承受的最大混音会场数为 4个会场。由于发送手语信息的会场个数不超过第一阈值，则， MCU根据在先接收的用户属性信息，将第一语音信息和第二语音进行语音合成处理，生成与用户属性信息匹配的第一合成语音信息和第二合成语音信息。

MCU对第一时刻值进行从大至小排序；在本发明实施例中会场 1发送的手语信息在会场 2之前发送， MCU分别将第一合成语音信息和第二合成语音信息按照预设的增益系数进行增益放大，如第一合成语音信息的增益系数为 1 , 第二合成语音信息的增益系数为 0. 8; MCU还计算第一音频信息和第二音频信息的能量值，按照能量值从大至小排序，在本发明实施例中第一音频信息的能量值大于第二音频信息的能量值，将第一音频信息和第二音频信息的增益系数进行增益放大，如，第一音频信息增益放大 0. 8 , 第二音频信息增益放大 0. 6; MCU 利用混音模式对增益处理后的生成的合成语音信息和音频信息进行混音处理。

MCU进行混音处理完成后，将混音之后的音频信息发送给至少两个会场。同时， MCU还将参与混音处理的第一音频信息和第二音频转换为转换后的第一手语信息和转换后的第二手语信息， MCU根据第一音频信息和第二音频信息能量值的排序，按照预设的比例将转换后的手语信息进行缩放处理，如，在本发明实施例中，由于第一音频信息的能量值大，则将转换后的第一手语信息进行放大处理，将转换后的第二手语信息进行缩小处理。利用叠加模式或者多画面模式， MCU将经过缩放处理后的第一手语信息和第二手语信息与会议终端中的当前图像进行叠加，用以在至少两个会场显示。

进一步地， MCU还可将第一手语信息和第二手语信息转换为文本信息，在转换后，将第一文本信息和第二文本信息与会议终端中的当前图像进行图像叠加处理。第一手语信息和第二手语信息转换为字幕形式的第一文本信息和第二文本信息，当聋哑人的第一手语信息和第二手语信息没有在会场的主屏幕中播放时，利用第一文本信息和第二文本信息可以辅助会议的沟通交流。

相应地，本发明实施例二还提供了一种视频会议中的视音频信息的处理装置，用以实现实施例一中的视频会议中的视音频信息的处理方法，如图 7所示，所述信息的处理装置包括：解码单元 710、转换合成单元 720、混音处理单元 730和发送单元 740。

所述装置中解码单元 710 , 用于接收至少两个会议终端发送的数据码流，并将所述数据码流进行解码，得到至少两路解码信息；转换合成单元 720, 用于确定所述解码单元中的至少两路解码信息中存在手语信息时，将所述手语信息转换为语音信息，并对所述转换后的语音信息进行语音合成处理，生成合成语音信息；

混音处理单元 730, 用于将所述转换合成单元生成的合成语音信息同其他解码后的音频信息进行混音处理；

发送单元 740, 用于混音处理单元中混音之后的音频信息发送给所述至少两个会场。

所述解码单元 710还用于，接收用户输入的或者所述会议终端发送的用户属性信息；

所述转换合成单元 720具体用于，根据所述用户属性信息，对所述转换后的语音信息进行语音合成处理，生成与所述用户属性信息匹配的合成语音信息。

所述装置还包括：判断单元 750, 用于判断发送所述手语信息的所述会议终端所在的会场个数是否超过第一阈值，并将判断结果发送给所述转换合成单元；

所述转换合成单元 720具体用于，当接收到所述判断单元判断所述会场个数不超过所述第一阈值的判断结果时，将转换后的所述语音信息进行语音合成处理，生成合成语音信息；

所述转换合成单元 720具体用于，当接收到所述判断单元判断所述会场个数超过所述第一阈值的判断结果时，将不超过所述第一阈值的转换后的所述语音信息进行语音合成处理，生成合成语音信息。

所述转换合成单元 720还用于，记录解码后得到的每个所述手语信息的第一时刻值；

所述混音处理单元 730具体用于：对所述第一时刻值进行从大至小排序；根据所述第一时刻值的排序，将所述生成的合成语音信息按照预设的增益系数进行增益放大；

计算所述其他解码后的音频信息的能量值，按照所述能量值从大至小排序，将所述其他解码后的音频信息的增益系数进行增益放大；

对增益处理后的所述生成的合成语音信息和所述其他解码后的音频信息进行混音处理，将混音之后的音频信息发送给所述至少两个会场。

所述装置还包括：手语转换单元 760, 用于将参与混音处理的所述其他解码后的音频信息转换为手语信息；缩放处理单元 770, 用于根据所述计算出的所述其他解码后的音频信息的能量值，按照预设的比例将所述转换后的所述手语信息进行缩放处理；

叠加单元 780, 用于将经过缩放处理后的所述手语信息与所述会议终端中的当前图像进行叠加，用以在至少两个会场显示。

所述装置还包括：文本转换单元 790, 用于将所述手语信息转换为文本信息，并将所述文本信息与所述会议终端中的当前图像进行叠加处理，用以在至少两个会场显示。

通过应用本发明实施例提供的视频会议中的视音频信息的处理装置，处理装置将会议终端发送的数据码流解码后，当解码后的数据信息为手语信息时，将手语信息转换为语音信息，并对转换后的语音信息进行处理后生成合成语音信息；将生成的合成语音信息同其他解码后的音频信息进行混音处理；将混音之后的音频信息发送给至少两个会场，从而解决了现有技术中聋哑人士参与多方远程视频会议时，无法自由有效交流的问题。

另外，本发明实施例二提供的视频会议中的视音频信息的处理装置还可以采用实现方式如下，用以实现本发明实施例一中的视频会议中的视音频信息的处理方法，如图 8所示，所述信息的处理装置包括：网络接口 810、处理器 820 和存储器 830。系统总线 840用于连接网络接口 810、处理器 820和存储器 830。

网络接口 810用于与会议终端进行通信。

存储器 830可以是永久存储器，例如硬盘驱动器和闪存，存储器 830中具有软件模块和设备驱动程序。软件模块能够执行本发明上述方法的各种功能模块；设备驱动程序可以是网络和接口驱动程序。

在启动时，这些软件组件被加载到存储器 830中，然后被处理器 820访问并执行如下指令：

接收至少两个会议终端发送的数据码流，并将所述数据码流进行解码，得到至少两路解码信息；

确定所述至少两路解码信息中存在手语信息时，将所述手语信息转换为语音信息，并对所述转换后的语音信息进行语音合成处理，生成合成语音信息；将所述生成的合成语音信息同其他解码后的音频信息进行混音处理；将混音之后的音频信息发送给所述至少两个会场。

进一步的，所述处理器访问存储器 830的软件组件后，在执行接收至少两个会议终端发送的数据码流，并将所述数据码流进行解码，得到至少两路解码信息指令之前执行以下过程的指令：

接收用户输入的或者所述会议终端发送的用户属性信息；

所述对所述转换后的语音信息进行语音合成处理，生成合成语音信息具体为：

根据所述用户属性信息，对所述转换后的语音信息进行语音合成处理，生成与所述用户属性信息匹配的合成语音信息。

进一步的，所述处理器访问存储器 830的软件组件后，执行对所述转换后的语音信息进行语音合成处理，生成合成语音信息过程的具体指令：

判断发送所述手语信息的所述会议终端所在的会场个数是否超过第一阈值；

如果不超过所述第一阈值，则将所述转换后的所述语音信息进行语音合成处理，生成合成语音信息；

如果超过所述第一阈值，则将不超过所述第一阈值的所述转换后的所述语音信息进行语音合成处理，生成合成语音信息。

进一步的，所述处理器访问存储器 830的软件组件后，在执行将所述手语信息转换为语音信息指令之前执行以下过程的指令：

记录解码后得到的每个所述手语信息的第一时刻值；

执行将所述生成的合成语音信息同其他解码后的音频信息进行混音处理过程的具体指令：

对所述第一时刻值进行从大至小排序；

根据所述第一时刻值的排序，将所述生成的合成语音信息按照预设的增益系数进行增益放大；

计算所述其他解码后的音频信息的能量值，按照所述能量值从大至小排序，将所述其他解码后的音频信息的增益系数进行增益放大；

对增益处理后的所述生成的合成语音信息和所述其他解码后的音频信息进行混音处理，将混音后的音频信息发送给所述至少两个会场。

进一步的，所述处理器访问存储器 830的软件组件后，执行以下过程的指令：

将参与混音处理的所述其他解码后的音频信息转换为手语信息；

根据所述其他解码后的音频信息的能量值的排序，按照预设的比例将所述转换后的所述手语信息进行缩放处理；将经过缩放处理后的所述手语信息与所述会议终端中的当前图像进行叠加，用以在至少两个会场显示。

进一步的，所述处理器访问存储器 830的软件组件后，执行以下过程的指令：

将所述手语信息转换为文本信息，并将所述文本信息与所述会议终端中的当前图像进行叠加处理，用以在至少两个会场显示。

通过应用本发明实施例提供的视频会议中的视音频信息的处理装置，处理装置将会议终端发送的数据码流解码后，当解码后的数据信息为手语信息时，将手语信息转换为语音信息，并对转换后的语音信息进行处理后生成合成语音信息；将生成的合成语音信息同其他解码后的音频信息进行混音处理；将混音之后的音频信息发送给至少两个会场，从而解决了现有技术中聋哑人士参与多方远程视频会议时，无法自由有效交流的问题。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（ RAM )、内存、只读存储器（ROM )、电可编程 R0M、电可擦除可编程 R0M、寄存器、硬盘、可移动磁盘、 CD-ROM, 或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Previous Patent: APPARATUS AND METHOD FOR DETECTING FREQUENCY SPECTRUM INTERFERENCE

Next Patent: BIOLOGICAL PREPARATION METHOD OF (S)-3-METHYLAMINO-1-(2-THIENYL)-1-PROPYL ALCOHOL