Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD, DEVICE AND SYSTEM FOR PROCESSING VIDEO/AUDIO INFORMATION IN VIDEO CONFERENCE
Document Type and Number:
WIPO Patent Application WO/2014/094461
Kind Code:
A1
Abstract:
The embodiments of the present invention relate to a method, device and system for processing video/audio information in a video conference.The method includes: receiving data code streams transmitted from at least two conference terminals, and decoding the data code streams to obtain at least two channels of decoded information; when determining that sign language information exists in the at least two channels of decoded information, converting the sign language into voice information, and performing voice synthesis on the converted voice information to generate synthetic voice information; performing audio mixing on the generated synthetic voice information with other decoded audio information; and transmitting the audio-mixed audio information to at least two conference sites.

Inventors:
NI WEI (CN)
Application Number:
PCT/CN2013/083170
Publication Date:
June 26, 2014
Filing Date:
September 10, 2013
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
HUAWEI TECH CO LTD (CN)
International Classes:
H04N7/14
Foreign References:
CN102387338A2012-03-21
CN101594434A2009-12-02
CN101115088A2008-01-30
CN101309390A2008-11-19
CN101080000A2007-11-28
CN102984496A2013-03-20
Download PDF:
Claims:
权 利 要 求

1、 一种视频会议中的视音频信息的处理方法, 其特征在于, 所述视频会议 包括至少两个会场, 所述每一会场至少包括一个会议终端, 所述方法包括: 接收至少两个会议终端发送的数据码流, 并将所述数据码流进行解码, 得 到至少两路解码信息;

确定所述至少两路解码信息中存在手语信息时, 将所述手语信息转换为语 音信息, 并对所述转换后的语音信息进行语音合成处理, 生成合成语音信息; 将所述生成的合成语音信息同其他解码后的音频信息进行混音处理; 将混音之后的音频信息发送给所述至少两个会场。

2、根据权利要求 1所述的视频会议中的视音频信息的处理方法, 其特征在 于, 所述接收至少两个会议终端发送的数据码流, 并将所述数据码流进行解码, 得到至少两路解码信息之前还包括:

接收用户输入的或者所述会议终端发送的用户属性信息;

所述对所述转换后的语音信息进行语音合成处理, 生成合成语音信息具体 为:

根据所述用户属性信息, 对所述转换后的语音信息进行语音合成处理, 生 成与所述用户属性信息匹配的合成语音信息。

3、根据权利要求 1所述的视频会议中的视音频信息的处理方法, 其特征在 于, 所述对所述转换后的语音信息进行语音合成处理, 生成合成语音信息具体 为:

判断发送所述手语信息的所述会议终端所在的会场个数是否超过第一阈 值;

如果不超过所述第一阈值, 则将所述转换后的所述语音信息进行语音合成 处理, 生成合成语音信息;

如果超过所述第一阈值, 则将不超过所述第一阈值的所述转换后的所述语 音信息进行语音合成处理, 生成合成语音信息。

4、根据权利要求 1所述的视频会议中的视音频信息的处理方法, 其特征在 于, 所述将所述手语信息转换为语音信息之前还包括: 记录解码后得到的每个 所述手语信息的第一时刻值;

所述将所述生成的合成语音信息同其他解码后的音频信息进行混音处理具 体为:

对所述第一时刻值进行从大至小排序; 根据所述第一时刻值的排序, 将所述生成的合成语音信息按照预设的增益 系数进行增益放大;

计算所述其他解码后的音频信息的能量值,按照所述能量值从大至小排序, 将所述其他解码后的音频信息的增益系数进行增益放大;

对增益处理后的所述生成的合成语音信息和所述其他解码后的音频信息进 行混音处理, 将混音后的音频信息发送给所述至少两个会场。

5、根据权利要求 4所述的视频会议中的视音频信息的处理方法, 其特征在 于, 所述方法还包括:

将参与混音处理的所述其他解码后的音频信息转换为手语信息;

根据所述其他解码后的音频信息的能量值的排序, 按照预设的比例将所述 转换后的所述手语信息进行缩放处理;

将经过缩放处理后的所述手语信息与所述会议终端中的当前图像进行叠 加, 用以在至少两个会场显示。

6、根据权利要求 1所述的视频会议中的视音频信息的处理方法, 其特征在 于, 所述方法还包括:

将所述手语信息转换为文本信息, 并将所述文本信息与所述会议终端中的 当前图像进行叠加处理, 用以在至少两个会场显示。

7、一种视频会议中的视音频信息的处理装置,其特征在于,所述装置包括: 解码单元, 用于接收至少两个会议终端发送的数据码流, 并将所述数据码 流进行解码, 得到至少两路解码信息;

转换合成单元, 用于确定所述解码单元中的至少两路解码信息中存在手语 信息时, 将所述手语信息转换为语音信息, 并对所述转换后的语音信息进行语 音合成处理, 生成合成语音信息;

混音处理单元, 用于将所述转换合成单元生成的合成语音信息同其他解码 后的音频信息进行混音处理;

发送单元, 用于混音处理单元中混音之后的音频信息发送给所述至少两个 会场。

8、根据权利要求 7所述的视频会议中的视音频信息的处理装置, 其特征在 于, 所述解码单元还用于, 接收用户输入的或者所述会议终端发送的用户属性 信息;

所述转换合成单元具体用于, 根据所述用户属性信息, 对所述转换后的语 音信息进行语音合成处理, 生成与所述用户属性信息匹配的合成语音信息。

9、 根据权利要求 7 所述的视频会议中的视音频信息的处理装置, 其特征 在于, 所述装置还包括,

判断单元, 用于判断发送所述手语信息的所述会议终端所在的会场个数是 否超过第一阈值, 并将判断结果发送给所述转换合成单元;

所述转换合成单元具体用于, 当接收到所述判断单元判断所述会场个数不 超过所述第一阈值的判断结果时,将转换后的所述语音信息进行语音合成处理, 生成合成语音信息;

所述转换合成单元具体用于, 当接收到所述判断单元判断所述会场个数超 过所述第一阈值的判断结果时, 将不超过所述第一阈值的转换后的所述语音信 息进行语音合成处理, 生成合成语音信息。

10、 根据权利要求 7所述的视频会议中的视音频信息的处理装置, 其特征 在于, 所述转换合成单元还用于, 记录解码后得到的每个所述手语信息的第一 时刻值;

所述混音处理单元具体用于:

对所述第一时刻值进行从大至小排序;

根据所述第一时刻值的排序, 将所述生成的合成语音信息按照预设的增益 系数进行增益放大;

计算所述其他解码后的音频信息的能量值,按照所述能量值从大至小排序, 将所述其他解码后的音频信息的增益系数进行增益放大;

对增益处理后的所述生成的合成语音信息和所述其他解码后的音频信息进 行混音处理, 将混音之后的音频信息发送给所述至少两个会场。

11、根据权利要求 1 0所述的视频会议中的视音频信息的处理装置,其特征 在于, 所述装置还包括:

手语转换单元, 用于将参与混音处理的所述其他解码后的音频信息转换为 手语信息;

缩放处理单元, 用于根据所述计算出的所述其他解码后的音频信息的能量 值, 按照预设的比例将所述转换后的所述手语信息进行缩放处理;

叠加单元, 用于将经过缩放处理后的所述手语信息与所述会议终端中的当 前图像进行叠加, 用以在至少两个会场显示。

12、 根据权利要求 7所述的视频会议中的视音频信息的处理装置, 其特征 在于, 所述装置还包括:

文本转换单元, 用于将所述手语信息转换为文本信息, 并将所述文本信息 与所述会议终端中的当前图像进行叠加处理, 用以在至少两个会场显示。

1 3、 一种视频会议系统, 其特征在于, 所述系统包括: 至少两个会场, 所 述每一个会场至少包括一个会议终端,以及如权利要求 8至权利要求 14中任一 权项所述的视频会议中视音频信息的处理装置。

Description:
视频会议中的视音频信息的处理方法、 装置及系统 本申请要求于 2012年 12月 21 日提交中国专利局、 申请号为

201210560387.7、 发明名称为 "视频会议中的视音频信息的处理方法、 装置 及系统" 的中国专利申请的优先权, 其全部内容通过引用结合在本申请中。 技术领域 本发明涉及通讯技术领域, 尤其涉及一种视频会议中的视音频信息的处理 方法、 装置及系统。 背景技术 随着社会的发展和进步, 聋哑人士作为社会的弱势群体越来越受到社会 的 重视和关注。在生活工作中, 聋哑人士与正常人之间互相交流也变得越来越 多。 随着现代教育的普及, 手语已经成为聋哑人之间交流, 以及与正常人交流的一 种通用的方式。 但是, 手语需要进行专门的训练和学习, 正常人一般除了特殊 需要外, 掌握手语的人士相对较少, 造成正常人与聋哑人士的沟通障碍。

目前, 聋哑人士之间或者聋哑人士与正常人远程交流 时, 一般利用专用的 设备或系统实现, 如利用实现手语、 文字、 语音转换的终端, 或者让第三方介 入手语 /语音的互译工作,以此解决聋哑人士之间或 聋哑人士与正常人面对面 交流的问题。

如图 1所示, 图 1 是聋哑人士之间进行远程交流的示意图。 聋哑人 A进行 手语表达, 利用视频通讯终端 A (如视频电话, 视讯会议终端, 桌面软终端等) 采集到其手语图像后, 经通讯网络传输到视频通讯终端 B , 聋哑人 B通过视频 通讯终端 B的呈现, 看到聋哑人 A的手语图像, 理解对方表达的意思。 反之亦 然, 进而完成整个交流过程。

如图 2所示, 图 2 是聋哑人士与正常人进行远程交流的示意图, 聋哑人的 手语图像由视频通讯终端 A采集, 经过多点控制单元分发给正常人和翻译者所 在的视频通讯终端 B、 C中呈现; 经翻译者理解之后, 将其翻译成语音被视频通 讯终端拾取, 并通过多点控制单元分发给正常人所在的视频 通讯终端 B中, 正 常人通过翻译者的语音, 理解了聋哑人表达的内容。

正常人的语音由视频通讯终端 B拾取, 并通过多点控制单元分发给翻译者 所在的视频通讯终端 C中, 翻译者将其翻译成手语, 手语图像经视频通讯终端 采集, 通过多点控制单元分发给聋哑人, 聋哑人通过翻译者的手语图像, 理解 了正常人表达的内容。

随着聋哑人士与正常人之间交流和沟通的逐渐 增长, 现有技术也暴露出以 下弊端: 1 )聋哑人士与正常人进行交流时, 每次会议均需要第三方翻译者的参 与, 增加了沟通的人力成本; 2 )当多方会议中, 若有多个聋哑人士出示手语动 作或者多个正常人同时讲话时, 翻译者针对这种情况无法很好的处理, 以清晰 的表达出各个讲话人的内容。 因此, 现有技术存在一定的局限性, 没有解决有 聋哑人士参与多方会议交流面临的问题。 发明内容 本发明的目的是为了解决现有技术中聋哑人士 参与多方远程视频会议时, 无法自由有效交流的问题, 提供了一种视频会议中的视音频信息的处理方 法、 装置与系统。

在第一方面, 本发明实施例提供了一种视频会议中的视音频 信息的处理方 法, 所述视频会议包括至少两个会场, 所述每一会场至少包括一个会议终端, 所述方法包括:

接收至少两个会议终端发送的数据码流, 并将所述数据码流进行解码, 得 到至少两路解码信息;

确定所述至少两路解码信息中存在手语信息时 , 将所述手语信息转换为语 音信息, 并对所述转换后的语音信息进行语音合成处理 , 生成合成语音信息; 将所述生成的合成语音信息同其他解码后的音 频信息进行混音处理; 将混音之后的音频信息发送给所述至少两个会 场。

在第一种可能的实现方式中,所述接收至少两 个会议终端发送的数据码流, 并将所述数据码流进行解码, 得到至少两路解码信息之前还包括:

接收用户输入的或者所述会议终端发送的用户 属性信息;

所述对所述转换后的语音信息进行语音合成处 理, 生成合成语音信息具体 为:

根据所述用户属性信息, 对所述转换后的语音信息进行语音合成处理, 生 成与所述用户属性信息匹配的合成语音信息。

在第二种可能的实现方式中, 所述对所述转换后的语音信息进行语音合成 处理, 生成合成语音信息具体为:

判断发送所述手语信息的所述会议终端所在的 会场个数是否超过第一阈 值;

如果不超过所述第一阈值, 则将所述转换后的所述语音信息进行语音合成 处理, 生成合成语音信息;

如果超过所述第一阈值, 则将不超过所述第一阈值的所述转换后的所述 语 音信息进行语音合成处理, 生成合成语音信息。

在第三种可能的实现方式中, 所述将所述手语信息转换为语音信息之前还 包括: 记录解码后得到的每个所述手语信息的第一时 刻值;

所述将所述生成的合成语音信息同其他解码后 的音频信息进行混音处理具 体为:

对所述第一时刻值进行从大至小排序;

根据所述第一时刻值的排序, 将所述生成的合成语音信息按照预设的增益 系数进行增益放大;

计算所述其他解码后的音频信息的能量值,按 照所述能量值从大至小排序, 将所述其他解码后的音频信息的增益系数进行 增益放大;

对增益处理后的所述生成的合成语音信息和所 述其他解码后的音频信息进 行混音处理, 将混音后的音频信息发送给所述至少两个会场 。

结合第一方面或第一方面的第三种可能的实现 方式, 在在第四种可能的实 现方式中, 所述方法还包括:

将参与混音处理的所述其他解码后的音频信息 转换为手语信息;

根据所述其他解码后的音频信息的能量值的排 序, 按照预设的比例将所述 转换后的所述手语信息进行缩放处理;

将经过缩放处理后的所述手语信息与所述会议 终端中的当前图像进行叠 加, 用以在至少两个会场显示。

在第五种可能的实现方式中, 所述方法还包括: 将所述手语信息转换为文 本信息, 并将所述文本信息与所述会议终端中的当前图 像进行叠加处理, 用以 在至少两个会场显示。

在第二方面, 本发明实施例提供了一种视频会议中的视音频 信息的处理装 置, 所述装置包括:

解码单元, 用于接收至少两个会议终端发送的数据码流, 并将所述数据码 流进行解码, 得到至少两路解码信息;

转换合成单元, 用于确定所述解码单元中的至少两路解码信息 中存在手语 信息时, 将所述手语信息转换为语音信息, 并对所述转换后的语音信息进行语 音合成处理, 生成合成语音信息;

混音处理单元, 用于将所述转换合成单元生成的合成语音信息 同其他解码 后的音频信息进行混音处理;

发送单元, 用于混音处理单元中混音之后的音频信息发送 给所述至少两个 会场。

在第一种可能的实现方式中, 所述解码单元还用于, 接收用户输入的或者 所述会议终端发送的用户属性信息;

所述转换合成单元具体用于, 根据所述用户属性信息, 对所述转换后的语 音信息进行语音合成处理, 生成与所述用户属性信息匹配的合成语音信息 。

在第二种可能的实现方式中, 所述装置还包括:

判断单元, 用于判断发送所述手语信息的所述会议终端所 在的会场个数是 否超过第一阈值, 并将判断结果发送给所述转换合成单元;

所述转换合成单元具体用于, 当接收到所述判断单元判断所述会场个数不 超过所述第一阈值的判断结果时,将转换后的 所述语音信息进行语音合成处理, 生成合成语音信息;

所述转换合成单元具体用于, 当接收到所述判断单元判断所述会场个数超 过所述第一阈值的判断结果时, 将不超过所述第一阈值的转换后的所述语音信 息进行语音合成处理, 生成合成语音信息。

在第三种可能的实现方式中所述转换合成单元 还用于, 记录解码后得到的 每个所述手语信息的第一时刻值;

所述混音处理单元具体用于: 对所述第一时刻值进行从大至小排序; 根据所述第一时刻值的排序, 将所述生成的合成语音信息按照预设的增益 系数进行增益放大;

计算所述其他解码后的音频信息的能量值,按 照所述能量值从大至小排序, 将所述其他解码后的音频信息的增益系数进行 增益放大;

对增益处理后的所述生成的合成语音信息和所 述其他解码后的音频信息进 行混音处理, 将混音之后的音频信息发送给所述至少两个会 场。

结合第二方面或第二方面的第三种可能的实现 方式, 在第四种可能的实现 方式中, 所述装置还包括:

手语转换单元, 用于将参与混音处理的所述其他解码后的音频 信息转换为 手语信息;

缩放处理单元, 用于根据所述计算出的所述其他解码后的音频 信息的能量 值, 按照预设的比例将所述转换后的所述手语信息 进行缩放处理;

叠加单元, 用于将经过缩放处理后的所述手语信息与所述 会议终端中的当 前图像进行叠加, 用以在至少两个会场显示。

在第五种可能的实现方式中, 所述装置还包括: 文本转换单元, 用于将所 述手语信息转换为文本信息, 并将所述文本信息与所述会议终端中的当前图 像 进行叠加处理, 用以在至少两个会场显示。

在第三方面, 本发明实施例提供了一种视频会议中的视音频 信息的处理系 统, 所述系统包括: 至少两个会场, 所述每一个会场至少包括一个会议终端, 以及如权利要求 8至权利要求 14中任一权项所述的视频会议中视音频信息的 理装置。

因此,通过应用本发明实施例提供的视频会议 中的视音频信息的处理方法、 装置与系统, 多点控制单元将会议终端发送的数据码流解码 后, 当解码后的数 据信息为手语信息时, 将手语信息转换为语音信息, 并对转换后的语音信息进 行处理后生成合成语音信息; 将生成的合成语音信息同其他解码后的音频信 息 进行混音处理; 将混音之后的音频信息发送给至少两个会场, 从而解决了现有 技术中聋哑人士参与多方远程视频会议时, 无法自由有效交流的问题。 附图说明 图 1为现有技术中聋哑人士之间进行远程交流的 意图;

图 2为现有技术中聋哑人士与正常人进行远程交 的示意图;

图 3 为本发明实施例一提供的视频会议中的视音频 信息的处理方法流程 图;

图 4为本发明实施例提供的视频会议中的视音频 息的处理系统示意图; 图 5为本发明实施例提供的图像叠加示意图;

图 6为本发明实施例提供的图像叠加示意图;

图 7 为本发明实施例二提供的视频会议中的视音频 信息的处理装置结构 图; 图 8 为本发明实施例三提供的视频会议中的视音频 信息的处理装置结构 图。 具体实施方式 为使本发明的目的、 技术方案和优点更加清楚, 下面结合附图对本发明具 体实施例作进一步的详细描述。

下面以图 3为例说明本发明实施例提供的信息的处理方 , 图 3为本发明 实施例一提供的视频会议中的视音频信息的处 理方法流程图, 在本发明实施例 中实施主体为多点控制服务器, 下面以多点控制单元 (Mul t ipo int Control Uni t , 简称: MCU ) 为例进行说明。 如图 3所示, 该实施例包括以下步骤:

步骤 310、 接收至少两个会议终端发送的数据码流, 并将所述数据码流进 行解码, 得到至少两路解码信息。

具体地, 在多方会议中, 如图 4所示, 图 4为本发明实施例提供的视频会 议中的视音频信息的处理系统示意图, 各个会议终端存在于多方会议的各个会 场中, 且视频会议包括至少两个会场 (作为图示, 图 4中包括 4个会场, 每个 会场包括 1个会议终端, 可以理解, 实际应用中不限于 4个会场), 每一会场至 少包括一个会议终端, 会议终端用于采集及输出会场中的音视频信息 、 拾取原 始用户信息, 所述原始用户信息具体为用户的手语信息、 语音信息等, 会议终 端将原始用户信息进行编码, 形成数据码流, 并将数据码流发送至 MCU , MCU 接收会议终端发送的数据码流。

在本发明实施例中, 所述会议终端是指具有采集图像、 拾取声音、 接受外 部输入功能的设备, 并负责将获取的视频图像发送给显示器进行显 示, 以及将 收到的音频信息发送给扬声器进行播放, 例如, 视讯终端。

MCU接收到数据码流后, 对数据码流进行解码, 得到至少两路解码信息, 所述解码信息包括会议终端采集的手语信息, 拾取的音频信息等。

步骤 320、 确定至少两路解码信息中存在手语信息时, 将所述手语信息转 换为语音信息, 并对所述转换后的语音信息进行语音合成处理 , 生成合成语音 信息。

具体地, MCU进行解码后, MCU确定至少两路解码信息中存在手语信息时, 则 MCU将手语信息转换为语音信息。

所述 MCU确定至少两路解码信息中存在手语信息具体 为, MCU进行解码后, 根据解码后的数据进行还原, 当 MCU将解码后的数据可以还原为手语信息时, 则 MCU将手语信息转换为语音信息; 当 MCU将解码后的数据可以还原为音频信 息时, 则对音频信息进行混音处理, 或者将音频信息转换为手语信息等。

进一步地,所述手语信息为在会议终端采集的 任一聋哑人做出的手势动作, 当会场中聋哑人需要表达自身的意见时,则聋 哑人面对会议终端进行手语表达, 会议终端采集聋哑人的手语信息, 经编码后发送给 MCU, MCU在进行解码后, 得 到手语信息, 则将手语信息转换为语音信息。

MCU将手语信息转换为语音信息后, 对转换后的语音信息进行语音合成, 生成合成语音信息。

所述 MCU对所述转换后的语音信息进行语音合成处理 , 生成合成语音信息 具体为:

MCU 判断发送手语信息的所议终端所在的会场个数 是否超过第一阈值; 如 果不超过所述第一阈值, 则将转换后的所述语音信息进行语音合成处理 , 生成 合成语音信息; 如果超过所述第一阈值, 则将不超过所述第一阈值的转换后的 所述语音信息进行语音合成处理, 生成合成语音信息。

在本发明实施例中,所述第一阈值为 MCU可以承受的最大混音的会场个数, 一般最大混音的会场为四方混音。

其中, MCU在执行将手语信息转换为语音信息之前, MCU还记录解码后得到 的每个手语信息的第一时刻值。 MCU 记录所述第一时刻值, 是用于在后续进行 混音处理过程中, 根据记录的每个手语信息的第一时刻值, 选择参与混音处理 的语音信息。

步骤 330、 将所述生成的合成语音信息通其他解码后的音 频信息进行混音 处理。

具体地, MCU将生成的合成语音信息同其他解码后的音频 信息进行混音处 理,所述混音处理为使得多方会议中的用户都 接收到语音质量令人满意的信号。

所述 MCU将所述生成的合成语音信息同其他解码后的 音频信息进行混音处 理具体为:

MCU对步骤 320 中的第一时刻值进行从大至小排序; 根据所述第一时刻值 的排序, MCU将生成的合成语音信息按照预设的增益系数 进行增益放大; 并计 算其他解码后的音频信息的能量值, 按照能量值从大至小排序, 将其他解码后 的音频信息的增益系数进行增益放大; MCU 对增益处理后的生成的合成语音信 息和其他解码后的音频信息进行混音处理。

在本发明实施例中, 参与混音处理的音频信息的个数不超过第一阈 值。 进一步地, 当解码信息中解码后的数据信息不包括音频信 息时, 则 MCU将 生成的多个合成语音信息进行混音处理, 且参与混音处理的多个合成语音信息 不超过第一阈值。

更进一步地, 在本发明实施例中, 当解码信息中解码后的数据信息包括手 语信息和音频信息时, 则说明既存在聋哑人表达, 也存在正常人表达, 则 MCU 优先将手语信息转换为语音信息, 生成合成语音信息, 并在不超过第一阈值的 情况下, 将合成语音信息同其他解码后的音频信息进行 混音处理, 当合成语音 信息超过第一阈值的情况下, 优先仅将合成语音信息进行混音处理, 将其他解 码后的音频信息舍弃, 已保证优先处理聋哑人的表达, 解决聋哑人与正常人的 交流问题。

步骤 340、 将混音之后的音频信息发送给所述至少两个会 场。

具体地, MCU在将生成的合成语音信息同其他解码后的音 频信息进行混音 处理后, 将混音之后的音频信息发送到至少两个会场, 所述至少两个会场包括 发送数据码流的会场, 及未发送数据码流的会场。

因此,通过应用本发明实施例提供的视频会议 中的视音频信息的处理方法、 装置与系统, 多点控制单元将会议终端发送的数据码流解码 后, 当解码后的数 据信息为手语信息时, 将手语信息转换为语音信息, 并对转换后的语音信息进 行处理后生成合成语音信息; 将生成的合成语音信息同其他解码后的音频信 息 进行混音处理; 将混音之后的音频信息发送给至少两个会场, 从而解决了现有 技术中聋哑人士参与多方远程视频会议时, 无法自由有效交流的问题。

可选地, 在步骤 310之前, 本发明实施例还包括, MCU接收用户输入的或 者会议终端发送的用户属性信息的步骤, MCU通过接收用户属性信息, 从而在 进行语音合成处理时, 生成与用户属性信息匹配的合成语音信息, 使得会场中 的收听者在收听时感觉真实, 增强交流临场感。

MCU接收用户输入的或者所述会议终端发送的用 户属性信息。

具体地, 在多方会议开始前, 聋哑人可将自身的属性信息输入 MCU中, 所 述用户属性信息包括: 性别、 年龄、 国籍等; 或者, 聋哑人可将自身的属性信 息输入到其所在会场中的会议终端中, 由会议终端统一发送给 MCU。

MCU根据所述用户属性信息, 对所述转换后的语音信息进行语音合成处理, 生成与所述用户属性信息匹配的合成语音信息 。

具体地, MCU在将手语信息转换为语音信息后, 根据手语信息, 获取与手 语信息对应的用户属性信息, 并根据用户属性信息, 对转换后的语音信息进行 语音合成处理, 生成与用户属性信息匹配的合成语音信息。 例如, 会议终端采 集的手语信息是一位中国中年男性所做出的, 则 MCU在将手语信息转换为的语 音信息后, 则获取与该手语信息对应的用户属性信息, 并根据用户属性信息, 对转换后的语音信息进行语音合成处理, 生成与用户属性信息匹配的合成语音 信息, 同时 MCU还根据手语信息的快慢, 来调整合成语音信息的语速, 音调等, 使得其他会场的正常人在收听时。 感觉更真实, 增强交流临场感。

可选地, 在步骤 340之后, 本发明实施例还包括, 将参与混音处理的其他 解码后的音频信息转换为手语信息, 及将转换后的手语信息进行处理的步骤, MCU通过执行将其他解码后的音频信息转换为手 语信息, 及将转换后的手语信 息进行处理的步骤, 使得会场中的聋哑人在表达自身意愿的同时, 也明确正常 人表达的意愿, 使得更好地实现聋哑人与正常人自由有效地交 流。

MCU将参与混音处理的所述其他解码后的音频信 息转换为手语信息。

具体地, MCU将参与混音处理的其他解码后的音频信息转 换为手语信息, 对未参与混音处理的其他解码后的音频信息则 不进行转换。

MCU根据所述计算出的所述其他解码后的音频信 息的能量值, 按照预设的 比例将所述转换后的所述手语信息进行缩放处 理。

具体地, MCU根据在步骤 330中的其他解码后的音频信息的能量值的排序 , 按照预设的比例将转换后的手语信息进行缩放 处理。 进一步地, 对能量值大的 转换后的手语信息对应的图像进行放大处理, 对能量值小的转换后的手语信息 对应的图像进行缩小处理。

利用叠加模式或者多画面模式, MCU将经过缩放处理后的所述手语信息与 所述会议终端中的当前图像进行叠加, 用以在至少两个会场显示。

具体地, 利用叠加模式或者多画面模式, MCU 将经过缩放处理后的手语信 息与会议终端中的当前图像进行叠加, 用以在至少两个会场显示。

所述叠加模式具体是指将多个手语信息一同叠 加在会议终端中的当前图像 上, 并呈现在会议终端的显示屏中, 此种叠加模式会遮挡到会议终端中的当前 图像, 如图 5所示; 所述多画面模式具体是指, 将多个手语信息及会议终端中 的当前图像一同呈现在会议终端的显示屏中, 此种多画面模式不会遮挡到会议 终端中的当前图像, 如图 6所示。

例如, 如图 5所示的叠加模式, 且在图 5中, 各会场的图像为将音频信息 转换后得到的, 会场 2中的图像由于对应的音频信息能量值最大, 因此, 在转 换为手语信息后, 图像进行放大处理, 会场 3和会场 4的图像由于对应的音频 信息能量值最小, 因此, 在转换为手语信息后, 图像进行缩小处理。 再例如, 如图 6的多画面模式, 同理, 在此不再复述。

通过上述对转换后的手语信息进行放大或者缩 小处理, 使得会场中的聋哑 人在观看正常人表达的意愿时, 选择性的同时观看多个会场中的正常人表达的 意愿, 且根据正常人的音频信息, 有重点的观看正常人表达的意愿, 使得更好 地实现聋哑人与正常人自由有效地交流。

优选地, 在步骤 340之后, 本发明实施例还包括, 将手语信息转换为文本 信息的步骤, 通过执行手语信息转换为文本信息的步骤, 可辅助多方会议的沟 通, 尤其是在手语信息未在会场的主屏幕播放时, 利用文字信息可以辅助会议 的沟通交流。

MCU将所述手语信息转换为文本信息, 并将所述文本信息与所述会议终端 中的当前图像进行叠加处理, 用以在至少两个会场显示。

具体地, MCU将手语信息转换为文本信息, 在转换后, 将文本信息与会议 终端中的当前图像进行图像叠加处理。 手语信息转换为字幕形式的文本信息, 当聋哑人的手语信息没有在会场的主屏幕中播 放时, 利用文本信息可以辅助会 议的沟通交流。

为使本发明的目的、 技术方案和优点更加清楚, 下面结合附图对本发明具 体实施例作进一步的详细描述。

下面以一个具体的实施例为例说明本发明实施 例提供的信息的处理方法。 例如, 多方会议中, 会场 1和会场 2的聋哑人进行手语表达, 会场 3和会 场 4的正常人通过语音表达, 归属于会场 1和会场 2的会议终端采集聋哑人手 语信息, 编码后, 发送给 MCU, 归属于会场 3和会场 4的用户终端拾取正常人 的说话声音, 编码后, 发送给 MCU, MCU解码后, 得到会场 1的第一手语信息和 会场 2的第二手语信息,得到会场 3的第一音频信息和会场 4的第二音频信息, MCU记录得到每个手语信息的第一时刻值, 并将手语信息转换为语音信息, 即 第一手语信息转换为第一语音信息, 第二手语信息转换为第二语音信息。

MCU明确发送手语信息的会场个数为 2 , 与第一阈值进行比较,预先设定第 一阈值为 4 , 说明 MCU能承受的最大混音会场数为 4个会场。 由于发送手语信 息的会场个数不超过第一阈值, 则, MCU根据在先接收的用户属性信息, 将第 一语音信息和第二语音进行语音合成处理, 生成与用户属性信息匹配的第一合 成语音信息和第二合成语音信息。

MCU对第一时刻值进行从大至小排序; 在本发明实施例中会场 1发送的手 语信息在会场 2之前发送, MCU分别将第一合成语音信息和第二合成语音信 息 按照预设的增益系数进行增益放大, 如第一合成语音信息的增益系数为 1 , 第 二合成语音信息的增益系数为 0. 8; MCU还计算第一音频信息和第二音频信息的 能量值, 按照能量值从大至小排序, 在本发明实施例中第一音频信息的能量值 大于第二音频信息的能量值, 将第一音频信息和第二音频信息的增益系数进 行 增益放大, 如, 第一音频信息增益放大 0. 8 , 第二音频信息增益放大 0. 6; MCU 利用混音模式对增益处理后的生成的合成语音 信息和音频信息进行混音处理。

MCU进行混音处理完成后, 将混音之后的音频信息发送给至少两个会场。 同时, MCU还将参与混音处理的第一音频信息和第二音 频转换为转换后的 第一手语信息和转换后的第二手语信息, MCU根据第一音频信息和第二音频信 息能量值的排序, 按照预设的比例将转换后的手语信息进行缩放 处理, 如, 在 本发明实施例中, 由于第一音频信息的能量值大, 则将转换后的第一手语信息 进行放大处理, 将转换后的第二手语信息进行缩小处理。 利用叠加模式或者多 画面模式, MCU将经过缩放处理后的第一手语信息和第二手 语信息与会议终端 中的当前图像进行叠加, 用以在至少两个会场显示。

进一步地, MCU还可将第一手语信息和第二手语信息转换为 文本信息, 在 转换后, 将第一文本信息和第二文本信息与会议终端中 的当前图像进行图像叠 加处理。 第一手语信息和第二手语信息转换为字幕形式 的第一文本信息和第二 文本信息, 当聋哑人的第一手语信息和第二手语信息没有 在会场的主屏幕中播 放时, 利用第一文本信息和第二文本信息可以辅助会 议的沟通交流。

相应地, 本发明实施例二还提供了一种视频会议中的视 音频信息的处理装 置,用以实现实施例一中的视频会议中的视音 频信息的处理方法,如图 7所示, 所述信息的处理装置包括: 解码单元 710、 转换合成单元 720、 混音处理单元 730和发送单元 740。

所述装置中解码单元 710 , 用于接收至少两个会议终端发送的数据码流, 并将所述数据码流进行解码, 得到至少两路解码信息; 转换合成单元 720, 用于确定所述解码单元中的至少两路解码信息 中存在 手语信息时, 将所述手语信息转换为语音信息, 并对所述转换后的语音信息进 行语音合成处理, 生成合成语音信息;

混音处理单元 730, 用于将所述转换合成单元生成的合成语音信息 同其他 解码后的音频信息进行混音处理;

发送单元 740, 用于混音处理单元中混音之后的音频信息发送 给所述至少 两个会场。

所述解码单元 710还用于, 接收用户输入的或者所述会议终端发送的用户 属性信息;

所述转换合成单元 720具体用于, 根据所述用户属性信息, 对所述转换后 的语音信息进行语音合成处理,生成与所述用 户属性信息匹配的合成语音信息。

所述装置还包括: 判断单元 750, 用于判断发送所述手语信息的所述会议 终端所在的会场个数是否超过第一阈值, 并将判断结果发送给所述转换合成单 元;

所述转换合成单元 720具体用于, 当接收到所述判断单元判断所述会场个 数不超过所述第一阈值的判断结果时, 将转换后的所述语音信息进行语音合成 处理, 生成合成语音信息;

所述转换合成单元 720具体用于, 当接收到所述判断单元判断所述会场个 数超过所述第一阈值的判断结果时, 将不超过所述第一阈值的转换后的所述语 音信息进行语音合成处理, 生成合成语音信息。

所述转换合成单元 720还用于, 记录解码后得到的每个所述手语信息的第 一时刻值;

所述混音处理单元 730具体用于: 对所述第一时刻值进行从大至小排序; 根据所述第一时刻值的排序, 将所述生成的合成语音信息按照预设的增益 系数进行增益放大;

计算所述其他解码后的音频信息的能量值,按 照所述能量值从大至小排序, 将所述其他解码后的音频信息的增益系数进行 增益放大;

对增益处理后的所述生成的合成语音信息和所 述其他解码后的音频信息进 行混音处理, 将混音之后的音频信息发送给所述至少两个会 场。

所述装置还包括: 手语转换单元 760, 用于将参与混音处理的所述其他解 码后的音频信息转换为手语信息; 缩放处理单元 770, 用于根据所述计算出的所述其他解码后的音频 信息的 能量值, 按照预设的比例将所述转换后的所述手语信息 进行缩放处理;

叠加单元 780, 用于将经过缩放处理后的所述手语信息与所述 会议终端中 的当前图像进行叠加, 用以在至少两个会场显示。

所述装置还包括: 文本转换单元 790, 用于将所述手语信息转换为文本信 息, 并将所述文本信息与所述会议终端中的当前图 像进行叠加处理, 用以在至 少两个会场显示。

通过应用本发明实施例提供的视频会议中的视 音频信息的处理装置, 处理 装置将会议终端发送的数据码流解码后, 当解码后的数据信息为手语信息时, 将手语信息转换为语音信息, 并对转换后的语音信息进行处理后生成合成语 音 信息; 将生成的合成语音信息同其他解码后的音频信 息进行混音处理; 将混音 之后的音频信息发送给至少两个会场, 从而解决了现有技术中聋哑人士参与多 方远程视频会议时, 无法自由有效交流的问题。

另外, 本发明实施例二提供的视频会议中的视音频信 息的处理装置还可以 采用实现方式如下, 用以实现本发明实施例一中的视频会议中的视 音频信息的 处理方法, 如图 8所示, 所述信息的处理装置包括: 网络接口 810、 处理器 820 和存储器 830。系统总线 840用于连接网络接口 810、处理器 820和存储器 830。

网络接口 810用于与会议终端进行通信。

存储器 830可以是永久存储器, 例如硬盘驱动器和闪存, 存储器 830中具 有软件模块和设备驱动程序。 软件模块能够执行本发明上述方法的各种功能 模 块; 设备驱动程序可以是网络和接口驱动程序。

在启动时, 这些软件组件被加载到存储器 830中, 然后被处理器 820访问 并执行如下指令:

接收至少两个会议终端发送的数据码流, 并将所述数据码流进行解码, 得 到至少两路解码信息;

确定所述至少两路解码信息中存在手语信息时 , 将所述手语信息转换为语 音信息, 并对所述转换后的语音信息进行语音合成处理 , 生成合成语音信息; 将所述生成的合成语音信息同其他解码后的音 频信息进行混音处理; 将混音之后的音频信息发送给所述至少两个会 场。

进一步的, 所述处理器访问存储器 830的软件组件后, 在执行接收至少两 个会议终端发送的数据码流, 并将所述数据码流进行解码, 得到至少两路解码 信息指令之前执行以下过程的指令:

接收用户输入的或者所述会议终端发送的用户 属性信息;

所述对所述转换后的语音信息进行语音合成处 理, 生成合成语音信息具体 为:

根据所述用户属性信息, 对所述转换后的语音信息进行语音合成处理, 生 成与所述用户属性信息匹配的合成语音信息。

进一步的, 所述处理器访问存储器 830的软件组件后, 执行对所述转换后 的语音信息进行语音合成处理, 生成合成语音信息过程的具体指令:

判断发送所述手语信息的所述会议终端所在的 会场个数是否超过第一阈 值;

如果不超过所述第一阈值, 则将所述转换后的所述语音信息进行语音合成 处理, 生成合成语音信息;

如果超过所述第一阈值, 则将不超过所述第一阈值的所述转换后的所述 语 音信息进行语音合成处理, 生成合成语音信息。

进一步的, 所述处理器访问存储器 830的软件组件后, 在执行将所述手语 信息转换为语音信息指令之前执行以下过程的 指令:

记录解码后得到的每个所述手语信息的第一时 刻值;

执行将所述生成的合成语音信息同其他解码后 的音频信息进行混音处理过 程的具体指令:

对所述第一时刻值进行从大至小排序;

根据所述第一时刻值的排序, 将所述生成的合成语音信息按照预设的增益 系数进行增益放大;

计算所述其他解码后的音频信息的能量值,按 照所述能量值从大至小排序, 将所述其他解码后的音频信息的增益系数进行 增益放大;

对增益处理后的所述生成的合成语音信息和所 述其他解码后的音频信息进 行混音处理, 将混音后的音频信息发送给所述至少两个会场 。

进一步的, 所述处理器访问存储器 830的软件组件后, 执行以下过程的指 令:

将参与混音处理的所述其他解码后的音频信息 转换为手语信息;

根据所述其他解码后的音频信息的能量值的排 序, 按照预设的比例将所述 转换后的所述手语信息进行缩放处理; 将经过缩放处理后的所述手语信息与所述会议 终端中的当前图像进行叠 加, 用以在至少两个会场显示。

进一步的, 所述处理器访问存储器 830的软件组件后, 执行以下过程的指 令:

将所述手语信息转换为文本信息, 并将所述文本信息与所述会议终端中的 当前图像进行叠加处理, 用以在至少两个会场显示。

通过应用本发明实施例提供的视频会议中的视 音频信息的处理装置, 处理 装置将会议终端发送的数据码流解码后, 当解码后的数据信息为手语信息时, 将手语信息转换为语音信息, 并对转换后的语音信息进行处理后生成合成语 音 信息; 将生成的合成语音信息同其他解码后的音频信 息进行混音处理; 将混音 之后的音频信息发送给至少两个会场, 从而解决了现有技术中聋哑人士参与多 方远程视频会议时, 无法自由有效交流的问题。

专业人员应该还可以进一步意识到, 结合本文中所公开的实施例描述的各 示例的单元及算法步骤, 能够以电子硬件、计算机软件或者二者的结合 来实现, 为了清楚地说明硬件和软件的可互换性, 在上述说明中已经按照功能一般性地 描述了各示例的组成及步骤。 这些功能究竟以硬件还是软件方式来执行, 取决 于技术方案的特定应用和设计约束条件。 专业技术人员可以对每个特定的应用 来使用不同方法来实现所描述的功能, 但是这种实现不应认为超出本发明的范 围。

结合本文中所公开的实施例描述的方法或算法 的步骤可以用硬件、 处理器 执行的软件模块,或者二者的结合来实施。软 件模块可以置于随机存储器( RAM )、 内存、 只读存储器(ROM )、 电可编程 R0M、 电可擦除可编程 R0M、 寄存器、硬盘、 可移动磁盘、 CD-ROM, 或技术领域内所公知的任意其它形式的存储介 质中。

以上所述的具体实施方式, 对本发明的目的、 技术方案和有益效果进行了 进一步详细说明, 所应理解的是, 以上所述仅为本发明的具体实施方式而已, 并不用于限定本发明的保护范围, 凡在本发明的精神和原则之内, 所做的任何 修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。