LOW-BIT-RATE VIDEO CONFERENCE SYSTEM AND METHOD, SENDING END DEVICE, AND RECEIVING END DEVICE

Title:

LOW-BIT-RATE VIDEO CONFERENCE SYSTEM AND METHOD, SENDING END DEVICE, AND RECEIVING END DEVICE

Document Type and Number:

WIPO Patent Application WO/2014/079302

Kind Code:

A1

Abstract:

Disclosed is a low-bit-rate video conference method, comprising: a sending end obtaining audio data and video data and forming an audio feature mapping and a video feature mapping, obtaining a local dynamic image, transmitting the audio data and the local dynamic data to a receiving end; according to an audio feature and a video feature extracted from a local audio feature mapping and a local video feature mapping and the received local dynamic image, the receiving end arranging and synthesizing original video data, and playing the audio data. Also disclosed are a low-bit-rate video conference data transmission system, a sending end device, and a receiving end device. The present invention can conserve the bandwidth, so as to meet the increasing demands of video conference services.

Inventors:

LI XIA (CN)
FU XIANHUI (CN)
ZHANG KAI (CN)
XIU YAN (CN)

Application Number:

PCT/CN2013/086009

Publication Date:

May 30, 2014

Filing Date:

October 25, 2013

Export Citation:

Click for automatic bibliography generation Help

Assignee:

ZTE CORP (CN)

International Classes:

H04N7/15

Foreign References:

CN102271241A	2011-12-07
CN101951494A	2011-01-19
CN102427533A	2012-04-25
CN102572356A	2012-07-11
US20100241432A1	2010-09-23
US20110069142A1	2011-03-24

Other References:

See also references of EP 2924985A4

Attorney, Agent or Firm:

CHINA PAT INTELLECTUAL PROPERTY OFFICE (CN)
北京派特恩知识产权代理事务所（普通合伙） (CN)

Download PDF:

View/Download PDF PDF Help

Claims:

权利要求书

1、一种低码流的视频会议系统，所述系统包括：发送端及接收端；其中，

所述发送端，配置为获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，获取局部动态图像；传输音频数据和局部动态图像到所述接收端；

所述接收端，配置为根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的所述局部动态图像整理合成出原始视频数据并播放音频数据。

2、根据权利要求 1所述的系统，其中，所述发送端包括：采集单元、识别单元、特征映射单元、发送单元；

所述接收端包括：接收单元、特征提取比对单元、数据合成输出单元；其中，

所述采集单元，配置为采集音频数据和视频数据，将采集的音频数据和视频数据发送给识别单元；

所述识别单元，配置为识别出发言者身份，对采集的音频数据进行语音识别并获取音频特征，对采集的视频数据进行图像识别并获取视频特征和局部动态图像，将音频特征、视频特征和局部动态图像发送给特征映射单元；

所述特征映射单元，配置为查询是否已经存在音频特征映射和视频特征映射，如果查询不到，则根据所述音频特征和所述视频特征分别生成音频特征映射和视频特征映射；

所述发送单元，配置为送音频数据和局部动态图像，音频数据的编码中携带所述发言者身份；所述接收单元，配置为接收音频数据和局部动态图像；

所述特征提取比对单元，配置为从音频数据的编码中提取出所述发言者身份，查询已经存在的音频特征映射和视频特征映射，根据所述发言者身份从音频特征映射中提取出音频特征，从视频特征映射中提取出视频特征；

所述数据合成输出单元，配置为采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据，并结合音频特征输出音频数据和原始视频数据。

3、根据权利要求 2所述的系统，其中，所述识别单元，配置为识别出发言者身份和发言者当前参与会议的会议号，由所述发言者身份和所述会议号形成身份识别码，由所述身份识别码标识与采集的音频数据和视频数据对应的身份特征；或者，仅由所述发言者身份标识所述身份特征。

4、根据权利要求 2所述的系统，其中，所述特征映射单元，配置为在发送端本地和网络数据库进行所述查询，在本地查询到的情况，采用本地的音频特征映射和视频特征映射；在网络数据库查询到的情况，从网络数据库下载音频特征映射和视频特征映射到本地；在本地和网络数据库都查询不到的情况，在本地生成音频特征映射和视频特征映射。

5、根据权利要求 2所述的系统，其中，所述音频特征映射由发言者身份和与所述发言者身份对应的音频特征组成；或者，所述音频特征映射由身份识别码和与所述身份识别码对应的音频特征组成，所述身份识别码由发言者身份和会议号形成。

6、根据权利要求 2所述的系统，其中，所述视频特征映射由发言者身份和与所述发言者身份对应的视频特征组成；或者，所述视频特征映射由身份识别码和与所述身份识别码对应的视频特征组成，所述身份识别码由发言者身份和会议号形成。 7、根据权利要求 1至 6中任一项所述的系统，其中，所述局部动态图像包括：发言者的头部运动、眼球运动、手势、轮廓运动中的至少一种轨迹图像信息。

8、一种低码流的视频会议数据传输方法，所述方法包括：

发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，获取局部动态图像，传输音频数据和局部动态图像到接收端；

接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的所述局部动态图像整理合成出原始视频数据并播放音频数据。

9、根据权利要求 8所述的方法，其中，形成所述音频特征映射，包括：识别出发言者身份后，以发言者身份为索引关键字形成音频特征映射，所述音频特征映射由发言者身份和与所述发言者身份对应的音频特征组成或者

识别出发言者身份和会议号后，以发言者身份和会议号为组合索引关键字形成音频特征映射，所述音频特征映射由身份识别码和与所述身份识别码对应的音频特征组成；所述身份识别码由所述发言者身份和所述会议号形成。

10、根据权利要求 8所述的方法，其中，形成所述视频特征映射，包括：

识别出发言者身份后，以发言者身份为索引关键字形成视频特征映射，所述视频特征映射由发言者身份和与所述发言者身份对应的视频特征组成或者

识别出发言者身份和会议号后，以发言者身份和会议号为组合索引关键字形成视频特征映射，所述视频特征映射由身份识别码和与所述身份识别码对应的视频特征组成；所述身份识别码由所述发言者身份和所述会议号形成。

11、根据权利要求 8 所述的方法，其中，形成音频特征映射和视频特征映射之前，所述方法还包括：

在发送端本地和网络数据库进行所述查询，在本地查询到的情况，采用本地的音频特征映射和视频特征映射；在网络数据库查询到的情况，从网络数据库下载音频特征映射和视频特征映射到本地；在本地和网络数据库都查询不到的情况，在本地形成音频特征映射和视频特征映射。

12、根据权利要求 8至 11中任一项所述的方法，其中，所述局部动态图像包括：发言者的头部运动、眼球运动、手势、轮廓运动中的至少一种轨迹图像信息。

13、一种低码流的视频会议系统的发送端设备，所述设备，配置为获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，获取局部动态图像；传输音频数据和局部动态图像到接收端。

14、根据权利要求 13所述的设备，其中，所述设备包括：采集单元、识别单元、特征映射单元、发送单元；其中，

所述采集单元，配置为采集音频数据和视频数据，将采集的音频数据和视频数据发送给识别单元；

所述识别单元，配置为识别出发言者身份，对采集的音频数据进行语音识别并获取音频特征，对采集的视频数据进行图像识别并获取视频特征和局部动态图像，将音频特征、视频特征和局部动态图像发送给特征映射单元；

所述特征映射单元，配置为查询是否已经存在音频特征映射和视频特征映射，如果查询不到，则根据所述音频特征和所述视频特征分别生成音频特征映射和视频特征映射；

所述发送单元，配置为发送音频数据和局部动态图像，音频数据的编码中携带所述发言者身份。

15、一种低码流的视频会议系统的接收端设备，所述设备，配置为接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及从发送端接收的局部动态图像整理合成出原始视频数据并播放音频数据。

16、根据权利要求 15所述的设备，其中，所述设备包括：接收单元、特征提取比对单元、数据合成输出单元；其中，

所述接收单元，配置为接收音频数据和局部动态图像；

所述特征提取比对单元，配置为从音频数据的编码中提取出所述发言者身份，查询已经存在的音频特征映射和视频特征映射，根据所述发言者身份从音频特征映射中提取出音频特征，从视频特征映射中提取出视频特征；

所述数据合成输出单元，配置为采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据，并结合音频特征输出音频数据和原始视频数据。

Description:

低码流的视频 ^义系统及方法、发送端设备、接收端设备技术领域

本发明涉及多媒体通信领域，尤其涉及一种低码流的视频会议系统及低码流的视频会议数据传输方法、发送端设备、接收端设备。背景技术

视频会议系统用于召开远程、多点及实时的会议，实现多点之间视频和声音的传输和交互。视频会议系统主要由终端和微控制单元（ MCU, Micro Controller Unit )组成。在一个小型的视频会议系统中，通常由多个终端集中连接至一个 MCU上，组成星型拓朴结构网络。终端是用户端设备，配有显示器、摄像机、扬声器、麦克风等多媒体部件； MCU是系统端设备，集中对各终端的多媒体信息进行交换和处理。

视频会议系统，可以说是集网络、视频和音频为一体的系统，对网络要求非常高。网络带宽实际上是整个视频会议的基础，其在视频会议中的使用也比较复杂，因为不同的需求产生不同的带宽要求。比如，参会人的多少，发言人的多少，图像的大小，很多用户希望尽可能采用大分辨率的图像， 640 X 480的分辨率和 320 x 240的分辨率比，数据量要增大 4倍， 20 个会场和 10个会场比数据量也大一倍。很多会议需要使用屏幕共享来给分公司，尽管这个功能非常的有价值，不过一个 1024 x 768 的屏幕是一个很大的图像，产生的流量也很大。因此如果没有足够的带宽，我们看到的视频会出现抖动，听到的声音会有杂音，使整个视频会议不能正常进行。目前很多企业都采用了专线网络，基本上能够保证视频会议系统需要的网络带宽，但专线成本很高。

综上所述，视频数据的传输会占用大量带宽，而且想要得到最佳的显示效果，传输的视频数据的分辨率就越高，从而导致更多的带宽被占用。针对传输视频数据时带宽被大量占用的问题，现有技术中没有有效的解决方案。发明内容

有鉴于此，本发明实施例的主要目的在于低码流的视频会议系统及方法、发送端设备、接收端设备，节约带宽，从而使 IP网络的带宽能满足日益增长的视频会议业务需求。

为达到上述目的，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种低码流的视频会议系统，所述系统包括：发送端及接收端；其中，

所述发送端，配置为获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，获取局部动态图像；传输音频数据和局部动态图像到所述接收端；

所述接收端，配置为根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的所述局部动态图像整理合成出原始视频数据并播放音频数据。

其中，所述发送端包括：采集单元、识别单元、特征映射单元、发送单元；

所述接收端包括：接收单元、特征提取比对单元、数据合成输出单元；其中，

所述采集单元，配置为采集音频数据和视频数据，将采集的音频数据和视频数据发送给识别单元；

所述识别单元，配置为识别出发言者身份，对采集的音频数据进行语音识别并获取音频特征，对采集的视频数据进行图像识别并获取视频特征和局部动态图像，将音频特征、视频特征和局部动态图像发送给特征映射单元；

所述特征映射单元，配置为查询是否已经存在音频特征映射和视频特征映射，如果查询不到，则根据所述音频特征和所述视频特征分别生成音频特征映射和视频特征映射；

所述发送单元，配置为发送音频数据和局部动态图像，音频数据的编码中携带所述发言者身份；

所述接收单元，配置为接收音频数据和局部动态图像；

所述特征提取比对单元，配置为从音频数据的编码中提取出所述发言者身份，查询已经存在的音频特征映射和视频特征映射，根据所述发言者身份从音频特征映射中提取出音频特征，从视频特征映射中提取出视频特征；

所述数据合成输出单元，配置为采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据，并结合音频特征输出音频数据和原始视频数据。

上述方案中，所述识别单元，配置为识别出发言者身份和发言者当前参与会议的会议号，由所述发言者身份和所述会议号形成身份识别码，由所述身份识别码标识与采集的音频数据和视频数据对应的身份特征；或者，仅由所述发言者身份标识所述身份特征。

上述方案中，所述特征映射单元，配置为在发送端本地和网络数据库进行所述查询，在本地查询到的情况，采用本地的音频特征映射和视频特征映射；在网络数据库查询到的情况，从网络数据库下载音频特征映射和视频特征映射到本地；在本地和网络数据库都查询不到的情况，在本地生成音频特征映射和视频特征映射。

上述方案中，所述音频特征映射由发言者身份和与所述发言者身份对应的音频特征组成；或者，所述音频特征映射由身份识别码和与所述身份识别码对应的音频特征组成，所述身份识别码由发言者身份和会议号形成。上述方案中，所述视频特征映射由发言者身份和与所述发言者身份对应的视频特征组成；或者，所述视频特征映射由身份识别码和与所述身份识别码对应的视频特征组成，所述身份识别码由发言者身份和会议号形成。

上述方案中，所述局部动态图像包括：发言者的头部运动、眼动、手势、轮廓运动中的至少一种轨迹图像信息。

本发明实施例还提供了一种低码流的视频会议数据传输方法，所述方法包括：

发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，获取局部动态图像，传输音频数据和局部动态图像到接收端；

接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的所述局部动态图像整理合成出原始视频数据并播放音频数据。

上述方案中，形成所述音频特征映射，包括：

识别出发言者身份后，以发言者身份为索引关键字形成音频特征映射，所述音频特征映射由发言者身份和与所述发言者身份对应的音频特征组成或者

识别出发言者身份和会议号后，以发言者身份和会议号为组合索引关键字形成音频特征映射，所述音频特征映射由身份识别码和与所述身份识别码对应的音频特征组成；所述身份识别码由所述发言者身份和所述会议号形成。

上述方案中，形成所述视频特征映射，包括：

识别出发言者身份后，以发言者身份为索引关键字形成视频特征映射，所述视频特征映射由发言者身份和与所述发言者身份对应的视频特征组成; 或者识别出发言者身份和会议号后，以发言者身份和会议号为组合索引关键字形成视频特征映射，所述视频特征映射由身份识别码和与所述身份识别码对应的视频特征组成；所述身份识别码由所述发言者身份和所述会议号形成。

上述方案中，形成音频特征映射和视频特征映射之前，所述方法还包括：在发送端本地和网络数据库进行所述查询，在本地查询到的情况，采用本地的音频特征映射和视频特征映射；在网络数据库查询到的情况，从网络数据库下载音频特征映射和视频特征映射到本地；在本地和网络数据库都查询不到的情况，在本地形成音频特征映射和视频特征映射。

上述方案中，所述局部动态图像包括：发言者的头部运动、眼动、手势、轮廓运动中的至少一种轨迹图像信息。

本发明实施例还提供了一种低码流的视频会议系统的发送端设备，所述设备，配置为获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，获取局部动态图像；传输音频数据和局部动态图像到接收端。

上述方案中，所述设备包括：采集单元、识别单元、特征映射单元、发送单元；其中，

所述采集单元，配置为采集音频数据和视频数据，将采集的音频数据和视频数据发送给识别单元；

所述识别单元，配置为识别出发言者身份，对采集的音频数据进行语音识别并获取音频特征，对采集的视频数据进行图像识别并获取视频特征和局部动态图像，将音频特征、视频特征和局部动态图像发送给特征映射单元；

所述特征映射单元，配置为查询是否已经存在音频特征映射和视频特征映射，如果查询不到，则根据所述音频特征和所述视频特征分别生成音频特征映射和视频特征映射；所述发送单元，配置为发送音频数据和局部动态图像，音频数据的编码中携带所述发言者身份。

本发明实施例还提供了一种低码流的视频会议系统的接收端设备，所述设备，配置为接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及从发送端接收的局部动态图像整理合成出原始视频数据并播放音频数据。

上述方案中，所述设备包括：接收单元、特征提取比对单元、数据合成输出单元；其中，

所述接收单元，配置为接收音频数据和局部动态图像；

所述特征提取比对单元，配置为从音频数据的编码中提取出所述发言者身份，查询已经存在的音频特征映射和视频特征映射，根据所述发言者身份从音频特征映射中提取出音频特征，从视频特征映射中提取出视频特征；

所述数据合成输出单元，配置为采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据，并结合音频特征输出音频数据和原始视频数据。

本发明实施例的系统是在发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，获取局部动态图像；发送端传输音频数据和局部动态图像到接收端，接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据。

由于并不是传输完整的视频数据，仅传输局部动态图像，通过在接收端根据提取的音频特征、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据，因此，在传输数据量上得到了控制，降低了传输数据量，从而节约了带宽，满足视频业务会议的需求。附图说明

图 1为本发明实施例的系统的组成原理结构示意� �；

图 2为本发明实施例的方法原理的实现流程示意� �；

图 3为本发明实施例的身份建立应用实例的示意� �；

图 4为本发明实施例的音频映射建立应用实例的� �意图；

图 5为本发明实施例的视频映射建立应用实例的� �意图；

图 6为本发明实施例的动态图像获取应用实例的� �意图；

图 7为本发明实施例的发送端音频处理流程应用� �例的示意图；图 8为本发明实施例的发送端视频处理流程应用� �例的示意图；图 9为本发明实施例的接收端视频整合处理流程� �用实例的示意图。

具体实施方式

在本发明实施例中：在发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，获取局部动态图像；发送端传输音频数据和局部动态图像到接收端，接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据。

考虑到视频会议需要的带宽中视频数据占据绝大部分，对一个企业或机关，视频会议是具有特点的，如与会的人员基本固定，开会时焦点在发言者身上，尤其是发言者的眼神，口型和手势，从而分析得出：为了改进对带宽的占用，在视频会议中不直接传输视频数据，而是在发送端拆分视频数据，到接收端再对视频数据进行整合处理还原出原始视频数据，这样，由于在传输时不是直接传输视频数据，相比现有技术来说降低了传输的数据量，从而减少了视频数据传输时对带宽的占用，也不用顾忌高分辨率视频数据的传输会占用更多带宽，而牺牲视频数据的质量，即用低分辨率的视频数据来代替高分辨率视频数据，由于本发明实施例不直接传输视频数据，而是拆分，因此，无需担心这个带宽大量占用问题，带宽在可控范围内，而且带宽在可控范围内还可以得到最佳显示效果的高分辨率的视频数据。

下面结合附图对技术方案的实施作进一步的详细描述。

如图 1 所示为本发明实施例的一种低码流的视频会议系统，该系统包括：发送端 1以及接收端 2; 其中，

所述发送端 1，配置为采集音频数据和视频数据并分别形� �音频特征映射和视频特征映射，获取局部动态图像；并传输音频数据和局部动态图像到所述接收端 2;

所述接收端 2，配置为根据从本端的音频特征映射和视频� �征映射中提取的音频特征、视频特征及接收的所述局部动态图像整理合成出原始视频数据并播放音频数据。

较佳地，所述发送端 1包括：采集单元 11、识别单元 12、特征映射单元 13、发送单元 14。其中，

采集单元 11，配置为采集音频数据和视频数据，将采集的音频数据和视频数据发送给识别单元。

识别单元 12，配置为识别出发言者身份，对采集的音频数据进行语音识别并获取音频特征，对采集的视频数据进行图像识别并获取视频特征和局部动态图像，将音频特征、视频特征和局部动态图像发送给特征映射单元 13。

这里，除了识别出发言者身份，还可以识别出发言者所参与的会议号，根据发言者身份和会议号生成身份识别码。

这里，该视频特征包括：会议的背景图像特征和发言者的图像特征。该局部动态图像包括：发言者的头部运动、眼球运动、手势、轮廓运动中的至少一种轨迹图像信息。

这里，识别单元 12还可以分成语音识别子单元和图像识别子单� ��，语音识别子单元配置为对采集的音频数据进行语音识别并获取音频特征；图像识别子单元配置为对采集的视频数据进行图像识别并获取视频特征和局部动态图像。

特征映射单元 13，配置为在本地或网络数据库查询是否已经存在音频特征映射和视频特征映射，如果查询不到，则根据该发言者身份和接收的音频特征生成音频特征映射，根据该发言者身份和接收的视频特征生成视频特征映射，并在本地存储音频特征映射和视频特征映射，或者将音频特征映射和视频特征映射上传到网络数据库进行存储，以便后续查询使用。

这里，音频特征映射和视频特征映射都可以用发言者身份作为映射索引关键字，映射中还可以进一步包括会议号，用发言者身份和会议号作为组合映射索引关键字。

这里，特征映射单元 13，还可以分成音频特征映射子单元和视频特征映射子单元。音频特征映射子单元配置为在本地或网络数据库查询是否已经存在音频特征映射，如果查询不到，则根据该发言者身份和接收的音频特征生成音频特征映射，本地存储音频特征映射，或者将音频特征映射上传到网络数据库进行存储，以便后续查询使用；视频特征映射子单元配置为在本地或网络数据库查询是否已经存在视频特征映射，如果查询不到，则根据该发言者身份和接收的视频特征生成视频特征映射，本地存储视频特征映射，或者将视频特征映射上传到网络数据库进行存储，以便后续查询使用。

发送单元 14，配置为发送音频数据和局部动态图像，音频数据的编码中携带发言者身份或身份识别码。

如果发送音频数据就无需提取了，只需要根据发言者身份从视频特征映射中提取出视频特征，以便于整理合并时使用。当然也可以仅发送局部动态图像时，需要接收端根据发言者身份从音频特征映射中提取出音频特征，以便于整理合并时使用。发送单元发送身份识别码时，身份识别码由发言者身份和会议号构成。在接收端通过身份识别码对应到音频特征、视频特征和局部动态图形，以便整理合并以还原出原始视频数据，并播放音频数据，从而经过发送端和接收端的相互作用处理，在接收端能生动还原出当前会议与会发言者的表情 /嘴型 /手势 /弯曲度等，而且由于在传输时只需要发送局部动态图形，无需发送完整的视频数据，而是将之前采集过的音 / 视频数据的音 /视频特征在发送端和接收端都存储一份，在网络数据库上也有备份，这样，执行所述整理合并以还原出原始视频数据，并播放音频数据时，只需要从接收端本地或网络数据库中的音 /视频特征映射中，根据发言者身份提取出对应的音 /视频数据，再与接收的局部动态图形进行合成就行，简单易操作，减低了传输的数据量，节约了带宽。也不用担心无法传输和显示高分辨率的视频数据了。

以上所述实际上为该系统发送端设备所包含的各个功能单元，以下对该系统接收端设备所包含的各个功能单元进行描述。

所述接收端 2包括：接收单元 21、特征提取比对单元 22、数据合成输出单元 23。其中，

接收单元 21，配置为接收音频数据和局部动态图像。

特征提取比对单元 22，配置为从音频数据中提取出该发言者身份，在本地或网络数据库查询已经存在的音频特征映射和视频特征映射，根据该发言者身份从音频特征映射中提取出音频特征，根据该发言者身份从视频特征映射中提取出视频特征。

这里，当音频数据携带的是该发言者身份时，以该发言者身份为索引关键字到音频特征映射和视频特征映射中进行查询。如果音频数据不是携带该发言者身份，而是携带由发言者身份和会议号构成的身份识别码，则由身份识别码作为组合索引关键字到音频特征映射和视频特征映射中进行查询。

这里，特征提取比对单元 22还可以分为音频特征提取比对子单元和视频特征提取比对子单元。音频特征提取比对子单元配置为从音频数据中提取出该发言者身份，在本地或网络数据库查询已经存在的音频特征映射，根据该发言者身份从音频特征映射中提取出音频特征；视频特征提取比对子单元配置为根据该发言者身份从视频特征映射中提取出视频特征。

数据合成输出单元 23，配置为采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据，并结合音频特征输出音频数据和原始视频数据。

在实际应用中，所述采集单元 11、识别单元 12、特征映射单元 13、发送单元 14、接收单元 21、特征提取比对单元 22和数据合成输出单元 23均可由中央处理单元（CPU， Central Processing Unit ),或数字信号处理（DSP， Digital Signal Processor ),或现场可编程门阵列（ FPGA， Field Programmable Gate Array )等来实现；所述 CPU、 DSP 、 FPGA均可内置于视频会议系统中。

如图 2所示为本发明实施例的一种低码流的视频会� �数据传输方法，包括以下步骤：

步骤 101、采集音频数据和视频数据，识别出发言者身份，对采集的音频数据进行语音识别并获取音频特征，对采集的视频数据进行图像识别并获取视频特征和局部动态图像。

步骤 102、发送音频数据和局部动态图像，音频数据的编码中携带发言者身份。

步骤 103、接收音频数据和局部动态图像，从音频数据的编码中提取出该发言者身份，在本地或网络数据库查询已经存在的音频特征映射和视频特征映射，根据该发言者身份从音频特征映射中提取出音频特征，根据该发言者身份从视频特征映射中提取出视频特征。

步骤 104、采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据，并结合音频特征输出音频数据和原始视频数据。

同时，本发明实施例还提供了一种低码流的视频会议系统的发送端设备，该发送端设备与前述系统中的发送端 1 的组成结构及功能均相同，该发送端设备包括：采集单元、识别单元、特征映射单元、发送单元。其中，采集单元，配置为采集音频数据和视频数据，将采集的音频数据和视频数据发送给识别单元。

识别单元，配置为识别出发言者身份，对采集的音频数据进行语音识别并获取音频特征，对采集的视频数据进行图像识别并获取视频特征和局部动态图像，将音频特征、视频特征和局部动态图像发送给特征映射单元。

特征映射单元，配置为在本地或网络数据库查询是否已经存在音频特征映射和视频特征映射，如果查询不到，则根据该发言者身份和接收的音频特征生成音频特征映射，根据该发言者身份和接收的视频特征生成视频特征映射，并在本地存储音频特征映射和视频特征映射，或者将音频特征映射和视频特征映射上传到网络数据库进行存储，以便后续查询使用。

发送单元，配置为发送音频数据和局部动态图像，音频数据的编码中携带发言者身份或身份识另 'J码。

如果发送音频数据就无需提取了，只需要根据发言者身份从视频特征映射中提取出视频特征，以便于整理合并时使用。当然也可以仅发送局部动态图像时，需要接收端根据发言者身份从音频特征映射中提取出音频特征，以便于整理合并时使用。发送单元发送身份识别码时，身份识别码由发言者身份和会议号构成。在接收端通过身份识别码对应到音频特征、视频特征和局部动态图形，以便整理合并以还原出原始视频数据，并播放音频数据，从而经过发送端和接收端的相互作用处理，在接收端能生动还原出当前会议与会发言者的表情 /嘴型 /手势 /弯曲度等，而且由于在传输时只需要发送局部动态图形，无需发送完整的视频数据，而是将之前采集过的音 / 视频数据的音 /视频特征在发送端和接收端都存储一份，在网络数据库上也有备份，这样，执行所述整理合并以还原出原始视频数据，并播放音频数据时，只需要从接收端本地或网络数据库中的音 /视频特征映射中，根据发言者身份提取出对应的音 /视频数据，再与接收的局部动态图形进行合成就行，简单易操作，减低了传输的数据量，节约了带宽。也不用担心无法传输和显示高分辨率的视频数据了。

在实际应用中，所述采集单元、识别单元、特征映射单元、发送单元

14均可由 CPU、或 DSP、或 FPGA等来实现；所述 CPU、 DSP, FPGA均可内置于视频会议系统中。

同时，本发明实施例还提供了一种低码流的视频会议系统的接收端设备，该接收端设备与前述系统中的接收端 2 的组成结构及功能均相同，该接收端设备包括：接收单元、特征提取比对单元、数据合成输出单元。其中，

接收单元，配置为接收音频数据和局部动态图像。

特征提取比对单元，配置为从音频数据中提取出该发言者身份，在本地或网络数据库查询已经存在的音频特征映射和视频特征映射，根据该发言者身份从音频特征映射中提取出音频特征，根据该发言者身份从视频特征映射中提取出视频特征。

数据合成输出单元，配置为采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据，并结合音频特征输出音频数据和原始视频数据。在实际应用中，所述接收单元、特征提取比对单元和数据合成输出单元均可由 CPU、或 DSP、或 FPGA等来实现；所述 CPU、 DSP 、 FPGA均可内置于视频会议系统中。

如图 3 所示为本发明实施例身份建立应用实例的示意图，身份建立过程包括：获取发言者身份和会场号，根据发言者身份和会议号生成身份识别码，决定唯一的身份。

如图 4所示为本发明实施例音频映射建立应用实例� �示意图，音频映射建立过程包括：发送端对音频数据进行语音识别后，识别出发言者身份和音频特性，存储发言者身份和音频特征；发言者身份、和该发言者身份对应的音频特征以映射关系形成音频特征映射；音频特征映射可以采用音频特征模板的形式存储。这里，在音频特征模板中的音频特征映射关系可以采用发言者身份为键值索引到对应发言者身份的音频特征。

如图 5 所示为本发明实施例视频映射建立应用实例的示意图，视频映射建立过程包括：发送端对视频数据进行图像识别后，识别出发言者身份和视频特性，存储发言者身份和视频特征；发言者身份、和该发言者身份对应的视频特征以映射关系形成视频特征映射；视频特征映射可以采用视频特征模板的形式存储。这里，在视频特征模板中的视频特征映射关系可以采用发言者身份为键值索引到对应发言者身份的视频特征。

如图 6所示为本发明实施例动态图像获取应用实例� �示意图，动态图像获取过程包括：通过采集发言者的头部运动、眼球运动、手势、弯腰等轮廓运动来获取局部动态图像。该局部动态图像包括：发言者的头部运动、眼动、手势、轮廓运动中的至少一种轨迹图像信息。

本发明实施例发送端处理流程包括：音频 /视频采集；对采集后的音频数据进行语音识别；建立音频 /视频特征模板；发送音频，采集动态特征图像并发送。具体的，对发送端音频 /视频处理分别描述如下：如图 7所示为本发明实施例发送端音频处理流程应� �实例的示意图，该流程包括：在发送端，终端通过麦克风采集音频输入源信号，进行音频编码和语音识别；提取音频特征，在本地查询是否已经存在音频特征映射模板，如果本地存在，则输出音频并向接收端传输；如果本地不存在，则查询网络数据库是否存在音频特征映射模板，存在则直接下载音频特征映射模板到本地后，输出音频并向接收端传输；如果网络数据库也不存在，则在本地和网络数据库建立音频特征映射模板，存储。

如图 8所示为本发明实施例发送端视频处理流程应� �实例的示意图，该流程包括：在发送端，终端采集视频输入源信号，进行视频编码；提取视频特征，根据背景图像特征，发言者图像特征形成视频特征；在本地查询是否已经存在视频特征映射模板，如果本地存在，则采集发言者头部动作，发言者眼球运动及手势等局部动态图像，输出局部动态图像并向接收端传输；如果本地不存在，则查询网络数据库是否存在视频特征映射模板，存在则直接下载视频特征映射模板到本地后，采集发言者头部动作，发言者眼球运动及手势等局部动态图像，输出局部动态图像并向接收端传输；如果网络数据库也不存在，则在本地和网络数据库建立视频特征映射模板，存储。

本发明实施例接收端处理流程包括：接收音频，提取音频特征模板；提取视频特征模板，视频特征与局部动态图像合成还原出原始视频数据；音频 /视频输出。具体的，对本发明实施例的视频整合处理描述如下：

如图 9所示为本发明实施例接收端视频整合处理流� �应用实例的示意图，该流程包括：接收音频信号，音频编码，身份识别（通过由发言者身份和会议号构成的身份识别码进行识别）；判断本地视频特征映射模板是否存在，如果不存在，则从网络数据库下载视频特征映射模板；如果存在，则从本地的视频特征映射模板中提取视频特征；接收局部动态图像；根据本地或网络数据库中音 /视频特征映射模板中提取的音频特征和视频� �征，及接收到的局部动态图像还原出原始视频数据，即：会场环境及发言者图像，尤其是唇型及手势等；输出音频信号，输出合成后的视频信号。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。工业实用性

本发明实施例提供的低码流的视频会议系统及方法，在发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，及获取局部动态图像；并传输音频数据和局部动态图像到接收端。利用本发明实施例的技术方案，发送端无需传输完整的视频数据，仅需传输局部动态图像至接收端即可，接收端根据提取的音、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据，如此，便使得传输数据量得到了控制，有效降低了传输数据量，从而节约了带宽，满足视频业务会议的需求。

Previous Patent: A CONFERENCE TELEVISION TERMINAL, METHOD AND RELATED DEVICE FOR AUTOMATIC RESTORING SAME

Next Patent: METHOD, DEVICE AND SYSTEM FOR SYNTHESIZING MULTI-SCREEN VIDEO