CONFERENCE TERMINAL AUDIO SIGNAL PROCESSING METHOD, AND CONFERENCE TERMINAL AND VIDEO CONFERENCE SYSTEM

Title:

CONFERENCE TERMINAL AUDIO SIGNAL PROCESSING METHOD, AND CONFERENCE TERMINAL AND VIDEO CONFERENCE SYSTEM

Document Type and Number:

WIPO Patent Application WO/2012/142975

Kind Code:

A1

Abstract:

Disclosed in an embodiment of the present invention are a conference terminal audio signal processing method, and a conference terminal and video conference system; the conference terminal audio signal processing method comprising: a conference terminal receiving an audio signal picked up by a mobile audio pickup apparatus, and obtaining the current direction of the mobile audio pickup apparatus relative to the conference terminal; generating a multi-channel audio signal corresponding to the audio signal; adjusting the delay, phase and/or signal intensity of at least one channel of audio signal in the multi-channel audio signal according to the current direction of the mobile audio pickup apparatus relative to the conference terminal, so that the sound direction presented when playing the adjusted multi-channel audio signal matches the current direction of the mobile audio pickup apparatus relative to the conference terminal, obtaining the adjusted multi-channel audio signal; and sending the adjusted multi-channel audio signal. The solution of the embodiment in the present invention facilitates the solving of the sound-image matching problem in a mobile audio pickup apparatus deployment scenario.

Inventors:

ZHAO YUNXUAN (CN)

Application Number:

PCT/CN2012/074534

Publication Date:

October 26, 2012

Filing Date:

April 23, 2012

Export Citation:

Click for automatic bibliography generation Help

Assignee:

HUAWEI DEVICE CO LTD (CN)
ZHAO YUNXUAN (CN)

International Classes:

H04N7/15; H04S5/00

Foreign References:

CN101384105A	2009-03-11
JPH09307870A	1997-11-28
CN101350931A	2009-01-21
JP2007274462A	2007-10-18
CN102186049A	2011-09-14

Download PDF:

View/Download PDF PDF Help

Claims:

权利要求书

1、一种视讯会议系统，其特征在于，包括：

第一会场终端和第二会场终端，所述第一会场终端和所述第二会场终端通过网络相连接；所述第一会场终端所在的会场部署有可移动音频拾取设备以及图像拍摄设备；

其中，所述第一会场终端，用于接收所述可移动音频拾取设备所拾取的音频信号，并获取所述可移动音频拾取设备当前相对于所述第一会场终端的方向；接收所述图像拍摄设备针对所述可移动音频拾取设备当前所在区域所拍摄的图像信号；生成所述音频信号对应的多声道音频信号，所述多声道为至少两个声道；根据所述可移动音频拾取设备当前相对于所述第一会场终端的方向，调整所述多声道音频信号中的至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与所述可移动音频拾取设备当前相对于所述第一会场终端的方向相匹配；发送所述图像信号和调整后的多声道音频信号；

所述第二会场终端，用于接收来自所述第一会场终端的图像信号和调整后的多声道音频信号；播放所述图像信号和调整后的多声道音频信号。

2、根据权利要求 1所述的视讯会议系统，其特征在于，包括：

所述第一会场终端生成的多声道音频信号的声道个数与所述第二会场终端支持的声道个数相等。

3、一种会场终端音频信号处理方法，其特征在于，包括：

会场终端接收可移动音频拾取设备所拾取的音频信号，并获取所述可移动音频拾取设备当前相对于所述会场终端的方向；

生成所述音频信号对应的多声道音频信号，其中，所述多声道为至少两个声道；

根据所述可移动音频拾取设备当前相对于所述会场终端的方向，调整所述多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与所述可移动音频拾取设备当前相对于所述会场终端方向相匹配； 4、根据权利要求 3所述的方法，其特征在于，

所述接收可移动音频拾取设备所拾取的音频信号，并获取所述可移动音频拾取设备当前相对于所述会场终端的方向，包括：

接收所述可移动音频拾取设备所拾取的音频信号，并通过图像识别技术确定该可移动音频拾取设备当前相对于所述会场终端的方向；

或者，

通过至少两个音频接收模块接收所述可移动音频拾取设备所拾取的音频信号；并通过各音频接收模块接收到的音频信号的差异，确定所述可移动音频拾取设备当前相对于所述会场终端的方向；

或者，

接收所述可移动音频拾取设备所拾取的音频信号；接收所述可移动音频拾取设备发送的位置识别信息；并通过所述位置识别信息确定所述可移动音频拾取设备当前相对于所述会场终端的方向。

5、根据权利要求 4所述的方法，其特征在于，

所述各音频接收模块接收到的音频信号的差异，包括：各音频接收模块接收到音频信号的时间差、相位差、强度差中的至少一项。

6、根据权利要求 4所述的方法，其特征在于，所述接收所述可移动音频拾取设备发送的位置识别信息；并通过所述位置识别信息确定所述可移动音频拾取设备当前相对于所述会场终端的方向，包括：

接收所述可移动音频拾取设备发送的红外信号；

使用红外信号图像识别技术分析所述红外信号的发送方向得到所述可移动音频拾取设备当前相对于所述会场终端的方向；或者，使用红外信号定位技术计算所述红外信号的发送方向得到所述可移动音频拾取设备当前相对于所述会场终端的方向。

7、一种会场终端，其特征在于，包括：

接收确定单元，用于接收可移动音频拾取设备所拾取的音频信号，并获取所述可移动音频拾取设备当前相对于所述会场终端的方向；调整单元，用于生成所述音频信号对应的多声道音频信号；根据所述可移动音频拾取设备当前相对于所述会场终端的方向调整所述多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于所述会场终端的方向相匹配；

发送单元，用于发送所述调整单元调整后的多声道音频信号。

8、根据权利要求 7所述的会场终端，其特征在于，

所述接收确定单元包括：第一位置确定子模块和至少两个接收模块；所述至少两个接收模块，用于分别接收所述会场终端所在会场的可移动音频拾取设备所拾取的音频信号；

第一位置确定子模块，用于通过所述至少两个接收模块中各接收模块接收到的音频信号的差异确定所述可移动音频拾取设备当前相对于所述会场终端的方向；

或者，

所述接收确定单元包括：信息接收模块和第二位置确定子模块；

其中，所述信息接收模块，用于接收所述会场终端所在会场的可移动音频拾取设备所拾取的音频信号和该可移动音频拾取设备发送的位置识别信息；所述第二位置确定子模块，用于通过所述位置识别信息确定所述可移动音频拾取设备当前相对于所述会场终端的方向；

或者，

所述接收确定单元包括：接收模块和图像识别模块；

其中，所述接收模块，用于接收所述会场终端所在会场的可移动音频拾取设备所拾取的音频信号；

所述图像识别模块，用于通过图像识别技术确定所述可移动音频拾取设备当前相对于所述会场终端的方向。

9、一种视讯会议系统，其特征在于，包括：

第三会场终端、第四会场终端以及会议服务器，其中，所述第三会场终端和所述第四会场终端通过网络与所述会议服务器相连接，所述第三会场终端所在的会场部署有可移动音频拾取设备以及图像拍摄设备；

所述第三会场终端，用于接收所述可移动音频拾取设备所拾取的音频信号，并获取所述可移动音频拾取设备相对于第三会场终端的方向；接收所述图像拍摄设备针对所述可移动音频拾取设备当前所在区域所拍摄的图像信号；根据所述可移动音频拾取设备当前相对于第三会场终端的方向，生成指示出所述音频信号播放时所呈现声音方向的方向指示信息，其中，所述方向指示信息指示出的所述音频信号播放时所要呈现的声音方向与所述可移动音频拾取设备当前相对于第三会场终端的方向相匹配；发送所述图像信号、音频信号和方向指示信息；

所述会议服务器，用于接收所述第三会场终端发送的图像信号、音频信号和方向指示信息；生成所述音频信号对应的多声道音频信号，所述多声道为至少两个声道；根据所述方向指示信息调整所述多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使得该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于第三会场终端的方向相匹配；发送所述图像信号和调整后的多声道音频信号；

所述第四会场终端，用于接收所述会议服务器发送的图像信号和调整后的多声道音频信号；播放该图像信号和调整后的多声道音频信号。

10、一种视讯会议系统，其特征在于，包括：

第五会场终端和第六会场终端，所述第五会场终端和所述第六会场终端通过网络相连接；所述第五会场终端所在的会场部署有可移动音频拾取设备以及图像拍摄设备；

第五会场终端，用于接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于第五会场终端的方向；接收图像拍摄设备针对该可移动音频拾取设备当前所在区域所拍摄的图像信号；根据该可移动音频拾取设备当前相对于第五会场终端的方向，生成用于指示所述音频信号播放时所呈现声音方向的方向指示信息，其中，所述方向指示信息指示出的所述音频信号播放时所呈现的声音方向与所述可移动音频拾取设备当前相对于第五会场终端的方向相匹配；发送所述图像信号、音频信号和方向指示信息；第六会场终端，用于接收来自第五会场终端的图像信号、音频信号和该音频信号对应的方向指示信息；播放该图像信号并根据所述方向指示信息播放该音频信号。

11、一种会场终端音频信号处理方法，其特征在于，包括：

会场终端接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于所述会场终端的方向；

根据所述可移动音频拾取设备当前相对于所述会场终端的方向，生成用于指示所述音频信号播放时所呈现声音方向的方向指示信息，其中，所述方向指示信息指示出的所述音频信号播放时所要呈现的声音方向与所述可移动音频拾取设备当前相对于所述会场终端方向相匹配；

发送所述音频信号和方向指示信息。

12、一种会场终端，其特征在于，包括：

接收确定单元，用于接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于所述会场终端的方向；

生成单元，用于根据所述可移动音频拾取设备当前相对于所述会场终端的方向，生成用于指示所述音频信号播放时所要呈现的声音方向的方向指示信息，其中，所述方向指示信息指示出的所述音频信号播放时所要呈现的声音方向与所述可移动音频拾取设备当前相对于所述会场终端方向相匹配；

发送单元，用于发送所述音频信号和所述方向指示信息。

13、一种会议服务器，其特征在于，包括：

第二接收单元，用于接收会场终端发送的图像信号、音频信号和方向指示信息，其中，所述音频信号由可移动音频拾取设备拾取，所述方向指示信息根据所述可移动音频拾取设备当前相对于所述会场终端的方向生成，用于指示所述音频信号播放时所要呈现的声音方向；

第二调整单元，用于生成所述音频信号对应的多声道音频信号，所述多声道包括至少两个声道；根据该方向指示信息调整该多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使得该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于所述会场终端的方向相匹配；

第二发送单元，用于发送所述图像信号和第二调整单元调整后的多声道音频信号。

Description:

会场终端音频信号处理方法及会场终端和视讯会议系统本申请要求于 2011 年 4 月 22 日提交中国专利局、申请号为 201110101877.6、发明名称为"会场终端音频信号处理方法及会� �终端和视讯会议系统"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信技术领域，特别涉及会场终端音频信号处理方法及会场终端和视讯会议系统。

背景技术

目前的视讯会议系统一般包括：会场终端和会议服务器（图 1 中会议服务器以多点控制单元（ MCU, Multipoint Control Unit ) 为例）。在一个视讯会议系统中，每个会场均具有至少 1 个会场终端，各会场终端采集各自会场的声音、图像并编码发送给 MCU。多点控制单元按照一定的方式对声音、图像进行处理（例如声音混音、图像转发或组成多画面等处理），并将处理后的声音和图像发送给视讯会议中的其他各个会场终端，各会场终端解码输出远端会场的声音和图像，实现远程视讯通信的目的。

随着视讯技术的不断发展，交互性、易用性成为视讯会议系统的一个发展方向，实现面对面的交互感成为人们追求的目标。人们不再仅仅满足于看到清晰的图像，听到悦耳的声音， "真人大小"、 "眼对眼"、 "听音辨位"等更高层次的需求已成为是视讯会议系统发展的方向。例如，在 3屏远程呈现会场的应用场景下，人们可能还期望不需要抬头看说话人，就能够从声音的方向上判断出是谁在说话，即"听音辨位"，从而获得更强的现场感。

视讯会议系统一般采用固定式的麦克风等作为音频拾取设备，一个或多个麦克风固定在桌面或者天花板上，用来拾取发言者的声音。当会议室较大或发言人位置不确定的情况下，还可能会采用可移动音频拾取设备（例如无线麦克风等）作为固定式音频拾取设备的一种补偿。

在"听音辨位"的功能需求下，视讯会议系统中� ��可移动音频拾取设备的声像匹配问题，成为一个影响会议效果的关键因素。而业内目前还没有一种在部署了可移动音频拾取设备场景下能够较好的解决其声像匹配问题，以实现 "听音辨位"功能的有效方案。

发明内容

本发明实施例提供会场终端音频信号处理方法及会场终端和视讯会议系统，以便实现可移动音频拾取设备部署场景下的声像匹配。

为解决上述技术问题，本发明所提供以下技术方案实现：

一种视讯会议系统，包括：

第一会场终端和第二会场终端，所述第一会场终端和所述第二会场终端通过网络相连接；所述第一会场终端所在的会场部署有可移动音频拾取设备以及图像拍摄设备；

其中，所述第一会场终端，用于接收所述可移动音频拾取设备所拾取的音频信号，并获取所述可移动音频拾取设备当前相对于所述第一会场终端的方向；接收所述图像拍摄设备针对所述可移动音频拾取设备当前所在区域所拍摄的图像信号；生成所述音频信号对应的多声道音频信号，所述多声道为至少两个声道；根据所述可移动音频拾取设备当前相对于所述第一会场终端的方向，调整所述多声道音频信号中的至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与所述可移动音频拾取设备当前相对于所述第一会场终端的方向相匹配；发送所述图像信号和调整后的多声道音频信号；

所述第二会场终端，用于接收来自所述第一会场终端的图像信号和调整后的多声道音频信号；播放所述图像信号和调整后的多声道音频信号。

一种会场终端音频信号处理方法，包括：

会场终端接收可移动音频拾取设备所拾取的音频信号，并获取所述可移动音频拾取设备当前相对于所述会场终端的方向；

生成所述音频信号对应的多声道音频信号，其中，所述多声道为至少两个声道；

根据所述可移动音频拾取设备当前相对于所述会场终端的方向，调整所述多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与所述可移动音频拾取设备当前相对于所述会场终端方向相匹配；

发送所述调整后的多声道音频信号。

一种会场终端，包括：

接收确定单元，用于接收可移动音频拾取设备所拾取的音频信号，并获取所述可移动音频拾取设备当前相对于所述会场终端的方向；

调整单元，用于生成所述音频信号对应的多声道音频信号；根据所述可移动音频拾取设备当前相对于所述会场终端的方向调整所述多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于所述会场终端的方向相匹配；

发送单元，用于发送所述调整单元调整后的多声道音频信号。

一种视讯会议系统，包括：

第三会场终端、第四会场终端以及会议服务器，其中，所述第三会场终端和所述第四会场终端通过网络与所述会议服务器相连接，所述第三会场终端所在的会场部署有可移动音频拾取设备以及图像拍摄设备；

所述第三会场终端，用于接收所述可移动音频拾取设备所拾取的音频信号，并获取所述可移动音频拾取设备相对于第三会场终端的方向；接收所述图像拍摄设备针对所述可移动音频拾取设备当前所在区域所拍摄的图像信号；根据所述可移动音频拾取设备当前相对于第三会场终端的方向，生成指示出所述音频信号播放时所呈现声音方向的方向指示信息，其中，所述方向指示信息指示出的所述音频信号播放时所要呈现的声音方向与所述可移动音频拾取设备当前相对于第三会场终端的方向相匹配；发送所述图像信号、音频信号和方向指示信息；

所述会议服务器，用于接收所述第三会场终端发送的图像信号、音频信号和方向指示信息；生成所述音频信号对应的多声道音频信号，所述多声道为至少两个声道；根据所述方向指示信息调整所述多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使得该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于第三会场终端的方向相匹配；发送所述图像信号和调整后的多声道音频信号；

所述第四会场终端，用于接收所述会议服务器发送的图像信号和调整后的多声道音频信号；播放该图像信号和调整后的多声道音频信号。

一种视讯会议系统，包括：

第五会场终端和第六会场终端，所述第五会场终端和所述第六会场终端通过网络相连接；所述第五会场终端所在的会场部署有可移动音频拾取设备以及图像拍摄设备；

第五会场终端，用于接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于第五会场终端的方向；接收图像拍摄设备针对该可移动音频拾取设备当前所在区域所拍摄的图像信号；根据该可移动音频拾取设备当前相对于第五会场终端的方向，生成用于指示所述音频信号播放时所呈现声音方向的方向指示信息，其中，所述方向指示信息指示出的所述音频信号播放时所呈现的声音方向与所述可移动音频拾取设备当前相对于第五会场终端的方向相匹配；发送所述图像信号、音频信号和方向指示信息；

第六会场终端，用于接收来自第五会场终端的图像信号、音频信号和该音频信号对应的方向指示信息；播放该图像信号并根据所述方向指示信息播放该音频信号。

一种会场终端音频信号处理方法，包括：

会场终端接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于所述会场终端的方向；

根据所述可移动音频拾取设备当前相对于所述会场终端的方向，生成用于指示所述音频信号播放时所呈现声音方向的方向指示信息，其中，所述方向指示信息指示出的所述音频信号播放时所要呈现的声音方向与所述可移动音频拾取设备当前相对于所述会场终端方向相匹配；

发送所述音频信号和方向指示信息。

一种会场终端，包括：

接收确定单元，用于接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于所述会场终端的方向；

生成单元，用于根据所述可移动音频拾取设备当前相对于所述会场终端的方向，生成用于指示所述音频信号播放时所要呈现的声音方向的方向指示信息，其中，所述方向指示信息指示出的所述音频信号播放时所要呈现的声音方向与所述可移动音频拾取设备当前相对于所述会场终端方向相匹配；发送单元，用于发送所述音频信号和所述方向指示信息。

一种会议服务器，包括：

第二接收单元，用于接收会场终端发送的图像信号、音频信号和方向指示信息，其中，所述音频信号由可移动音频拾取设备拾取，所述方向指示信息根据所述可移动音频拾取设备当前相对于所述会场终端的方向生成，用于指示所述音频信号播放时所要呈现的声音方向；

第二调整单元，用于生成所述音频信号对应的多声道音频信号，所述多声道包括至少两个声道；根据该方向指示信息调整该多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使得该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于所述会场终端的方向相匹配；

第二发送单元，用于发送所述图像信号和第二调整单元调整后的多声道音频信号。

由上可见，本发明实施例的一种方案中，会场终端接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于该会场终端的方向；并接收图像拍摄设备针对该可移动音频拾取设备当前所在区域所拍摄的图像信号；生成该音频信号对应的多声道音频信号；根据该可移动音频拾取设备当前相对于该会场终端的方向，调整该多声道音频信号中的至少 1 个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于该会场终端的方向相匹配；发送该图像信号和调整后的多声道音频信号。由于该会场终端调整了该多声道音频信号中的至少 1个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于该会场终端的方向相匹配，这就为其它会场终端在接收到该图像信号和调整后的多声道音频信号后，能够以声像匹配的效果来播放该图像信号和该调整后的音频信号奠定了基础，也就有利于实现视讯会议系统部署可移动音频拾取设备场景下的 "听音辨位"功能。

本发明实施例的另一种方案中，会场终端接收可移动音频拾取设备所拾取的音频信号，获取该可移动音频拾取设备相对于会场终端的方向；根据该可移动音频拾取设备当前相对于会场终端的方向，生成指示出该音频信号播放时所呈现声音方向的方向指示信息；发送该音频信号和方向指示信息。由于该会场终端生成并发送的方向指示信息所指示出的该音频信号播放时所要呈现的声音方向，与该可移动音频拾取设备当前相对于该会场终端方向相匹配；这就为会议服务器或其它的会场终端在接收到该音频信号和方向指示信息后，根据该方向指示信息对音频信号进行调整或播放，进而以声像匹配的效果来播放音频信号和对应的图像信号奠定了基础，也就有利于实现视讯会议系统部署可移动音频拾取设备场景下的 "听音辨位"功能。

附图说明

为了更清楚地说明本发明实施例和现有技术中的技术方案，下面将对实施例和现有技术描述所需要使用的附图作筒单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1为现有技术的一种视讯会议系统的示意图；

图 2为本发明实施例提供的视讯会议系统中声相� �生过程的示意图；图 3为本发明实施例提供的一种视讯会议系统的� �意图；

图 4为本发明实施例提供的一种会场终端音频信� �处理方法的流程示意图；

图 5为本发明实施例提供的一种模块化音频信号� �理的示意图；图 6为本发明实施例提供的另一种模块化音频信� �处理的示意图；图 7为本发明实施例提供的再一种模块化音频信� �处理的示意图；图 8-a为本发明实施例提供的另一种视讯会议系统的示意图；

图 8-b为本发明实施例提供的一种会议服务器的示意图；

图 9为本发明实施例提供的再一种视讯会议系统� �示意图；

图 10为本发明实施例提供的一种会场终端的示意� ��；

图 11为本发明实施例提供另一种会场终端的示意� ��。

具体实施方式

本发明实施例提供会场终端音频信号处理方法及会场终端和视讯会议系统，以便实现可移动音频拾取设备部署场景下的声像匹配。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，声音的方向是指发声物体在声场中的发声方向，就是声源相对于接收端（接收端可能是为人或会场终端等设备）的方向，例如是靠左还是靠右。人耳是靠两耳拾取到的声音信号之间的时间差和声级差，来判别声音的方位。这就是所谓的"双耳效应"。所谓的 "听音辨位"就是指利用声音的方向信息，辨别出发言人的位置。

例如，图 2所示，以双声道为例来描述视讯会议系统中声音方向的产生过程。假设"麦克风 _左"、 "麦克风_右"具有相同的特性且放置朝向相同，并且 "扬声器_左"、 "扬声器_左 "具有相同的特性、音量控制一致且均朝向"听音位置"放置。当"发声位置 A"讲话时，与"麦克风 _右"相比，由于"麦克风 _左 "距发言人距离较近，因此，其拾取到的声音较大且延时较小，在分别经过"扬声器 _左"、 "扬声器_右 "播放后，由于左声道声音较大且播放时间较早，故听音者会感觉到声音从左边方向出来，于是声音就有了方向信息。

同理，当"发声位置 C"发声时，听音者会感觉声音从右边方向出来。

当"发声位置 B"讲话时，由于"麦克风 _左"、 "麦克风_右 "距发言人距离相当，故拾取到的声音大小、延时基本一致，在分别经过"扬声器 _左"、 "扬声器 _右 "播放后，由于两个声道声音大小、延时基本一致，故听音者会感觉到声音从中间方向出来。声像匹配问题：

声像匹配，即声音和图像间的匹配，是指播放出的声音的方向与图像中声源显示方位之间相匹配。在视讯会议系统中，除了有声音信息外，还可以看到与本会场视频通信的对端的图像，若在本会场端显示器中显示的对端发言人在图像的左边位置，则声音需要从左方播放出来，若发言人在图像的右边位置，则声音需要从右方播放出来，这样才能做到声音与图像匹配。

本发明实施例中的可移动音频拾取设备例如可以指：无线麦克风、长线麦克风等移动式的音频拾取设备。

可以理解的是，可移动音频拾取设备的位置可能随着持有该可移动音频拾取设备的发言者的移动而不断移动。

本发明实施例中力求提供一种在部署可移动音频拾取设备场景下用以解决其声像匹配问题的方案，以便实现部署可移动音频拾取设备场景下的"� �音辨位"功能。

下面首先从一种视讯会议系统的角度进行描述。

参见图 3 , 本发明实施例提供的一种视讯会议系统，可以包括：第一会场终端 310和第二会场终端 320。其中，第一会场终端 310和第二会场终端 320 可以通过通信网络相连接，第一会场终端所在的会场部署有可移动音频拾取设备以及图像拍摄设备，在图 3 中未示出通信网络、可移动音频拾取设备以及图像拍摄设备等。

其中，第一会场终端 310, 用于接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于第一会场终端 310 的方向；接收上述图像拍摄设备针对该可移动音频拾取设备当前所在区域所拍摄的图像信号；生成该音频信号对应的多声道音频信号（该多声道为至少两个声道）；根据该可移动音频拾取设备当前相对于第一会场终端 310 的方向，调整该多声道音频信号中的至少 1个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于第一会场终端 310 的方向相匹配；发送该图像信号和调整后的多声道音频信号。

在实际应用中，第一会场终端 310和其它会场终端可以在会议建立过程中协商会议的声道数量，通过协商，第一会场终端 310生成的多声道音频信号的声道个数与第二会场终端 320支持的声道个数相等。

在实际应用中，第一会场终端 310可采用多种多样的方式获取可移动音频拾取设备当前相对于第一会场终端 310的方向。

可以理解，此处是以第一会场终端 310作为绝对参考系来体现方向的，当然第一会场终端 310也可获取可移动音频拾取设备当前相对于其它参照物 (例如为会议屏幕、图像拍摄设备或其它设备）的方向，而基于该参照物和第一会场终端 310的方位关系，也就相当于获得了可移动音频拾取设备当前相对于第一会场终端 310的方向。第一会场终端 310还可获取可移动音频拾取设备当前的位置。

作为实施方式的举例，可以有如下几种方式实现可移动音频拾取设备当前相对于第一会场终端 310的方向的获取：

( 1 )第一会场终端 310接收可移动音频拾取设备所拾取的音频信号，并通过图像识别技术确定该可移动音频拾取设备当前相对于第一会场终端 310 的方向（该方向例如相对于第一会场终端 310靠左、居中或靠右等）；

( 2 )第一会场终端 310可通过至少两个接收模块接收可移动音频拾取设备所拾取的音频信号；通过该至少两个接收模块接收到的音频信号的差异（该差异可包括各接收模块接收到音频信号的时间差、相位差、强度差中的至少 1 项），确定该可移动音频拾取设备当前相对于第一会场终端 310的方向；

( 3 )第一会场终端 310接收可移动音频拾取设备所拾取的音频信号，并接收该可移动音频拾取设备发送的位置识别信息（该位置识别信息是能够用以识别可移动音频拾取设备当前的方位的任意信息）；通过该位置识别信息确定该可移动音频拾取设备当前相对于第一会场终端 310的方向。

其中，第一会场终端 310接收可移动音频拾取设备的位置识别信息，并通过位置识别信息确定该可移动音频拾取设备当前相对于第一会场终端 310 的方向，举例说明如下实施方式：

1 )接收所述可移动音频拾取设备发送的红外信� �；使用红外信号图像识别技术分析该红外信号的发送方向得到可移动音频拾取设备当前相对于第一会场终端 310的方向；或者，

2 )接收所述可移动音频拾取设备发送的红外信� �；使用红外信号定位技术计算该红外信号的发送方向，得到该可移动音频拾取设备当前相对于第一会场终端 310的方向。

当然，第一会场终端 310 亦可采用其它的方式，来获取可移动音频拾取设备当前相对于第一会场终端 310 的方向，而本发明的所有实施例中对此均不加限制，其它各实施例均可采用类似的方式实施。

第二会场终端 320,用于接收来自第一会场终端 310的图像信号和调整后的多声道音频信号；播放该图像信号和调整后的多声道音频信号。

在实际应用中，会议服务器可接收第一会场终端 310发送的图像信号和调整后的音频信号，对其进行混音等处理后向其它会场终端发送；而第二会场终端 320可从会议服务器接收来自第一会场终端 310的该图像信号和调整后的多声道音频信号。

由上可见，本实施例中的会场终端接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于该会场终端的方向；并接收图像拍摄设备针对该可移动音频拾取设备当前所在区域所拍摄的图像信号；生成该音频信号对应的多声道音频信号；根据该可移动音频拾取设备当前相对于该会场终端的方向，调整该多声道音频信号中的至少 1 个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于该会场终端的方向相匹配；发送该图像信号和调整后的多声道音频信号，由于该会场终端调整该多声道音频信号中的至少 1个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于该会场终端的方向相匹配，这就为其它会场终端在接收到该图像信号和调整的后的多声道音频信号后，能够以声像匹配的效果来播放该图像信号和该调整后的音频信号奠定了基础，也就有利于实现视讯会议系统部署可移动音频拾取设备场景下的 "听音辨位"功能。

下面从视讯会议系统的音频信号发送端的角度进行描述。

本发明一种会场终端音频信号处理方法的一个实施例，包括：会场终端接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于该会场终端的方向；生成该音频信号对应的多声道音频信号，该多声道为至少两个声道；根据该可移动音频拾取设备当前相对于该会场终端的方向，调整该多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于该会场终端方向相匹配，得到调整后的多声道音频信号；发送该调整后的多声道音频信号。

参见图 4, 具体步骤可以包括：

401、会场终端接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于该会场终端的方向；

本实施例中，可移动音频拾取设备所拾取的音频信号为单路信号。

在实际应用中，会场终端可采用多种多样的方式获取可移动音频拾取设备当前相对于会场终端的方向。可以理解，此处是以会场终端作为绝对参考系来体现方向的，当然会场终端也可以获取可移动音频拾取设备当前相对于其它参照物（例如为会议屏幕、图像拍摄设备或其它设备）的方向，而基于该参照物和会场终端的方位关系，也就相当于获得了可移动音频拾取设备当前相对于会场终端的方向。会场终端还可获取可移动音频拾取设备当前的位置。

可以理解的是，本实施例的会场终端可采用如上述实施例中第一会场终端 310获取可移动音频拾取设备当前相对于其的方向的类似方式，来获取可移动音频拾取设备当前相对于会场终端的方向，此处不再赘述。

402、会场终端生成接收到的音频信号对应的多声道音频信号（该多声道为至少两个声道）；并根据上述可移动音频拾取设备当前相对于会场终端的方向，调整该多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于该会场终端方向相匹配；

403、会场终端发送上述调整后的多声道音频信号。

此外，上述会场终端还可接收图像拍摄设备（若存在）针对包括该可移动音频拾取设备当前所在区域所拍摄的图像信号，并发送该图像信号。相应的，会议服务器（例如 MCU )可接收该会场终端发送的调整后的多声道音� � 信号（和该图像信号），对其执行混音等处理后向其它会场终端转发，而其它会场终端则可以接收并播放该调整后的多声道音频信号（和对应的图像信号），以获得声像匹配效果。

由上可见，本实施例中的会场终端接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于该会场终端的方向；生成该音频信号对应的多声道音频信号，根据该可移动音频拾取设备当前相对于该会场终端的方向，调整该多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于该会场终端方向相匹配。由于会场根据该可移动音频拾取设备当前相对于该会场终端的方向，调整该多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于该会场终端方向相匹配，这就为其它的会场终端在接收到该调整后的多声道音频信号后，能够以声像匹配的效果来播放对应的图像信号和该调整后的多声道音频信号奠定了基础，也就有利于实现视讯会议系统部署可移动音频拾取设备场景下的 "听音辨位"功能。

为便于更好的理解和实施本发明实施例的方案，下面以将会场终端划分为若干个模块，各个模块相互配合实现音频信号处理的场景为例，进行具体而详细的介绍。其中，本实施例中以在视讯会议系统中部署的可移动音频拾取设备为无线麦克风的应用场景为例，当然，部署其它类型的可移动音频拾取设备的应用场景与之类似。

图 5〜图 7中示出了三种举例的实施方式，可以理解，会场终端还可能采用其它的模块划分方式来进行音频信号的处理。

参见图 5 ,图 5中通过在会场终端增加用于接收无线麦克风� �取的音频信号的接收模块的个数，来达到识别无线麦克风当前位置的目的。

其中，根据无线麦克风当前位置定位精度的需求不同，会场终端中的接收模块的个数大于等于 2个。

音频信号处理流程可如图 5所示，其中，实箭头线为数据流方向，虚线箭头线为控制流方向，后续实施例不再——说明。

501、无线麦克风向会场终端发送音频拾取模块拾取的音频信号；其中，图 5 中的会场终端可包括：方位识别模块、调整模块、编码发送模块和多个接收模块。

502、会场终端中部署的多个接收模块分别接收无线麦克风发送的音频信号，该多个接收模块分别将接收到的该音频信号发送给方位识别模块进行位置分析；

503、方位识别模块利用多个接收模块信号之间的时间差、相位差和 /或强度差等信息，计算出无线麦克风当前相对于会场终端的方向，例如计算出的方向为相对于会场终端如靠左、居中或靠右等；

方位识别模块将定位出的无线麦克风当前相对于会场终端的方向（可看成音源方向 )信息发给调整模块。

方位识别模块还可根据信噪比、音量、连续性等参数，从接收到的 N路音频信号中选择其中的 1路（例如选出音频信号质量较优的一路）发� �给调整模块。

504、调整模块生成接收到的音频信号对应的多声道音频信号（该多声道包括至少两个声道）；根据无线麦克风当前相对于会场终端的方向，调整该多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该无线麦克风当前相对于该会场终端方向相匹配；并将调整后的多声道音频信号送给编码发送模块。

505、编码发送模块将多声道音频信号进行编码并发送。

此外，图 5所示会场终端还可接收图像拍摄设备（若存� �）针对包括该无线麦克风当前的位置在内的区域所拍摄的图像信号，并发送该图像信号。相应的，会议服务器（例如 MCU )接收该会场终端发送的调整后的多声道音频信号（和该图像信号），对其执行混音等处理后向其它会场终端转发，而其它会场终端则可以接收并播放该调整后的多声道音频信号（和对应的图像信号），以获得声像匹配效果。

参见图 6, 该图中通过在无线麦克风中增加用于发送位置识别信息（该位置识别信息是能够用以识别可移动音频拾取设备当前的位置的信息）的位置识别信息发送模块，在会场终端中增加方位识别模块，以达到识别无线麦克风当前位置的目的。

其音频信号处理流程可如图 6所示，可包括：

601、无线麦克风向会场终端发送拾取模块拾取的音频信号；

602、无线麦克风中部署的位置识别信息发送模块向会场终端发送位置识别信息；

其中，图 6所示会场终端可包括：接收模块、方位识别模块、调整模块和编码发送模块。

603、会场终端中的接收模块接收无线麦克风发送的音频信号，将接收到的音频信号发送给调整模块；

604、方位识别模块接收无线麦克风发送的位置识别信息，根据接收到的该位置识别信号判断出该无线麦克风当前相对于会场终端的方向，并将该无线麦克风当前相对于会场终端的方向信息发给调整模块，作为调整模块调整的依据；

本步骤中，方位识别模块位置识别的方式包括但不限于如下两种方式：红外图像识别法：在移动麦克风上增加红外信号发射模块（即位置识别信息发送模块），在会场终端配备红外摄像机。方位识别模块通过红外摄像机拍摄到的图像，利用图像识别技术分析移动麦克风相对于会场终端的方向。

红外信号定位法：在移动麦克风上增加红外信号发射模块（即位置识别信息发送模块），在会场终端增加红外信号接收器，而方位识别模块利用成熟的红外信号定位技术，计算出移动麦克风当前相对于会场终端的方向。

605、调整模块生成接收到的音频信号对应的多声道音频信号（该多声道为至少两个声道）；根据无线麦克风当前相对于会场终端的方向，调整该多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该无线麦克风当前相对于该会场终端方向相匹配；并将调整后的多声道音频信号送给编码发送模块；

606、编码发送模块将多声道音频信号进行编码并发送。

此外，图 6所示会场终端还可接收图像拍摄设备（若存� �）针对包括该无线麦克风当前的位置在内的区域所拍摄的图像信号，并发送该图像信号。相应的，会议服务器（例如 MCU )接收该会场终端发送的调整后的多声道音频信号（和该图像信号），对其执行混音等处理后向其它会场终端转发，而其它会场终端则可以接收并播放该调整后的多声道音频信号（和对应的图像信号），以获得声像匹配效果。

参见图 7, 图 7中通过图像识别方法识别出移动麦克风的位� �，从而指导本实施例在不需要增加任何硬件设备的条件下，进行音频信号处理

其音频信号处理流程可如图 7所示，可包括：

701、无线麦克风向会场终端发送拾取模块拾取的音频信号；

其中，图 7所示会场终端可包括：接收模块、方位识别模块、调整模块和编码发送模块。

702、会场终端的接收模块接收无线麦克风发送的音频信号，将接收到的 703、方位识别模块通过图像识别技术，分析出当前无线麦克风当前相对于会场终端的方向，并将该无线麦克风当前相对于会场终端的方向信息发给调整模块，作为调整模块调整的依据。

其中，图像识别技术是识别图像中目标的一种技术，例如比较常见的人脸识别就是图像识别技术的一种，此处不再详述。

704、调整模块生成接收到的音频信号对应的多声道音频信号（该多声道为至少两个声道）；根据无线麦克风当前相对于会场终端的方向，调整该多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该无线麦克风当前相对于该会场终端方向相匹配；并将调整后的多声道音频信号送给编码发送模块。

705、编码发送模块将多声道音频信号进行编码并发送。

此外，图 7所示会场终端还可接收图像拍摄设备（若存� �）针对包括该无线麦克风当前的位置在内的区域所拍摄的图像信号，并发送该图像信号。相应的，会议服务器（例如 MCU )接收该会场终端发送的调整后的音频信号 (和该图像信号），对其执行相应处理后向其它会场终端转发，而其它会场终端则可以接收并播放该调整后的音频信号（和对应的图像信号），以获得声像匹配效果。

由上可见，本实施例中的会场终端接收例如无线麦克风等可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于该会场终端的方向；生成该音频信号对应的多声道音频信号，根据该可移动音频拾取设备当前相对于该会场终端的方向，调整该多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于该会场终端方向相匹配。由于会场根据该可移动音频拾取设备当前相对于该会场终端的方向，调整该多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于该会场终端方向相匹配，这就为其它的会场终端在接收到该调整后的多声道音频信号后，能够以声像匹配的效果来播放对应的图像信号和该调整后的多声道音频信号奠定了基础，也就有利于实现视讯会议系统部署可移动音频拾取设备场景下的 "听音辨位"功能。

需要说明的是，上述实施例中主要是以发送音频信号的会场终端来调整可移动音频拾取设备所拾取的音频信号，以使该调整后的音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于会场终端方向相匹配为例进行说明，当然，亦可由会议服务器（如 MCU )或者由接收音频信号的会场终端或其它设备来调整可移动音频拾取设备所拾取的音频信号的延迟和 / 或相位和 /或信号强度等。

下面介绍由会议服务器（如 MCU )或者由接收音频信号的会场终端调整可移动音频拾取设备所拾取的音频信号的场景。

下面从视讯会议系统的角度进行描述。

本发明一种视讯会议系统的另一个实施例，参见图 8, 可包括：第三会场终端 810、会议服务器 820和第四会场终端 830。

其中，第三会场终端 810, 用于接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备相对于第三会场终端 810的方向；接收该图像拍摄设备针对该可移动音频拾取设备当前所在区域所拍摄的图像信号；根据该可移动音频拾取设备当前相对于第三会场终端 810 的方向，生成指示出该音频信号播放时所呈现声音方向的方向指示信息（该方向指示信息例如为方向标识或辅助声像信息），其中，该方向指示信息指示出的该音频信号播放时所要呈现的声音方向与该可移动音频拾取设备当前相对于第三会场终端 810方向相匹配；发送该图像信号、音频信号和方向指示信息。

其中，第三会场终端 810获取可移动音频拾取设备当前相对于第三会场举例来说，第三会场终端 810可根据该可移动音频拾取设备当前相对于第三会场终端 810的方向，生成指示出该音频信号播放时所呈现声音方向的方向标识，并可在用于承载该音频信号的报文的头域中或其它位置添加该方向标识并发送；或者，第三会场终端 810可根据该可移动音频拾取设备当前相对于第三会场终端 810的方向生成音频信号对应的声相辅助信息（基于该声相辅助信息来自调整的音频信号播放时所呈现声音方向与可移动音频拾取设备当前相对于第三会场终端 810的方向相匹配；)，并在对应该音频信号的待发送码流中添加该声相辅助信息并发送。

会议服务器 820, 用于接收第三会场终端 810发送的图像信号、音频信号和方向指示信息；生成该音频信号对应的多声道音频信号（该多声道为至少两个声道）；根据该方向指示信息调整该多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使得该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于第三会场终端 810 的方向相匹配；发送该图像信号和调整后的多声道音频信号；

第四会场终端 830,用于接收会议服务器 820发送的图像信号和调整后的多声道音频信号；播放该图像信号和调整后的多声道音频信号。

由上可见，本实施例中的会场终端接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备相对于会场终端的方向；根据该可移动音频拾取设备当前相对于会场终端的方向，生成指示出该音频信号播放时所呈现声音方向的方向指示信息；发送该音频信号和方向指示信息，由于该会场终端生成并发送的方向指示信息指示出的该音频信号播放时所要呈现的声音方向与该可移动音频拾取设备当前相对于该会场终端方向相匹配；这就为会议服务器或其它的会场终端在接收到该音频信号和方向指示信息后，可根据该方向指示信息对音频信号进行调整播放，进而能够以声像匹配的效果来播放音频信号和对应的图像信号奠定了基础，也就有利于实现视讯会议系统部署可移动音频拾取设备场景下的 "听音辨位"功能。

下面再从视讯会议系统的会议服务器的角度进行描述。

本发明会场终端音频信号处理方法的另一个实施例，可包括：会议服务器接收会场终端发送的图像信号、音频信号和方向指示信息，其中，该音频信号由可移动音频拾取设备拾取，该方向指示信息根据该可移动音频拾取设备当前相对于该会场终端的方向生成，用于指示该音频信号播放时所要呈现的声音方向；生成该音频信号对应的多声道音频信号，该多声道包括至少两个声道；根据该方向指示信息调整该多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使得该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于上述会场终端的方向相匹配；发送上述图像信号和调整后的多声道音频信号。

参见图 8-b , 本发明实施提供的一种会议服务器，可包括：第二接收单元 821、第二调整单元 822和第二发送单元 823。

其中，第二接收单元 821 , 用于接收会场终端发送的图像信号、音频信号和方向指示信息，其中，该音频信号由可移动音频拾取设备拾取，该方向指示信息根据该可移动音频拾取设备当前相对于该会场终端的方向生成，用于指示该音频信号播放时所要呈现的声音方向；

第二调整单元 822, 用于生成该音频信号对应的多声道音频信号，该多声道包括至少两个声道；根据该方向指示信息调整该多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使得该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于上述会场终端的方向相匹配；

第二发送单元 823 ,用于发送上述图像信号和第二调整单元 822调整后的多声道音频信号。

可以理解，该会议服务器还可通过部署其它模块若干个模块，以实施上述功能，此处不再举例。

本发明一种视讯会议系统的再一个实施例，参见图 9, 可包括：第五会场终端 910和第六会场终端 920。

其中，第五会场终端 910, 用于接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于第五会场终端的方向；接收图像拍摄设备针对该可移动音频拾取设备当前所在区域所拍摄的图像信号；根据该可移动音频拾取设备当前相对于第五会场终端 910的方向，生成用于指示该音频信号播放时所呈现声音方向的方向指示信息（该方向指示信息例如为方向标识或辅助声像信息），其中，该方向指示信息指示出的上述音频信号播放时所呈现的声音方向与该可移动音频拾取设备当前相对于第五会场终端 910方向相匹配；发送该图像信号、音频信号和方向指示信息。

举例来说，第五会场终端 910可根据该可移动音频拾取设备当前相对于第五会场终端 910的方向，生成指示出该音频信号播放时所呈现声音方向的方向标识，并可在用于承载该音频信号的报文的头域中或其它位置添加该方向标识并发送；或者，第五会场终端 910可根据该可移动音频拾取设备当前相对于第五会场终端 910的方向生成音频信号对应的声相辅助信息（基于该声相辅助信息来自调整的音频信号播放时所呈现声音方向与可移动音频拾取设备当前相对于第五会场终端 910的方向相匹配；)，并在对应该音频信号的待发送码流中添加该声相辅助信息并发送。

第六会场终端 920, 用于接收来自第五会场终端 910的图像信号、音频信号和该音频信号对应的方向指示信息；播放该图像信号并根据该方向指示信息播放该音频信号。

在实际应用中，若该方向指示信息指示出的音频信号播放时所呈现的声音方向为左方，则第六会场终端 920可只在左边喇叭播放该音频信号；或者第六会场终端 920 亦可通过多声道播放该音频信号，但增大左边喇叭的音量和 /或调低其它喇叭的音量，或者调整其它喇叭的相位和延迟，进而使得该音频信号播放时所呈现的声音方向与该可移动音频拾取设备当前相对于第五会场终端 910方向相匹配。

由上可见，本实施例中的第五会场终端 910接收可移动音频拾取设备所拾取的音频信号，获取该可移动音频拾取设备相对于会场终端的方向；根据该可移动音频拾取设备当前相对于会场终端的方向，生成指示出该音频信号播放时所呈现声音方向的方向指示信息；发送该音频信号和方向指示信息，由于该第五会场终端 910生成并发送的方向指示信息指示出的该音频信号播放时所要呈现的声音方向与该可移动音频拾取设备当前相对于该会场终端方向相匹配；这就为会议服务器或其它的会场终端在接收到该音频信号和方向指示信息后，可根据该方向指示信息对音频信号进行调整播放，进而能够以声像匹配的效果来播放音频信号和对应的图像信号奠定了基础，也就有利于实现视讯会议系统部署可移动音频拾取设备场景下的 "听音辨位"功能。下面再从视讯会议系统的发送音频信号的会场终端角度进行描述。

本发明会场终端音频信号处理方法的另一个实施例，可包括：会场终端接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于上述会场终端的方向；根据上述可移动音频拾取设备当前相对于上述会场终端的方向，生成用于指示上述音频信号播放时所呈现声音方向的方向指示信息（该方向指示信息例如为方向标识或辅助声像信息），其中，该方向指示信息指示出的上述音频信号播放时所要呈现的声音方向与该可移动音频拾取设备当前相对于上述会场终端方向相匹配；发送该音频信号和方向指示信息。

由上可见，本实施例中的会场终端接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备相对于会场终端的方向；根据该可移动音频拾取设备当前相对于会场终端的方向，生成指示出该音频信号播放时所呈现声音方向的方向指示信息；发送该音频信号和方向指示信息，由于该会场终端生成并发送的方向指示信息指示出的该音频信号播放时所要呈现的声音方向与该可移动音频拾取设备当前相对于该会场终端方向相匹配；这就为会议服务器或其它的会场终端在接收到该音频信号和方向指示信息后，可根据该方向指示信息对音频信号进行调整播放，进而能够以声像匹配的效果来播放音频信号和对应的图像信号奠定了基础，也就有利于实现视讯会议系统部署可移动音频拾取设备场景下的 "听音辨位"功能。

本发明实施例还提供一种会场终端 1000, 包括：接收确定单元 1010、调整单元 1020和发送单元 1030。

其中，接收确定单元 1010, 用于接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于会场终端 1000的方向；调整单元 1020, 用于生成该音频信号对应的多声道音频信号；根据该可移动音频拾取设备当前相对于会场终端 1000的方向调整该多声道音频信号中至少一个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于会场终端 1000的方向相匹配，得到调整后的多声道音频信号；发送单元 1030, 发送上述调整单元得到的调整后的多声道音频信号。在一种应用场景下，接收确定单元 1010可包括：第一位置确定子模块和至少两个接收模块；

其中，接收模块，用于接收可移动音频拾取设备所拾取的音频信号；第一位置确定子模块，用于上述至少两个接收模块中各接收模块接收到的音频信号的差异确定该可移动音频拾取设备当前相对于会场终端 1000的方向；

或者，

接收确定单元 1010可包括：信息接收模块和第二位置确定子模块其中，信息接收模块，用于接收可移动音频拾取设备所拾取的音频信号和该可移动音频拾取设备发送的位置识别信息；

第二位置确定子模块，用于通过上述位置识别信息确定上述可移动音频拾取设备当前相对于会场终端 1000的方向；

或者，

接收确定单元 1010可包括：接收模块和图像识别模块。

其中，接收模块，用于接收可移动音频拾取设备所拾取的音频信号；图像识别模块，用于通过图像识别技术确定该可移动音频拾取设备当前相对于会场终端 1000的方向。

可以理解的是，本实施例中的会场终端 1000可如上述方法实施例中的会场终端，其各个功能模块的功能可以根据上述实施例中的方法具体实现，其由上可见，本实施例会场终端 1000接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于该会场终端的方向；并接收图像拍摄设备针对该可移动音频拾取设备当前所在区域所拍摄的图像信号；生成该音频信号对应的多声道音频信号；根据该可移动音频拾取设备当前相对于该会场终端的方向，调整该多声道音频信号中的至少 1 个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于该会场终端的方向相匹配；发送该图像信号和调整后的多声道音频信号，由于该会场终端调整该多声道音频信号中的至少 1个声道音频信号的延迟、相位和 /或信号强度，以使该调整后的多声道音频信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于该会场终端的方向相匹配，这就为其它会场终端在接收到该图像信号和调整的后的多声道音频信号后，能够以声像匹配的效果来播放该图像信号和该调整后的音频信号奠定了基础，也就有利于实现视讯会议系统部署可移动音频拾取设备场景下的 "听音辨位"功能。

参见图 11、本发明实施例提供的另一种会场终端 1100, 可包括：接收确定单元 1110、生成单元 1120和发送单元 1130。

其中，接收确定单元 1110, 用于接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备当前相对于会场终端 1100的方向；生成单元 1120, 用于根据该可移动音频拾取设备当前相对于会场终端 1100的方向，生成用于指示该音频信号播放时所要呈现的声音方向的方向指示信息，其中，该方向指示信息指示出的音频信号播放时所要呈现的声音方向与该可移动音频拾取设备当前相对于会场终端 1100方向相匹配；

发送单元 1130,用于发送方向指示信息和接收确定单元 1110接收的音频信号。

可以理解的是，本实施例中的会场终端 1100可如上述方法实施例中的会场终端，其各个功能模块的功能可以根据上述实施例中的方法具体实现，其由上可见，本实施例会场终端 1100接收可移动音频拾取设备所拾取的音频信号，并获取该可移动音频拾取设备相对于会场终端的方向；根据该可移动音频拾取设备当前相对于会场终端的方向，生成指示出该音频信号播放时所呈现声音方向的方向指示信息；发送该音频信号和方向指示信息，由于该会场终端生成并发送的方向指示信息指示出的该音频信号播放时所要呈现的声音方向与该可移动音频拾取设备当前相对于该会场终端方向相匹配；这就为会议服务器或其它的会场终端在接收到该音频信号和方向指示信息后，可根据该方向指示信息对音频信号进行调整播放，进而能够以声像匹配的效果来播放音频信号和对应的图像信号奠定了基础，也就有利于实现视讯会议系统部署可移动音频拾取设备场景下的 "听音辨位"功能。

需要说明的是，对于前述的各方法实施例，为了筒单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，上述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明实施例所提供的会场终端音频信号处理及会场终端和视讯式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Previous Patent: DISSOLVED OZONE FLOATATION ADVANCED OXIDATION FLUID TREATMENT SYSTEM

Next Patent: METHOD, APPARATUS AND SYSTEM FOR DETECTING CHANNEL QUALITY