Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
CONFERENCE TERMINAL AUDIO SIGNAL PROCESSING METHOD, AND CONFERENCE TERMINAL AND VIDEO CONFERENCE SYSTEM
Document Type and Number:
WIPO Patent Application WO/2012/142975
Kind Code:
A1
Abstract:
Disclosed in an embodiment of the present invention are a conference terminal audio signal processing method, and a conference terminal and video conference system; the conference terminal audio signal processing method comprising: a conference terminal receiving an audio signal picked up by a mobile audio pickup apparatus, and obtaining the current direction of the mobile audio pickup apparatus relative to the conference terminal; generating a multi-channel audio signal corresponding to the audio signal; adjusting the delay, phase and/or signal intensity of at least one channel of audio signal in the multi-channel audio signal according to the current direction of the mobile audio pickup apparatus relative to the conference terminal, so that the sound direction presented when playing the adjusted multi-channel audio signal matches the current direction of the mobile audio pickup apparatus relative to the conference terminal, obtaining the adjusted multi-channel audio signal; and sending the adjusted multi-channel audio signal. The solution of the embodiment in the present invention facilitates the solving of the sound-image matching problem in a mobile audio pickup apparatus deployment scenario.

Inventors:
ZHAO YUNXUAN (CN)
Application Number:
PCT/CN2012/074534
Publication Date:
October 26, 2012
Filing Date:
April 23, 2012
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
HUAWEI DEVICE CO LTD (CN)
ZHAO YUNXUAN (CN)
International Classes:
H04N7/15; H04S5/00
Foreign References:
CN101384105A2009-03-11
JPH09307870A1997-11-28
CN101350931A2009-01-21
JP2007274462A2007-10-18
CN102186049A2011-09-14
Download PDF:
Claims:
权利要求书

1、 一种视讯会议系统, 其特征在于, 包括:

第一会场终端和第二会场终端, 所述第一会场终端和所述第二会场终端通 过网络相连接; 所述第一会场终端所在的会场部署有可移动音频拾取设备以及 图像拍摄设备;

其中, 所述第一会场终端, 用于接收所述可移动音频拾取设备所拾取的音 频信号, 并获取所述可移动音频拾取设备当前相对于所述第一会场终端的方向; 接收所述图像拍摄设备针对所述可移动音频拾取设备当前所在区域所拍摄的图 像信号; 生成所述音频信号对应的多声道音频信号, 所述多声道为至少两个声 道; 根据所述可移动音频拾取设备当前相对于所述第一会场终端的方向, 调整 所述多声道音频信号中的至少一个声道音频信号的延迟、 相位和 /或信号强度, 以使该调整后的多声道音频信号播放时所呈现出的声音方向与所述可移动音频 拾取设备当前相对于所述第一会场终端的方向相匹配; 发送所述图像信号和调 整后的多声道音频信号;

所述第二会场终端, 用于接收来自所述第一会场终端的图像信号和调整后 的多声道音频信号; 播放所述图像信号和调整后的多声道音频信号。

2、 根据权利要求 1所述的视讯会议系统, 其特征在于, 包括:

所述第一会场终端生成的多声道音频信号的声道个数与所述第二会场终端 支持的声道个数相等。

3、 一种会场终端音频信号处理方法, 其特征在于, 包括:

会场终端接收可移动音频拾取设备所拾取的音频信号, 并获取所述可移动 音频拾取设备当前相对于所述会场终端的方向;

生成所述音频信号对应的多声道音频信号, 其中, 所述多声道为至少两个 声道;

根据所述可移动音频拾取设备当前相对于所述会场终端的方向, 调整所述 多声道音频信号中至少一个声道音频信号的延迟、 相位和 /或信号强度, 以使该 调整后的多声道音频信号播放时所呈现出的声音方向与所述可移动音频拾取设 备当前相对于所述会场终端方向相匹配; 4、 根据权利要求 3所述的方法, 其特征在于,

所述接收可移动音频拾取设备所拾取的音频信号, 并获取所述可移动音频 拾取设备当前相对于所述会场终端的方向, 包括:

接收所述可移动音频拾取设备所拾取的音频信号, 并通过图像识别技术确 定该可移动音频拾取设备当前相对于所述会场终端的方向;

或者,

通过至少两个音频接收模块接收所述可移动音频拾取设备所拾取的音频信 号; 并通过各音频接收模块接收到的音频信号的差异, 确定所述可移动音频拾 取设备当前相对于所述会场终端的方向;

或者,

接收所述可移动音频拾取设备所拾取的音频信号; 接收所述可移动音频拾 取设备发送的位置识别信息; 并通过所述位置识别信息确定所述可移动音频拾 取设备当前相对于所述会场终端的方向。

5、 根据权利要求 4所述的方法, 其特征在于,

所述各音频接收模块接收到的音频信号的差异, 包括: 各音频接收模块接 收到音频信号的时间差、 相位差、 强度差中的至少一项。

6、 根据权利要求 4所述的方法, 其特征在于, 所述接收所述可移动音频拾 取设备发送的位置识别信息; 并通过所述位置识别信息确定所述可移动音频拾 取设备当前相对于所述会场终端的方向, 包括:

接收所述可移动音频拾取设备发送的红外信号;

使用红外信号图像识别技术分析所述红外信号的发送方向得到所述可移动 音频拾取设备当前相对于所述会场终端的方向; 或者, 使用红外信号定位技术 计算所述红外信号的发送方向得到所述可移动音频拾取设备当前相对于所述会 场终端的方向。

7、 一种会场终端, 其特征在于, 包括:

接收确定单元, 用于接收可移动音频拾取设备所拾取的音频信号, 并获取 所述可移动音频拾取设备当前相对于所述会场终端的方向; 调整单元, 用于生成所述音频信号对应的多声道音频信号; 根据所述可移 动音频拾取设备当前相对于所述会场终端的方向调整所述多声道音频信号中至 少一个声道音频信号的延迟、 相位和 /或信号强度, 以使该调整后的多声道音频 信号播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于所述会场 终端的方向相匹配;

发送单元, 用于发送所述调整单元调整后的多声道音频信号。

8、 根据权利要求 7所述的会场终端, 其特征在于,

所述接收确定单元包括: 第一位置确定子模块和至少两个接收模块; 所述至少两个接收模块, 用于分别接收所述会场终端所在会场的可移动音 频拾取设备所拾取的音频信号;

第一位置确定子模块, 用于通过所述至少两个接收模块中各接收模块接收 到的音频信号的差异确定所述可移动音频拾取设备当前相对于所述会场终端的 方向;

或者,

所述接收确定单元包括: 信息接收模块和第二位置确定子模块;

其中, 所述信息接收模块, 用于接收所述会场终端所在会场的可移动音频 拾取设备所拾取的音频信号和该可移动音频拾取设备发送的位置识别信息; 所述第二位置确定子模块, 用于通过所述位置识别信息确定所述可移动音 频拾取设备当前相对于所述会场终端的方向;

或者,

所述接收确定单元包括: 接收模块和图像识别模块;

其中, 所述接收模块, 用于接收所述会场终端所在会场的可移动音频拾取 设备所拾取的音频信号;

所述图像识别模块, 用于通过图像识别技术确定所述可移动音频拾取设备 当前相对于所述会场终端的方向。

9、 一种视讯会议系统, 其特征在于, 包括:

第三会场终端、 第四会场终端以及会议服务器, 其中, 所述第三会场终端 和所述第四会场终端通过网络与所述会议服务器相连接, 所述第三会场终端所 在的会场部署有可移动音频拾取设备以及图像拍摄设备;

所述第三会场终端, 用于接收所述可移动音频拾取设备所拾取的音频信号, 并获取所述可移动音频拾取设备相对于第三会场终端的方向; 接收所述图像拍 摄设备针对所述可移动音频拾取设备当前所在区域所拍摄的图像信号; 根据所 述可移动音频拾取设备当前相对于第三会场终端的方向, 生成指示出所述音频 信号播放时所呈现声音方向的方向指示信息, 其中, 所述方向指示信息指示出 的所述音频信号播放时所要呈现的声音方向与所述可移动音频拾取设备当前相 对于第三会场终端的方向相匹配; 发送所述图像信号、 音频信号和方向指示信 息;

所述会议服务器, 用于接收所述第三会场终端发送的图像信号、 音频信号 和方向指示信息; 生成所述音频信号对应的多声道音频信号, 所述多声道为至 少两个声道; 根据所述方向指示信息调整所述多声道音频信号中至少一个声道 音频信号的延迟、 相位和 /或信号强度, 以使得该调整后的多声道音频信号播放 时所呈现出的声音方向与该可移动音频拾取设备当前相对于第三会场终端的方 向相匹配; 发送所述图像信号和调整后的多声道音频信号;

所述第四会场终端, 用于接收所述会议服务器发送的图像信号和调整后的 多声道音频信号; 播放该图像信号和调整后的多声道音频信号。

10、 一种视讯会议系统, 其特征在于, 包括:

第五会场终端和第六会场终端, 所述第五会场终端和所述第六会场终端通 过网络相连接; 所述第五会场终端所在的会场部署有可移动音频拾取设备以及 图像拍摄设备;

第五会场终端, 用于接收可移动音频拾取设备所拾取的音频信号, 并获取 该可移动音频拾取设备当前相对于第五会场终端的方向; 接收图像拍摄设备针 对该可移动音频拾取设备当前所在区域所拍摄的图像信号; 根据该可移动音频 拾取设备当前相对于第五会场终端的方向, 生成用于指示所述音频信号播放时 所呈现声音方向的方向指示信息, 其中, 所述方向指示信息指示出的所述音频 信号播放时所呈现的声音方向与所述可移动音频拾取设备当前相对于第五会场 终端的方向相匹配; 发送所述图像信号、 音频信号和方向指示信息; 第六会场终端, 用于接收来自第五会场终端的图像信号、 音频信号和该音 频信号对应的方向指示信息; 播放该图像信号并根据所述方向指示信息播放该 音频信号。

11、 一种会场终端音频信号处理方法, 其特征在于, 包括:

会场终端接收可移动音频拾取设备所拾取的音频信号, 并获取该可移动音 频拾取设备当前相对于所述会场终端的方向;

根据所述可移动音频拾取设备当前相对于所述会场终端的方向, 生成用于 指示所述音频信号播放时所呈现声音方向的方向指示信息, 其中, 所述方向指 示信息指示出的所述音频信号播放时所要呈现的声音方向与所述可移动音频拾 取设备当前相对于所述会场终端方向相匹配;

发送所述音频信号和方向指示信息。

12、 一种会场终端, 其特征在于, 包括:

接收确定单元, 用于接收可移动音频拾取设备所拾取的音频信号, 并获取 该可移动音频拾取设备当前相对于所述会场终端的方向;

生成单元, 用于根据所述可移动音频拾取设备当前相对于所述会场终端的 方向, 生成用于指示所述音频信号播放时所要呈现的声音方向的方向指示信息, 其中, 所述方向指示信息指示出的所述音频信号播放时所要呈现的声音方向与 所述可移动音频拾取设备当前相对于所述会场终端方向相匹配;

发送单元, 用于发送所述音频信号和所述方向指示信息。

13、 一种会议服务器, 其特征在于, 包括:

第二接收单元, 用于接收会场终端发送的图像信号、 音频信号和方向指示 信息, 其中, 所述音频信号由可移动音频拾取设备拾取, 所述方向指示信息根 据所述可移动音频拾取设备当前相对于所述会场终端的方向生成, 用于指示所 述音频信号播放时所要呈现的声音方向;

第二调整单元, 用于生成所述音频信号对应的多声道音频信号, 所述多声 道包括至少两个声道; 根据该方向指示信息调整该多声道音频信号中至少一个 声道音频信号的延迟、 相位和 /或信号强度, 以使得该调整后的多声道音频信号 播放时所呈现出的声音方向与该可移动音频拾取设备当前相对于所述会场终端 的方向相匹配;

第二发送单元, 用于发送所述图像信号和第二调整单元调整后的多声道音 频信号。

Description:
会场终端音频信号处理方法及会场终端和视讯 会议系统 本申请要求于 2011 年 4 月 22 日提交中国专利局、 申请号为 201110101877.6、 发明名称为"会场终端音频信号处理方法及会 终端和视讯 会议系统"的中国专利申请的优先权, 其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信技术领域, 特别涉及会场终端音频信号处理方法及会场 终端和视讯会议系统。

背景技术

目前的视讯会议系统一般包括: 会场终端和会议服务器(图 1 中会议服 务器以多点控制单元( MCU, Multipoint Control Unit ) 为例)。 在一个视讯会 议系统中, 每个会场均具有至少 1 个会场终端, 各会场终端采集各自会场的 声音、 图像并编码发送给 MCU。 多点控制单元按照一定的方式对声音、 图像 进行处理(例如声音混音、 图像转发或组成多画面等处理), 并将处理后的声 音和图像发送给视讯会议中的其他各个会场终 端, 各会场终端解码输出远端 会场的声音和图像, 实现远程视讯通信的目的。

随着视讯技术的不断发展, 交互性、 易用性成为视讯会议系统的一个发 展方向, 实现面对面的交互感成为人们追求的目标。 人们不再仅仅满足于看 到清晰的图像, 听到悦耳的声音, "真人大小"、 "眼对眼"、 "听音辨位"等更高 层次的需求已成为是视讯会议系统发展的方向 。 例如, 在 3屏远程呈现会场 的应用场景下, 人们可能还期望不需要抬头看说话人, 就能够从声音的方向 上判断出是谁在说话, 即"听音辨位", 从而获得更强的现场感。

视讯会议系统一般采用固定式的麦克风等作为 音频拾取设备, 一个或多 个麦克风固定在桌面或者天花板上, 用来拾取发言者的声音。 当会议室较大 或发言人位置不确定的情况下, 还可能会采用可移动音频拾取设备(例如无 线麦克风等)作为固定式音频拾取设备的一种 补偿。

在"听音辨位"的功能需求下,视讯会议系统中 可移动音频拾取设备的声 像匹配问题, 成为一个影响会议效果的关键因素。 而业内目前还没有一种在 部署了可移动音频拾取设备场景下能够较好的 解决其声像匹配问题, 以实现 "听音辨位"功能的有效方案。

发明内容

本发明实施例提供会场终端音频信号处理方法 及会场终端和视讯会议系 统, 以便实现可移动音频拾取设备部署场景下的声 像匹配。

为解决上述技术问题, 本发明所提供以下技术方案实现:

一种视讯会议系统, 包括:

第一会场终端和第二会场终端, 所述第一会场终端和所述第二会场终端 通过网络相连接; 所述第一会场终端所在的会场部署有可移动音 频拾取设备 以及图像拍摄设备;

其中, 所述第一会场终端, 用于接收所述可移动音频拾取设备所拾取的 音频信号, 并获取所述可移动音频拾取设备当前相对于所 述第一会场终端的 方向; 接收所述图像拍摄设备针对所述可移动音频拾 取设备当前所在区域所 拍摄的图像信号; 生成所述音频信号对应的多声道音频信号, 所述多声道为 至少两个声道; 根据所述可移动音频拾取设备当前相对于所述 第一会场终端 的方向, 调整所述多声道音频信号中的至少一个声道音 频信号的延迟、 相位 和 /或信号强度, 以使该调整后的多声道音频信号播放时所呈现 出的声音方向 与所述可移动音频拾取设备当前相对于所述第 一会场终端的方向相匹配; 发 送所述图像信号和调整后的多声道音频信号;

所述第二会场终端, 用于接收来自所述第一会场终端的图像信号和 调整 后的多声道音频信号; 播放所述图像信号和调整后的多声道音频信号 。

一种会场终端音频信号处理方法, 包括:

会场终端接收可移动音频拾取设备所拾取的音 频信号, 并获取所述可移 动音频拾取设备当前相对于所述会场终端的方 向;

生成所述音频信号对应的多声道音频信号, 其中, 所述多声道为至少两 个声道;

根据所述可移动音频拾取设备当前相对于所述 会场终端的方向, 调整所 述多声道音频信号中至少一个声道音频信号的 延迟、 相位和 /或信号强度, 以 使该调整后的多声道音频信号播放时所呈现出 的声音方向与所述可移动音频 拾取设备当前相对于所述会场终端方向相匹配 ;

发送所述调整后的多声道音频信号。

一种会场终端, 包括:

接收确定单元, 用于接收可移动音频拾取设备所拾取的音频信 号, 并获 取所述可移动音频拾取设备当前相对于所述会 场终端的方向;

调整单元, 用于生成所述音频信号对应的多声道音频信号 ; 根据所述可 移动音频拾取设备当前相对于所述会场终端的 方向调整所述多声道音频信号 中至少一个声道音频信号的延迟、 相位和 /或信号强度, 以使该调整后的多声 道音频信号播放时所呈现出的声音方向与该可 移动音频拾取设备当前相对于 所述会场终端的方向相匹配;

发送单元, 用于发送所述调整单元调整后的多声道音频信 号。

一种视讯会议系统, 包括:

第三会场终端、 第四会场终端以及会议服务器, 其中, 所述第三会场终 端和所述第四会场终端通过网络与所述会议服 务器相连接, 所述第三会场终 端所在的会场部署有可移动音频拾取设备以及 图像拍摄设备;

所述第三会场终端, 用于接收所述可移动音频拾取设备所拾取的音 频信 号, 并获取所述可移动音频拾取设备相对于第三会 场终端的方向; 接收所述 图像拍摄设备针对所述可移动音频拾取设备当 前所在区域所拍摄的图像信 号; 根据所述可移动音频拾取设备当前相对于第三 会场终端的方向, 生成指 示出所述音频信号播放时所呈现声音方向的方 向指示信息, 其中, 所述方向 指示信息指示出的所述音频信号播放时所要呈 现的声音方向与所述可移动音 频拾取设备当前相对于第三会场终端的方向相 匹配; 发送所述图像信号、 音 频信号和方向指示信息;

所述会议服务器, 用于接收所述第三会场终端发送的图像信号、 音频信 号和方向指示信息; 生成所述音频信号对应的多声道音频信号, 所述多声道 为至少两个声道; 根据所述方向指示信息调整所述多声道音频信 号中至少一 个声道音频信号的延迟、 相位和 /或信号强度, 以使得该调整后的多声道音频 信号播放时所呈现出的声音方向与该可移动音 频拾取设备当前相对于第三会 场终端的方向相匹配; 发送所述图像信号和调整后的多声道音频信号 ;

所述第四会场终端, 用于接收所述会议服务器发送的图像信号和调 整后 的多声道音频信号; 播放该图像信号和调整后的多声道音频信号。

一种视讯会议系统, 包括:

第五会场终端和第六会场终端, 所述第五会场终端和所述第六会场终端 通过网络相连接; 所述第五会场终端所在的会场部署有可移动音 频拾取设备 以及图像拍摄设备;

第五会场终端, 用于接收可移动音频拾取设备所拾取的音频信 号, 并获 取该可移动音频拾取设备当前相对于第五会场 终端的方向; 接收图像拍摄设 备针对该可移动音频拾取设备当前所在区域所 拍摄的图像信号; 根据该可移 动音频拾取设备当前相对于第五会场终端的方 向, 生成用于指示所述音频信 号播放时所呈现声音方向的方向指示信息, 其中, 所述方向指示信息指示出 的所述音频信号播放时所呈现的声音方向与所 述可移动音频拾取设备当前相 对于第五会场终端的方向相匹配; 发送所述图像信号、 音频信号和方向指示 信息;

第六会场终端, 用于接收来自第五会场终端的图像信号、 音频信号和该 音频信号对应的方向指示信息; 播放该图像信号并根据所述方向指示信息播 放该音频信号。

一种会场终端音频信号处理方法, 包括:

会场终端接收可移动音频拾取设备所拾取的音 频信号, 并获取该可移动 音频拾取设备当前相对于所述会场终端的方向 ;

根据所述可移动音频拾取设备当前相对于所述 会场终端的方向, 生成用 于指示所述音频信号播放时所呈现声音方向的 方向指示信息, 其中, 所述方 向指示信息指示出的所述音频信号播放时所要 呈现的声音方向与所述可移动 音频拾取设备当前相对于所述会场终端方向相 匹配;

发送所述音频信号和方向指示信息。

一种会场终端, 包括:

接收确定单元, 用于接收可移动音频拾取设备所拾取的音频信 号, 并获 取该可移动音频拾取设备当前相对于所述会场 终端的方向;

生成单元, 用于根据所述可移动音频拾取设备当前相对于 所述会场终端 的方向, 生成用于指示所述音频信号播放时所要呈现的 声音方向的方向指示 信息, 其中, 所述方向指示信息指示出的所述音频信号播放 时所要呈现的声 音方向与所述可移动音频拾取设备当前相对于 所述会场终端方向相匹配; 发送单元, 用于发送所述音频信号和所述方向指示信息。

一种会议服务器, 包括:

第二接收单元, 用于接收会场终端发送的图像信号、 音频信号和方向指 示信息, 其中, 所述音频信号由可移动音频拾取设备拾取, 所述方向指示信 息根据所述可移动音频拾取设备当前相对于所 述会场终端的方向生成, 用于 指示所述音频信号播放时所要呈现的声音方向 ;

第二调整单元, 用于生成所述音频信号对应的多声道音频信号 , 所述多 声道包括至少两个声道; 根据该方向指示信息调整该多声道音频信号中 至少 一个声道音频信号的延迟、 相位和 /或信号强度, 以使得该调整后的多声道音 频信号播放时所呈现出的声音方向与该可移动 音频拾取设备当前相对于所述 会场终端的方向相匹配;

第二发送单元, 用于发送所述图像信号和第二调整单元调整后 的多声道 音频信号。

由上可见, 本发明实施例的一种方案中, 会场终端接收可移动音频拾取 设备所拾取的音频信号, 并获取该可移动音频拾取设备当前相对于该会 场终 端的方向; 并接收图像拍摄设备针对该可移动音频拾取设 备当前所在区域所 拍摄的图像信号; 生成该音频信号对应的多声道音频信号; 根据该可移动音 频拾取设备当前相对于该会场终端的方向,调 整该多声道音频信号中的至少 1 个声道音频信号的延迟、 相位和 /或信号强度, 以使该调整后的多声道音频信 号播放时所呈现出的声音方向与该可移动音频 拾取设备当前相对于该会场终 端的方向相匹配; 发送该图像信号和调整后的多声道音频信号。 由于该会场 终端调整了该多声道音频信号中的至少 1个声道音频信号的延迟、 相位和 /或 信号强度, 以使该调整后的多声道音频信号播放时所呈现 出的声音方向与该 可移动音频拾取设备当前相对于该会场终端的 方向相匹配, 这就为其它会场 终端在接收到该图像信号和调整后的多声道音 频信号后, 能够以声像匹配的 效果来播放该图像信号和该调整后的音频信号 奠定了基础, 也就有利于实现 视讯会议系统部署可移动音频拾取设备场景下 的 "听音辨位"功能。

本发明实施例的另一种方案中, 会场终端接收可移动音频拾取设备所拾 取的音频信号, 获取该可移动音频拾取设备相对于会场终端的 方向; 根据该 可移动音频拾取设备当前相对于会场终端的方 向, 生成指示出该音频信号播 放时所呈现声音方向的方向指示信息; 发送该音频信号和方向指示信息。 由 于该会场终端生成并发送的方向指示信息所指 示出的该音频信号播放时所要 呈现的声音方向, 与该可移动音频拾取设备当前相对于该会场终 端方向相匹 配; 这就为会议服务器或其它的会场终端在接收到 该音频信号和方向指示信 息后, 根据该方向指示信息对音频信号进行调整或播 放, 进而以声像匹配的 效果来播放音频信号和对应的图像信号奠定了 基础, 也就有利于实现视讯会 议系统部署可移动音频拾取设备场景下的 "听音辨位"功能。

附图说明

为了更清楚地说明本发明实施例和现有技术中 的技术方案, 下面将对实 施例和现有技术描述所需要使用的附图作筒单 地介绍, 显而易见地, 下面描 述中的附图仅仅是本发明的一些实施例, 对于本领域普通技术人员来讲, 在 不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。

图 1为现有技术的一种视讯会议系统的示意图;

图 2为本发明实施例提供的视讯会议系统中声相 生过程的示意图; 图 3为本发明实施例提供的一种视讯会议系统的 意图;

图 4为本发明实施例提供的一种会场终端音频信 处理方法的流程示意 图;

图 5为本发明实施例提供的一种模块化音频信号 理的示意图; 图 6为本发明实施例提供的另一种模块化音频信 处理的示意图; 图 7为本发明实施例提供的再一种模块化音频信 处理的示意图; 图 8-a为本发明实施例提供的另一种视讯会议系统 的示意图;

图 8-b为本发明实施例提供的一种会议服务器的示 意图;

图 9为本发明实施例提供的再一种视讯会议系统 示意图;

图 10为本发明实施例提供的一种会场终端的示意 ;

图 11为本发明实施例提供另一种会场终端的示意 。

具体实施方式

本发明实施例提供会场终端音频信号处理方法 及会场终端和视讯会议系 统, 以便实现可移动音频拾取设备部署场景下的声 像匹配。

下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行 清楚、 完整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而 不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员在没有作 出创造性劳动前提下所获得的所有其他实施例 , 都属于本发明保护的范围。

本发明实施例中, 声音的方向是指发声物体在声场中的发声方向 , 就是 声源相对于接收端 (接收端可能是为人或会场终端等设备) 的方向, 例如是 靠左还是靠右。 人耳是靠两耳拾取到的声音信号之间的时间差 和声级差, 来 判别声音的方位。 这就是所谓的"双耳效应"。 所谓的 "听音辨位"就是指利用声 音的方向信息, 辨别出发言人的位置。

例如, 图 2所示, 以双声道为例来描述视讯会议系统中声音方向 的产生 过程。 假设"麦克风 _左"、 "麦克风_右"具有相同的特性且放置朝向相同, 并且 "扬声器_左"、 "扬声器_左 "具有相同的特性、 音量控制一致且均朝向"听音位 置"放置。 当"发声位置 A"讲话时, 与"麦克风 _右"相比, 由于"麦克风 _左 "距发言人 距离较近, 因此, 其拾取到的声音较大且延时较小, 在分别经过"扬声器 _左"、 "扬声器_右 "播放后, 由于左声道声音较大且播放时间较早, 故听音者会感觉 到声音从左边方向出来, 于是声音就有了方向信息。

同理, 当"发声位置 C"发声时, 听音者会感觉声音从右边方向出来。

当"发声位置 B"讲话时, 由于"麦克风 _左"、 "麦克风_右 "距发言人距离相 当, 故拾取到的声音大小、 延时基本一致, 在分别经过"扬声器 _左"、 "扬声器 _右 "播放后, 由于两个声道声音大小、 延时基本一致, 故听音者会感觉到声 音从中间方向出来。 声像匹配问题:

声像匹配, 即声音和图像间的匹配, 是指播放出的声音的方向与图像中 声源显示方位之间相匹配。 在视讯会议系统中, 除了有声音信息外, 还可以 看到与本会场视频通信的对端的图像, 若在本会场端显示器中显示的对端发 言人在图像的左边位置, 则声音需要从左方播放出来, 若发言人在图像的右 边位置, 则声音需要从右方播放出来, 这样才能做到声音与图像匹配。

本发明实施例中的可移动音频拾取设备例如可 以指: 无线麦克风、 长线 麦克风等移动式的音频拾取设备。

可以理解的是, 可移动音频拾取设备的位置可能随着持有该可 移动音频 拾取设备的发言者的移动而不断移动。

本发明实施例中力求提供一种在部署可移动音 频拾取设备场景下用以解 决其声像匹配问题的方案, 以便实现部署可移动音频拾取设备场景下的" 音 辨位"功能。

下面首先从一种视讯会议系统的角度进行描述 。

参见图 3 , 本发明实施例提供的一种视讯会议系统, 可以包括: 第一会场 终端 310和第二会场终端 320。 其中, 第一会场终端 310和第二会场终端 320 可以通过通信网络相连接, 第一会场终端所在的会场部署有可移动音频拾 取 设备以及图像拍摄设备, 在图 3 中未示出通信网络、 可移动音频拾取设备以 及图像拍摄设备等。

其中, 第一会场终端 310, 用于接收可移动音频拾取设备所拾取的音频信 号, 并获取该可移动音频拾取设备当前相对于第一 会场终端 310 的方向; 接 收上述图像拍摄设备针对该可移动音频拾取设 备当前所在区域所拍摄的图像 信号; 生成该音频信号对应的多声道音频信号 (该多声道为至少两个声道); 根据该可移动音频拾取设备当前相对于第一会 场终端 310 的方向, 调整该多 声道音频信号中的至少 1个声道音频信号的延迟、 相位和 /或信号强度, 以使 该调整后的多声道音频信号播放时所呈现出的 声音方向与该可移动音频拾取 设备当前相对于第一会场终端 310 的方向相匹配; 发送该图像信号和调整后 的多声道音频信号。

在实际应用中, 第一会场终端 310和其它会场终端可以在会议建立过程 中协商会议的声道数量, 通过协商, 第一会场终端 310生成的多声道音频信 号的声道个数与第二会场终端 320支持的声道个数相等。

在实际应用中, 第一会场终端 310可采用多种多样的方式获取可移动音 频拾取设备当前相对于第一会场终端 310的方向。

可以理解, 此处是以第一会场终端 310作为绝对参考系来体现方向的, 当然第一会场终端 310也可获取可移动音频拾取设备当前相对于其 它参照物 (例如为会议屏幕、 图像拍摄设备或其它设备) 的方向, 而基于该参照物和 第一会场终端 310的方位关系, 也就相当于获得了可移动音频拾取设备当前 相对于第一会场终端 310的方向。 第一会场终端 310还可获取可移动音频拾 取设备当前的位置。

作为实施方式的举例, 可以有如下几种方式实现可移动音频拾取设备 当 前相对于第一会场终端 310的方向的获取:

( 1 )第一会场终端 310接收可移动音频拾取设备所拾取的音频信号 , 并 通过图像识别技术确定该可移动音频拾取设备 当前相对于第一会场终端 310 的方向 (该方向例如相对于第一会场终端 310靠左、 居中或靠右等);

( 2 )第一会场终端 310可通过至少两个接收模块接收可移动音频拾 取设 备所拾取的音频信号;通过该至少两个接收模 块接收到的音频信号的差异(该 差异可包括各接收模块接收到音频信号的时间 差、相位差、 强度差中的至少 1 项), 确定该可移动音频拾取设备当前相对于第一会 场终端 310的方向;

( 3 )第一会场终端 310接收可移动音频拾取设备所拾取的音频信号 , 并 接收该可移动音频拾取设备发送的位置识别信 息 (该位置识别信息是能够用 以识别可移动音频拾取设备当前的方位的任意 信息); 通过该位置识别信息确 定该可移动音频拾取设备当前相对于第一会场 终端 310的方向。

其中, 第一会场终端 310接收可移动音频拾取设备的位置识别信息, 并 通过位置识别信息确定该可移动音频拾取设备 当前相对于第一会场终端 310 的方向, 举例说明如下实施方式:

1 )接收所述可移动音频拾取设备发送的红外信 ; 使用红外信号图像识 别技术分析该红外信号的发送方向得到可移动 音频拾取设备当前相对于第一 会场终端 310的方向; 或者,

2 )接收所述可移动音频拾取设备发送的红外信 ; 使用红外信号定位技 术计算该红外信号的发送方向, 得到该可移动音频拾取设备当前相对于第一 会场终端 310的方向。

当然, 第一会场终端 310 亦可采用其它的方式, 来获取可移动音频拾取 设备当前相对于第一会场终端 310 的方向, 而本发明的所有实施例中对此均 不加限制, 其它各实施例均可采用类似的方式实施。

第二会场终端 320,用于接收来自第一会场终端 310的图像信号和调整后 的多声道音频信号; 播放该图像信号和调整后的多声道音频信号。

在实际应用中, 会议服务器可接收第一会场终端 310发送的图像信号和 调整后的音频信号, 对其进行混音等处理后向其它会场终端发送; 而第二会 场终端 320可从会议服务器接收来自第一会场终端 310的该图像信号和调整 后的多声道音频信号。

由上可见, 本实施例中的会场终端接收可移动音频拾取设 备所拾取的音 频信号, 并获取该可移动音频拾取设备当前相对于该会 场终端的方向; 并接 收图像拍摄设备针对该可移动音频拾取设备当 前所在区域所拍摄的图像信 号; 生成该音频信号对应的多声道音频信号; 根据该可移动音频拾取设备当 前相对于该会场终端的方向, 调整该多声道音频信号中的至少 1 个声道音频 信号的延迟、 相位和 /或信号强度, 以使该调整后的多声道音频信号播放时所 呈现出的声音方向与该可移动音频拾取设备当 前相对于该会场终端的方向相 匹配; 发送该图像信号和调整后的多声道音频信号, 由于该会场终端调整该 多声道音频信号中的至少 1个声道音频信号的延迟、 相位和 /或信号强度, 以 使该调整后的多声道音频信号播放时所呈现出 的声音方向与该可移动音频拾 取设备当前相对于该会场终端的方向相匹配, 这就为其它会场终端在接收到 该图像信号和调整的后的多声道音频信号后, 能够以声像匹配的效果来播放 该图像信号和该调整后的音频信号奠定了基础 , 也就有利于实现视讯会议系 统部署可移动音频拾取设备场景下的 "听音辨位"功能。

下面从视讯会议系统的音频信号发送端的角度 进行描述。

本发明一种会场终端音频信号处理方法的一个 实施例, 包括: 会场终端 接收可移动音频拾取设备所拾取的音频信号, 并获取该可移动音频拾取设备 当前相对于该会场终端的方向; 生成该音频信号对应的多声道音频信号, 该 多声道为至少两个声道; 根据该可移动音频拾取设备当前相对于该会场 终端 的方向, 调整该多声道音频信号中至少一个声道音频信 号的延迟、 相位和 /或 信号强度, 以使该调整后的多声道音频信号播放时所呈现 出的声音方向与该 可移动音频拾取设备当前相对于该会场终端方 向相匹配, 得到调整后的多声 道音频信号; 发送该调整后的多声道音频信号。

参见图 4, 具体步骤可以包括:

401、 会场终端接收可移动音频拾取设备所拾取的音 频信号, 并获取该可 移动音频拾取设备当前相对于该会场终端的方 向;

本实施例中, 可移动音频拾取设备所拾取的音频信号为单路 信号。

在实际应用中, 会场终端可采用多种多样的方式获取可移动音 频拾取设 备当前相对于会场终端的方向。 可以理解, 此处是以会场终端作为绝对参考 系来体现方向的, 当然会场终端也可以获取可移动音频拾取设备 当前相对于 其它参照物 (例如为会议屏幕、 图像拍摄设备或其它设备) 的方向, 而基于 该参照物和会场终端的方位关系, 也就相当于获得了可移动音频拾取设备当 前相对于会场终端的方向。 会场终端还可获取可移动音频拾取设备当前的 位 置。

可以理解的是, 本实施例的会场终端可采用如上述实施例中第 一会场终 端 310获取可移动音频拾取设备当前相对于其的方 向的类似方式, 来获取可 移动音频拾取设备当前相对于会场终端的方向 , 此处不再赘述。

402、 会场终端生成接收到的音频信号对应的多声道 音频信号(该多声道 为至少两个声道); 并根据上述可移动音频拾取设备当前相对于会 场终端的方 向, 调整该多声道音频信号中至少一个声道音频信 号的延迟、 相位和 /或信号 强度, 以使该调整后的多声道音频信号播放时所呈现 出的声音方向与该可移 动音频拾取设备当前相对于该会场终端方向相 匹配;

403、 会场终端发送上述调整后的多声道音频信号。

此外, 上述会场终端还可接收图像拍摄设备(若存在 )针对包括该可移 动音频拾取设备当前所在区域所拍摄的图像信 号, 并发送该图像信号。 相应 的, 会议服务器(例如 MCU )可接收该会场终端发送的调整后的多声道音 信号(和该图像信号), 对其执行混音等处理后向其它会场终端转发, 而其它 会场终端则可以接收并播放该调整后的多声道 音频信号 (和对应的图像信 号), 以获得声像匹配效果。

由上可见, 本实施例中的会场终端接收可移动音频拾取设 备所拾取的音 频信号, 并获取该可移动音频拾取设备当前相对于该会 场终端的方向; 生成 该音频信号对应的多声道音频信号, 根据该可移动音频拾取设备当前相对于 该会场终端的方向, 调整该多声道音频信号中至少一个声道音频信 号的延迟、 相位和 /或信号强度, 以使该调整后的多声道音频信号播放时所呈现 出的声音 方向与该可移动音频拾取设备当前相对于该会 场终端方向相匹配。 由于会场 根据该可移动音频拾取设备当前相对于该会场 终端的方向, 调整该多声道音 频信号中至少一个声道音频信号的延迟、 相位和 /或信号强度, 以使该调整后 的多声道音频信号播放时所呈现出的声音方向 与该可移动音频拾取设备当前 相对于该会场终端方向相匹配, 这就为其它的会场终端在接收到该调整后的 多声道音频信号后, 能够以声像匹配的效果来播放对应的图像信号 和该调整 后的多声道音频信号奠定了基础, 也就有利于实现视讯会议系统部署可移动 音频拾取设备场景下的 "听音辨位"功能。

为便于更好的理解和实施本发明实施例的方案 , 下面以将会场终端划分 为若干个模块, 各个模块相互配合实现音频信号处理的场景为 例, 进行具体 而详细的介绍。 其中, 本实施例中以在视讯会议系统中部署的可移动 音频拾 取设备为无线麦克风的应用场景为例, 当然, 部署其它类型的可移动音频拾 取设备的应用场景与之类似。

图 5〜图 7中示出了三种举例的实施方式, 可以理解, 会场终端还可能采 用其它的模块划分方式来进行音频信号的处理 。

参见图 5 ,图 5中通过在会场终端增加用于接收无线麦克风 取的音频信 号的接收模块的个数, 来达到识别无线麦克风当前位置的目的。

其中, 根据无线麦克风当前位置定位精度的需求不同 , 会场终端中的接 收模块的个数大于等于 2个。

音频信号处理流程可如图 5所示, 其中, 实箭头线为数据流方向, 虚线 箭头线为控制流方向, 后续实施例不再——说明。

501、 无线麦克风向会场终端发送音频拾取模块拾取 的音频信号; 其中, 图 5 中的会场终端可包括: 方位识别模块、 调整模块、 编码发送 模块和多个接收模块。

502、 会场终端中部署的多个接收模块分别接收无线 麦克风发送的音频信 号, 该多个接收模块分别将接收到的该音频信号发 送给方位识别模块进行位 置分析;

503、 方位识别模块利用多个接收模块信号之间的时 间差、相位差和 /或强 度差等信息, 计算出无线麦克风当前相对于会场终端的方向 , 例如计算出的 方向为相对于会场终端如靠左、 居中或靠右等;

方位识别模块将定位出的无线麦克风当前相对 于会场终端的方向 (可看 成音源方向 )信息发给调整模块。

方位识别模块还可根据信噪比、 音量、 连续性等参数, 从接收到的 N路 音频信号中选择其中的 1路(例如选出音频信号质量较优的一路)发 给调 整模块。

504、 调整模块生成接收到的音频信号对应的多声道 音频信号(该多声道 包括至少两个声道); 根据无线麦克风当前相对于会场终端的方向, 调整该多 声道音频信号中至少一个声道音频信号的延迟 、 相位和 /或信号强度, 以使该 调整后的多声道音频信号播放时所呈现出的声 音方向与该无线麦克风当前相 对于该会场终端方向相匹配; 并将调整后的多声道音频信号送给编码发送模 块。

505、 编码发送模块将多声道音频信号进行编码并发 送。

此外, 图 5所示会场终端还可接收图像拍摄设备(若存 )针对包括该 无线麦克风当前的位置在内的区域所拍摄的图 像信号, 并发送该图像信号。 相应的, 会议服务器(例如 MCU )接收该会场终端发送的调整后的多声道音 频信号(和该图像信号), 对其执行混音等处理后向其它会场终端转发, 而其 它会场终端则可以接收并播放该调整后的多声 道音频信号 (和对应的图像信 号), 以获得声像匹配效果。

参见图 6, 该图中通过在无线麦克风中增加用于发送位置 识别信息(该位 置识别信息是能够用以识别可移动音频拾取设 备当前的位置的信息) 的位置 识别信息发送模块, 在会场终端中增加方位识别模块, 以达到识别无线麦克 风当前位置的目的。

其音频信号处理流程可如图 6所示, 可包括:

601、 无线麦克风向会场终端发送拾取模块拾取的音 频信号;

602、 无线麦克风中部署的位置识别信息发送模块向 会场终端发送位置识 别信息;

其中, 图 6所示会场终端可包括: 接收模块、 方位识别模块、 调整模块 和编码发送模块。

603、 会场终端中的接收模块接收无线麦克风发送的 音频信号, 将接收到 的音频信号发送给调整模块;

604、 方位识别模块接收无线麦克风发送的位置识别 信息, 根据接收到的 该位置识别信号判断出该无线麦克风当前相对 于会场终端的方向, 并将该无 线麦克风当前相对于会场终端的方向信息发给 调整模块, 作为调整模块调整 的依据;

本步骤中, 方位识别模块位置识别的方式包括但不限于如 下两种方式: 红外图像识别法: 在移动麦克风上增加红外信号发射模块(即位 置识别 信息发送模块), 在会场终端配备红外摄像机。 方位识别模块通过红外摄像机 拍摄到的图像, 利用图像识别技术分析移动麦克风相对于会场 终端的方向。

红外信号定位法: 在移动麦克风上增加红外信号发射模块(即位 置识别 信息发送模块), 在会场终端增加红外信号接收器, 而方位识别模块利用成熟 的红外信号定位技术, 计算出移动麦克风当前相对于会场终端的方向 。

605、 调整模块生成接收到的音频信号对应的多声道 音频信号(该多声道 为至少两个声道); 根据无线麦克风当前相对于会场终端的方向, 调整该多声 道音频信号中至少一个声道音频信号的延迟、 相位和 /或信号强度, 以使该调 整后的多声道音频信号播放时所呈现出的声音 方向与该无线麦克风当前相对 于该会场终端方向相匹配; 并将调整后的多声道音频信号送给编码发送模 块;

606、 编码发送模块将多声道音频信号进行编码并发 送。

此外, 图 6所示会场终端还可接收图像拍摄设备(若存 )针对包括该 无线麦克风当前的位置在内的区域所拍摄的图 像信号, 并发送该图像信号。 相应的, 会议服务器(例如 MCU )接收该会场终端发送的调整后的多声道音 频信号(和该图像信号), 对其执行混音等处理后向其它会场终端转发, 而其 它会场终端则可以接收并播放该调整后的多声 道音频信号 (和对应的图像信 号), 以获得声像匹配效果。

参见图 7, 图 7中通过图像识别方法识别出移动麦克风的位 , 从而指导 本实施例在不需要增加任何硬件设备的条件下 , 进行音频信号处理

其音频信号处理流程可如图 7所示, 可包括:

701、 无线麦克风向会场终端发送拾取模块拾取的音 频信号;

其中, 图 7所示会场终端可包括: 接收模块、 方位识别模块、 调整模块 和编码发送模块。

702、 会场终端的接收模块接收无线麦克风发送的音 频信号, 将接收到的 703、 方位识别模块通过图像识别技术, 分析出当前无线麦克风当前相对 于会场终端的方向, 并将该无线麦克风当前相对于会场终端的方向 信息发给 调整模块, 作为调整模块调整的依据。

其中, 图像识别技术是识别图像中目标的一种技术, 例如比较常见的人 脸识别就是图像识别技术的一种, 此处不再详述。

704、 调整模块生成接收到的音频信号对应的多声道 音频信号(该多声道 为至少两个声道); 根据无线麦克风当前相对于会场终端的方向, 调整该多声 道音频信号中至少一个声道音频信号的延迟、 相位和 /或信号强度, 以使该调 整后的多声道音频信号播放时所呈现出的声音 方向与该无线麦克风当前相对 于该会场终端方向相匹配; 并将调整后的多声道音频信号送给编码发送模 块。

705、 编码发送模块将多声道音频信号进行编码并发 送。

此外, 图 7所示会场终端还可接收图像拍摄设备(若存 )针对包括该 无线麦克风当前的位置在内的区域所拍摄的图 像信号, 并发送该图像信号。 相应的, 会议服务器(例如 MCU )接收该会场终端发送的调整后的音频信号 (和该图像信号), 对其执行相应处理后向其它会场终端转发, 而其它会场终 端则可以接收并播放该调整后的音频信号(和 对应的图像信号), 以获得声像 匹配效果。

由上可见, 本实施例中的会场终端接收例如无线麦克风等 可移动音频拾 取设备所拾取的音频信号, 并获取该可移动音频拾取设备当前相对于该会 场 终端的方向; 生成该音频信号对应的多声道音频信号, 根据该可移动音频拾 取设备当前相对于该会场终端的方向, 调整该多声道音频信号中至少一个声 道音频信号的延迟、 相位和 /或信号强度, 以使该调整后的多声道音频信号播 放时所呈现出的声音方向与该可移动音频拾取 设备当前相对于该会场终端方 向相匹配。 由于会场根据该可移动音频拾取设备当前相对 于该会场终端的方 向, 调整该多声道音频信号中至少一个声道音频信 号的延迟、 相位和 /或信号 强度, 以使该调整后的多声道音频信号播放时所呈现 出的声音方向与该可移 动音频拾取设备当前相对于该会场终端方向相 匹配, 这就为其它的会场终端 在接收到该调整后的多声道音频信号后, 能够以声像匹配的效果来播放对应 的图像信号和该调整后的多声道音频信号奠定 了基础, 也就有利于实现视讯 会议系统部署可移动音频拾取设备场景下的 "听音辨位"功能。

需要说明的是, 上述实施例中主要是以发送音频信号的会场终 端来调整 可移动音频拾取设备所拾取的音频信号, 以使该调整后的音频信号播放时所 呈现出的声音方向与该可移动音频拾取设备当 前相对于会场终端方向相匹配 为例进行说明, 当然, 亦可由会议服务器(如 MCU )或者由接收音频信号的 会场终端或其它设备来调整可移动音频拾取设 备所拾取的音频信号的延迟和 / 或相位和 /或信号强度等。

下面介绍由会议服务器(如 MCU )或者由接收音频信号的会场终端调整 可移动音频拾取设备所拾取的音频信号的场景 。

下面从视讯会议系统的角度进行描述。

本发明一种视讯会议系统的另一个实施例, 参见图 8, 可包括: 第三会场 终端 810、 会议服务器 820和第四会场终端 830。

其中, 第三会场终端 810, 用于接收可移动音频拾取设备所拾取的音频信 号, 并获取该可移动音频拾取设备相对于第三会场 终端 810的方向; 接收该 图像拍摄设备针对该可移动音频拾取设备当前 所在区域所拍摄的图像信号; 根据该可移动音频拾取设备当前相对于第三会 场终端 810 的方向, 生成指示 出该音频信号播放时所呈现声音方向的方向指 示信息 (该方向指示信息例如 为方向标识或辅助声像信息), 其中, 该方向指示信息指示出的该音频信号播 放时所要呈现的声音方向与该可移动音频拾取 设备当前相对于第三会场终端 810方向相匹配; 发送该图像信号、 音频信号和方向指示信息。

其中, 第三会场终端 810获取可移动音频拾取设备当前相对于第三会 场 举例来说, 第三会场终端 810可根据该可移动音频拾取设备当前相对于 第三会场终端 810的方向, 生成指示出该音频信号播放时所呈现声音方向 的 方向标识, 并可在用于承载该音频信号的报文的头域中或 其它位置添加该方 向标识并发送; 或者, 第三会场终端 810可根据该可移动音频拾取设备当前 相对于第三会场终端 810的方向生成音频信号对应的声相辅助信息 (基于该 声相辅助信息来自调整的音频信号播放时所呈 现声音方向与可移动音频拾取 设备当前相对于第三会场终端 810的方向相匹配;), 并在对应该音频信号的待 发送码流中添加该声相辅助信息并发送。

会议服务器 820, 用于接收第三会场终端 810发送的图像信号、音频信号 和方向指示信息; 生成该音频信号对应的多声道音频信号 (该多声道为至少 两个声道); 根据该方向指示信息调整该多声道音频信号中 至少一个声道音频 信号的延迟、 相位和 /或信号强度, 以使得该调整后的多声道音频信号播放时 所呈现出的声音方向与该可移动音频拾取设备 当前相对于第三会场终端 810 的方向相匹配; 发送该图像信号和调整后的多声道音频信号;

第四会场终端 830,用于接收会议服务器 820发送的图像信号和调整后的 多声道音频信号; 播放该图像信号和调整后的多声道音频信号。

由上可见, 本实施例中的会场终端接收可移动音频拾取设 备所拾取的音 频信号, 并获取该可移动音频拾取设备相对于会场终端 的方向; 根据该可移 动音频拾取设备当前相对于会场终端的方向, 生成指示出该音频信号播放时 所呈现声音方向的方向指示信息; 发送该音频信号和方向指示信息, 由于该 会场终端生成并发送的方向指示信息指示出的 该音频信号播放时所要呈现的 声音方向与该可移动音频拾取设备当前相对于 该会场终端方向相匹配; 这就 为会议服务器或其它的会场终端在接收到该音 频信号和方向指示信息后, 可 根据该方向指示信息对音频信号进行调整播放 , 进而能够以声像匹配的效果 来播放音频信号和对应的图像信号奠定了基础 , 也就有利于实现视讯会议系 统部署可移动音频拾取设备场景下的 "听音辨位"功能。

下面再从视讯会议系统的会议服务器的角度进 行描述。

本发明会场终端音频信号处理方法的另一个实 施例, 可包括: 会议服务 器接收会场终端发送的图像信号、 音频信号和方向指示信息, 其中, 该音频 信号由可移动音频拾取设备拾取, 该方向指示信息根据该可移动音频拾取设 备当前相对于该会场终端的方向生成, 用于指示该音频信号播放时所要呈现 的声音方向; 生成该音频信号对应的多声道音频信号, 该多声道包括至少两 个声道; 根据该方向指示信息调整该多声道音频信号中 至少一个声道音频信 号的延迟、 相位和 /或信号强度, 以使得该调整后的多声道音频信号播放时所 呈现出的声音方向与该可移动音频拾取设备当 前相对于上述会场终端的方向 相匹配; 发送上述图像信号和调整后的多声道音频信号 。

参见图 8-b , 本发明实施提供的一种会议服务器, 可包括: 第二接收单元 821、 第二调整单元 822和第二发送单元 823。

其中, 第二接收单元 821 , 用于接收会场终端发送的图像信号、 音频信号 和方向指示信息, 其中, 该音频信号由可移动音频拾取设备拾取, 该方向指 示信息根据该可移动音频拾取设备当前相对于 该会场终端的方向生成, 用于 指示该音频信号播放时所要呈现的声音方向;

第二调整单元 822, 用于生成该音频信号对应的多声道音频信号, 该多声 道包括至少两个声道; 根据该方向指示信息调整该多声道音频信号中 至少一 个声道音频信号的延迟、 相位和 /或信号强度, 以使得该调整后的多声道音频 信号播放时所呈现出的声音方向与该可移动音 频拾取设备当前相对于上述会 场终端的方向相匹配;

第二发送单元 823 ,用于发送上述图像信号和第二调整单元 822调整后的 多声道音频信号。

可以理解, 该会议服务器还可通过部署其它模块若干个模 块, 以实施上 述功能, 此处不再举例。

本发明一种视讯会议系统的再一个实施例, 参见图 9, 可包括: 第五会场 终端 910和第六会场终端 920。

其中, 第五会场终端 910, 用于接收可移动音频拾取设备所拾取的音频信 号, 并获取该可移动音频拾取设备当前相对于第五 会场终端的方向; 接收图 像拍摄设备针对该可移动音频拾取设备当前所 在区域所拍摄的图像信号; 根 据该可移动音频拾取设备当前相对于第五会场 终端 910的方向, 生成用于指 示该音频信号播放时所呈现声音方向的方向指 示信息 (该方向指示信息例如 为方向标识或辅助声像信息), 其中, 该方向指示信息指示出的上述音频信号 播放时所呈现的声音方向与该可移动音频拾取 设备当前相对于第五会场终端 910方向相匹配; 发送该图像信号、 音频信号和方向指示信息。

举例来说, 第五会场终端 910可根据该可移动音频拾取设备当前相对于 第五会场终端 910的方向, 生成指示出该音频信号播放时所呈现声音方向 的 方向标识, 并可在用于承载该音频信号的报文的头域中或 其它位置添加该方 向标识并发送; 或者, 第五会场终端 910可根据该可移动音频拾取设备当前 相对于第五会场终端 910的方向生成音频信号对应的声相辅助信息 (基于该 声相辅助信息来自调整的音频信号播放时所呈 现声音方向与可移动音频拾取 设备当前相对于第五会场终端 910的方向相匹配;), 并在对应该音频信号的待 发送码流中添加该声相辅助信息并发送。

第六会场终端 920, 用于接收来自第五会场终端 910的图像信号、 音频信 号和该音频信号对应的方向指示信息; 播放该图像信号并根据该方向指示信 息播放该音频信号。

在实际应用中, 若该方向指示信息指示出的音频信号播放时所 呈现的声 音方向为左方, 则第六会场终端 920可只在左边喇叭播放该音频信号; 或者 第六会场终端 920 亦可通过多声道播放该音频信号, 但增大左边喇叭的音量 和 /或调低其它喇叭的音量, 或者调整其它喇叭的相位和延迟, 进而使得该音 频信号播放时所呈现的声音方向与该可移动音 频拾取设备当前相对于第五会 场终端 910方向相匹配。

由上可见, 本实施例中的第五会场终端 910接收可移动音频拾取设备所 拾取的音频信号, 获取该可移动音频拾取设备相对于会场终端的 方向; 根据 该可移动音频拾取设备当前相对于会场终端的 方向, 生成指示出该音频信号 播放时所呈现声音方向的方向指示信息; 发送该音频信号和方向指示信息, 由于该第五会场终端 910生成并发送的方向指示信息指示出的该音频 信号播 放时所要呈现的声音方向与该可移动音频拾取 设备当前相对于该会场终端方 向相匹配; 这就为会议服务器或其它的会场终端在接收到 该音频信号和方向 指示信息后, 可根据该方向指示信息对音频信号进行调整播 放, 进而能够以 声像匹配的效果来播放音频信号和对应的图像 信号奠定了基础, 也就有利于 实现视讯会议系统部署可移动音频拾取设备场 景下的 "听音辨位"功能。 下面再从视讯会议系统的发送音频信号的会场 终端角度进行描述。

本发明会场终端音频信号处理方法的另一个实 施例, 可包括: 会场终端 接收可移动音频拾取设备所拾取的音频信号, 并获取该可移动音频拾取设备 当前相对于上述会场终端的方向; 根据上述可移动音频拾取设备当前相对于 上述会场终端的方向, 生成用于指示上述音频信号播放时所呈现声音 方向的 方向指示信息(该方向指示信息例如为方向标 识或辅助声像信息), 其中, 该 方向指示信息指示出的上述音频信号播放时所 要呈现的声音方向与该可移动 音频拾取设备当前相对于上述会场终端方向相 匹配; 发送该音频信号和方向 指示信息。

由上可见, 本实施例中的会场终端接收可移动音频拾取设 备所拾取的音 频信号, 并获取该可移动音频拾取设备相对于会场终端 的方向; 根据该可移 动音频拾取设备当前相对于会场终端的方向, 生成指示出该音频信号播放时 所呈现声音方向的方向指示信息; 发送该音频信号和方向指示信息, 由于该 会场终端生成并发送的方向指示信息指示出的 该音频信号播放时所要呈现的 声音方向与该可移动音频拾取设备当前相对于 该会场终端方向相匹配; 这就 为会议服务器或其它的会场终端在接收到该音 频信号和方向指示信息后, 可 根据该方向指示信息对音频信号进行调整播放 , 进而能够以声像匹配的效果 来播放音频信号和对应的图像信号奠定了基础 , 也就有利于实现视讯会议系 统部署可移动音频拾取设备场景下的 "听音辨位"功能。

本发明实施例还提供一种会场终端 1000, 包括: 接收确定单元 1010、 调 整单元 1020和发送单元 1030。

其中, 接收确定单元 1010, 用于接收可移动音频拾取设备所拾取的音频 信号, 并获取该可移动音频拾取设备当前相对于会场 终端 1000的方向; 调整单元 1020, 用于生成该音频信号对应的多声道音频信号; 根据该可 移动音频拾取设备当前相对于会场终端 1000的方向调整该多声道音频信号中 至少一个声道音频信号的延迟、 相位和 /或信号强度, 以使该调整后的多声道 音频信号播放时所呈现出的声音方向与该可移 动音频拾取设备当前相对于会 场终端 1000的方向相匹配, 得到调整后的多声道音频信号; 发送单元 1030, 发送上述调整单元得到的调整后的多声道音频 信号。 在一种应用场景下, 接收确定单元 1010可包括: 第一位置确定子模块和 至少两个接收模块;

其中, 接收模块, 用于接收可移动音频拾取设备所拾取的音频信 号; 第一位置确定子模块, 用于上述至少两个接收模块中各接收模块接收 到 的音频信号的差异确定该可移动音频拾取设备 当前相对于会场终端 1000的方 向;

或者,

接收确定单元 1010可包括: 信息接收模块和第二位置确定子模块 其中, 信息接收模块, 用于接收可移动音频拾取设备所拾取的音频信 号 和该可移动音频拾取设备发送的位置识别信息 ;

第二位置确定子模块, 用于通过上述位置识别信息确定上述可移动音 频 拾取设备当前相对于会场终端 1000的方向;

或者,

接收确定单元 1010可包括: 接收模块和图像识别模块。

其中, 接收模块, 用于接收可移动音频拾取设备所拾取的音频信 号; 图像识别模块, 用于通过图像识别技术确定该可移动音频拾取 设备当前 相对于会场终端 1000的方向。

可以理解的是, 本实施例中的会场终端 1000可如上述方法实施例中的会 场终端, 其各个功能模块的功能可以根据上述实施例中 的方法具体实现, 其 由上可见, 本实施例会场终端 1000接收可移动音频拾取设备所拾取的音 频信号, 并获取该可移动音频拾取设备当前相对于该会 场终端的方向; 并接 收图像拍摄设备针对该可移动音频拾取设备当 前所在区域所拍摄的图像信 号; 生成该音频信号对应的多声道音频信号; 根据该可移动音频拾取设备当 前相对于该会场终端的方向, 调整该多声道音频信号中的至少 1 个声道音频 信号的延迟、 相位和 /或信号强度, 以使该调整后的多声道音频信号播放时所 呈现出的声音方向与该可移动音频拾取设备当 前相对于该会场终端的方向相 匹配; 发送该图像信号和调整后的多声道音频信号, 由于该会场终端调整该 多声道音频信号中的至少 1个声道音频信号的延迟、 相位和 /或信号强度, 以 使该调整后的多声道音频信号播放时所呈现出 的声音方向与该可移动音频拾 取设备当前相对于该会场终端的方向相匹配, 这就为其它会场终端在接收到 该图像信号和调整的后的多声道音频信号后, 能够以声像匹配的效果来播放 该图像信号和该调整后的音频信号奠定了基础 , 也就有利于实现视讯会议系 统部署可移动音频拾取设备场景下的 "听音辨位"功能。

参见图 11、 本发明实施例提供的另一种会场终端 1100, 可包括: 接收确 定单元 1110、 生成单元 1120和发送单元 1130。

其中, 接收确定单元 1110, 用于接收可移动音频拾取设备所拾取的音频 信号, 并获取该可移动音频拾取设备当前相对于会场 终端 1100的方向; 生成单元 1120, 用于根据该可移动音频拾取设备当前相对于会 场终端 1100的方向, 生成用于指示该音频信号播放时所要呈现的声 音方向的方向指 示信息, 其中, 该方向指示信息指示出的音频信号播放时所要 呈现的声音方 向与该可移动音频拾取设备当前相对于会场终 端 1100方向相匹配;

发送单元 1130,用于发送方向指示信息和接收确定单元 1110接收的音频 信号。

可以理解的是, 本实施例中的会场终端 1100可如上述方法实施例中的会 场终端, 其各个功能模块的功能可以根据上述实施例中 的方法具体实现, 其 由上可见, 本实施例会场终端 1100接收可移动音频拾取设备所拾取的音 频信号, 并获取该可移动音频拾取设备相对于会场终端 的方向; 根据该可移 动音频拾取设备当前相对于会场终端的方向, 生成指示出该音频信号播放时 所呈现声音方向的方向指示信息; 发送该音频信号和方向指示信息, 由于该 会场终端生成并发送的方向指示信息指示出的 该音频信号播放时所要呈现的 声音方向与该可移动音频拾取设备当前相对于 该会场终端方向相匹配; 这就 为会议服务器或其它的会场终端在接收到该音 频信号和方向指示信息后, 可 根据该方向指示信息对音频信号进行调整播放 , 进而能够以声像匹配的效果 来播放音频信号和对应的图像信号奠定了基础 , 也就有利于实现视讯会议系 统部署可移动音频拾取设备场景下的 "听音辨位"功能。

需要说明的是, 对于前述的各方法实施例, 为了筒单描述, 故将其都表 述为一系列的动作组合, 但是本领域技术人员应该知悉, 本发明并不受所描 述的动作顺序的限制, 因为依据本发明, 某些步骤可以采用其他顺序或者同 时进行。 其次, 本领域技术人员也应该知悉, 说明书中所描述的实施例均属 于优选实施例, 所涉及的动作和模块并不一定是本发明所必须 的。

在上述实施例中, 对各个实施例的描述都各有侧重, 某个实施例中没有 详述的部分, 可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例 方法中的全部或部分步骤 是可以通过程序来指令相关的硬件完成, 上述的程序可以存储于一种计算机 可读存储介质中, 上述提到的存储介质可以是只读存储器, 磁盘或光盘等。

以上对本发明实施例所提供的会场终端音频信 号处理及会场终端和视讯 式进行了阐述, 以上实施例的说明只是用于帮助理解本发明的 方法及其核心 思想; 同时, 对于本领域的一般技术人员, 依据本发明的思想, 在具体实施 方式及应用范围上均会有改变之处, 综上, 本说明书内容不应理解为对本发 明的限制。