Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
BIOMETRIC FEATURE-BASED SOUND SOURCE TRACKING METHOD, APPARATUS, DEVICE, AND STORAGE MEDIUM
Document Type and Number:
WIPO Patent Application WO/2020/119032
Kind Code:
A1
Abstract:
Disclosed by the present application are a biometric feature-based sound source tracking method, apparatus, device, and storage medium, said method comprising: obtaining a sound source which meets preset sound source requirements in a current environment, extracting a first voiceprint feature from said sound source, and marking the sound source location where said sound source is located; obtaining a human face within a preset range around the location of the sound source, and determining whether said human face is currently speaking; if the human face is speaking, then obtaining the speech audio of the human face, and extracting a second voiceprint feature from the speech audio; if the second voiceprint feature is determined to match the first voiceprint feature, then setting the human face to be a tracking object. The present application combines sound source localization, human face detection, and voiceprint recognition to achieve tracking and positioning of tracking objects, improving the tracking positioning effect and increasing the accuracy of tracking.

Inventors:
REN JING (CN)
HU WENCHENG (CN)
ZENG YANLING (CN)
Application Number:
PCT/CN2019/088820
Publication Date:
June 18, 2020
Filing Date:
May 28, 2019
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
PING AN TECH SHENZHEN CO LTD (CN)
International Classes:
G10L17/00
Foreign References:
CN109754811A2019-05-14
CN103902963A2014-07-02
CN106328156A2017-01-11
CN107767137A2018-03-06
CN108769400A2018-11-06
US20170052245A12017-02-23
Attorney, Agent or Firm:
SHENZHEN ZHONGDING INTELLECTUAL PROPERTY AGENCY (CN)
Download PDF:
Claims:
权利要求书

[权利要求 1] 一种基于生物特征的声源追踪方法, 其特征在于, 包括:

获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声 纹特征, 并标记该声源所在的声源位置;

获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说 话;

若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中 的第二声纹特征;

在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设定 为追踪对象。

[权利要求 2] 如权利要求 1所述的基于生物特征的声源追踪方法, 其特征在于, 所 述获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一 声纹特征, 并标记该声源所在的声源位置, 包括: 获取当前环境中的所有声源, 并在所有声源中检测是否存在符合预设 声源要求的声源;

在存在符合预设声源要求的声源时, 提取符合预设声源要求的该声源 的第一声纹特征;

通过声源定位运算对该声源进行定位, 获取该声源的声源位置; 将所述声源位置以及所述第一声纹特征关联, 并在预设的电子地图中 标记所述声源位置。

[权利要求 3] 如权利要求 2所述的基于生物特征的声源追踪方法, 其特征在于, 所 述将所述声源位置以及所述第一声纹特征关联, 并在预设的电子地图 中标记所述声源位置之后, 包括:

获取所述电子地图中所述声源位置周围预设范围内分布的摄像设备; 根据预设的分配规则为所述声源位置分配所述摄像设备。

[权利要求 4] 如权利要求 3所述的基于生物特征的声源追踪方法, 其特征在于, 所 述根据预设的分配规则为所述声源位置分配所述摄像设备, 包括: 检测所述预设范围内分布的摄像设备是否被标记为未使用; 在所述摄像设备被标记为未使用时, 检测所述摄像设备是否可以拍摄 到所述声源位置的人脸;

在所述摄像设备可以拍摄到所述声源位置的人脸时, 将所述摄像设备 与所述声源位置关联, 并将所述摄像设备标记为已使用。

[权利要求 5] 如权利要求 4所述的基于生物特征的声源追踪方法, 其特征在于, 所 述检测所述预设范围内分布的摄像设备是否被标记为未使用之后, 还 包括:

在所述摄像设备均被标记为已使用时, 指示其他位置的所述摄像设备 移动至所述预设范围中, 或扩大所述预设范围。

[权利要求 6] 如权利要求 1所述的基于生物特征的声源追踪方法, 其特征在于, 所 述获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在 说话, 包括:

获取摄像设备拍摄的所述声源位置周围预设范围内的人脸, 并通过静 默活体检测判断所述人脸是否属于活体人脸;

在所述人脸属于活体人脸时, 判断所述人脸当前的第一微表情是否为 说话微表情;

在所述第一微表情为说话微表情时, 确认所述人脸在说话。

[权利要求 7] 如权利要求 6所述的基于生物特征的声源追踪方法, 其特征在于, 所 述在所述人脸属于活体人脸时, 判断所述人脸当前的第一微表情是否 为说话微表情之后, 还包括:

在预设时间范围之内检测到的所有第一微表情均不是说话微表情时, 确认所述人脸一直未在说话, 将该人脸标记为非追踪对象。

[权利要求 8] 如权利要求 6所述的基于生物特征的声源追踪方法, 其特征在于, 所 述判断所述人脸当前的第一微表情是否为说话微表情, 包括: 提取所述第一微表情中的第一动作单元类型及序列;

获取数据库中预先存储的与说话微表情关联的第二动作单元类型及序 列;

判断所述第一动作单元类型及序列是否与所述第二动作单元类型及序 列匹配;

在所述第一动作单元类型及序列与所述第二动作单元类型及序列匹配 时, 确认所述人脸当前的第一微表情为说话微表情。

[权利要求 9] 如权利要求 1所述的基于生物特征的声源追踪方法, 其特征在于, 所 述获取该人脸的说话音频, 包括:

通过与所述人脸最近的麦克风或所述人脸正在使用的麦克风录制该人 脸的说话音频。

[权利要求 10] 如权利要求 1所述的基于生物特征的声源追踪方法, 其特征在于, 所 述在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设 定为追踪对象之前, 还包括:

检测所述第一声纹特征与所述第二声纹特征的相似度是否超过相似度 阈值;

在所述第一声纹特征与所述第二声纹特征的相似度超过相似度阈值时 , 确认所述第二声纹特征与所述第一声纹特征匹配;

在所述第一声纹特征与所述第二声纹特征的相似度未超过相似度阈值 时, 确认所述第二声纹特征与所述第一声纹特征不匹配, 继续获取所 述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话。

[权利要求 11] 如权利要求 1所述的基于生物特征的声源追踪方法, 其特征在于, 所 述在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设 定为追踪对象之后, 包括:

调整与所述声源位置关联的摄像设备对所述追踪对象的拍摄参数; 将所述摄像设备拍摄的所述追踪对象的视频显示在客户端的预设显示 界面中。

[权利要求 12] 如权利要求 2所述的基于生物特征的声源追踪方法, 其特征在于, 所 述在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设 定为追踪对象之后, 包括:

调整与所述声源位置关联的摄像设备对所述追踪对象的拍摄参数; 将所述摄像设备拍摄的所述追踪对象的视频显示在客户端的预设显示 界面中。

[权利要求 13] 如权利要求 1所述的基于生物特征的声源追踪方法, 其特征在于, 所 述在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设 定为追踪对象之后, 包括:

获取摄像设备拍摄的所述追踪对象的第二微表情; 根据所述第二微表情识别所述追踪对象的情绪类型;

根据所述情绪类型指示智能机器人做出与所述情绪类型对应的预设肢 体动作。

[权利要求 14] 如权利要求 2所述的基于生物特征的声源追踪方法, 其特征在于, 所 述在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设 定为追踪对象之后, 包括:

调整与所述声源位置关联的摄像设备对所述追踪对象的拍摄参数; 将所述摄像设备拍摄的所述追踪对象的视频显示在客户端的预设显示 界面中。

[权利要求 15] 一种基于生物特征的声源追踪装置, 其特征在于, 包括:

第一提取模块, 用于获取当前环境中符合预设声源要求的声源, 提取 所述声源中的第一声纹特征, 并标记该声源所在的声源位置; 判断模块, 用于获取所述声源位置周围预设范围内的人脸, 并判断该 人脸是否正在说话;

第二提取模块, 用于若该人脸正在说话, 获取该人脸的说话音频, 并 提取所述说话音频中的第二声纹特征;

设定模块, 用于在确定所述第二声纹特征与所述第一声纹特征匹配时 , 将该人脸设定为追踪对象。

[权利要求 16] 如权利要求 15所述的基于生物特征的声源追踪装置, 其特征在于, 所 述第一提取模块包括:

第一获取子模块, 用于获取当前环境中的所有声源, 并在所有声源中 检测是否存在符合预设声源要求的声源;

第一提取子模块, 用于在存在符合预设声源要求的声源时, 提取符合 预设声源要求的该声源的第一声纹特征;

第二获取子模块, 用于通过声源定位运算对该声源进行定位, 获取该 声源的声源位置;

标记子模块, 用于将所述声源位置以及所述第一声纹特征关联之后, 在预设的电子地图中标记所述声源位置。

[权利要求 17] 如权利要求 16所述的基于生物特征的声源追踪装置, 其特征在于, 所 述第一提取模块还包括:

第三获取子模块, 用于获取所述电子地图中所述声源位置周围预设范 围内分布的摄像设备;

分配子模块, 用于根据预设的分配规则为所述声源位置分配所述摄像 设备。

[权利要求 18] 如权利要求 17所述的基于生物特征的声源追踪装置, 其特征在于, 所 述分配子模块包括:

第一检测单元, 用于检测所述预设范围内分布的摄像设备是否被标记 为未使用;

第二检测单元, 用于在所述摄像设备被标记为未使用时, 检测所述摄 像设备是否可以拍摄到所述声源位置的人脸;

标记单元, 用于在所述摄像设备可以拍摄到所述声源位置的人脸时, 将所述摄像设备与所述声源位置关联, 并将所述摄像设备标记为已使 用。

[权利要求 19] 一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可 在所述处理器上运行的计算机可读指令, 其特征在于, 所述处理器执 行所述计算机可读指令时实现如下步骤:

获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声 纹特征, 并标记该声源所在的声源位置;

获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说 话;

若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中 的第二声纹特征;

在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设定 为追踪对象。

[权利要求 20] 一个或多个存储有计算机可读指令的非易失性可读存储介质, 其特征 在于, 所述计算机可读指令被一个或多个处理器执行时, 使得所述一 个或多个处理器执行如下步骤: 获取当前环境中符合预设声源要求的 声源, 提取所述声源中的第一声纹特征, 并标记该声源所在的声源位 置;

获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说 话;

若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中 的第二声纹特征;

在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设定 为追踪对象。

Description:
基于生物特征的声源追踪方法、 装置、 设备及存储介质

[0001] 本申请以 2018年 12月 10日提交的申请号为 201811504484.8, 名称为“基于生物特 征的声源追踪方法、 装置、 设备及存储介质”的中国发明专利申请为基础 , 并要 求其优先权。

技术领域

[0002] 本申请涉及生物特征领域, 具体涉及一种基于生物特征的声源追踪方法、 装置 、 设备及存储介质。

[0003] 背景技术

[0004] 目前, 随着科学技术的发展, 在一些大型会展等现场, 如何对发言对象等追踪 对象进行智能追踪, 是一个很需要解决的问题, 由于智能机器人的快速发展, 人们也可能也会希望智能机器人能够实现此类 追踪的智能操作, 比如, 通过声 源定位技术实现对追踪对象的定位等。 但是, 在现有技术中, 上述的智能追踪 并没有得到很好的实现, 比如, 通过智能机器人对追踪对象进行定位追踪一般 都是通过智能机器人的某一方面的技术来实现 的, 而这种实现方式往往比较片 面, 准确性低, 导致定位效果比较差。

[0005] 申请内容

[0006] 本申请实施例提供一种基于生物特征的声源追 踪方法、 装置、 设备及存储介质 , 本申请结合声源定位、 人脸检测和声纹识别等多方面技术来实现对追 踪对象 的追踪定位, 提升了追踪的定位效果, 提高了追踪的准确性。

[0007] 一种基于生物特征的声源追踪方法, 包括:

[0008] 获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声纹特征, 并标记该声源所在的声源位置;

[0009] 获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话;

[0010] 若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中的第二声 纹特征;

[0011] 在确定所述第二声纹特征与所述第一声纹特征 匹配时, 将该人脸设定为追踪对 象。

[0012] 一种基于生物特征的声源追踪装置, 包括:

[0013] 第一提取模块, 用于获取当前环境中符合预设声源要求的声源 , 提取所述声源 中的第一声纹特征, 并标记该声源所在的声源位置;

[0014] 判断模块, 用于获取所述声源位置周围预设范围内的人脸 , 并判断该人脸是否 正在说话;

[0015] 第二提取模块, 用于若该人脸正在说话, 获取该人脸的说话音频, 并提取所述 说话音频中的第二声纹特征;

[0016] 设定模块, 用于在确定所述第二声纹特征与所述第一声纹 特征匹配时, 将该人 脸设定为追踪对象。

[0017] 一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处 理器上运行的计算机可读指令, 所述处理器执行所述计算机可读指令时实现如 下步骤:

[0018] 获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声纹特征, 并标记该声源所在的声源位置;

[0019] 获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话;

[0020] 若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中的第二声 纹特征;

[0021] 在确定所述第二声纹特征与所述第一声纹特征 匹配时, 将该人脸设定为追踪对 象。

[0022] 一个或多个存储有计算机可读指令的非易失性 可读存储介质, 所述计算机可读 指令被一个或多个处理器执行时, 使得所述一个或多个处理器执行如下步骤: 获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声纹特征, 并标记该声源所在的声源位置;

[0023] 获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话;

[0024] 若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中的第二声 纹特征;

[0025] 在确定所述第二声纹特征与所述第一声纹特征 匹配时, 将该人脸设定为追踪对 象。

[0026] 本申请的一个或多个实施例的细节在下面的附 图和描述中提出, 本申请的其他 特征和优点将从说明书、 附图以及权利要求变得明显。

[0027] 附图说明

[0028] 为了更清楚地说明本申请实施例的技术方案, 下面将对本申请实施例的描述中 所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本申 请的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提 下, 还可以根据这些附图获得其他的附图。

[0029] 图 1是本申请一实施例中基于生物特征的声源追 方法的应用环境示意图; [0030] 图 2是本申请一实施例中基于生物特征的声源追 方法的流程图;

[0031] 图 3是本申请一实施例中基于生物特征的声源追 方法的步骤 S10的流程图; [0032] 图 4是本申请一实施例中基于生物特征的声源追 方法的步骤 S106的流程图; [0033] 图 5是本申请一实施例中基于生物特征的声源追 方法的步骤 S20的流程图; [0034] 图 6是本申请一实施例中基于生物特征的声源追 方法的步骤 S202的流程图; [0035] 图 7是本申请另一实施例中基于生物特征的声源 踪方法的流程图;

[0036] 图 8是本申请又一实施例中基于生物特征的声源 踪方法的流程图;

[0037] 图 9是本申请一实施例中基于生物特征的声源追 装置的原理框图;

[0038] 图 10是本申请一实施例中计算机设备的示意图。

[0039] 具体实施方式

[0040] 下面将结合本申请实施例中的附图, 对本申请实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例是本申请一部分实施例, 而不是全部的实 施例。 基于本申请中的实施例, 本领域普通技术人员在没有作出创造性劳动前 提下所获得的所有其他实施例, 都属于本申请保护的范围。

[0041] 本申请提供的基于生物特征的声源追踪方法, 可应用在如图 1的应用环境中, 其中, 客户端 (计算机设备) 通过网络与服务器进行通信。 其中, 客户端 (计 算机设备) 包括但不限于为各种个人计算机、 笔记本电脑、 智能手机、 平板电 脑、 摄像头和便携式可穿戴设备。 服务器可以用独立的服务器或者是多个服务 器组成的服务器集群来实现。 [0042] 在一实施例中, 如图 2所示, 提供一种基于生物特征的声源追踪方法, 以该方 法应用在图 1中的服务器为例进行说明, 包括以下步骤:

[0043] S10, 获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声纹 特征, 并标记该声源所在的声源位置。

[0044] 其中, 所述当前环境是指需要确定当前正在发言的追 踪对象并对其进行持续追 踪的当前环境 (比如会议、 演出、 主持环境等, 亦可以用于需要与所述追踪对 象进行互动, 因此首先需要确定追踪对象的环境) ; 所述当前环境中根据需求 在多个位置分布设有可以捕获声源信号的麦克 风。

[0045] 同时, 在该当前环境中分布设有多个可以进行拍摄视 频和图像的摄像设备 (比 如摄像头, 移动终端等) 。 可理解地, 各所述摄像设备均可以随意旋转角度和 / 或各所述摄像设备的位置亦可以在一定范围内 进行调整 (设定调整摄像设备以 调整其高低、 左右前后、 倾斜角度等位置关系) , 以达到所述当前环境中的所 有空间的任何角度均可以被清晰地拍摄到的效 果即可。

[0046] S20, 获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话

[0047] 也即, 首先可通过摄像设备捕捉声源位置附近的图片 , 之后提取所述图片中的 人脸。 同时, 需要进一步根据确认该人脸是否在说话 (可以根据该人脸的微表 情进行识别其是否正在说话) ; 在其正在说话时, 通过将正在说话的人脸的第 二声纹特征与上述的声源的第一声纹特征进行 匹配, 以确认其是否为追踪对象 , 在该人脸并未在说话时, 将其排除出追踪对象的范围。

[0048] S30, 若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中的 第二声纹特征。

[0049] 在该步骤中, 在确认该人脸正在说话时, 可以提取该说话音频中的第二声纹特 征, 以便于将该第二声纹特征与上述第一声纹特征 进行匹配, 进而追踪对象。

[0050] S40, 在确定所述第二声纹特征与所述第一声纹特征 匹配时, 将该人脸设定为 追踪对象。

[0051] 也即, 将说话人脸的第二声纹特征与所述声源的第一 声纹特征匹配的说话人脸 , 确认为与该声源对应的追踪对象, 进而通过摄像设备对该说话人脸进行持续 追踪。

[0052] 本申请提供的基于生物特征的声源追踪方法, 首先获取当前环境中符合预设声 源要求的声源, 提取所述声源中的第一声纹特征, 并标记该声源所在的声源位 置; 获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话; 若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中的第二声 纹特征; 在确定所述第二声纹特征与所述第一声纹特征 匹配时, 将该人脸设定 为追踪对象。 本申请结合声源定位、 人脸检测和声纹识别等多方面技术来实现 对追踪对象的追踪定位, 提升了追踪的定位效果, 提高了追踪的准确性。

[0053] 在一实施例中, 如图 3所示, 所述步骤 S10包括:

[0054] S101 , 获取当前环境中的所有声源, 并在所有声源中检测是否存在符合预设声 源要求的声源。

[0055] 在本实施例中, 可根据上述设置在各个位置的麦克风来采集声 源信号, 之后可 对采集的所有声源信号进行有效音频信号检测 , 并且还可通过 ManyEars技术将 检测到的多个声源进行分离以得到多个独立的 声源。

[0056] 其中, 符合所述预设声源要求的声源, 是指在预设音量大小范围中, 且声源在 预设音量大小范围中的持续时长大于预设时长 的声源。

[0057] 其中, 预设音量大小范围可以根据需求进行设定, 可以设定该音量大小范围的 最小值和最大值, 超出所述音量大小范围的最大值的即视为噪音 , 此时将其排 除在符合所述预设声源要求的声源的范围之外 , 小于所述音量大小的最小值的 , 可以视为其不是该当前环境中所需要进行追踪 的追踪对象所发出的声源。 可 理解地, 所述音量大小范围可以根据当前环境的不同进 行设定, 亦可以同时考 虑在该环境中主要参与的人员 (追踪对象) 的可能音量大小。 所述预设时长亦 同样可以根据当前环境中追踪对象可能的发言 时长来进行设定。

[0058] 进一步地, 在不存在符合预设声源要求的声源时, 此时继续获取当前环境中的 声源进行检测。

[0059] S102, 在存在符合预设声源要求的声源时, 提取符合预设声源要求的该声源的 第一声纹特征。 也即, 在检测到符合预设声源要求的声源时, 可以提取该声源 中的第一声纹特征, 以便于在后续根据该第一声纹特征来确认追踪 对象。 [0060] 可理解地, 在所述符合预设声源要求的声源中, 可以提取一个或者多个第一声 纹特征 (比如, 在有两个以上人员在进行对话, 且该声源中存在两个以上符合 预设声源要求的声音, 此时提取每个符合预设声源要求的声音的第一 声纹特征 , 此时追踪对象即为两个以上) , 此时, 在检测到提取的第一声纹特征为两个 以上时, 获取提取的第一声纹特征的数量, 并在后续步骤 S106中为所述声源位 置分配摄像设备时, 为该声源位置分配的摄像设备的数量大于或等 于所述第一 声纹特征的数量。

[0061] S103 , 通过声源定位运算对该声源进行定位, 获取该声源的声源位置。 可理解 地, 当检测到某个声源满足所述预设声源要求时, 可通过 ManyEars技术中的声 源定位运算对上述某个声源进行定位, 以获取该声源的声源位置。

[0062] S 104 将所述声源位置以及所述第一声纹特征关联之 后, 在预设的电子地图中 标记所述声源位置。

[0063] 可理解地, 此时, 所述声源位置所需要进行追踪的追踪对象, 即为与所述第一 声纹特征对应的追踪对象, 此时, 需要将该声源位置与该第一声纹特征关联, 以便于在该声源位置根据该第一声纹特征找寻 追踪对象。

[0064] 作为优选, 每一个声源位置可以是由通过 ManyEars技术中的声源定位运算对上 述某个声源进行定位之后的具体的实时位置 (随机生成该声源位置的唯一编号 ) ; 亦可以是在所述电子地图中预先规划好的具有 唯一编号的声源位置 (比如 , 在所述电子地图中预先将其分隔为多个区块, 将每个区块给予一个唯一编号 , 只要该声源定位之后确认属于其中一个区块中 , 即将该区块所在位置作为该 声源的声源位置, 将该区块的唯一编号作为该声源位置的编号) 。

[0065] 在本实施例中, 在服务器中已经预置了该当前环境中的电子地 图 (立体地图或 者平面地图) , 可以在定位到该声源位置之后, 在所述电子地图中标记该声源 位置; 作为优选, 此时标记在所述声源位置上的标记, 代表着该声源位置尚未 分配摄像设备。 在后续步骤 S106中为所述声源位置分配用于对该声源位置 追 踪对象进行追踪的摄像设备之后, 标记在所述声源位置上的标记, 随即会切换 为代表该声源位置已分配摄像设备的标记。

[0066] 在另一实施例中, 如图 3所示, 所述步骤 S 104之后还包括, [0067] S105 , 获取所述电子地图中所述声源位置周围预设范 围内分布的摄像设备。

[0068] 所述预设范围是指预先设定的一个可以确定所 述声源位置内的摄像设备的范围 , 在该范围内, 所述摄像设备可以较佳地拍摄到所述声源位置 的追踪对象; 比 如, 所述预设范围为以所述声源位置为圆心, 半径为 X米的圆内。 X的取值可以 但不限于 1米、 2米、 3米等。

[0069] 可理解地, 各所述摄像设备都有唯一标识 (比如设备编号) , 各所述声源位置 也均具有唯一编号, 此时可以在电子地图中仅显示所述摄像设备的 唯一标识和 所述声源位置的唯一编号。 且在所述预设范围内的所述摄像设备可以以不 同的 显示参数突出显示, 比如, 可以将所述预设范围内的所述摄像设备的唯一 标识 加粗显示或将其以不同的颜色、 字体和背景色进行显示。

[0070] S106 , 根据预设的分配规则为所述声源位置分配所述 摄像设备。

[0071] 其中, 分配至所述声源位置的所述摄像设备用于追踪 该声源位置的声源。 在根 据预设的分配规则为所述声源位置分配所述摄 像设备之后, 将所述声源位置标 记更改为已分配摄像设备, 同时将分配至所述声源位置的所述摄像设备 (唯一 标识) 与该声源位置 (唯一编号) 关联, 此时所述摄像设备在所述电子地图中 亦可以被标记为已使用。 在对所述声源位置的追踪结束之后, 去除对所述声源 位置的所有标记 (或标记为未出现追踪对象) ; 同时解除所述声源位置与所述 摄像设备的关联, 此时所述摄像设备在所述电子地图中被标记为 未使用。

[0072] 在本实施例中, 根据预设的分配规则去分配摄像设备, 且分别对声源设备与摄 像设备的各种不同状态进行标记, 可以更有序分配各摄像设备, 以更快速和准 确地明确追踪范围及追踪对象, 提升了每个摄像设备的追踪效率, 也避免了所 有摄像设备全部无目标地全部同时去追踪某一 个声源。

[0073] 在一实施例中, 如图 4所示, 所述步骤 S106, 包括:

[0074] S1061, 检测所述预设范围内分布的摄像设备是否被标 记为未使用。

[0075] S1062, 在所述摄像设备被标记为未使用时, 检测所述摄像设备是否可以拍摄 到所述声源位置的人脸。

[0076] S1063 , 在所述摄像设备可以拍摄到所述声源位置的人 脸时, 将所述摄像设备 与所述声源位置关联, 并将所述摄像设备标记为已使用。 [0077] 上述过程中, 首先获取所述预设范围内被标记为未使用的摄 像设备, 再获取上 述各未使用的所述摄像设备中可以拍摄到所述 声源位置的人脸的一个或多个摄 像设备, 之后将其均分配给所述声源位置; 可理解地, 在分配给所述声源位置 的摄像设备为多个时, 若在步骤 S40中确认追踪对象, 此时, 可以仅保留必要的 一个摄像设备以持续追踪所述追踪对象, 而解除其他摄像设备与所述声源位置 的关联, 并将解除关联的所述摄像设备重新标记为未使 用。 也即, 在追踪过程 中, 也可以根据需求调整与该声源位置关联的摄像 设备。 可理解地, 所述摄像 设备的标记亦可以由用户人工标记

[0078] 在本实施例中, 可以根据摄像设备的标记更好地区分摄像设备 的使用状态, 方 便对于所述摄像设备进行调配。

[0079] 在一实施例中, 如图 4所示, 所述步骤 S1061之后, 还包括:

[0080] S1064, 在所述摄像设备均被标记为已使用时, 指示其他位置的所述摄像设备 移动至所述预设范围中, 或扩大所述预设范围。

[0081] 在本实施例的一方面, 所述摄像设备可以为移动终端 (包括智能机器人或智能 手机等) 上安装的摄像头, 此时, 若所述预设范围中并不存在可分配给所述声 源位置的摄像设备, 此时, 可以命令其他位置的移动终端移动至所述预设 范围 中, 并通过其摄像头对所述声源位置的人脸进行拍 摄。

[0082] 在本实施例的另一方面, 若无法在上述各未使用的所述摄像设备中获取 可以拍 摄到所述声源位置的人脸的摄像设备, 此时, 可能需要扩大所述预设范围以获 取更多的未使用的摄像设备, 并返回至所述 S1061中进行检测。

[0083] 在一实施例中, 如图 5所示, 所述步骤 S20包括:

[0084] S201 , 获取摄像设备拍摄的所述声源位置周围预设范 围内的人脸, 并通过静默 活体检测判断所述人脸是否属于活体人脸。

[0085] 在本实施例中, 首先可通过摄像设备捕捉声源位置附近的图片 , 之后不断地将 捕捉到的图片输入到人脸检测算法中以进行人 脸识别并检测其是否为人脸。 同 时, 还需要通过静默活体检测来检测所述人脸是否 为活体人脸, 避免摄像设备 拍摄到的人脸为非活体的人脸 (比如墙上的海报中的人脸) 的情况发生。 所述 声源位置周围预设范围内所指的具体范围, 亦可以在服务器中预先设定, 比如 所述声源位置周围预设范围内是指 S105中所述的预设范围之内。 可理解地, 所 述摄像设备可以随意旋转角度和 /或各所述摄像设备的位置亦可以在一定范围 进行调整 (设定调整摄像设备以调整其高低、 左右前后、 倾斜角度等位置关系 ) , 以达到在所述当前环境中调整拍摄范围的目的 , 因此, 仅需要确认所述声 源位置, 即可确认该声源位置周围的预设范围, 进而在拍摄该预设范围内的图 像之后, 将该图像中提取的人脸确认为所述声源位置周 围预设范围内的人脸。

[0086] S202, 在所述人脸属于活体人脸时, 判断所述人脸当前的第一微表情是否为说 话微表情。

[0087] 也即, 在所述人脸属于活体人脸时, 说明所述人脸可能是追踪对象, 此时, 需 要进一步根据该人脸说话时的音频进行确认。 因此, 首先根据所述人脸的第一 微表情来判断其是否在说话。 在进行微表情识别人脸是否在说话之后, 将声源 的第一声纹特征与说话人脸的第二声纹特征进 行匹配, 可以精确确认与该声源 对应的追踪对象。

[0088] S203 , 在所述第一微表情为说话微表情时, 确认所述人脸在说话。

[0089] 可理解地, 判断提取的所述第一微表情是否为说话微表情 的过程, 可以在预设 时间范围内均保持持续进行 (以免追踪对象在被摄像设备拍摄到的时候, 刚好 处于说话过程中的暂时停顿过程中) , 若在预设时间范围之内检测到所述第一 微表情为说话微表情, 即可认为所述人脸在说话。

[0090] S204, 在预设时间范围之内检测到的所有第一微表情 均不是说话微表情时, 确 认所述人脸一直未在说话, 将该人脸标记为非追踪对象。 此时, 可以直接捕获 下一个人脸在步骤 S201中继续进行检查即可。

[0091] 在本实施例中, 可以通过静默活体检测和微表情确认追踪对象 , 提升了追踪准 确度。

[0092] 在一实施例中, 如图 6所示, 所述步骤 S202中, 所述判断所述人脸当前的第一 微表情是否为说话微表情包括:

[0093] S2021 , 提取所述第一微表情中的第一动作单元类型及 序列。

[0094] 其中, 所述第一动作单元 (包括多个动作单元) 类型可以包括国际上通用的部 分和说话时嘴唇相关的动作单元类型 (比如下表 1中所示) 等。 所述第一动作单 元序列是指所述第一动作单元在第一微表情中 出现的先后顺序的排列。

[0095] 表 1 动作单元 (AU) 类型

[] [表 1]

[0096] S2022, 获取数据库中预先存储的与说话微表情关联的 第二动作单元类型及序 列。

[0097] 也即, 数据库中预先存储有说话微表情所对应的第二 动作单元 (包括多个动作 单元) 类型及序列, 只要将在所述步骤 S2021中提取的所述第一动作单元类型及 序列, 与数据库中存储的说话微表情对应的第二动作 单元类型及序列进行比对 , 即可确认所述第一微表情的类型是否为说话微 表情。

[0098] S2023, 判断所述第一动作单元类型及序列是否与所述 第二动作单元类型及序 列匹配。

[0099] 可理解地, 在本实施例一方面, 只要在所述步骤 S2021中提取的所述第一动作 单元类型及序列中, 包含数据库中存储的说话微表情所对应的第二 动作单元类 型 (还可以包含其他动作单元) , 且两者序列也一致, 即可认为所述第一微表 情的类型为说话微表情。 在本实施例另一方面, 亦可以仅在在所述步骤 S2021中 提取的所述第一动作单元的类型及序列, 与数据库中存储的说话微表情的第二 动作单元类型及序列完全一一对应 (不可多或者少任何一个动作单元, 且序列 还需要一致) 时, 才认为所述第一微表情的类型为说话微表情。

[0100] S2024, 在所述第一动作单元类型及序列与所述第二动 作单元类型及序列匹配 时, 确认所述人脸当前的第一微表情为说话微表情 。

[0101] 进一步地, 在所述第一动作单元类型及序列与所述第二动 作单元类型及序列不 匹配时, 确认所述人脸当前的第一微表情不是说话微表 情。 此时, 确认所述人 脸并未在说话。

[0102] 在一实施例中, 所述步骤 S30中, 所述获取该人脸的说话音频, 具体为: 获取 与所述人脸最近 /或所述人脸正在使用的麦克风录制的该人脸 说话音频。

[0103] 其中, 与所述人脸最近的麦克风是指在上述电子地图 中距离所述声源位置最近 或距离和所述声源位置关联的摄像设备最近的 麦克风。 可理解地, 在本实施例 中, 各所述麦克风在所述电子地图中亦可以和所述 摄像设备一样具有唯一标识 , 所述麦克风唯一标识可以在电子地图中显示以 供服务器进行调取, 且对麦克 风的使用状态等的标记亦可以参照上述对于摄 像设备的标记, 在所述麦克风进 行使用之后, 可以在所述电子地图上将其标记为已使用, 且将所述麦克风与该 声源位置 (或该声源位置的该人脸) 关联; 在其取消关联之后, 其标记亦可更 换为未使用。

[0104] 所述人脸正在使用的麦克风, 则可以直接自数据库中进行调取, 每一个麦克风 在被使用时, 均会被标记为已使用, 且若该麦克风在所述声源位置被使用, 则 代表其已经与该声源位置关联, 此时无需在进行选取, 直接获取该麦克风录制 的说话音频, 即为该人脸对应的说话音频 (在该实施例中, 每一个声源位置仅 有一个追踪对象在说话, 若存在多个正在使用的麦克风, 可以认为每个麦克风 对应于一个追踪对象) 。

[0105] 在上述过程中获取该人脸的说话音频之后, 可以提取该说话音频中的第二声纹 特征, 以便于将该第二声纹特征与上述第一声纹特征 进行匹配, 进而追踪对象

[0106] 在一实施例中, 所述步骤 S40之前, 包括: [0107] 检测所述第一声纹特征与所述第二声纹特征的 相似度是否超过相似度阈值。 其 中, 所述相似度阈值可以根据实际情况预先进行设 定, 比如, 所述相似度阈值 为 0.6以上。

[0108] 在所述第一声纹特征与所述第二声纹特征的相 似度超过相似度阈值时, 确认所 述第二声纹特征与所述第一声纹特征匹配。 在确认所述第二声纹特征与所述第 一声纹特征匹配之后, 即进入所述步骤 S40中, 将所述第二声纹特征所属的该人 脸设定为追踪对象。

[0109] 在所述第一声纹特征与所述第二声纹特征的相 似度未超过相似度阈值时, 确认 所述第二声纹特征与所述第一声纹特征不匹配 , 继续获取所述声源位置周围预 设范围内的人脸, 并判断该人脸是否正在说话。 也即识别该声源位置下一人脸 是否为追踪对象。

[0110] 在一实施例中, 如图 7所示, 所述步骤 S40之后, 包括:

[0111] S50, 调整与所述声源位置关联的摄像设备对所述追 踪对象的拍摄参数。

[0112] 进一步地, 在确认该人脸设定为追踪对象之后, 可以在与该声源位置关联的摄 像设备中调整其拍摄该追踪对象的拍摄参数。 比如, 使该追踪对象的预设身体 位置 (比如身体比例的 1/2) 位于所拍摄的视频的画面正中间, 且调整其清晰度 等符合预设要求, 同时, 有上述可知, 此时还可以根据需求调整摄像设备与该 追踪对象之间的高低、 左右前后 (包括远近) 、 倾斜角度等位置关系。

[0113] S60, 将所述摄像设备拍摄的所述追踪对象的视频显 示在客户端的预设显示界 面中。

[0114] 其中, 所述预设显示界面是指在该当前环境中为该声 源位置或所述追踪对象分 配的显示界面。 该预设显示界面亦与所述声源位置或所述追踪 对象关联, 所述 摄像设备将拍摄到的视频直接传送至服务器并 显示在该预设显示界面中的预设 部位上。 在所述显示界面中, 可以同时显示多个视频画面, 但正在拍摄所述追 踪对象的视频画面可以在所述显示画面中的预 设显示位置以预设比例大小进行 显示; 比如, 拍摄追踪对象的视频画面为一个, 此时, 将该视频画面在显示界 面的中间位置 (不限定于该预设显示位置, 亦可以为上下左右等位置) 的以该 显示界面大小的 1/2 (不限定于该比例大小) 显示, 而其他的视频画面可以显示 在拍摄追踪对象的视频画面周围, 且其显示比例大小可以根据剩余显示位置的 面积以及其他的视频画面的数量来确定。 同理, 在拍摄追踪对象的视频画面为 两个以上时, 亦可以将拍摄所述追踪对象的两个以上的视频 画面在所述显示画 面中的预设显示位置以预设比例大小进行显示 , 在此不再赘述。

[0115] 在一实施例中, 还可以自动识别所述追踪对象是谁, 此时在数据库中预先存储 有该追踪对象的头像及其基本信息 (比如, 当前环境为会议环境, 此时数据库 中预先存储有所有参会人员的头像及基本信息 ) , 可以根据该头像与所述追踪 对象的人脸进行匹配之后, 确认该追踪对象的身份, 并将该追踪对象的基本信 息中的部分或者全部显示在所述预设显示界面 中。 可理解地, 还可以对拍摄到 的所述追踪对象的视频中的音频进行解析, 并将其转换为文字之后输出显示在 所述预设显示界面中。 亦可以对该音频进行同步翻译, 将翻译之后的音频进行 播放或将翻译之后的音频转换为文字之后显示 在所述预设显示界面中。

[0116] 在一实施例中, 所述摄像设备为智能机器人上的摄像头, 此时, 如图 8所示, 所述步骤 S40之后还包括:

[0117] S70, 获取摄像设备拍摄的所述追踪对象的第二微表 情。

[0118] 也即, 在一些情况下, 本申请实施例应用于智能机器人与追踪对象进 行互动的 当前环境中, 此时, 智能机器人可以在确定所述追踪对象之后, 根据自所述追 踪对象的视频中提取的第二微表情与其进行互 动。

[0119] S80, 根据所述第二微表情识别所述追踪对象的情绪 类型。

[0120] 也即, 数据库中预先存储有各种微表情类型 (比如, 各微表情类型为哭、 笑或 者生气, 此时, 将该微表情类型与其相对应的情绪类型关联) 所对应的动作单 元类型及序列, 只要将在所述第二微表情中提取其动作单元的 类型及序列, 并 与数据库中存储的各微表情类型所对应的动作 单元类型及序列进行比对, 即可 确认所述微表情的类型, 进而确定所述追踪对象的情绪类型。 其比对过程可以 参照上述步骤 S20, 在此不再赘述。

[0121] S90, 根据所述情绪类型指示智能机器人做出与所述 情绪类型对应的预设肢体 动作。

[0122] 也即, 在确认所述追踪对象的情绪类型之后, 由于在数据库中亦预先设定了所 述智能机器人在所述追踪对象处于各种情绪类 型的情况下的应对措施, 也即设 定该智能机器人在各种情绪类型下所应做出的 肢体动作, 比如所述追踪对象的 情绪类型为开心 (所述微表情类型为笑) , 此时所述智能机器人也表现其肢体 动作为开心地摇晃和旋转身体, 若所述追踪对象的情绪类型为不开心 (所述微 表情类型为哭) , 此时所述智能机器人也表现其肢体动作为拥抱 所述追踪对象 。 本实施例使得智能机器人可以与追踪对象进行 互动, 使得人机交互更加有趣

[0123] 在一实施例中, 如图 9所示, 提供一种基于生物特征的声源追踪装置, 该基于 生物特征的声源追踪装置与上述实施例中基于 生物特征的声源追踪方法一一对 应。 所述基于生物特征的声源追踪装置包括:

[0124] 第一提取模块 11, 用于获取当前环境中符合预设声源要求的声源 , 提取所述声 源中的第一声纹特征, 并标记该声源所在的声源位置;

[0125] 判断模块 12, 用于获取所述声源位置周围预设范围内的人脸 , 并判断该人脸是 否正在说话;

[0126] 第二提取模块 13 , 用于若该人脸正在说话, 获取该人脸的说话音频, 并提取所 述说话音频中的第二声纹特征;

[0127] 设定模块 14, 用于在确定所述第二声纹特征与所述第一声纹 特征匹配时, 将该 人脸设定为追踪对象。

[0128] 在一实施例中, 所述第一提取模块 11包括:

[0129] 第一获取子模块, 用于获取当前环境中的所有声源, 并在所有声源中检测是否 存在符合预设声源要求的声源;

[0130] 第一提取子模块, 用于在存在符合预设声源要求的声源时, 提取符合预设声源 要求的该声源的第一声纹特征;

[0131] 第二获取子模块, 用于通过声源定位运算对该声源进行定位, 获取该声源的声 源位置;

[0132] 标记子模块, 用于将所述声源位置以及所述第一声纹特征关 联之后, 在预设的 电子地图中标记所述声源位置。

[0133] 在一实施例中, 所述第一提取模块 11还包括: [0134] 第三获取子模块, 用于获取所述电子地图中所述声源位置周围预 设范围内分布 的摄像设备;

[0135] 分配子模块, 用于根据预设的分配规则为所述声源位置分配 所述摄像设备。

[0136] 在一实施例中, 所述分配子模块包括:

[0137] 第一检测单元, 用于检测所述预设范围内分布的摄像设备是否 被标记为未使用

[0138] 第二检测单元, 用于在所述摄像设备被标记为未使用时, 检测所述摄像设备是 否可以拍摄到所述声源位置的人脸;

[0139] 标记单元, 用于在所述摄像设备可以拍摄到所述声源位置 的人脸时, 将所述摄 像设备与所述声源位置关联, 并将所述摄像设备标记为已使用。

[0140] 在一实施例中, 所述分配子模块还包括:

[0141] 指示单元, 用于在所述摄像设备均被标记为已使用时, 指示其他位置的所述摄 像设备移动至所述预设范围中, 或扩大所述预设范围。

[0142] 在一实施例中, 所述判断模块 12包括:

[0143] 第一检测子模块, 用于获取摄像设备拍摄的所述声源位置周围预 设范围内的人 脸, 并通过静默活体检测判断所述人脸是否属于活 体人脸;

[0144] 判断子模块, 用于在所述人脸属于活体人脸时, 判断所述人脸当前的第一微表 情是否为说话微表情;

[0145] 第一确认子模块, 用于在所述第一微表情为说话微表情时, 确认所述人脸在说 话。

[0146] 在一实施例中, 所述判断模块 12还包括:

[0147] 第二确认子模块, 用于在预设时间范围之内检测到的所有第一微 表情均不是说 话微表情时, 确认所述人脸一直未在说话, 将该人脸标记为非追踪对象。

[0148] 在一实施例中, 所述判断子模块包括:

[0149] 提取单元, 用于提取所述第一微表情中的第一动作单元类 型及序列;

[0150] 获取单元, 用于获取数据库中预先存储的与说话微表情关 联的第二动作单元类 型及序列;

[0151] 判断单元, 用于判断所述第一动作单元类型及序列是否与 所述第二动作单元类 型及序列匹配;

[0152] 确认单元, 用于在所述第一动作单元类型及序列与所述第 二动作单元类型及序 列匹配时, 确认所述人脸当前的第一微表情为说话微表情 。

[0153] 在一实施例中, 所述第二提取模块 13包括:

[0154] 第四获取子模块, 用于获取与所述人脸最近 /或所述人脸正在使用的麦克风录 制的该人脸的说话音频。

[0155] 在一实施例中, 所述装置还包括:

[0156] 检测模块, 用于检测所述第一声纹特征与所述第二声纹特 征的相似度是否超过 相似度阈值;

[0157] 确认模块, 用于在所述第一声纹特征与所述第二声纹特征 的相似度超过相似度 阈值时, 确认所述第二声纹特征与所述第一声纹特征匹 配;

[0158] 返回模块, 用于在所述第一声纹特征与所述第二声纹特征 的相似度未超过相似 度阈值时, 确认所述第二声纹特征与所述第一声纹特征不 匹配, 继续获取所述 声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话。

[0159] 在一实施例中, 所述装置还包括:

[0160] 调整模块, 用于调整与所述声源位置关联的摄像设备对所 述追踪对象的拍摄参 数;

[0161] 显示模块, 用于将所述摄像设备拍摄的所述追踪对象的视 频显示在客户端的预 设显示界面中。

[0162] 在一实施例中, 所述装置包括:

[0163] 获取模块, 用于获取所述摄像设备拍摄的所述追踪对象的 第二微表情;

[0164] 识别模块, 用于根据所述第二微表情识别所述追踪对象的 情绪类型;

[0165] 指示模块, 用于根据所述情绪类型指示所述智能机器人做 出与所述情绪类型对 应的预设肢体动作。

[0166] 关于基于生物特征的声源追踪装置的具体限定 可以参见上文中对于基于生物特 征的声源追踪方法的限定, 在此不再赘述。 上述基于生物特征的声源追踪装置 中的各个模块可全部或部分通过软件、 硬件及其组合来实现。 上述各模块可以 硬件形式内嵌于或独立于计算机设备中的处理 器中, 也可以以软件形式存储于 计算机设备中的存储器中, 以便于处理器调用执行以上各个模块对应的操 作。

[0167] 在一个实施例中, 提供了一种计算机设备, 该计算机设备可以是服务器, 其内 部结构图可以如图 10所示。 该计算机设备包括通过系统总线连接的处理器 、 存 储器、 网络接口和数据库。 其中, 该计算机设备的处理器用于提供计算和控制 能力。 该计算机设备的存储器包括非易失性存储介质 、 内存储器。 该非易失性 存储介质存储有操作系统、 计算机可读指令和数据库。 该内存储器为非易失性 存储介质中的操作系统和计算机可读指令的运 行提供环境。 该计算机可读指令 被处理器执行时以实现前面任一实施方式描述 的一种基于生物特征的声源追踪 方法。

[0168] 在一个实施例中, 提供了一种计算机设备, 包括存储器、 处理器及存储在存储 器上并可在处理器上运行的计算机可读指令, 处理器执行计算机可读指令时实 现以下步骤:

[0169] 获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声纹特征, 并标记该声源所在的声源位置;

[0170] 获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话;

[0171] 若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中的第二声 纹特征;

[0172] 在确定所述第二声纹特征与所述第一声纹特征 匹配时, 将该人脸设定为追踪对 象。

[0173] 在一个实施例中, 提供了一个或多个存储有计算机可读指令的非 易失性可读存 储介质, 该非易失性可读存储介质上存储有计算机可读 指令, 该计算机可读指 令被一个或多个处理器执行时, 使得一个或多个处理器实现以下步骤:

[0174] 获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声纹特征, 并标记该声源所在的声源位置;

[0175] 获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话;

[0176] 若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中的第二声 纹特征;

[0177] 在确定所述第二声纹特征与所述第一声纹特征 匹配时, 将该人脸设定为追踪对 象。

[0178] 本领域普通技术人员可以理解实现上述实施例 方法中的全部或部分流程, 是可 以通过计算机可读指令来指令相关的硬件来完 成, 所述的计算机可读指令可存 储于一非易失性计算机可读取存储介质中, 该计算机可读指令在执行时, 可包 括如上述各方法的实施例的流程。 其中, 本申请所提供的各实施例中所使用的 对存储器、 存储、 数据库或其它介质的任何引用, 均可包括非易失性和 /或易失 性存储器。 非易失性存储器可包括只读存储器 (ROM) 、 可编程 ROM (PROM ) 、 电可编程 ROM (EPROM) 、 电可擦除可编程 ROM (EEPROM) 或闪存。 易失性存储器可包括随机存取存储器 (RAM) 或者外部高速缓冲存储器。 作为 说明而非局限, RAM以多种形式可得, 诸如静态 RAM (SRAM) 、 动态 RAM ( DRAM) 、 同步 DRAM (SDRAM) 、 双数据率 SDRAM (DDRSDRAM) 、 增强 型 SDRAM (ESDRAM) 、 同步链路 DRAM (SLDRAM) 、 存储器总线直接 RA M (RDRAM) 、 直接存储器总线动态 RAM (DRDRAM) 、 以及存储器总线动 态 RAM (RDRAM) 等。

[0179] 所属领域的技术人员可以清楚地了解到, 为了描述的方便和简洁, 仅以上述各 功能单元或模块的划分进行举例说明, 实际应用中, 可以根据需要而将上述功 能分配由不同的功能单元或模块完成, 即将所述装置的内部结构划分成不同的 功能单元或模块, 以完成以上描述的全部或者部分功能。

[0180] 以上所述实施例仅用以说明本申请的技术方案 , 而非对其限制; 尽管参照前述 实施例对本申请进行了详细的说明, 本领域的普通技术人员应当理解: 其依然 可以对前述各实施例所记载的技术方案进行修 改, 或者对其中部分技术特征进 行等同替换; 而这些修改或者替换, 并不使相应技术方案的本质脱离本申请各 实施例技术方案的精神和范围, 均应包含在本申请的保护范围之内。

发明概述

技术问题

问题的解决方案

发明的有益效果