平码五不中公式规律
  • / 26
  • 下载费用:30 金币  

视频中的计算机显著人物识别.pdf

关 键 ?#21097;?/dt>
视频 中的 计算机 显著 人物 识别
  专利查询网所有资源均是?#27809;?#33258;行上传分享,仅供网友学习交流,未经上传?#27809;?#20070;面授权,请勿作他用。
摘要
申请专利号:

CN201580040719.0

申请日:

2015.07.24

公开号:

CN106663196A

公开日:

2017.05.10

当前法律状态:

实审

有效性:

审中

法?#19978;?#24773;: 实质审查的生效IPC(主分类):G06K 9/00申请日:20150724|||公开
IPC分类号: G06K9/00 主分类号: G06K9/00
申请人: 微软技术许可有限责任公司
发明人: 王宗智; N.叙里; A.S.艾沃里; W.D.斯普劳尔
地址: 美国华盛顿州
优?#28909;ǎ?/td> 2014.07.29 US 14/445518
专利代理机构: 中国专利代理(香港)有限公司 72001 代理人: 孙之刚;陈岚
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201580040719.0

授权公告号:

|||

法律状态公告日:

2017.06.06|||2017.05.10

法律状态类型:

实质审查的生效|||公开

摘要

本文中描述了基于特征点提取来标识视频内容中的显著主体的技术。可以处理视频文件以检测视频帧上的面部并且从视频帧提取特征点。一些视频帧可以包括所检测到的面部和所提取的特征点,并且其它视频帧可以不包括所检测到的面部。基于所提取的特征点,可以在没有检测到面部的视频帧上推断面部。推断可以基于特征点。附加地,视频帧可以被布置成组,并且两个或更多个组可以被合并。合并可以基于包括具有重叠特征点的视频帧的一些组。所得到的组每个可以标识主体。可以确定表示主体出现的若干个视频帧的频?#21097;?#20197;用于计算视频文件中的每个所标识的对象的显著性分数。

权利要求书

1.一种方法,包括:
通过一个或多个计算设备从视频文件的视频帧提取特征点;
通过所述一个或多个计算设备中的至少一个计算设备,检测所述视频帧的至少第一视
频帧中的至少一个面部;
通过所述一个或多个计算设备中的至少一个计算设备,推断所述视频帧的第二视频帧
中的所述至少一个面部,所述推断至少部分地基于所述特征点;
通过所述一个或多个计算设备中的至少一个计算设?#38468;?#25152;述视频帧布置成组;和
通过所述一个或多个计算设备中的至少一个计算设备组合两个或多个组以创建细化
组,所述组合至少部分地基于所述两个或多个组,每个组包括具有与所检测到的面部或所
推断的面部相关联的至少一个重叠特征点的一个或多个视频帧。
2.根据权利要求1所述的方法,其中,所述推断包括:
确定与所述第一视频帧中的所述至少一个面部相关联的第一特征点与所述第二视频
帧中的第二特征点匹配,其中在所述第二视频帧中未检测到面部;和
至少部分地基于与所述第二特征点匹配的所述第一特征点来推断所述第二视频帧上
的所述至少一个面部。
3.根据权利要求1所述的方法,其中,将所述视频帧布置成所述组至少部分地基于与所
述视频帧上的所检测到的面部或所推断的面部相关联的相似性数据。
4.根据权利要求1所述的方法,还包括:在组合所述两个或更多个组之前,比较所述两
个或更多个组中的所述视频帧的特征点。
5.权利要求1的方法,其中,所述细化组中的每个细化组与主体相关联。
6.根据权利要求1所述的方法,还包括:确定与所述主体相关联的频?#21097;?#25152;述确定包括:
对包括所述主体的若干个视频帧进行计数,并且将包括所述主体的视频帧的数目除以视频
文件中的视频帧的总数。
7.根据权利要求6所述的方法,其中,所述至少一个面部与面部?#38468;?#20540;集合相关联,所
述面部?#38468;?#20540;至少包括与所述至少一个面部相关联的尺寸值和位置值。
8.根据权利要求7所述的方法,还包括:至少部分地基于与所述主体相关联的所述尺寸
值、所述位置值或所述频率中的至少一个,计算与所述主体相关联的显著性分数。
9.一种系统,包括:
存储器;
一个或多个处理器,可操作地耦合到所述存储器;和
一个或多个模块,其存储在所述存储器中并且能够由所述一个或多个处理器执行,所
述一个或多个模块包括:
面部检测模块,被配置成检测与视频文件中的视频帧中的一个或多个主体相关联的一
个或多个面部;
特征检测模块,被配置成从所述视频帧提取特征点并且推断所述视频帧上的所述一个
或多个面部;
分组模块,被配置成至少部分地基于与所述一个或多个面部相关联的面部标志来将各
个视频帧布置成组,其中,各个组代表所述一个或多个主体的各个主体;和
评分模块,被配置成确定与每个各个主体相关联的显著性分数。
10.根据权利要求9所述的系统,还包括后处理模块,其被配置成执行后处理操作,所述
后处理操作包括至少部分地基于所述显著性分数对所述视频文件进行过滤或者至少部分
地基于所述显著性分数对各个视频文件进?#20449;?#21517;中的至少一个。
11.根据权利要求9所述的系统,还包括后处理模块,其被配置成执行后处理操作,所述
后处理操作包括至少部分地基于所述显著性分数来标识所述各个视频文件的显著视频片
段。
12.根据权利要求9所述的系统,其中,所述特征检测模块还被配置成:
跟踪所述视频帧上的所述特征点;
确定从所述视频帧的第一视频帧提取的至少一个特征点与所述一个或多个面部的所
检测到的面部相关联;
标识所述视频帧的第二视频帧,其中,在所述第二视频帧上未检测到面部,并且从所述
第二视频帧提取至少一个特征点;
确定从所述第一视频帧提取的所述至少一个特征点和从所述第二视频帧提取的所述
至少一个特征点重叠;和
基于从所述第一视频帧提取的所述至少一个特征点和从所述第二视频帧提取的所述
至少一个特征点的所述重叠,在所述第二视频帧上推断所检测到的面部。
13.根据权利要求11所述的系统,其中,所述第一视频帧先于所述第二视频帧一个或多
个视频帧。
14.根据权利要求11所述的系统,其中,所述第一视频帧在所述第二视频帧之后一个或
多个视频帧。
15.根据权利要求9所述的系统,其中,所述分组模块还被配置成:
比较所述各个组中的每个所述各个视频帧上的特征点;和
至少部分地基于所述两个或更多个各个组,组合两个或更多个各个组以创建新组,所
述两个或更多个各个组包括具有与所标识的面部相关联的至少一个重叠特征点的各个视
频帧。

说明书

视频中的计算机显著人物识别

背景技术

视频内容消费者可能希望标识视频内容中的显著人物、演员和/或人物角色。然
而,消费视频内容涉及大量的时间?#24230;搿?#19982;可能被立即消费的照片不同,?#27809;?#21487;能需要在标
识重要人物、演员和/或人物角色之前查看整个视频。例如,如果?#27809;?#20855;有包括数百个视频
文件的视频集合,则他或她可能需要观看视频集合中的整个长度的视频文件以标识视频文
件中的显著人物、演员和/或人物角色。最终,?#27809;?#21487;能需要观看整个视频集合以标识哪些
视频文件与特定的显著人物、演员和/或人物角色相关联。因为这种标识过程是耗时的,所
以已经开发了优化视频消耗的技术。

用于标识视频内容中的人物角色的当前技术涉及面部检测和分组。然而,许多当
前技术由于图像数据和视频内容之间的差异而产生低质量的结果和/或不准确。在图像数
据中,人物、演员和/或人物角色通常在图像数据捕获期间摆姿势。因此,人物、演员和/或人
物角色典型地是静止的(例如,没有运动),并且照明条件是均匀的。然而,在视频内容的上
下文中,人物、演员和/或人物角色通常不?#23706;?#23039;势,并且视频内容的质量不如图像数据均
?#21462;?#20363;如,很多时候、人物、演员和/或人物角色正在运动,并且因此可能背离照相机。在一些
情况下,人物、演员和/或人物角色改变面部表情或可以部分地被遮挡。视频内容中的照明
条件变化,使得识别人物、演员和/或人物角色比在图像数据中更困?#36873;?#22240;此,当前技术不足
以高效地和有效地标识视频数据中的重要人物、演员和/或人物角色。

发明内容

本公开描述了用于基于特征点提取标识视频内容中的显著主体的技术。视频文件
中的面部识别技术(包括面部检测和特征点检测和跟踪)可以用于优化主体识别、分组和检
测视频文件中的重要主体。

在至少一个示例中,可以处理视频文件以检测与视频文件的视频帧中的主体相关
联的面部并且提取视频帧中的特征点。所提取的特征点可以用于推断未检测到面部的视频
帧上的面部。在至少一个示例中,与第一视频帧中的所检测到的面部相关联的至少一个特
征点可以与没有检测到面部的第二视频帧中的至少一个特征点重叠。可以基于重叠的特征
点在第二视频帧中推断出所检测到的面部。

可以基于相似性(例如,相同主体的面部)对所标识的(例如,所检测到的或推断
的)面部进行分组。与所标识的(例如,所检测到的或推断的)面部相关联的视频帧可以被布
置成组。所提取的特征点可以再次用于组合两个或更多个视频帧组以创建细化组集合。在
至少一个示例中,组合可以至少部分地基于包括具有与所标识(例如,所检测到的或推断
的)的面部相关联的重叠的特征点的视频帧的两个或更多个组。每个细化组可以与视频文
件中的主体相关联。可以通过对包括各个主体的若干个视频帧进行计数并且将该数目除以
视频文件中的视频帧的总数来确定与视频文件中的每个主体相关联的频率。可以至少部分
地基于与主体相关联的尺寸值、与主体相关联的位置值和与主体相关联的频率来确定与主
体相关联的显著性分数。

利用本文中所描述的技术可以使得视频消费者能够以更高效和有效的方式消费
视频内容。例如,针对各个主体确定的显著性分数可以用于基于显著性分数对视频文件中
的主体进?#20449;?#21517;。显著性分数可以用于根据?#27809;?#35831;求来过滤视频集合中的视频文件。然后
可以基于与每个经过滤的视频文件中的?#27809;?#25351;定主体相关联的显著性分数来对经过滤的
视频文件进?#20449;?#21517;。附加地,本文中所描述的技术可以用于以其它方式优化视频回放、共享
和/或编辑。

提供本发明内容以便以简化形式介绍将下文在具体实施方式中进一步描述的一
些概念。本发明内容不旨在标识所要求保护的主体的关键或必要特征,也不旨在用于限制
所要求保护的主题的?#27573;А?br />

附图说明

参考附图对具体实施方式进行阐述,其中,附图标记的最左边的数字标识附图标
记首次出现的附图。在相同或不同的附图中使用相同的附图标记指示类似或相同的项或特
征。

图1是示出了用于基于特征点提取来标识视频内容中的显著主体的示例系统的
图。

图2是示出了用于基于特征点提取来标识视频内容中的显著主体的示例系统的附
加部件的图。

图3图示了已经对其执行了面部检测和特征点提取的连续视频帧集合。

图4图示了已经对其执行了面部检测和特征点提取的一对视频帧。

图5图示了用于基于特征点提取来推断视频帧中的面部并且组合视频帧的过程。

图6图示了基于特征点提取来推断面部的过程。

图7图示了用于基于所确定的频率确定显著性分数的过程。

具体实施方式

本公开描述了用于基于特征点提取标识视频内容中的显著主体的技术。通常,视
频内容的主体不会在捕获视频内容并且视频内容中的主体通常正在运动中时摆姿势。这导
致主体面向远离相机或具有计算机视觉算法难以检测的不同定向。类?#39057;兀?#30001;于该运动,视
频内容通常包括运动模糊、不一致的照明和/或部分遮挡。本文中所描述的技术利用视频文
件中的面部识别技术,包括面部检测和特征点检测和跟踪,以优化视频文件中的主体识别、
面部分组和显著主体标识。

在至少一个示例中,服务提供商可以处理视频文件以检测与视频文件的视频帧中
的主体相关联的面部,并且提取视频帧中的特征点。服务提供商可以使用所提取的特征点
来推断未检测到面部的视频帧上的面部。服务提供商可以将所标识的面部(例如,所检测到
的和推断的)和相关联的视频帧布置成组,并且可以组合两个或更多个组以基于所提取的
特征点创建细化组集合。在至少一个示例中,服务提供商可以至少部分地基于具有与所标
识的面部相关联的至少一个重叠特征点的视频帧的两个或更多个组来组合包括视频帧的
两个或更多个组。每个细化组可以与主体相关联,并且服务提供商可以通过对包括主体的
若干个视频帧进行计数并且将包括主体的视频帧的数目除以视频文件中的视频帧的总数
来确定与视频文件中的主体相关联的频率。服务提供商可以至少部分地基于与主体相关联
的尺寸值、与主体相关联的位置值、与主体相关联的频率以及与主体的呈现(例如,主体是
否看起来清晰或模糊)相关联的其它特性来确定与主体相关联的显著性分数。

如本文中所描述的,主体可以包括人物、演员和/或人物角色。显著主体可以代表
最重要的人物,演员和/或人物角色。显著性至少部分地基于主体的出现频率、主体在视频
帧上占据的区域以及主体在视频帧上的位置。

视频内容可以包括视频帧、视频片段、视频文件和/或视频集合。视频帧代表从移
动?#35745;?#25552;取的各个静止图像。视频片?#26410;?#34920;视频帧集合。在至少一个示例中,视频片段可以
被定义为固定数目的视频帧(例如,20个视频帧、50个视频帧等)。在其它示例中,视频片段
可以由时间段(例如,两秒、五秒等)定义。视频文件代表视频段集合。在至少一个示例中,视
频文件代表可以与特定位置、时间和/或人物相关联的各个场景或一系列连接镜头。镜头是
可以从单个相机透视图捕获的视频文件的一部?#24103;?#35270;频集合是在一段时间内收集的视频文
件的汇编。视频集合中的视频文件可以代表不同的类别、事件、位置、人物角色、场景?#21462;?#35270;
频集合中的视频文件可以通过类别、事件、位置(例如,地理戳)、人物角色、场景/或时间帧
(例如,时间戳)有关。

本文中所描述的技术优化视频内容的?#27809;?#28040;?#36873;?#20363;如,与视频文件中的主体相关
联的显著性分数可以用于基于所确定的显著性分数对视频文件中的主体进?#20449;?#21517;。显著性
分数可以用于根据?#27809;?#23545;特定主体的请求对视频集合中的视频文件进行过滤。可以基于与
每个经过滤的视频文件中的特定主体相关联的显著性分数对经过滤的视频文件进?#20449;?#21517;。
附加地,本文中所描述的技术可以用于另外优化视频查看、共享和/或编辑。

本文中所描述的示例提供了用于基于特征点提取来标识视频内容中的显著主体
的技术。在各种实例中,经由从模块或API编程以执行如本文中所述的技术的处理单元可以
包括中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA))、另一类数?#20013;?br />号处理器(DSP)或在一些实例中可以由CPU驱动的其它硬件逻辑部件中的一个或多个。例如
但不限于,可以使用的硬件逻辑部件的说明性类型包括专用集成电路(ASIC)、专用标准产
品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件(CPLD)?#21462;?br />

说明性环境

下文所描述的环境仅构成一个示例,并且不旨在将下文所描述的系统的应用限制于任
何一个特定的操作环?#22330;?#22312;不背离所要求保护的主题的精神和?#27573;?#30340;情况下,可以使用其
它环?#22330;?#26412;文中所描述的各种类型的处理可以在任何数目的环境中实现,包括但不限于,独
立计算系统、网络环?#24120;?#20363;如,局域网或广域网)、对等网络环?#22330;?#20998;布式计算(例如,云计算)
环境?#21462;?br />

图1是示出了用于基于特征点提取来标识视频内容中的显著主体的示例系统100
的图。更具体地,示例系统100可以包括服务提供商102、一个或多个网络104、一个或多个用
户106以及与一个或多个?#27809;?06相关联的一个或多个?#27809;?#35774;备108。可替代地或附加地,本
文中所描述的功能性可以至少部分地由诸如加速器之类的一个或多个硬件逻辑部件执行。
例如但不限于,可以使用的硬件逻辑部件的说明性类型包括现场可编程门阵列(FPGA)、专
用集成电路(ASIC)、专用标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件
(CPLD)?#21462;?#20363;如,加速器可以代表混合设备,诸如来自ZYLEX或ALTERA的混合设备,其包括嵌
入在FPGA架构中的CPU路线。

如所示出的,服务提供商102可以包括一个或多个服务器110,其可以包括一个或
多个处理单元112和计算机可读媒体114。在各?#36136;?#20363;中,服务提供商102可以提取与所检测
到的面部相关联的特征点,以用于基于特征点提取来标识视频内容中的显著主体。在一些
示例中,服务提供商102可以接收视频内容。服务提供商102可以检测视频内容中的面部,并
且可以提取视频内容的视频帧中的特征点。在至少一个示例中,所检测到的面部可以与至
少一个所提取的特征点相关联。服务提供商102可以利用特征点来推断面部最初未被检测
到的视频帧上的面部和/或来优化面部分组以标识视频内容中的显著主体。

在一些示例中,一个或多个网络104可以是本领域中已知的任何类型的网络,诸如
因特网。而且,?#27809;?#35774;备108可以以任何方式通信地耦合到一个或多个网络104,诸如通过全
球或本地有线或无线连接(例如,局域网(LAN)、内联网等)。一个或多个网络104可以便于一
个或多个服务器110和与?#27809;?06相关联的?#27809;?#35774;备108之间的通信。

?#27809;?06可以操作对应的?#27809;?#35774;备108以执行与?#27809;?#35774;备108相关联的各种功能,
这些?#27809;?#35774;备可以包括一个或多个处理单元、计算机可读存储媒体和显示器。更进一步地,
?#27809;?06可以利用?#27809;?#35774;备108经由一个或多个网络104与其它?#27809;?06通信。

一个或多个?#27809;?#35774;备108可以代表各种各样的设备类型,并且不限于任何特定类
型的设备。一个或多个?#27809;?#35774;备108的示例可以包括但不限于固定计算机、移动计算机、嵌
入式计算机或其组合。示例性固定计算机可以包括台式计算机、工作站、个人计算机、瘦客
户端、终端、游戏控制台、个人视频录像机(PVR)、机顶?#26800;取?#31034;例移动计算机可以包括膝上
型计算机、平板计算机、可穿戴计算机、植入式计算设备、电信设备、汽车计算机、个人数字
助理(PDA)、便携式游戏设备、媒体播放器、相机?#21462;?#31034;例性?#24230;?#24335;计算机可以包括网络使能
的电视、用于包括在计算设备中的集成部件、电器、微控制器、数?#20013;?#21495;处理器或任何其它
类型的处理设备等?#21462;?br />

服务提供商102可以是可以提取用于基于特征点提取来标识视频内容中的显著主
体的与所识别的面部相关联的特征点的任何实体、一个或多个服务器、平台?#21462;?#27492;外,并且
如所示出的,服务提供商102可以包括一个或多个服务器110,其可以包括一个或多个处理
单元112和诸如存储器之类的计算机可读媒体114。一个或多个服务器110可以包括设备。

示例支持其中可以包括在一个或多个服务器110中的一个或多个设备可以包括在
群集或其它群集配置中操作以共享资源、平衡负载、提高性能、提供?#25910;?#20999;换支持或冗余或
用于其它目的的一个或多个计算设备的场景。在至少一个示例中,可以远程地(例如,通过
服务器、?#39057;齲?#25191;行本文中所描述的技术。在一些示例中,本文中所描述的技术可以在?#27809;?br />设备上本地执行。例如,一个或多个?#27809;?#35774;备108可以接收视频内容。一个或多个?#27809;?#35774;备
108可以检测视频内容中的面部,并且可以提取视频内容的视频帧中的特征点。在至少一个
示例中,所检测到的面部可以与至少一个所提取的特征点相关联。一个或多个?#27809;?#35774;备108
可以利用特征点来推断面部最初未被检测到的视频帧上的面部和/或来优化面部分组以标
识视频内容中的显著主体。附加地,在一些示例中,本文中所描述的技术可以远程地和本地
执行。例如,可以由服务器110远程地执行一些技术(例如,面部检测、特征检测、分组等),并
且经处理的结果可以存储在云中。附加地,可以在?#27809;?#35774;备108上执行后处理(例如,排名、
过滤、分割等)。

包括在一个或多个服务器110中的一个或多个设备可以代表但不限于台式计算
机、服务器计算机、web服务器计算机、个人计算机、移动计算机、膝上型计算机、平板计算
机、可穿戴计算机、植入式计算设备、电信设备、汽车计算机、网络使能电视、瘦客户端、终
端、个人数?#31181;?#29702;(PDA)、游戏控制台、游戏设备、工作站、媒体播放器、个人视频记?#35745;?br />(PVR)、机顶盒、相机、用于包括在计算设备中的集成部件、电器或任何其它种类的计算设
备。

可以包括在一个或多个服务器110中的一个或多个设备可以包括具有一个或多个
处理单元112的任何类型的计算设备,该一个或多个处理单元112可操作地连接到计算机可
读媒体114,诸如经由总线,其在一些实例中可以包括系统总线、数据总线、地址总线、PCI总
线、Mini-PCI总线和任?#27779;?#31867;的本地、外围和/或独立总线中的一个或多个。存储在计算机
可读媒体114上的可执行指令可以包括例如面部检测模块116、特征检测模块118、分组模块
120、评分模块122、后处理模块124以及可由一个或多个处理单元112加载和执行的其它模
块、程序、或应用程序。可替代地或附加地,本文中所描述的功能性可以至少部分地由诸如
加速器之类的一个或多个硬件逻辑部件执行。例如但不限于,可以使用的硬件逻辑部件的
说明性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片
上系统系统(SOC)、复杂可编程逻辑器件(CPLD)?#21462;?#20363;如,加速器可以代表混合设备,诸如来
自ZyXEL?或Altera?的混合设备,其包括?#24230;?#22312;FPGA架构中的CPU路线。

可以包括在一个或多个服务器110中的一个或多个设备还可以包括耦合到总线的
一个或多个输入/输出(I/O)接口,以允许一个或多个设备与诸如?#27809;?#36755;入外围设备(例如,
键盘、鼠标、笔、游戏控制器、语音输入设备、触摸输入设备、?#36136;?#36755;入设备等)和/或输出外
围设备(例如,显示器、打印机、音频扬声器、触觉输出等)之类的其它设备通信。可以包括在
一个或多个服务器110中的设备还可以包括耦合到总线的一个或多个网络接口,以实现计
算设备和诸如一个或多个?#27809;?#35774;备108之类的其它联网设备之间的通信。这种一个或多个
网络接口可以包括一个或多个网络接口控制器(NIC)或其它类型的收发器设备,以通过网
络发送和接收通信。为了简单起见,从所图示的系统中省略了一些部件。

一个或多个处理单元112可以代表例如CPU类型处理单元、GPU类型处理单元、现场
可编程门阵列(FPGA)、另一类数?#20013;?#21495;处理器(DSP)或在一些实例中可以由CPU驱动的其它
硬件逻辑部件。例如但不限于,可以使用的硬件逻辑部件的说明性类型包括专用集成电路
(ASIC)、专用标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑设备(CPLD)?#21462;?#22312;各种
示例中,如上文所阐述的和在以下公开更详细地解释的,一个或多个处理单元112可以执行
一个或多个模块和/或处理以使得一个或多个服务器110执行各种功能。附加地,一个或多
个处理单元112中的每个处理单元可以拥有其自己的本地存储器,其还可以存储程序模块、
程序数据和/或一个或多个操作系统。

在至少一个配置中,一个或多个服务器110的计算机可读媒体114可以包括便于服
务提供商102和?#27809;?06之间的交互的部件。例如,计算机可读媒体114可以包括面部检测模
块116、特征检测模块118、分组模块120、评分模块122和后处理模块124。模块(116,118,
120,122和124)可以经由至少一个处理单元112实现为计算机可读指令、各种数据结构等来
配置设备以执行指令并且执行实现提取与所识别的面部相关联的特征点的操作,以用于基
于特征点提取来标识视频内容中的显著主体。执行这些操作的功能性可以包括在多个设备
或单个设备中。

根据一个或多个服务器110的配置和类型,计算机可读媒体114可以包括计算机存
储媒体和/或通信媒体。计算机存储媒体可以包括以用于存储信息(诸如计算机可读指令、
数据结构、程序模块或其它数据)的任何方法或技术实现的?#36164;源?#20648;器、?#19988;资源?#20648;器
和/或其它持久性和/或辅助计算机存储媒体,可移除和不可移除计算机存储媒体。计算机
存储器是计算机存储媒体的示例。因此,计算机存储媒体包括包括在设备和/或作为设备的
一部分或设备外部的硬件部件中的有形和/或物理形式的媒体,包括但不限于随机存取存
储器(RAM)、静态随机存储器(SRAM)、动态随机存取存储器(DRAM)、相变存储器(PRAM)、只读
存储器(ROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪
存、光盘只读存储器(CD-ROM)、数字通用盘(DVD)、光卡或其它光存储媒体、微型硬盘驱动
器、存储卡、磁带盒、磁带、?#25490;?#23384;储装置、磁卡或其它磁存储设备或媒体、固态存储设备、存
储阵列、网络附接存储装置、存储区域网络、托管计算机存储装?#27809;?#20219;何其它存储存储器、
存储设备和/或可以用于存储和维护信息以供计算设备访问的存储介质。

相反,通信媒体可以在经调?#39057;?#25968;据信号(诸如载波或其它传输机制)中体现计算
机可读指令、数据结构、程序模块或其它数据。术语“经调?#39057;?#25968;据信号?#24065;?#25351;使得其一个或
多个特征以这样的方式设定或改变以将信息编码到信号中的信号。这样的信号或载波等可
以在有线媒体(诸如有线网络或直接有线连接)和/或无线媒体(诸如声学、RF、红外和其它
无线媒体)上传播。如本文中所定义的,计算机存储媒体不包括通信媒体。也就是说,计算机
存储媒体不包括仅由经调?#39057;?#25968;据信号、载波或经传播的信号本身所组成的通信媒体。

图2是示出了用于基于特征点提取来标识视频内容中的显著主体的示例系统200
的附加部件的图。如图1和图2所示,系统200可以包括面部检测模块116、特征检测模块118、
分组模块120、评分模块122和后处理模块124。系统200还可以包括存储模块202。

面部检测模块116可以处理与各个视频文件相关联的视频帧,以检测出现在视频
帧中的面部的位置。面部检测模块116可以包括接收模块204和检测模块206。在至少一个示
例中,接收模块204接收视频内容。?#27809;?06可以从他或她的?#27809;?#35774;备108输入视频内容,或
者可以从另一个源(例如,因特网等)接收视频内容。视频内容可以包括一个或多个视频文
件,并且视频文件中的每个视频文件包括如上文所描述的视频片段和视频帧。在一些示例
中,每一视频帧可以具有在视频帧上捕获的一个或一个以上的面部。在其它实例中,一些视
频帧可以不具有在视频帧上捕获的任何面部。输入模块204可以在将视频帧输出到检测模
块206之前对视频帧进行解码。

检测模块206可以处理视频帧以检测视频帧中的一个或多个面部。在至少一个实
现方式中,检测模块206可以代表被配置成用于标识视频帧中的可能面部的一个或多个面
部检测器(例如,Haar特征检测器、LBP特征检测器等)。一个或多个面部检测器可以包括前
视检测器(诸如Haar特征检测器)或多视?#25216;?#27979;器(诸如LBP特征检测器)。在至少一个示例
中,检测模块206可以包括与以下伪代码一致的算法:

shared_ptr<IFaceRepresentationExtractor>

faceRepresentationExtractor

(

FaceRepresentationExtractorFactory::

Create(FaceRepresentationType::

Shapelndex)

)

在一些示例中,检测模块206可以检测视频文件的每一视频帧中的面部。然而,在其它
示例中,检测模块206可以检测视频文件的一些视频帧中的面部。在这样的示例中,可以存
在视频文件的一些视频帧,其中即使主体出现在视频帧中,检测模块206也检测不到任何面
部。

图3图示了已经对其执行了面部检测和特征点提取的连续视频帧集合。在图3中,
例如,检测模块206检测到帧3、帧7和帧8中的面部,如方形302所示。然而,在图3中,检测模
块206没有检测到帧0、帧1、帧2、帧4、帧5或帧6中的面部,如那些帧中缺少方形302所示。

对于其中检测模块206检测到一个或多个面部的每个视频帧,检测模块206可以输
出用于分析的视频帧的矩形列表,其中,每个矩?#26410;?#34920;在视频帧上检测到的面部。附加地,
所检测到的面部中的每个可以包括面部?#38468;?#38598;合,诸如平面索引、位置和尺寸。位置可以代
表所检测到的面部空间?#26174;?#35270;频帧内的位置。尺寸可以代表由所检测到的面部占据的区
域。面部?#38468;?#36824;可以包括与所检测到的面部中的每个相关联的面部标志。面部标志代表所
检测到的面?#21487;?#30340;兴趣点或重要的面部标志。每个所检测到的面部可以具有用于识别和/
或分组面部的代表性面部标志的集合(例如,27或n个实数(浮点)值)。在一些示例中,存储
模块202可以存储面部?#38468;冢?#25110;者存储模块202可以使得这些?#38468;?#23384;储在服务(例如,
Microsoft OneDrive?、DropBox?、Drive Drive等)中。

返回到图2,特征检测模块118处理视频帧以标识与在视频帧上检测到的面部相关
联的特征点,并且跟踪整个视频文件中的特征点。特征检测模块118可以包括提取模块208、
比较模块210和推断模块212。提取模块208可以处理视频帧以提取特征点。特征点可以代表
在视频帧上检测到的兴趣点。兴趣点是可以通过兴趣点检测器算法跨多个视图可靠地定位
的图像中的点。如下文所?#33268;?#30340;,特征点可以用于推断未检测到面部的视频帧上的面部以
及用于合并组。

在至少一个示例中,提取模块208可以基于提供特征检测和匹配功能性的软件库,
来提取视频帧中的特征点。在各?#36136;?#20363;中,提取模块208可以使用检测可能位于斑点状区域
的拐角或中间的点的代码来提取特征点。提取模块208还可以在提取特征点时考虑平移、旋
转、缩放和?#24459;?#21464;形。在至少一个示例中,提取模块208可以考虑亮度和对比度变化。在一些
示例中,提取模块可以检测子像素级上的特征点以便于在一定?#27573;?#30340;查看距离上的匹配并
且改善3D几何结构的重建。提取模块208可以包括基于FAST算法的FAST检测器,其被配置成
通过查看具有固定半径的圆中的中心像素周围的所有像素来检测拐角,并且将灰度值与中
心灰度?#21040;?#34892;比较;拉普拉斯兴趣点检测器,其被配置成检测视频帧中的亮或暗斑点状区
域;Harris检测器,其被配置成检测图像中的拐角;或者MSER检测器,其被配置成找到相对
图像?#28857;?#20540;化而稳定的像素区域。

特征点中的一些特征点可以与由检测模块206检测到的面部相关联。在其它示例
中,提取模块208可以从视频帧提取特征点,但是特征点可以不与视频帧上的任何检测到的
面部相关联。在各?#36136;?#20363;中,当在其它视频帧中也找到相同或重叠的特征点时,检测模块
206可以例如使用应用于锚定视频帧的检测到的面部区域内的一个或一个以上特征点的视
频帧特征匹配技术来推断面部。

返回到图3,图3图示了包括所标识的特征点304和所标识的特征点304随时间的移
动的视频帧集合的一个示例。图3中所图示的短线代表特征点304的位置和它们随时间的移
动。通过跟随特征点304的移动,提取模块208可以从视频帧到视频帧来跟踪特征点304。

特征点中的每个特征点可以具有特征点值集合,其可以被应用于标识一些面部、
视频帧等中的特征点之间的关系。特征点值可以包括位置、组标识、指向先前视频帧中的特
定特征点的?#21018;搿?#25351;向后面的视频帧中的特定特征点的?#21018;搿?#21644;/或面部标识。提取模块208
可以将特征点值集合输出到存储模块202。

返回到图2,比较模块210可以比?#26174;?#35270;频文件中的视频帧上提取的特征点。在至
少一个示例中,比较模块210可以将包括所检测到的面部和对应的特征点的视频帧与视频
文件中的其它视频帧进行比较。包括所检测到的面部并且具有与所检测到的面部相关联的
一个或多个特征点的视频帧可以被称为锚定视频帧。视频文件中的其它视频帧可以在锚定
视频帧之前或在锚定视频帧之后。其它视频帧可以与锚定视频帧相邻,或者可以是远离锚
定视频帧的两个或更多个视频帧。检测模块206可以或可以不在其它视频帧中检测到面部。
在至少一个实现方式中,其它视频帧中的一些视频帧中的特征点可以与锚定视频帧中的特
征点相同,然而,检测模块206可能尚未检测到与其它视频帧中的特征点相关联的面部。

在图3中,帧3图示了包括检测到的面部(如方形302所示)和对应的特征点304两者
的锚定视频帧。在图4中,其图示了已经对其执行了面部检测和特征点提取的一对视频帧,
帧A代表包括三个特征点(402A、402B和402C)的锚定视频帧的示例。特征点402A与由正方形
404所示的所检测到的面部相关联。比较模块210可以将锚定视频帧(例如,图3中的帧3或图
4中的帧A)与锚定视频之前的视频帧和/或在锚定视频帧之后的视频帧进行比较,以标识前
面的和/或后面的视频帧是否具有和与锚定视频帧中所检测到的面部相关联的特征点相同
的特征点中的任一特征点。在至少一些示例中,前面和/或后面的视频帧中的一个或多个不
包括所检测到的面部。例如,在图4中,如缺少正方形404所指示的,帧B不具有所检测到的面
部。然而,帧B具有与帧A相同的三个特征点(402A、402B和402C)。相应地,在图4中所图示的
示例中,帧A和帧B具有重叠的特征点402A-402C。如果两个或更多个特征点在相同位置和/
或彼此在预?#28909;?#23450;的阈值距离内,则特征点可以重叠。

返回到图2,推断模块212推断其中面部最初未被检测模块206检测到的视频帧中
的面部。推断模块212使用来自比较模块210的输出来推断面部。例如,从锚定帧提取的特征
点可以包括与锚定帧上的所检测到的面部相关联的一个或多个特征点。比较模块210可以
标识在前面的和/或后面的视频帧中的一个或多个特征点。在至少一个实现方式中,检测模
块206未检测到在前面的和/或后面的视频帧中的面部。在至少一个实现方式中,前面的和/
或后面的视频帧中的一个或多个特征点与锚定视频帧中的一个或多个特征点相同。如果前
面的和/或后面的视频帧中的一个或多个特征点和与锚定帧上所检测到的面部相关联的一
个或多个特征点相同,则推断模块212可以在前面的和/或后面的视频帧中推断出所检测到
的面部。

例如,在图4中,即使检测模块206没有在帧B中检测到面部,推断模块212可以推断
与正方形404和特征点402A相关联的检测到的面部也在如虚线正方形406所示的帧B中。在
图4中,帧A上的特征点402A-402C可以代表从帧A提取的特征点。帧B上的特征点402A-402C
可以代表从帧B提取的特征点。如上文所?#33268;?#30340;,特征点402A与帧A上的所检测到的面部404
相关联。帧A中的特征点402A与帧B中的特征点402A重叠。相应地,推断模块212可以推断与
正方形404相关联的面部也存在于帧B中,并且因此可以指示这样的面部在帧B(正方形406)
中被标识。重叠特征点402B和402C中的两个不与帧A或帧B中的所检测到的面部相关联。相
应地,即使402B和402C在帧A和帧B中重叠,推断模块212也可以不推断任何附加的面部,因
为特征点402B或402C与所检测到的面部相关联。在图4中,帧A中的所有特征点和帧B中的所
有特征点重叠。然而,视频帧中的所有特征点不需要重叠。在至少一些示例中,只有一些特
征点可以重叠,并且只要至少一个重叠特征点与视频帧中的至少一个视频帧上的所检测到
的面部相关联,则推断模块212可以推断视频帧的面部也具有重叠特征点,而不管视频帧不
具有所检测到的面部。

在至少一些示例中,如果与锚定视频帧上的所检测到的面部相关联的特征点不在
相同斑点中但已移动低于预定阈值的距离,则推断模块212可以在前面的和/或后面的视频
帧上推断出面部。在这样的示例中,推断模块212确定所提取的特征点在相邻帧之间的空间
移动。例如,如果与检测到的面部相关联的特征点或特征点集合位于特定位置(0,0)并且移
动到紧接的后续帧中的另一个位置(500,500),则推断模块212不可能在后续帧中推断出面
部。在这样的示例中,除非所检测到的面部太接近相机从而使结果歪?#20445;?#21542;则所检测到的面
部在从视频帧到视频帧的时间内不可能在空间上移动这样的显著距离。相应地,这种移动
将高于预?#28909;?#23450;的阈值,因此,推断模块212可以不在紧接后续帧中推断出面部。

返回到图2,分组模块120可以使用与所标识的面部相关联的面部标志来将具有相
?#39057;?#38754;部标志的面部分组在一起。所标识的面部可以是在检测模块206中检测到的面部和/
或由推断模块212推断出的面部。分组模块可以包括标识模块214、合并模块216和频率模块
218。在至少一个示例中,标识模块124可以处理与所标识的面部相关联的面部标志,并且将
所标识的面部的集合标识为代表相似面部。然后,标识模块124可以将所标识的面部的集合
布置成若个组。

在至少一个示例中,组中的每个组代表与不同主体相关联的所标识的面部。在至
少一个示例中,分组模块120可以至少部分地基于定义所标识的面部之间的不对称距离来
将所标识的面部分组在一起,以生成与所标识的面部相关联的排序列表。分组模块120可以
通过归一化对应的标识的面部的不对称距离,来确定所标识的面部对的图像排序距离。分
组模块120可以使用排序距离来对所标识的面部进行分组。在附加的示例中,分组模块120
可以基于相似性(例如,面部相似性、躯干特征相似性等)将所标识的面部分组在一起。在一
些示例中,分组模块120可以基于其它算法或准则(例如,K均值、频谱聚类、共享最近邻等)
将所标识的面部分组在一起。在至少一个示例中,标识模块214可以基于面部标识和与主体
列表中的每个主体相关联的对应的视频帧列表输出与各个面部相关联的主体列表,如下文
所示,表1是来自标识模块214的输出的示例。

表1

主体
视频帧
A
1,2,5,6,7,8,22,24,26,27,28,29,30
B
2,3,4,15,16,17,18,22,24,30,31,32,33,34
C
9,10,11,12,13,14,19,20,21,23,25

如表1所示,标识模块214可以标识三个不同的主体:主体A、主体B和主体C。主体A、主体
B和主体C每个对应于一个组。在该示例中,在视频帧1,2,5,6,7,8,22,24,26,27,28,29和30
中标识主体A。同时,在该示例中,在视频帧2,3,4,15,16,17,18,22,24,30,31,32,33和34中
标识主体B。在该示例中,在视频帧9,10,11,12,13,14,19,20,21,23和25中标识主体C。对于
组中的每个视频帧,标识模块214可以包括与该组相关联的所检测到的面部的面部?#38468;?#21644;/
或该帧中的面部是基于推断模块212中的处理而推断的面部的指示。

合并模块216可以比较与组中的每个组中的各个视频帧相关联的特征点,并且如
果与所标识的面部相关联的任何特征点和组中的任一组中的视频帧中的任一视频帧中所
标识的面部相关联的任何特征点重叠,则合并模块216可以将具有与所检测到的面部相关
联的重叠特征点的帧的两个或更多个组合并成与特定主体相关联的单个组。所得到的组可
以被认为是细化组。细化组中的每个组可以包括与特定主体相关联的视频帧集合,以使得
在细化组中的视频帧中的每个视频帧中已经标识出特定主体。

频率模块218可以确定代表在合并模块216中处理之后标识的面部中的每个面部
的频率的频率数据。可以通过计算在其上出现与特定主体相关联的所标识的面部的若干个
视频帧并且将该数目除以视频文件中的视频帧的总数来确定频率。在至少一个示例中,在
其上出现与特定主体相关联的所标识的面部的视频帧的数目可以与在合并模块中处理后
属于与特定主体相关联的细化组的视频帧的总数目相同。在一些示例中,存储模块202可以
存储频率数据,或者存储模块202可以使得这样的数据存储在服务中(例如,Microsoft
OneDrive?、DropBox?、Google? Drive等)。

在一些示例中,其中频率被确定为高于其它所标识的主体的所标识的主体比具有
较低频率的所标识的主体更显著。例如,如果第一标识的主体比第二标识的主体出现在视
频文件的更多的视频帧中,则第一标识的主体比第二标识的主体更显著。频率模块218可以
确定具有高于预?#28909;?#23450;的阈值的频率的所标识的主体比具有低于预?#28909;?#23450;的阈值的频率
的所标识的主体更显著。

评分模块122可以基于视频内容中的所标识的面部中的每个面部的频率、尺寸和
位置来计算与所标识的面部中的每个面部相关联的显著性分数。还可以基于与所标识的面
部的呈现相关联的特性(例如,所标识的面部是否看起来清晰或模糊)来确定显著性分数。
在至少一个示例中,两个或更多个主体可以具有相同的频率。然而,在至少一个示例中,主
体中的一个可以比其它主体更显著,即使它们共享相同的频率。评分模块122可以包括面部
评分模块220和显著性评分模块222。

面部评分模块220可以考虑与所标识的面部相关联的面部?#38468;冢?#20197;确定在视频文
件中标识的主体中的每个主体的面部分数。面部评分模块220可以从存储模块202或服务接
收面部?#38468;凇?#22312;至少一个示例中,面部?#38468;?#21253;括所标识的面部的尺寸和位置。

所标识的面部的尺寸可以由与针对所标识的面部计算的归一化面积相关联的尺
寸值来代表。在至少一个示例中,当面部的尺寸介于两个阈值之间时,尺寸值可以是线性
的。第一阈值定义小面部区域,第二阈值定义大面部区域。然而,因为非常小和/或非常大的
面部可能由于人物太靠近或太远离相机而无意被捕获,所以这?#22336;?#24120;小的面部或非常大的
面部都接收低尺寸值(例如,接近零)。例如,?#27809;?#21487;以记录他们的孩子在操场上玩,而另一
个孩子可以在相机前跑。在相机前跑的孩子的面部可能在相机上出现的尺寸非常大,从而
可能接收到低尺寸值(例如,接近零)。

所标识的面部的位置描述了所标识的面部在视频帧上的空间位置。该位置可以与
指示所标识的面部到视频帧的中心的接近度的位置值相关联。在至少一个示例中,更接近
帧的中心的所标识的面部接收比接近视频帧的顶部、底部、左边缘或?#20918;?#32536;的所标识的面
部更高的值(例如,更接近1)。在至少一个示例中,最接近视频帧的水平中心的所标识的面
部接收最高接近度值(例如,?#36127;?#20026;1)。

显著性评分模块222可以将面部分数与频率数据组合,以计算在视频文件中标识
的主体的显著性分数。显著性评分模块222可以从存储模块202或服务获得频率数据。

后处理模块124可以接收视频文件,其中,在视频文件中标识的每个主体与显著性
分数相关联。后处理模块124可以对经评分的视频文件进?#20449;?#21517;、过滤、分割或以其它方式
处理。后处理模块124可以包括排名模块224、过滤模块226、分割模块228和用于后处理的其
它模块。

排名模块224可以比较针对视频文件中的各个主体中的每个主体确定的显著性分
数,并且可以基于显著性分数对主体进?#20449;?#21517;。相应地,在视频帧的水平中心附近占据视频
帧上相对较大区域并且规则地出现在视频文件中(例如,具有高于预?#28909;?#23450;的阈值的频?#21097;?br />的主体可以排名高于,远离视频帧的水平中心占据在视频帧上相对小的区域,和/或出现在
视频文件的较少帧中的主体。排名模块224使得?#27809;?#33021;够容易地标识视频文件中最显著主
体。

过滤模块226可以对视频集合中的视频文件进行过滤。在一个示例中,过滤模块
226可以使用元数据或标签将与视频文件中的主体相关联的所标识的主体与特定主体(例
如,所标识的主体的名字)相关联和/或确定视频集合的所有者和特定主体之间的关系(例
如,丈夫/妻?#21360;?#22992;妹、朋友等)。在其它示例中,面部标志可以用于通过比较与其它视频文件
中的特定主体相关联的面部标志来标识特定主体。过滤模块226可以接收指示?#27809;?#24819;要访
?#35270;?#29305;定主体有关的视频文件的?#27809;?#36755;入。?#27809;?#21487;以请求主体的特定名字(例如,Nick、
Sally等)和/或关系(例如,女儿、妻子等)。响应于?#27809;?#36755;入,过滤模块226可以过滤通过视
频集合的视频文件,并且标识包括所请求的主体的视频文件。在一些示例中,过滤模块226
和排名模块224可以协作并且产生包括所请求的主体的视频文件的过滤列表,并且可以基
于与视频文件中的每个视频文件中的被请求的个体相关联的显著性分数对视频进?#20449;?#21517;。

分割模块228可以定位与视频文件中的具有高于预?#28909;?#23450;的阈值的显著性分数的
所标识的主体相关联的一般区域的精确边界。在至少一个示例中,分割模块228可以考虑相
机运动边界以精确地标识与具有高于预?#28909;?#23450;的阈值的显著性分数的所标识的主体的一
般区域相关联的边界。相机运动边界可以考虑相机在静态场景中的移动。在至少一个示例
中,可以分析包括具有高于预?#28909;?#23450;的阈值的显著性分数的所标识的主体的视频帧,以用
于相机运动,诸如在一个方向上摇摄(例如,向左摇摄、向右摇摄、向场景顶部摇摄、向屏幕
的底部摇摄等)和/或缩放(例如,放大、缩小)。可以在相机运动改变时定义边界。

例如,视频文件可以包括望向窗外的猫的若干视频片段。猫可能相?#26412;?#27490;,但是相
机可能向左摇摄以标识窗口中的猫,并且将猫在屏幕上居中。相机?#27809;?#21487;能想要示出猫正
在看着窗外的鸟,并且相应地,在摇摄以在屏幕中间定位猫之后,可以朝着猫放大。然后,相
机?#27809;?#21487;以再次缩小以在窗口中聚焦猫。上文所描述的运动中的每个运动(例如,向左摇
摄、放大、缩小)可以用于基于相机移动标识视频文件的不同视频片段。

分割模块228可以确定视频文件的视频帧之间的对象的相机运动边界。分割模块
228可以标识视频帧之间的运动强度的改变,其中改变高于预?#28909;?#23450;的阈值。?#28909;紓?#24403;第一
视频帧?#36127;?#19981;包括对象运动强度(对象运动强度低于预?#28909;?#23450;的阈值)并且相邻视频帧包
括高对象运动强度(对象运动强度高于预?#28909;?#23450;的阈值)时,分割模块228可以标识边界。附
加地,当第一视频帧包括高对象运动强度(对象运动强度高于预?#28909;?#23450;的阈值)并且相邻视
频帧?#36127;?#19981;包括对象运动强度(对象运动强度低于预?#28909;?#23450;的阈值)时,分割模块228可以
标识边界。

例如,如果相机正在捕获玩纱线球的猫,则猫可以抓持纱线球,并且因此在与这种
动作相关联的视频帧中?#36127;?#27809;有对象运动强度(对象运动强度低于预?#28909;?#23450;的阈值)。与在
空中投掷纱线球的猫相关联的视频帧(例如,视频片段)的集合可以每个都显示高对象运动
强度(对象运动强度高于预?#28909;?#23450;的阈值)。在与投掷纱线球的猫相关联的最后视频帧之后
的视频帧中,猫可以再次抓持纱线球,并且因此,视频帧可以?#36127;?#27809;有对象运动强度(对象
运动强度低于预?#28909;?#23450;的阈值)。因此,分割模块228可以标识三个各个的视频片段,其中,
边界可以通过?#20174;?#29483;在空中投掷纱线球的对象运动强度的改变来精确地定义。

除了排名、过滤和分割之外,后处理模块124可以以其它方式处理所评分的视频文
件。例如,后处理模块可以利用所评分的视频文件来自动地创建包括具有高于预?#28909;?#23450;的
阈值的显著性分数的主体的新视频文件。后处理模块124可以基于标识包括具有高于预先
确定的阈值的重要性分数的对象的视频片段来创建新的视频文件。后处理模块124可以提
取所标识的视频片段,并且可以添加视频片?#27779;?#38388;的转换,以创建新的视频文件。后处理模
块124可以使用显著性分数来创建显示具有高于预?#28909;?#23450;的阈值的显著性分数的对象的电
影海报和/或标题页。

后处理模块124还可以标记视频文件以标识所标识的主体中的每个主体出现在视
频文件中的时间位置。标记还可以包括所标识的主体出现多久。基于该信息,?#27809;?#21487;以容易
地直接跳转到与视频文件中的所标识的主体相关联的特定位置。在至少一个示例中,可以
向?#27809;?#21576;现?#27809;?#30028;面,该?#27809;?#30028;面在视频文件中显示代表所标识的主体的缩略图。从而,用
户可以选择缩略图中的一个缩略图,并且可以被引导到与所选择的缩略图中描绘的所标识
的主体相关联的特定位置。

后处理模块124还可以基于在面部评分模块220中计算的面部分数来标识每个主
体的最佳镜头。最佳镜头可以通过与特定标识的主体相关联的视频帧组中的视频帧的最高
面部分数来标识。

示例过程

图5图示了用于基于特征点提取来推断视频帧中的面部并且组合视频帧的过程500。

框502图示了检测视频帧中的面部。检测模块206可以处理视频帧以检测视频帧中
的一个或多个面部。在至少一个实现方式中,如上文所描述的,具有多视图支持的特征检测
器可以标识视频帧中的可能面部。

框504图示了提取视频帧中的特征点。提取模块208可以提取视频帧中的特征点。
如上文所描述的,特征点可以代表视频帧上的兴趣点。

框506图示了基于比较特征点来推断其中面部最初未被检测到的视频帧中的面
部。如上文所描述的,推断模块212在面部最初未被检测模块206检测到的视频帧中推断面
部。推断模块212使用来自比较模块210的输出来推断面部。例如,从锚定视频帧提取的特征
点可以包括可以与所检测到的面部相关联的至少一个特征点。比较模块210可以标识前面
的和/或后面的视频帧中的特征点。在至少一个实现方式中,检测模块206未检测到前面的
和/或后面的视频帧中的面部。在至少一个实现方式中,前面的和/或后面的视频帧中的特
征点中的至少一个特征点与与所检测到的面部相关联的锚定视频帧中的至少一个特征点
相同。推断模块212可以推断来自与至少一个特征点相关联的锚定视频帧的所检测到的面
部也存在于与重叠特征点相关联的在前面的和/或后面的视频帧中。

框508图示了将视频帧布置成组。在至少一个示例中,如上文所描述的,标识模块
124可以基于面部标志将所标识的面部的集合标识为代表相似面部。然后,标识模块124可
以将所标识的面部的集合布置成多个组。在至少一个示例中,组中的每个组代表与不同主
体相关联的所标识的面部。与所标识的面部相关联的视频帧被布置在与不同主体相关联的
组中。

框510图示了至少部分地基于重叠特征点来组合组。合并模块216可以比较与组中
的每个组中的各个视频帧相关联的特征点,并且如果与所标识的面部相关联的任何特征点
在组中的任一个组中的视频帧中的任一个视频帧中重叠,则合并模块216可以将两个或更
多个带有具有重叠特征点的视频帧的组合并成与特定主体相关联的单个组。所得到的组可
以被认为是细化组,并且细化组中的每个细化组可以包括与特定主体相关联的视频帧集
合。

图6图示了用于基于特征点提取来推断面部的过程600。

框602图示了跟踪特征点。在至少一个示例中,如上文所描述的,提取模块208可以
提取视频帧中的特征点。通过跟随特征点的移动,提取模块208可以从视频帧到视频帧跟踪
特征点。

框604图示了确定与第一视频帧中的所检测到的面部相关联的至少一个特征点与
没有检测到面部的第二视频帧中的至少一个特征点匹配。在至少一个示例中,比较模块210
可以将包括所检测到的面部和对应的特征点的视频帧与视频文件中的其它视频帧进行比
较。如上文所描述的,包括所检测到的面部和对应的特征点的视频帧可以被称为锚定视频
帧,并且可以是第一视频帧。如上文所描述的,视频文件中的其它视频帧可以在锚定视频帧
之前或在锚定视频帧之后,并且可以代表第二帧。检测模块206可以或可以不具有在第二视
频帧中检测到的面部。然而,在至少一个实现方式中,第二视频帧中的一个或多个特征点可
以与第一视频帧中的一个或多个特征点相同。

框606图示了在第二视频帧上推断面部。推断模块212使用来自比较模块210的输
出来推?#26174;?#20854;中面部最初未被检测到的视频帧上的所检测到的面部。与第一视频帧中的所
检测到的面部相关联的至少一个特征点可以与第二视频帧中没有检测到面部的至少一个
特征点重叠。由于重叠特征点,可以在第二视频帧中推断所检测到的面部。

图7图示了用于基于所确定的频率确定显著性分数的过程700。

框702图示了比较两个或更多个组中的视频帧中的特征点。如上文所描述的,合并
模块216可以比较与组中的每个组中的各个视频帧相关联的特征点。

框704图示了如果特征点重叠则组合两个或更多个组。如果与在组中的任一个组
中的视频帧中的任一个视频帧中的所标识的面部相关联的特征点中的任一个特征点和与
在任何其它视频帧中的所标识的面部相关联的特征点重叠,则合并模块216可以将带有具
有重叠特征点的视频文件的两个或更多个组合并成与特定对象相关联的单个组。

框706图示了确定与细化组相关联的主体的频率。频率模块218可以确定代表在由
合并模块216处理之后所标识的主体中的每个主体的频率的频率数据。如上文所描述的,可
以通过计算在其上所标识的主体出现的若干个视频帧并且将该数目除以视频文件中的视
频帧的总数来确定频率。

框708图示了至少部分地基于频率来确定显著性分数。如上文所描述的,评分模块
122可以基于视频内容中的所标识的面部中的每个面部的频率、尺寸和位置来计算与所标
识的主体中的每个主体相关联的显著性分数。显著性分数还可以基于与所标识的面部的呈
现相关联的其它特性(例如,所标识的面部是否看起来清晰或模糊)。

结论

尽管已经用对结构特征和/或方法动作特定的语言描述了主题,但是应当理解,所附权
利要求中定义的主题不一定限于所描述的具体特征或动作。相反,特定的特征和动作被描
述为实现权利要求的说明性形式。

除非另有特别陈述,否则诸如“可以(can)”、“可以(could)”、“可能(might)?#34987;頡?#21487;
能(may)”之类的条件语言在上下文内被理解为表示某些示例包括,而其它示例不一定包括
某些特征、元件和/或步骤。因此,这样的条件语言通常不旨在暗示某些特征、元件和/或步
骤以任何方式对于一个或多个示例是必需的,或者一个或多个示例必然包括用于利?#27809;?#19981;
利用?#27809;?#36755;入或提示来判定某些特征、元件和/或步骤是否包括在或将在任何特定示例中
执行。除非另有特别说明,否则诸如短语“X、Y或Z中的至少一个”的连接语?#26434;?#24403;被理解为
呈现项、术语等可以是X、Y或Z、或者其组合。

示例条款

A:一种方法,包括?#21644;?#36807;一个或多个计算设备从视频文件的视频帧提取特征点;通过一
个或多个计算设备中的至少一个计算设备检测视频帧的至少第一视频帧中的至少一个面
部;通过一个或多个计算设备中的至少一个计算设备推断视频帧的第二视频帧中的至少一
个面部,该推断至少部分地基于特征点;通过一个或多个计算设备中的至少一个计算设备
将视频帧布置成组;和通过一个或多个计算设备中的至少一个计算设备组合两个或多个组
以创建细化组,该组合至少部分地基于两个或多个组,每个组包括具有与所检测到的面部
或所推断的面部相关联的至少一个重叠特征点的一个或多个视频帧。

B:如段落A所阐述的方法,其中,该推断包括:确定与第一视频帧中的至少一个面
部相关联的第一特征点与第二视频帧中的第二特征点匹配,其中在第二视频帧中未检测到
面部的;和至少部分地基于与第二特征点匹配的第一特征点,在第二视频帧上推断至少一
个面部。

C:根据段落A或段落B所阐述的方法,其中,将视频帧布置成组是至少部分地基于
与视频帧上的所检测到的面部或所推断的面部相关联的相似性数据。

D:如段落A至段落C中的任一段落所阐述的方法,还包括:在组合两个或更多个组
之前,比较两个或更多个组中的视频帧的特征点。

E:如段落A至段落D中的任一段落所阐述的方法,其中,细化组中的每个细化组与
主体相关联。

F:根据段落A至段落E中的任一段落所阐述的方法,确定与主体相关联的频?#21097;?#35813;
确定包括:对包括主体的若干个视频帧进行计数,并且将包括主体的视频帧的数目除以视
频文件中的视频帧的总数。

G:如段落F所阐述的方法,其中,至少一个面部与面部?#38468;?#20540;相关联,面部?#38468;?#20540;
至少包括与至少一个面部相关联的尺寸值和/或位置值。

H:如段落G所阐述的方法,还包括:至少部分地基于与主体相关联的尺寸值、位置
值和/或频?#21097;?#35745;算与主体相关联的显著性分数。

I:一种系统,包括:存储器;一个或多个处理器,可操作地耦合到存储器;和一个或
多个模块,其存储在存储器中并且可由一个或多个处理器执行,该一个或多个模块包括:面
部检测模块,其被配置成检测与视频文件中的视频帧中的一个或多个主体相关联的一个或
多个面部;特征检测模块,其被配置成从视频帧提取特征点并且推断视频帧上的所述一个
或多个面部;分组模块,其被配置成至少部分地基于与一个或多个面部相关联的面部标志
来将各个视频帧布置成组,其中,各个组代表一个或多个主体的各个主体;以及评分模块,
其被配置成确定与每个各个对象相关联的显著性分数。

J:段落I所阐述的系统,还包括后处理模块,其被配置成执行后处理操作,该后处
理操作包括至少部分地基于显著性分数对视频文件进行过滤或者至少部分基于显著性分
数对各个视频文件进?#20449;?#21517;中的至少一个。

K:根据段落I或段落J所阐述的系统,其中,特征检测模块还被配置成:跟踪视频帧
上的特征点;确定从视频帧的第一视频帧提取的至少一个特征点与一个或多个面部的所检
测到的面部相关联;标识视频帧的第二视频帧,其中,在第二视频帧上未检测到面部,并且
从第二视频帧提取至少一个特征点;确定从第一视频帧提取的至少一个特征点和从第二视
频帧提取的至少一个特征点重叠;和基于从第一视频帧提取的至少一个特征点和从第二视
频帧提取的至少一个特征点的重叠,在第二视频帧上推断所检测到的面部。

L:段落K中所阐述的系统,其中,第一视频帧先于第二视频帧一个或多个视频帧。

M:段落K中所阐述的系统,其中,第一视频帧在第二视频帧之后一个或多个视频
帧。

N:段落I至段落M中的任一段落所阐述的系统,其中,分组模块还被配置成:比?#32454;?br />个组中的各个视频帧中的每个视频帧上的特征点;和至少部分地基于包括具有与所标识的
面部相关联的至少一个重叠特征点的各个视频帧的两个或更多个各个组组合两个或更多
个各个组以创建新组。

O:利用指令编码的一个或多个计算机可读存储媒体,当被处理器执行时,配置计
算机以执行包括以下操作的动作:处理多个视频文件的各个视频文件,该处理包括:检测各
个视频文件的一些视频帧中的面部;和从视频帧中提取特征点;推断视频帧的各个视频帧
中的面部,其中,在各个视频帧中没有检测到面部,该推断至少部分地基于特征点;将各个
的视频帧布置成多个组;组合多个组中的两个或更多个各个组以创建细化组的集合,该组
合至少部分地基于包括具有至少一个重叠特征点的视频帧的两个或更多个各个组;标识与
细化组中的每个细化组相关联的主体;和确定与主体相关联的频?#21097;?#35813;频率代表其中主体
的各个主体出现在视频文件的特定视频文件中的若干个视频帧。

P:如段落O中所阐述的一个或多个计算机可读存储媒体,其中,动作还包括至少部
分地基于频率、尺寸值和/或位置值中的至少一个计算与各个主体相关联的显著性分数。

Q:如段落O或段落P中所阐述的一个或多个计算机可读存储媒体,其中,动作还包
括:接收与?#27809;?#19982;多个视频文件的交互有关的?#27809;?#36755;入。

R:如段落Q中所阐述的一个或多个计算机可读存储媒体,其中,?#27809;?#20132;互包括:过
滤多个视频文件以标识包括?#27809;?#25351;定的主体的各个的视频文件,该过滤至少部分基于标识
组合组中的至少一个组中的?#27809;?#25351;定的主体。

S:根据段落Q所阐述的一个或多个计算机可读存储媒体,其中,?#27809;?#20132;互包括对各
个视频文件进?#20449;?#21517;,该排名至少部分地基于显著性分数。

T:如段落Q所阐述的一个或多个计算机可读存储媒体,其中,?#27809;?#20132;互包括至少部
分地基于显著性分数来标识各个视频文件的显著视频片段。

关于本文
本文标题:视频中的计算机显著人物识别.pdf
链接地址:http://www.pqiex.tw/p-6091747.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 体彩河南11选5玩法 北京pk10怎么看走势图 吉林十一选五前三和值 山西11选5预测论坛 巅峰娱乐免费下载 棋牌游戏中心 多乐彩74期开奖结果 分分彩平台骗局 福彩开奖结果3D2017241 今日上证指数走势