CN104854600A

CN104854600A - 视频场景检测

Info

Publication number: CN104854600A
Application number: CN201380051485.0A
Authority: CN
Inventors: M.努尔卡米; Y.L.陈
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2012-10-01
Filing date: 2013-09-06
Publication date: 2015-08-19
Also published as: EP2904541A1; WO2014055203A1; US20140093164A1; JP2015536094A; US8818037B2; KR20150067160A

Abstract

提供用于检测视频内容中的场景的系统和相关方法。在一个示例中，场景检测程序识别多个镜头并且选择目标镜头。该程序构建包括目标镜头并且具有时间上在目标镜头之前的镜头的前向窗，以及具有时间上在目标镜头之后的镜头的后向窗。对于在前向窗中的每个镜头，该程序确定在选择的镜头与在后向窗中的其它镜头中的每个镜头之间的差异。如果差异中的一个或多个小于场景边界阈值，则该程序确定该场景未在目标镜头处开始。如果差异都不小于场景边界阈值，则该程序确定该场景在目标镜头处开始。

Description

视频场景检测

背景技术

在视频内容的一些形式中，视频可以由可被分组成若干镜头的个体视频帧构成。在一些示例中，镜头可以表征为利用摄像机的某一视角拍摄的一系列帧。场景可以被表征为可以在行为、地点、背景和/或时间上相关的镜头集合，其中这样的相关性可能对应于内容或节目的本质。例如，在系列幽默剧、肥皂剧和/或戏剧节目的一些示例中，场景可以被表征为拍摄在特别位置发生的某一行为的连续镜头集合。

在观看或浏览视频内容的同时，用户可能期望访问该内容中与场景相关的特别场景或部分。定位视频内容内的场景的一个方法可以包含通过检测在镜头转变处的镜头边界来将个体帧分组到镜头中。可通过检测在接连帧中的差别来定位硬切镜头转变，其中出现的镜头的第一帧紧接着消失的镜头的最后帧。在另一方面，逐步镜头转变通常跨越多个帧，在该多个帧上，消失的镜头逐步转变到出现的镜头。在逐步镜头转变中，时间上相邻的帧可以是消失的镜头和出现的镜头的组合。因此，逐步镜头转变可以包括在接连帧之间的更小和非线性差别，使得精确识别镜头边界更加具有挑战性。

一旦识别了镜头，可以将镜头聚类成场景。使用K平均聚类以将镜头聚类成场景的算法是已知的。然而这些算法一般取决于对期望的聚类的数量的估计。因此，这些方法对于期望聚类的数量的正确估计是高度敏感的。对应算法还是相对复杂和计算起来代价高的。此外，尽管在构成镜头的个体帧之中的相关性可能是相当可靠的，但是在包括场景的镜头之中的相关性可能更加不可预测，并且可取决于摄像机的角度、场景的本质和/或其它因素。相应地，可证明可靠地和反复地识别场景是具有挑战性的。

发明内容

为了解决上述问题，提供一种用于检测视频内容中的场景的场景检测系统和相关方法。在一个示例中，用于检测视频内容中的场景的场景检测系统可包括计算设备，计算设备包括处理器和存储器。由处理器使用存储器的部分来执行场景检测程序。场景检测程序可被配置为识别在视频内容中的多个镜头。场景检测程序可在多个镜头中选择目标镜头。

然后场景检测程序可构建包括目标镜头并且具有时间上在目标镜头之前的第一数量镜头的前向窗、以及具有时间上在目标镜头之后的第二数量镜头的后向窗。对于在前向窗中的每个镜头，场景检测程序可确定在选择的镜头与在后向窗中的其它镜头中的每个镜头之间的差异。如果所确定的差异之一小于场景边界阈值，则场景检测程序可确定该场景未在目标镜头处开始。如果确定的差异都不小于场景边界阈值，则场景检测程序可确定该场景在目标镜头处开始。

提供该发明内容来引入对以简化形式的概念的选择，下文在详细描述中进一步描述该概念。该发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也非旨在用于限制所要求保护的主题的范围。此外，所要求保护的主题不限于解决了在该公开中的任何部分中提到的任何或所有缺点的实施方式。

附图说明

图1是根据本公开的实施例的场景检测系统的示意图。

图2是一系列接连视频帧的示意性图示。

图3是根据本公开的实施例的用于检测硬切镜头转变的方法的流程图。

图4是根据本公开的实施例的用于检测逐步镜头转变的第一种类的方法的流程图。

图5是根据本公开的实施例的用于检测可能通过图4中所示的方法未检测到的逐步镜头转变的第二种类的方法的流程图。

图6是包括目标镜头、镜头的时间上前向窗和镜头的时间上后向窗的一系列接连镜头的示意性图示。

图7是根据本公开的实施例的用于检测场景的方法的流程图。

图8是计算设备的实施例的简化示意性图示。

具体实施方式

图1示出用于检测视频内容中的一个或多个场景的场景检测系统10的一个实施例的示意图。场景检测系统10包括在计算设备22的大容量存储器18中存储的场景检测程序14。场景检测程序14可由计算设备22的处理器30加载到存储器26并且执行，以实施下文更详细描述的方法和进程中的一个或多个。

可将视频内容34存储在大容量存储器18中。在一些示例中，可通过计算设备22从可移除计算机可读存储介质50（在此以DVD的形式示出）接收视频内容34。可移除计算机可读存储介质50可用于存储和/或传递数据，该数据包括但不限于视频内容34、场景检测程序14和其它媒体内容和/或可执行以实施本文描述的方法和进程的指令。可移除计算机可读存储介质50还可采用CD、HD-DVD、蓝光盘、EEPROM和/或软盘等的形式。在其它示例中，可经由网络42从远程源接收和/或可在远程源处访问视频内容34，远程源例如是服务器38。在一些示例中，远程源可采取基于云的服务的形式。

计算设备22可采用桌面计算机、膝上型计算机、平板计算机、移动计算机、联网计算机、游戏控制器、机顶盒（例如有线电视盒、卫星电视盒）或任何其他类型的适当计算设备的形式。下文针对图8更详细描述关于计算设备22的部件和计算方面的附加细节。

计算设备22还可操作性经由网络42连接到一个或多个附加设备（例如服务器38）。网络42可采用局域网（LAN）、广域网（WAN）、有线网络、无线网络、个人区域网或其组合的形式，并且可包括英特网。

现在参考图2，提供来自视频内容34的若干个体帧（i-1）、（i）、（i+1）、（i+2）等的示意图。在该示例中，帧（i-1）是时间上相邻并且在帧（i）之后的帧，帧（i+1）是时间上相邻并且在帧（i）之前的帧，帧（i+2）是时间上相邻并且在帧（i+1）之前的帧等。将认识到，帧（i-1）、（i）、（i+1）、（i+2）等中的每个帧可表示由图像拍摄设备（例如视频摄像机）拍摄的图像，或由计算设备生成的图像。

如上文提到的，镜头可被表征为利用摄像机的共同视角拍摄的连续帧序列。相应地，构成镜头的帧可以是视觉相关的。还将认识到，检测在第一镜头和时间上相邻的第二镜头之间的转变处的镜头边界对于执行较高水平的视频分割（例如场景检测）可以是很有用的。

还如上文提到的，可以利用不同镜头转变技术来从一个镜头转变到另一镜头。镜头转变的一个示例是硬切转变，其中出现的镜头的第一帧紧跟随消失的镜头的最后帧。现在参考图3，提供了用于分析视频内容34中的多个帧中的每个帧以识别一个或多个硬切转变的方法300的实施例。参考上文描述的并且在图1中示出的场景检测系统10的软件和硬件部件来提供方法300的以下描述。将认识到，方法300还可以在使用其它适当硬件和软件部件的其它上下文中执行。

参考图3，在304，方法300可包括计算在视频内容34中的每个帧（i）的颜色直方图。在利用RGB色空间的一个示例中，将帧的红、绿和蓝像素值转换为YCbCr色空间。然后使用箱（bin）数量B来计算每个帧（i）的YCbCr颜色直方图。在一个示例中，箱的数量B可以是16。在其他示例中，箱的数量B可以是4、8、12、20、32、64、128或其它适当的箱数量。在308，方法300可包括通过将每个箱中的值除以正被分析的帧的像素数量来对每个帧直方图进行归一化。

在312，方法300可包括对于视频内容34中的所有帧、计算在第一帧和时间上相邻的第二帧之间的帧直方图相似性H。在一个示例中，在第一帧（i）和时间上相邻帧（i+1）之间的颜色直方图相似性可被如下计算：

其中，是Y值落入箱b中的像素的数量与帧（i）中的像素的总数量的比例。为了确定镜头边界是否存在于帧（i）（即，硬切转变是否存在于帧（i）-1和帧（i）之间，在316，方法300可包括确定以下第一条件是否被满足：

其中T₁是第一直方图相似性阈值。在一个示例中，T₁可以是大约2.85。在其它示例中，T₁可以是2.25、2.45、2.65、3.05、3.25、3.45或其它适当阈值。

如果，则在320，方法300可包括确定视频内容34中的所有帧是否已被检查以识别硬切转变。如果视频内容34中的所有帧已被检查，则方法300可终止。如果视频内容34中的所有帧未被检查以识别硬切转变，则方法300可进入到下一帧比较。

返回316，如果，则在328方法300可包括确定以下第二条件是否被满足：

其中T₂是第二直方图相似性阈值。在一个示例中，T₂可以是大约2.9。在其它示例中，T₂可以是2.3、2.5、2.7、3.1、3.3、3.5或其它适当阈值。

如果，则在320，方法300可包括确定视频内容34中的所有帧是否已被检查以识别硬切转变。如果视频内容34中的所有帧已被检查，则方法300可结束。如果视频内容34中的所有帧未被检查以识别硬切转变，则方法300可进入到下一帧比较。

返回到328，如果，则在332，方法300可确定镜头边界存在于帧（i）处。替代地表述，方法300可使用帧直方图相似性来识别在帧（i）和时间上相邻的帧（i+1）之间的硬切转变。

将认识到，当在帧（i）与时间上相邻的帧（i+1）之间的相似性小于第一直方图相似性阈值T₁时，上述第一条件可识别在帧（i）处的硬切转变。还将认识到，可以利用上述第二条件来排除如下快速摄像机移动情形：该快速摄像机移动情形可引起在时间上相邻的帧（i-1）和（i）之间的大差别并且导致，并且还引起在时间上相邻的帧（i）和（i+1）之间的大差别并且导致。

镜头转变的另一示例是逐步镜头转变，其中以逐步的方式在多个帧上连结和转变两个镜头。逐步镜头转变的示例包括但不限于从一个镜头分解到另一镜头，从一个镜头褪色到另一镜头，以及从一个镜头擦拭到另一镜头。

现在参考图4和5，提供用于识别逐步镜头转变和逐步转变开始帧的方法400和500的实施例。参考上述并且在图1中所示的场景检测系统10的软件和硬件部件来提供方法400和500的以下描述。将认识到，方法400和500还可以在使用其它适当硬件和软件部件的其它上下文中执行。

如下文更详细描述的，在一些实施例中，用于识别逐步镜头转变的方法400和500可利用在如上所述用于识别硬切转变的方法300中计算和利用的同一帧直方图数据。有利地，通过以该方式利用同一帧直方图数据，可以仅计算一次这样的帧直方图数据。相应地，下述用于识别逐步镜头转变的方法400和500可仅添加较少的附加计算复杂性给如本文所述的用于检测视频内容中的场景的系统和方法。

如下文更详细描述的，在一些示例中，方法400可用于识别到黑色的逐步镜头转变（第一种类）。在该种类的转变中，第一镜头的帧转变到黑色，而第一镜头的最后帧之后接着是第二镜头的第一帧。在其它示例中，方法500可用于识别其中第一镜头的最后帧直接转变到第二镜头的第一帧的逐步镜头转变（第二种类）。

将认识到，在一些示例中，第一种类的逐步镜头转变与第二种类的逐步镜头转变相比，可以更容易检测并且可以具有较长的长度。因此在一些示例中，通过与第二种类独立地检测第一种类的逐步转变，方法400和500可实现在检测第二种类的逐步转变中改进的结果，包括逐步转变长度的更好估计。

现在参考图4，现在将描述识别上述第一种类的逐步镜头转变的示例方法400。在404，方法400可包括对于视频中的每个帧（i）（目标帧），确定目标帧（i）的归一化Y分量颜色直方图的第一箱的基数。更特别地，在408并且关于目标帧（i），方法400可包括确定总帧像素中的多于98%的亮度值Y是否在该直方图的第一箱内。将认识到，在该直方图的第一箱中的像素（即具有为零或接近零的亮度值Y）是黑色或接近黑色。这样的确定可由以下表示：

如果，则在412，方法400可设定逐步转变的长度GT_L为GT_L=0。在416，方法400可进入到在目标帧（i）之后的下一帧。在420，方法400可作出下一帧（i+1）的归一化Y分量颜色直方图的第一箱的基数的类似确定。如果，则在424，方法400可设定GT_L为GT_L+1。在416，方法400可进入到下一帧（i+2）并且做出下一帧（i+2）的归一化Y分量颜色直方图的第一箱的基数的类似确定。

方法400可继续经过420、424和416的循环，直到在420，当前帧的归一化Y分量颜色直方图的第一箱的基数≤0.98。在这出现之后，在428，方法400可确定在时间上相邻的之前帧（i-1）和时间上前向帧（i+GT_L+1）之间的帧直方图相似性是否小于假阳性相似性阈值T3。在一个示例中，T3可以是2.9或与第二直方图相似性阈值T2相同的值。该确定可由以下表示：

如果，则在432，方法400可包括确定视频内容中的所有帧是否已被检查。如果视频内容中的所有帧已被检查，则方法400可终止。如果视频内容中的所有帧未被检查，则在436，方法400可进入到下一帧比较。

返回428，如果，则在436，方法400可包括确定目标帧（i）是逐步转变开始帧，并且设置逐步转变的长度为GT_L。在432，然后方法400可包括确定是否视频内容中的所有帧已经被检查。

现在参考图5，现在将描述上述识别第二种类的逐步镜头转变的示例方法500。在502，方法500可包括将计数初始化为0。在504，方法500可包括针对视频中的每个帧（i）（目标帧），计算在目标帧（i）和接连跟随帧之间的直方图帧差别的数量。更特别地，在508并且关于目标帧（i），方法500可包括计算在目标帧（i）和在终止帧（i+X）中终止的X个接连跟随帧中的每个帧之间的帧直方图差别的第一集合，其中X是正整数。在下文讨论的示例中，X=5。将认识到，也可以利用其它整数值的X。在X=5的情况下，帧直方图差别的第一集合可包括：

在512，方法500可包括计算在终止帧（i+X）与目标帧（i）之间以及在终止帧（i+X）与在目标帧和终止帧（i+X）之间的接连跟随帧中的每个帧之间的帧直方图差别的第二集合。在X=5的情况下，帧直方图差别的第二集合可包括：

在一个示例中，为了计算上述帧直方图差别，在两个帧（i）、（j）的颜色直方图之间的欧几里得距离可以如下使用：

在516，方法500可包括确定在第一集合中的帧直方图差别是否向着终止帧（i+5）增大。在一个示例中，该确定可被表达为如下：

在520，方法500可包括确定在第二集合中的帧直方图差别是否向着终止帧（i+5）减小。在一个示例中，该确定可被表达为如下：

在524，方法500可包括确定在目标帧（i）和终止帧（i+5）之间的假阳性帧直方图差别是否大于假阳性差别阈值T₄。在一个示例中，该确定可被表达为如下：

在一个示例中，T₄=0.1。将认识到，还可利用其它适当示例的T₄。

如果在516、520或524的任意确定是NO，则在528，方法500可包括设定计数为0。在532，方法500可接着包括确定视频内容中的所有帧是否已被检查。如果视频内容中的所有帧已被检查，则方法500可终止。如果视频内容中的所有帧还未被检查，则在536方法500可进入到下一帧。

返回到在516、520和524处的确定，如果这些确定全部是YES，则在536，方法500可包括设定计数为相等计数+1。在540，方法500可包括确定计数是否>Y，其中Y是正整数。在该示例中，Y=4。将认识到，也可使用针对Y的其它适当整数值。

如果计数≤4，则在532，方法500可确定是否视频内容中的所有帧已被检查。如果视频内容中的所有帧已被检查，则方法500可终止。如果视频内容中的所有帧还未被检查，则在536，方法500可进入到下一帧。

返回540，如果计数>4，则在544，方法500可包括确定从任意帧（i）、（i+1）、（i+2）、（i+3）、（i+4）和（i+5）中取得的样本帧的模糊值是否大于模糊值阈值T₅。在一些示例中，该确定可用于识别可被误认为逐步转变的某些假阳性（例如移动的摄像机）。将认识到，该确定可检测在边缘帧（i）和（i+5）处的模糊或锐利的量。在一些示例中，移动摄像机序列中的帧具有更锐利的质量，而在逐步转变中的帧包括更大的模糊。还将认识到，可利用与对应模糊技术相关联的任何适当模糊值。

在544处，如果样本帧模糊≤T₅，则方法500可进入到528，设定计数=0并且继续到532。如果样本帧模糊>T₅，则在548，方法500可确定目标帧（i）是逐步转变开始帧。然后方法500可进入到552以确定是否视频内容中的所有帧已被检查。如果视频内容中的所有帧已被检查，则方法500可终止。如果视频内容中的所有帧还未被检查，则在556，方法500可设定计数=0，并且在536，方法可进入到下一帧。

现在参考图6，如上文提到的，场景可被表征为在视频内容34中时间上相邻的镜头的集合。图6示意性图示在目标镜头604的时间上后向和在时间上前向的一系列时间上相邻镜头。更特别地，在该示例中，示出目标镜头604的时间上后向的6个镜头608、610、612、614、616和618。示出在目标镜头604的时间上前向的5个镜头620、622、624、626和628。

现在参考图7，提供用于检测视频内容中的场景的方法700的实施例。参考上述和在图1中示出的场景检测系统10的软件和硬件部件来提供方法700的以下描述。将认识到，方法700还可以在使用其它适当硬件和软件部件的其它上下文中执行。

在704，方法700可包括识别在视频内容34中的多个镜头。为了识别多个镜头并且如上所述，方法700可包括分析视频内容34中的多个帧的每个帧以识别多个镜头。在一个示例中，方法700可包括通过如上所述参考方法300识别在第一帧和第二之间的硬切转变来识别镜头边界。如上文关于方法400描述的，方法700还可包括识别在多个帧中的一个或多个逐步转变开始帧，指示逐步转变镜头边界的开始。还将认识到，方法700可利用其它方法和技术以便识别多个镜头，识别硬切转变和/或识别逐步镜头转变。

在708，方法700可包括针对视频内容34中的每个镜头来计算颜色镜头直方图。在一个示例中，每个镜头的颜色镜头直方图可被计算如下：

其中i是镜头x的第一帧，并且L是镜头X中的帧的数量。替代地，镜头中的一个代表帧的帧直方图可以被用作该镜头的颜色直方图。在一个示例中，视频内容34中的每个帧的个体帧直方图可已经在经由如上所述的识别硬切转变和/或逐步镜头转变来识别多个镜头中被计算。有益地，可以利用同一帧直方图来计算镜头直方图。相应地，通过使用该预先计算的帧直方图数据，用于检测视频内容中的场景的方法700可利用最小附加计算资源。

在712，方法700可包括选择在多个镜头中的目标镜头。在714，方法700可确定目标镜头是否包括逐步转变开始帧。如果目标镜头不包括逐步转变开始帧，则在716，方法700可包括以目标镜头开始的、构建包括目标镜头并且包含在时间上在目标镜头之前的第一数量A的跟随镜头的前向窗，以及构建包含在时间上在目标镜头之后的第二数量B的之前镜头的后向窗。参考图6和目标镜头604，在一个示例中，前向窗634可包含包括目标镜头604和5个跟随镜头620、622、624、626和628（A=5）的总共6个镜头。后向窗638还可包含总共6个之前镜头608、610、612、614、616和618（B=6）。

将认识到，在其它示例中，前向窗和后向窗可具有不同数量的镜头，例如5、6、7、8、10或其它适当数量的镜头。附加地，在前向窗中的镜头的总数量可以不同于在后向窗中的镜头的总数量。

还将认识到，可以将在前向和后向窗中的镜头的数量选择为足够大以拍摄限定两个分离场景的一个场景边界。还可将在前向和后向窗中的镜头的数量选择为足够小以避免拍摄限定三个分离场景的两个场景边界。在一些示例中，可利用视频内容34的类型的因素和/或特性来选择在前向和后向窗中镜头的数量。例如，包括电视肥皂剧节目的视频内容可以利用与包括电视情境喜剧节目的视频内容不同的前向和后向窗中的镜头数量。

在720，方法700可包括，针对前向窗中的每个镜头，确定选择的镜头和在后向窗中其它镜头中的每个镜头之间的差异D_x,y。例如并且参考图6，选择的镜头可以是在前向窗中的镜头620。可以将镜头620与后向窗中的其它6个镜头进行比较。每个这样的比较可得出在镜头620与处于比较中的其它镜头之间的差异D_x,y。接着，可将镜头622与后向窗中的其它6个镜头进行比较，并且依次类推，直到已将前向窗中的6个镜头中的每个镜头与后向窗中的6个镜头中的每个镜头相比较为止。

在一个示例中，在724，方法700可包括通过计算在选择的镜头和其它镜头中的每个镜头的镜头直方图之间的欧几里得距离来确定在前向窗中选择的镜头与在后向窗中的其它镜头中的每个镜头之间的差异D_x,y。在两个镜头x和y的镜头直方图之间的欧几里得距离可被计算如下：

其中B是直方图的箱的数量。

在728，方法700可包括确定所确定的任意差异D_x,y是否小于场景边界阈值T₄。在一些示例中，T₄可以近似为1、1.1、1.2、1.3或1.75。将认识到，还可利用其它适当的T₄值。

如果确定的差异D_x,y中的一个或多个小于场景边界阈值T₄，则在732，方法700可包括确定没有新的场景在目标镜头620处开始。在736，方法700可随后确定是否视频内容34中的所有镜头已经被检查。如果视频内容34中的所有镜头已经被检查，则方法700可终止。如果视频内容34中的所有镜头还没被检查，则在738，方法700可进入到下一目标镜头比较。

返回到728，如果确定的差异D_x,y都不小于场景边界阈值T₄，则在740，方法700可包括确定新的场景在目标镜头620处开始。在一个示例中，方法700可随后将元数据插入视频内容中，指示新的场景在目标镜头620处开始。

在736，方法700可随后确定视频内容34中的所有镜头是否已被检查。如果视频内容34中的所有镜头已被检查，则方法700可终止。如果视频内容34中的所有镜头还未被检查，则方法700可进入到下一目标镜头比较。以该方式，方法700可检查视频内容34中的所有镜头并且有效地在一个或多个目标镜头处确定一个或多个场景边界，其中新的场景在每个场景边界处开始。

返回到714，如果目标镜头包括逐步转变开始帧，则在740，方法700可包括确定新的场景在目标镜头620处开始。在一个示例中，方法700可然后将元数据插入视频内容中，指示新的场景在目标镜头620处开始。方法700可然后进入到736以确定视频内容34中的所有镜头是否已被检查，并且如上述那样继续。

在一些实施例中，上述方法和进程可依赖于一个或多个计算设备的计算系统。特别地，这样的方法和进程可以被实施为计算机应用程序或服务、应用编程接口（API）、库和/或其它计算机程序产品。

图8示意性示出可执行上述方法和进程中的一个或多个的计算设备800的非限制实施例。计算设备800以简化形式示出。应当理解的是，在不背离本公开的范围的情况下实质上可使用任何计算机架构。在不同实施例中，计算设备800可采用主机计算机、服务器计算机、桌面计算机、膝上型计算机、平板计算机、家庭娱乐计算机、游戏控制器、机顶盒（例如有线电视盒、卫星电视盒）、网络计算设备、移动计算设备、移动通信设备等的形式。

如图8中所示，计算设备800包括逻辑子系统804、数据保存子系统808、显示子系统812、和通信子系统816。计算设备800可可选地包括图8中未示出的其它子系统和部件。计算设备800还可可选地包括其它用户输入设备，例如键盘、鼠标、游戏控制器、和/或触摸屏。此外，在一些实施例中，本文描述的方法和进程可被实施为计算机应用、计算机服务、计算机API、计算机库、和/或在包括一个或多个计算机的计算系统中的其它计算机程序产品。

逻辑子系统804可包括被配置为执行一个或多个指令的一个或多个物理设备。例如，逻辑子系统可被配置为执行作为一个或多个应用、服务、程序、例程、库、对象、部件、数据结构或其它逻辑结构的部分的一个或多个指令。这样的指令可被实施以执行任务，实施数据类型，转换一个或多个设备的状态，或以其他方式达到期望结果。

逻辑子系统804可包括被配置为执行软件指令的一个或多个处理器。附加地或替代地，逻辑子系统可包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑机器。逻辑子系统的处理器可以是单核或多核，并且其上执行的程序可被配置用于并行或分布式处理。逻辑子系统可以可选地包括遍及两个或更多个设备分布的个体部件，该两个或更多个设备可以是远程定位和/或被配置用于协同处理。逻辑子系统的一个或多个方面可以通过以云计算配置来配置的远程可访问的联网计算设备来虚拟化和执行。

数据保存子系统808可包括被配置为保存可由逻辑子系统804执行以实施本文描述的方法和进程的数据和/或指令的一个或多个物理、永久设备。当这样的方法和进程被实施时，可转换数据保存子系统808的状态（例如以保存不同数据）。数据保存子系统808可被配置为保存例如视频内容34。

数据保存子系统808可包括可移除介质和/或内置设备。数据保存子系统808特别可包括光学存储器设备（例如CD、DVD、HD-DVD、蓝光盘等）、半导体存储器设备（例如RAM、EPROM、EEPROM等）和/或磁存储器设备（例如硬盘驱动器、软盘驱动器、带驱动器、MRAM等）等等。数据保存子系统808可包括具有一个或多个以下特性的设备：易失、非易失、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址、和内容可寻址。在一些实施例中，逻辑子系统804和数据保存子系统808可被集成在一个或多个公共设备中，公共设备例如专用集成电路或芯片上的系统。

图8还示出以可移除计算机可读存储介质820的形式的数据保存子系统808的方面，可移除计算机可读存储介质820可用于存储和/或传输可被执行以实施本文描述的方法和进程的数据和/或指令。可移除计算机可读存储介质820可特别采用CD、DVD、HD-DVD、蓝光盘、EEPROM和/或软盘等的形式。

应当认识到，数据保存子系统808包括一个或多个物理、永久设备。与此相反，在一些实施例中，本文描述的指令的方面可以通过未由物理设备保存至少有限持续时间的纯信号（例如电磁信号、光信号等）以短暂的方式传播。此外，可通过纯信号传播属于本公开的数据和/或信息的其它形式。

显示子系统812可用于呈现通过数据保存子系统808保存的数据的视觉表现。随着上述方法和进程改变由数据保存子系统808保存的数据，并且因此转换数据保存子系统的状态，显示子系统812的状态可同样被转换以视觉地表现在底层数据中的改变。例如，随着上述方法和进程识别在视频内容34中的场景边界，显示子系统812可在视频内容的视觉表现中视觉地描绘这样的场景边界。例如，显示子系统812可在浏览器条面板中描绘来自每个场景的代表帧，其中用户可通过选择对应帧来导航到特定场景。显示子系统812可包括实质上利用任何类型的技术的一个或多个显示设备。可以在共享的外壳中将这样的显示设备与逻辑子系统804和/或数据保存子系统808组合，或这样的显示设备可以是外围显示设备。

通信子系统816可以被配置为通信地将计算设备800与一个或多个网络（例如网络42）和/或一个或多个其它计算设备耦合。通信子系统816可包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制示例，通信子系统816可被配置为经由无线电话网络、无线局域网络、有线局域网络、无线广域网络、有线广域网络等进行通信。在一些实施例中，通信子系统可允许计算设备800经由网络（例如英特网）发送消息到其它设备和/或从其他设备接收消息。

还将认识到，在一些示例中计算设备800可工作在基于云的服务中，该服务将视频内容传递到客户端显示设备。在这些示例中，发送到客户端显示设备的视频内容还可包括标示使用上述系统和方法检测到的一个或多个场景的场景标记。

可以以计算上有效的方式使用上述系统和方法以精确识别视频内容中的场景，由此解决在背景技术中标识的无效率。作为结果，视频内容的观看者可以被提供有在浏览该内容并且定位该内容的期望部分时的快乐的用户体验。

术语“程序”可用于描述被实施以执行一个或多个特别功能的场景检测系统10的方面。在一些情况下，这样的程序可以经由执行由数据保存子系统808保存的指令的逻辑子系统804来实例化。应当理解的是，可以从同一应用、服务、代码块、对象、库、例程、API、函数等实例化不同程序。同样，可以通过不同应用、服务、代码块、对象、例程、API、函数等来实例化同一程序。术语“程序”意图包含可执行文件、数据文件、库、驱动、脚本、数据库记录等中的个体或组。

应当理解的是，本文描述的配置和/或方式本质上是示例性的，并且这些具体实施例或实例不应被以限制的方式考虑，因为多个变型是可能的。本文描述的具体例程或方法可表示任何数量的处理策略中的一个或多个。因此，图示的各个行为可以以图示的序列、以其他序列、并行执行或在其他情况下被省略。同样，可以改变上述进程的顺序。

本公开的主题包括本文公开的各个进程、系统和配置和其它特征、功能、行为和/或属性以及其任何和所有等同形式的所有新颖和非显然组合和子组合。

Claims

1. 一种用于检测视频内容中的场景的方法，包括：

识别所述视频内容中的多个镜头；

在所述多个镜头中选择目标镜头；

构建包括所述目标镜头并且具有在时间上在所述目标镜头之前的第一数量的所述多个镜头的前向窗；

构建具有在时间上在所述目标镜头之后的第二数量的所述多个镜头的后向窗；

对于所述前向窗中的每个镜头，确定在所选择的镜头与在所述后向窗中的其它镜头中的每个镜头之间的差异；

如果所确定的差异中的一个或多个小于场景边界阈值，则确定所述场景未在所述目标镜头处开始；以及

如果所确定的差异都不小于所述场景边界阈值，则确定所述场景在所述目标镜头处开始。

2. 根据权利要求1所述的方法，其中识别多个镜头包括识别在所述视频内容的多个帧中的一个或多个帧中的逐步转变开始帧，并且包括：

如果所述目标镜头包括所述逐步转变开始帧，则确定所述场景在所述目标镜头处开始。

3. 根据权利要求2所述的方法，其中识别逐步转变开始帧还包括：

对于在所述多个帧中的目标帧（i），确定所述目标帧的Y分量颜色直方图的第一箱的基数；

如果所述第一箱的基数>0.98，则：

　确定在时间上相邻并且在所述目标帧（i）之前的跟随帧的数量GT_L，其中所述跟随帧中的每个帧具有第一箱基数>0.98的Y分量颜色直方图；以及

　如果在时间上相邻的之前帧（i-1）和在时间上前向帧（i+GT_L+1）之间的帧直方图相似性小于假阳性相似性阈值，则确定所述目标帧（i）是所述逐步转变开始帧并且设定逐步转变的长度为GT_L。

4. 根据权利要求2所述的方法，其中识别逐步转变开始帧进一步包括：

对于所述多个帧中的目标帧（i）：

　计算在所述目标帧（i）与在终止帧（i+X）中终止的X个接连跟随帧中的每个帧之间的帧直方图差别的第一集合，其中X是正整数；

　计算在所述终止帧（i+X）与所述目标帧（i）之间、以及在所述终止帧（i+X）与在所述目标帧和所述终止帧（i+X）之间的所述接连跟随帧中的每个帧之间的帧直方图差别的第二集合；

　如果：

　（a）所述第一集合中的所述帧直方图差别向着所述终止帧（i+X）增大，以及

　（b）所述第二集合中的所述帧直方图差别向着所述终止帧（i+X）减小，以及

　（c）在所述目标帧（i）和所述终止帧（i+X）之间的假阳性帧直方图差别大于假阳性差别阈值，以及

　（a）、（b）和（c）对于所述接连跟随帧的Y是真，其中Y是正整数，则

　确定所述目标帧（i）是所述逐步转变开始帧。

5. 根据权利要求1所述的方法，还包括

计算在所述视频内容中的多个帧中的每个帧（i）的帧直方图；

使用所述帧直方图来识别在所述多个帧中的第一帧和时间上相邻的第二帧（i）之间的硬切转变；

使用所述帧直方图来识别在所述多个帧中的逐步转变开始帧（i）；

使用所述帧直方图来计算在所述视频内容中的每个镜头的镜头直方图；以及

使用所述镜头直方图来确定所述场景在所述目标镜头处开始。

6. 一种用于检测视频内容中的场景的场景检测方法，包括：

包括处理器和存储器的计算设备；

通过所述处理器使用所述存储器的部分来执行的场景检测程序，所述场景检测程序被配置为：

　识别所述视频内容中的多个镜头；

　在所述多个镜头中选择目标镜头；

　构建包括所述目标镜头并且具有在时间上在所述目标镜头之前的第一数量的镜头的前向窗；

　构建具有在时间上在所述目标镜头之后的第二数量的镜头的后向窗；

7. 根据权利要求6所述的系统，其中所述场景检测程序进一步被配置为：

识别在所述视频内容中多个帧中的一个或多个帧中的逐步转变开始帧（i），以及

8. 根据权利要求7所述的系统，其中所述场景检测程序进一步被配置为：

如果所述第一箱的基数>0.98，则：

　如果在时间上相邻的之前帧（i-1）和在时间上的前向帧（i+GT_L+1）之间的帧直方图相似性小于假阳性相似性阈值，则确定所述目标帧（i）是所述逐步转变开始帧并且设定逐步转变的长度为GT_L。

9. 根据权利要求7所述的系统，其中所述场景检测程序进一步被配置为：

对于所述多个帧中的目标帧（i）：

　如果：

　确定所述目标帧（i）是所述逐步转变开始帧。

10. 根据权利要求9所述的系统，其中所述场景检测程序进一步被配置为：

从所述目标帧（i）和所述X个接连跟随帧之中选择样本帧；以及

如果所述样本帧的模糊值大于模糊值阈值，则确定所述目标帧（i）是所述逐步转变开始帧。