CN101310327A - 乐曲区间检测方法及其装置、及数据记录方法及其装置 - Google Patents

乐曲区间检测方法及其装置、及数据记录方法及其装置 Download PDF

Info

Publication number
CN101310327A
CN101310327A CNA2006800430357A CN200680043035A CN101310327A CN 101310327 A CN101310327 A CN 101310327A CN A2006800430357 A CNA2006800430357 A CN A2006800430357A CN 200680043035 A CN200680043035 A CN 200680043035A CN 101310327 A CN101310327 A CN 101310327A
Authority
CN
China
Prior art keywords
melody
interval
candidate regions
benchmark
detects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006800430357A
Other languages
English (en)
Other versions
CN101310327B (zh
Inventor
大塚功
杉之原英嗣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN101310327A publication Critical patent/CN101310327A/zh
Application granted granted Critical
Publication of CN101310327B publication Critical patent/CN101310327B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/781Television signal recording using magnetic recording on disks or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/84Television signal recording using optical recording
    • H04N5/85Television signal recording using optical recording on discs or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals

Abstract

本发明提供一种从电视播放中高效检测乐曲场景的方法。本发明的乐曲区间检测方法具备以下步骤:输入包含声音信号和图像信号的数据的数据输入步骤;根据各个不同的基准,从所述声音信号中检测乐曲候选区间的多个乐曲候选区间检测步骤;和根据所述检测出的多个乐曲候选区间,来检测乐曲区间的乐曲区间检测步骤。由此,可对摇滚、民间流行歌曲、古典音乐等曲调不同的宽范围的乐曲确保较高的检测精度。

Description

乐曲区间检测方法及其装置、及数据记录方法及其装置
技术领域
本发明涉及从电视播放等数据中检测乐曲区间的方法及装置、以及将包含利用该方法检测出的乐曲区间在内的数据记录在包括DVD-R或DVD-RW等的记录型DVD盘、硬盘驱动器或蓝光光盘(Blu-ray Disc)等记录介质中的记录方法及装置。
背景技术
作为电视播放的一种,存在被称为所谓「歌曲节目」或「音乐节目」的类型。音乐节目大多由演出者进行的演奏或歌唱、或者基于视频图像的乐曲图像(下面记述为「乐曲场景」。另外,在本说明书中,所谓「乐曲场景」普遍指将歌曲或演奏等的音乐包含在声音中的图像。)、和主持人等进行的乐曲介绍或与演出者的谈话(会话)节目等乐曲以外的图像(下面记述为「非乐曲场景」。)构成。
并且,如果是私营播放,则有时也在节目结构中包含用于节目广告商的宣传或广播电视台自身的广告宣传的广告播放(下面记述为「CM播放」。并且,将CM(广告)播放的区间记述为「CM播放区间」。)。
可是,在对录制的音乐节目进行再现时,对于想专心致意于乐曲的视听者而言,期望高效地跳过非乐曲场景或CM播放等乐曲场景以外的部分。并且,相反,对于对乐曲没有兴趣的视听者,期望跳过乐曲场景或CM播放,仅视听谈话节目等非乐曲场景。
对于这种期望,在现有的乐曲检测方法及记录方法中,利用声音信息频谱的峰值相对频率方向在时间上稳定的特征来确定乐曲场景,仅存储乐曲的图像声音(例如,参照专利文献1)。
专利文献1:日本特开平11-266435号公报(第5页,图1)
可是,在专利文献1所述的乐曲检测方法中,由于利用单一的方法来判定乐曲场景的检测,所以对于摇滚或民间流行歌曲、古典音乐等曲调不同的全部乐曲,难以同样地确保检测精度。
发明内容
本发明为了解决上述问题而作出,提供一种从包含电视播放等的图像信号及声音信号的数据中高效地检测乐曲场景的方法及装置。
本发明的乐曲区间检测方法具备以下步骤:
数据输入步骤,输入包含声音信号和图像信号的数据;
多个乐曲候选区间检测步骤,根据各个不同的基准,从所述声音信号中检测所述输入数据的乐曲候选区间;以及
乐曲区间检测步骤,根据所述检测出的多个乐曲候选区间,来检测乐曲区间。
发明的效果
根据本发明的乐曲区间检测方法,由于根据各个不同的多个基准,对声音信号进行乐曲候选区间检测,且从该检测出的多个乐曲候选区间中检测乐曲区间,所以可对摇滚或民间流行音乐、古典音乐等曲调不同的宽范围的乐曲确保较高的检测精度。
附图说明
图1是表示实施方式1的图像声音记录装置的系统框图。
图2是表示实施方式1的乐曲区间的检测、记录方法的流程图。
图3是表示实施方式1的第一乐曲候选检测部的框图。
图4是表示实施方式1的第二乐曲候选检测部的框图。
图5是表示实施方式1的校正处理的图。
图6是表示实施方式1的乐曲区间的检测处理的图。
图7是实施方式1的图像声音记录装置的文件构成图。
图8是实施方式1的元数据(metadata)结构图。
图9是表示实施方式2的乐曲区间的检测处理的图。
图10是表示实施方式3的图像声音记录装置的系统框图。
图11是表示实施方式3的乐曲区间的检测、记录方法的流程图。
图12是表示实施方式3的CM播放区间的检测处理的图。
标号说明
1、存储介质  2、写入驱动器  3、图像信号  4、声音信号  5、视频编码器  6、A/D转换器  7、音频编码器  8、多路复用器  9、写入缓冲存储器  10、第一乐曲候选检测部  11、第二乐曲候选检测部  12、第一校正部  13、第二校正部  14、乐曲检测部  15、元数据生成部  16、记录控制部  20、正交变换处理部  21、似然比较处理部  22、模型数据  30、差分运算处理部  40、时间经过(横轴)41、差异量(纵轴)  42、差异量  43、阈值  44、标签(label)轴  45、标签  46a、46b、46c、乐曲候选区间  47、校正处理后的标签  48、校正处理后的乐曲候选区间  50、校正处理后的标签  51a、51b、51c、校正处理后的乐曲候选区间  52、校正处理后的标签  53a、53b、53c、53d、校正处理后的乐曲候选区间  54、检测处理后的标签  55a、55b、55c、55d、乐曲区间  60、检测处理后的标签  61a、61b、61c、乐曲区间  70、CM检测部  71、乐曲检测部  80、检测处理后的标签  81a、81b、乐曲区间  82、CM标签  83a、CM播放区间  84、CM校正处理后的标签  85a、85b、乐曲区间  86、标签轴  90、根目录  91、多媒体目录  92、元数据目录  93、信息管理文件94、多媒体数据文件  95、备份文件  96、元数据文件  100、图像声音记录装置  130、元数据  131a、元数据管理信息  131b、节目元数据信息搜索指针  131c、节目元数据信息  132a、元数据一般信息132b、乐曲地图信息  133a、乐曲地图一般信息  133b、乐曲入口134a、乐曲开始时刻信息  134b、乐曲结束时刻信息  400、差异量曲线  405、标签曲线  407、校正处理后的标签曲线  500、校正处理后的标签曲线  502、校正处理后的标签曲线  504、检测处理后的标签曲线  600、检测处理后的标签曲线  700、图像声音记录装置。
具体实施方式
实施方式1
下面,用图来说明本实施方式1的乐曲检测方法及检测装置、以及记录方法及记录装置。本实施方式1的乐曲检测方法的特征在于,根据各个不同的多个基准,对声音信号进行乐曲候选区间检测,且从该检测出的多个乐曲候选区间中检测乐曲区间。
另外,在本说明书中,在记录乐曲场景时,设以记录开始为基点、由成为乐曲场景的开始时刻的时间位置信息和成为乐曲场景的结束时刻的时间位置信息所确定的区间为「乐曲区间」。
这里,说明对记录在存储介质中的图像声音进行再现控制的方法。通常,在执行上述这样的再现控制时,广泛使用以90kHz计数时间位置信息的呈现时间(PTM,presentation time)。即,是为了确定乐曲区间,将开始时刻和结束时刻的PTM参照为时间位置信息的方法。可是,除此之外,还存在如下等方法,即,在以录制时间轴上1秒钟等的固定时间离散化图像声音时,进行将作为乐曲场景的区间设为High(1)、将作为非乐曲场景的区间设为Low(0)等的二值化,并检索为High的区间。在本说明书中,将这些用于确定乐曲区间的开始点和结束点的信息称为「乐曲信息」。
图1是表示本实施方式1的图像声音记录装置的系统框图。并且,图2是表示本实施方式1的乐曲区间的检测、记录方法的流程图。首先,利用图1及图2来概述本实施方式1的图像声音记录装置。在图像声音记录装置100中,输入成为进行记录的对象的电视播放等的图像信号3和声音信号4(ST1)。接着,图像信号3在视频编码器5中按照MPEG-2方式等进行编码压缩,成为图像数据。
另一方面,在声音信号4是模拟信号时,利用模数转换器(A/D转换器)6每隔固定时间对声音波形进行采样,并通过数据化振幅的PCM(PulseCode Modulation,脉冲编码调制)方式等转换成数字信号(ST2)。之后,在音频编码器7中,根据杜比(Dolby)-AC-3方式等进行编码压缩,成为声音数据。
在多路复用器8中,对图像数据和声音数据进行复用,生成多媒体数据。之后,在由写入缓冲存储器9依次取入多媒体数据后发送至写入驱动器2,记录在DVD-R、DVD-RW盘或者记录型蓝光光盘(Blu-ray Disc)等可移动的存储介质1中(一系列的处理也称为「录制」)。图像声音记录装置100及写入驱动器2的动作通过由微处理器等构成的记录控制部16统一管理控制。另外,存储介质1和写入驱动器2也可置换成硬盘驱动器(HDD)等非可移动的存储介质。
下面,说明作为本实施方式1的图像声音记录装置之特征构成要素的多个乐曲候选检测部。在第一乐曲候选检测部10中,分析从A/D转换器6输出的PCM方式的数字信号,检测乐曲候选区间(ST3、4)。根据需要,由第一校正部12对由第一乐曲候选检测部10检测出的乐曲候选区间的检测误差进行校正(ST6)。并且,即便是具有与第一乐曲候选检测部10不同的基准的第二乐曲候选检测部11,也与第一乐曲候选检测部10同样地检测乐曲候选区间(ST3、5),根据需要由第二校正部13校正检测误差(ST6)。
由第一乐曲候选检测部10和第一校正部12检测/校正后的乐曲候选区间和由第二乐曲候选检测部11和第二校正部13检测/校正后的乐曲候选区间在乐曲检测部14中进行合并或取舍选择的判断,来检测乐曲区间(ST7)。检测出的乐曲区间由元数据生成部15生成为元数据文件,经写入缓冲存储器9记录在存储介质1中(ST8)。另外,元数据生成部15具有保持逐次算出确定的乐曲区间的乐曲信息的存储功能。
另外,作为图像声音记录装置100的记录部的概念,可以仅包含写入驱动器2,也可以包含多路复用器8、元数据生成部15、写入缓冲存储器9、及记录控制部16。
并且,这里记载了检测乐曲候选区间的乐曲候选检测部10、11为2个的情况,但也可以是具有更多的乐曲候选检测部的结构。并且,记载了在校正部12、13分别对乐曲候选检测部10、11各自单独进行校正之后,将校正后的乐曲候选区间输出至乐曲检测部14的结构,但也可为不进行单独的校正,而由一个校正部进行校正之后,将校正后的乐曲候选区间输出至乐曲检测部14的结构。另外,也可为对由乐曲检测部14检测出的乐曲区间进行校正的结构。
图3是详细记述了本实施方式1的第一乐曲候选检测部10的功能框图。第一乐曲候选检测部10由正交变换处理部20和似然比较处理部21、及作为参照用数据表的模型数据22构成。如图所示,由A/D转换器6转换后的数字信号的正交变换系数由正交变换处理部20算出,且在似然比较处理部21参照模型数据22分配标签之后,输出至第一校正部12。
并且,描述第一乐曲候选检测部10执行的乐曲候选区间检测的具体情况。在声音信号4是立体声信号时,A/D转换器6分别得到右声道和左声道的PCM数据。该立体声信号如果是民用录音机设备,则使用采样频率为48kHz、量化位数为16位等的品质。
接着,在正交变换处理部20中,将时域的PCM数据正交变换为频域(ST3)。在正交变换中,对使用在时间上50%重复PCM数据的MDCT(变形离散余弦转换)的示例进行描述。由于进行50%重叠,所以若采样512个PCM数据,则就右声道和左声道各自而言,分别得到256个正交变换系数(MDCT系数)。根据关于立体声信号的一方声道(例如左声道)、或者单声道信号的1个声道的正交变换系数,可以得到256维的系数矢量。系数矢量以减少计算量为目的,可通过投影转换来实现维数的降低。
另外,在对所输入的声音信号进行分析之前,预先收集在主观评价中被明显判断为乐曲场景的声音的系数矢量作为训练数据,使用混合高斯分布模型(GMM法),对系数矢量的分布倾向进行模型化。将根据乐曲场景生成的模型称为「音乐种类模型」。之外,关于明显的观众的欢声或声援、鼓掌、笑声、演出者的谈话节目等非乐曲场景,也同样地收集训练数据生成混合高斯分布模型,准备多个声音种类模型。
模型数据22成为这些声音种类模型可参照的数据表。在似然比较处理部21中,参照模型数据22,将正在进行记录的声音信号的正交变换系数矢量作为矢量空间,搜索似然最高的声音种类,将该声音的种类作为该区间的标签来分配(ST4)。
即,当存在与音乐种类模型的频率特性的似然高的声音输入时,可对其分配表示乐曲的标签,检测为该区间是乐曲场景。另外,如果是参照预先准备的模型来确定输入信号的声音种类的方法,则也可以不是基于混合高斯分布模型的似然比较,使用隐马尔科夫法(HM(HiddenMarkov Model)法)等统计方法也无妨。
根据基于混合高斯分布模型的似然比较来分配表示乐曲的标签的方法的优点在于,可以不受立体声播放或单声道播放等的声道数的影响高准确度地仅检测出乐曲场景。另一方面,缺点在于检测乐曲场景和非乐曲场景的交界的精度稍含糊。并且,利用训练数据的收集方法,存在产生摇滚、民间流行歌曲或古典音乐等因曲调或乐器构成而引起的擅长、不擅长的情况。
下面,说明第二乐曲候选检测部11。图4是详细记述了本实施方式1的第二乐曲候选检测部11的功能框图。第二乐曲候选检测部11由正交变换处理部20和差分运算处理部30构成。如图所示,由A/D转换器6转换后的数字信号的正交变换系数通过正交变换处理部20算出,且在由差分运算处理部30算出正交变换系数的差异量之后,输出至第二校正部13。
并且,描述第二乐曲候选检测部11执行的乐曲候选区间检测的具体内容。从声音信号4经正交变换处理部20得到256个正交变换系数(MDCT系数)为止的过程(ST3)与第一检测部10中所述内容相同,在此省略。
设正交变换系数为(1×256)矩阵,若设第n行的右声道的正交变换系数为Mr(n),左声道的正交变换系数为Ml(n),则在差分运算处理部30中算出两声道的正交变换系数矩阵的差,利用下式得到作为系数平方和的差异量。
D = Σ n = 1 256 ( M l ( n ) - M r ( n ) ) 2 (式1)
通过继续执行该处理,可把握进行记录的节目的差异量D的变化(ST5)。另外,差异量D设为基于正交系数矩阵的差的系数平方和,但只要是对右声道和左声道之间的差异进行数值化的方法,使用其他算式也无妨。
这里,差异量表示右声道与左声道的差异,也表达为声音的宽阔感、立体声感等。通常,可知在乐曲场景中声音的宽阔感强,而在基于演出者的谈话场景等非乐曲场景中声音的宽阔感弱。即,可检测为差异量超过规定值(阈值)的区间是乐曲场景。
通常,由于在乐曲场景和非乐曲场景的交界处差异量变动大,所以检测左右声道的正交系数矩阵的差异量的方法的优点在于,可以高精度地检测乐曲区间的开始时刻及结束时刻。另一方面,其缺点在于,在音乐会或实况会场等声音的宽阔感始终较高的节目中,即便非乐曲场景也检测出高的差异量,或者在单声道播放中差异量无法检测等。并且,存在产生摇滚、民间流行歌曲或古典音乐等因曲调或乐器构成等而引起的擅长、不擅长的情况。
图5是表示本实施方式1的校正处理(在图2中,相当于ST6的「滤波器」)的过程的图。在该图中,(1)是标绘了由第二乐曲候选检测部11算出的差异量42的曲线图400,横轴是所记录的节目的时间经过40,纵轴41是差异量。
在第二校正部13中,以规定的阈值43对差异量42进行二值化,对超过阈值43的区间附以表示乐曲的标签,低于阈值43的区间附以表示非乐曲的标签。在该图中,(2)是标绘了二值化的标签45的曲线图402,利用标签轴44将添加了表示乐曲的标签的区间表示为High,将添加了表示非乐曲场景的标签的区间表示为Low。并且,该图(3)是标绘了通过对标签45进行校正处理而得到的校正后的标签47的曲线图407。
这里,用图5说明第二校正部13对由第二乐曲候选检测部11算出的差异量进行的校正处理的具体情况。若以阈值43对作为一例的差异量42进行二值化,则如标签45那样,检测出3个乐曲候选区间46a、46b、46c。
而且,接着,根据需要对通过二值化得到的标签45进行如下3条校正处理。
(a)如果乐曲候选区间为规定时间T1(例如5秒)以下,则添加标签为乐曲的区间将标签变更为非乐曲(Low)。
(b)如果连续的乐曲候选区间的间隔在规定时间T2(例如5秒)以内,则添加标签为非乐曲的间隔将标签变更为乐曲(High)。
(c)在进行上述(a)、(b)的标签变更之后,设添加标签为乐曲的区间超过规定时间T3(例如60秒)的区间为校正后的乐曲候选区间。另外,(a)和(b)的任一方亦可。
使用图5(2)进行说明,由于间隔A不满足规定时间T,所以乐曲候选区间46c通过校正处理(a)变为非乐曲区间,乐曲候选区间46a和46b之间的间隔B由于比规定时间T2短,所以通过校正处理(b)变为一个乐曲候选区间。其结果,由于得到的乐曲候选区间的间隔C超过规定时间T3,所以通过该校正处理得到乐曲区间48。
并且,同样地用图5来说明第一校正部12对由第一乐曲候选检测部10算出的标签执行的校正处理。在第一乐曲候选检测部10中,由于本来既以二值算出表示乐曲的标签和表示非乐曲的标签,所以原样成为图5(2)的标签45的标绘图。对于作为一例示出的标签45,由于检测出3个乐曲候选区间46a、46b、46c,所以与第二校正部13相同,根据需要实施校正处理(a)、(b)、(c),得到乐曲候选区间48。
这样,通过在各个校正部中实施校正处理,可校正以下区间等:即,演出者的谈话节目中的效果音等非乐曲场景中被瞬间误检测为乐曲场景的区间,或者尽管是作为正在进行演奏中演出的全休止等乐曲场景,但也被部分误检测为非乐曲场景的区间等。并且,通常通过设超过规定时间检测出乐曲的区间为乐曲候选区间,还可去除谈话节目中短时间的背景音乐(BGM)或用于宣传的乐曲的精练部分的推销新曲用录像介绍、或者节目的序幕或结束曲等不适于处理为乐曲场景的场景,其中,该规定时间相当于乐曲的一个合唱曲的60秒等。
下面,说明图1的乐曲检测部14中的处理(ST7)。图6是表示本实施方式1的乐曲检测部14执行的乐曲区间检测处理的过程的图。在该图中,(1)是标绘了由第一校正部12对由第一乐曲候选检测部10算出的标签实施校正处理得到的标签50的曲线图500。并且,同样地,该图(2)是标绘了由第二校正部13对由第二乐曲候选检测部11算出的差异量实施校正处理得到的标签52的曲线图502。该图(3)是标绘了根据标签50和标签51进行检测处理后的标签54的曲线图504。曲线图500、502、504都在标签轴44上将添加了表示乐曲的标签的区间表示为High,将添加了表示非乐曲场景的标签的区间表示为Low。
并且,用图6说明乐曲检测部14的乐曲区间的检测处理。作为一例,如图所示,设为检测出示于标签50中的乐曲候选区间51a、51b、51c和示于标签52中的乐曲候选区间53a、53b、53c、53d。在本实施方式1的乐曲检测部14中,利用逻辑“或”(逻辑和)处理双方的乐曲候选区间,检测乐曲区间。下面,使用图6具体地进行说明。
在根据一部分时刻被重复检测的乐曲候选区间51a和53a检测乐曲区间时,如果开始时刻A1和B1相同,则检测后的乐曲区间55a的开始时刻确定为C1。接着,由于结束时刻A2比B2长(乐曲区间的时间延长的方向)。所以检测后的乐曲区间55a的结束时刻采用A2的时刻,而成为C2。
同样地,在根据乐曲候选区间51b和53b检测乐曲区间时,由于在开始时刻A3和B3中B3一方长,所以检测后的乐曲区间55b的开始时刻采用B3的时刻,而成为C3。由于在结束时刻A4和B4中B4一方长,所以检测后的乐曲区间55b的结束时刻采用B4的时刻,而成为C4。
并且,关于乐曲候选区间53c,由于不存在时刻重复的另外一方的乐曲候选区间,所以开始时刻B5和结束时刻B6被原样采用为检测后的乐曲区间55c的开始时刻C5和结束时刻C6。
最后,在根据乐曲候选区间51c和53d检测乐曲区间时,由于在开始时刻A5和B7中A5一方长,所以检测后的乐曲区间55d的开始时刻采用A5的时刻,而成为C7。由于在结束时刻A6和B8中A6一方长,所以检测后的乐曲区间55b的结束时刻采用A6的时刻,而成为C8。由此确定检测后的乐曲区间55a、55b、55c、55d。
这样,通过利用乐曲候选区间的逻辑“或”来判定乐曲区间的检测,将由多个乐曲检测单元以各个不同的基准检测出的乐曲候选区间全部确定为乐曲区间。由此,可以对应于所采用的乐曲检测单元,检测较宽范围种类的乐曲。并且,由于在基于逻辑“或”的检测中对乐曲区间进行相加,所以即便在基于多个乐曲检测单元的乐曲候选区间中包含误检测出的非乐曲场景,也不会将在判定处理过程中用其他的乐曲检测单元检测出的乐曲场景作为妨害而删除。
并且,如上所述,第一乐曲候选检测单元10具有如下的检测特性:即,可以高准确度地检测乐曲场景、即乐曲区间的中间部分,但检测乐曲场景和非乐曲场景之间的交界的精度稍含糊。另外,第二乐曲候选检测部11具有可以高精度地检测乐曲区间的开始时刻及结束时刻的检测特性。在本实施方式1的乐曲检测方法中,通过如上述那样使检测特性彼此不同的检测方法互相组合,而成为更高精度的方法。即,由于第一乐曲候选检测单元10的检测特性和第二乐曲候选检测部11的检测特性为互相补充彼此的检测特性的关系,所以使乐曲检测的精度更高。
下面,用图7、8说明由元数据生成部15将检测出的乐曲区间的乐曲信息生成为元数据文件的方法。图7是本实施方式1的图像声音记录装置的文件构成图。即,图7表示存储介质1的逻辑文件结构,在逻辑上构成分层结构的目录结构的最上位层配置根目录90,在该根目录90的下位层配置多媒体目录91及元数据目录92。
在多媒体目录91中配置:记述了包含记录在存储介质1中的节目管理序号在内的管理信息的信息管理文件93、编码压缩节目的图像信号或声音信号并复用的多媒体数据文件94、及信息管理文件93等的备份文件95。
另一方面,在元数据目录92中,将记录节目、生成多媒体数据文件94时检测出的乐曲区间的乐曲信息记述、配置在由独立的逻辑文件构成的元数据文件96中。
另外,在图7中,示出将多媒体数据文件94和元数据文件96配置在不同目录中的示例。可是,也可配置在同一目录内,或将元数据目录96直接配置在根目录90中。并且,多媒体数据文件94或者元数据文件96也可对应于所记录的节目数而分割,或根据文件容量的限制等分割成多个。
并且,本实施方式1中的元数据文件96不限其数据形式,可以是文本形式,也可是二进制形式。并且,为了阻止篡改记述在元数据文件96中的数据或信息的流出,也可实施加密处理。
并且,管理信息文件93中也可预先记述是否存在对应于所期望节目的元数据文件96,或者在元数据文件96中是否存在有效的值等信息。若将该信息记录在管理信息文件93中,则在再现节目时,可通过参照相应信息尽快地判断乐曲信息的存在或有效性。
这样,设元数据文件96为不与多媒体数据文件94重叠、复用的独立的逻辑文件。由此,在再现节目时,可通过读出文件容量较小的元数据文件96来尽快取得乐曲信息,而不扫描文件容量大的多媒体数据文件94。
另外,元数据文件96也可与多媒体数据文件94重叠。这时,可减少文件数,由于是与多媒体数据相同的文件,所以在将伴随乐曲信息的多媒体数据记录在可移动的记录介质中,用其他设备进行编辑或复制等文件操作时,可抑制元数据丢失。
图8是作为分层结构的本实施方式1的元数据结构图。在图中,(A)是数据结构最上位层的元数据130。
下面,用图8(B)说明元数据130的数据结构。将元数据整体信息总括记述在元数据管理信息131a中。在该层中配置:与具有乐曲信息的节目数(1~n个)对应的节目元数据信息131c;和作为分别访问节目元数据信息131c用的地址信息的节目元数据信息搜索指针131b。
这里,当在存储介质1中不存在具有乐曲信息的节目时,也可不生成元数据文件96,或者,在元数据管理信息131a中也可准备将节目元数据信息131c记述为0个的元数据文件96。
下面,用图8(C)说明节目元数据信息131c的数据结构。在该层中配置元数据常规信息132a和乐曲地图信息132b。在元数据常规信息132a中,除了用于访问乐曲地图信息132b的地址信息等之外,还记述节目元数据信息131c应对应的节目的管理序号。这是在记录了音乐节目以外的节目时等,由于存在根据节目的不同而不生成乐曲信息的情况,所以在由信息管理文件93管理的节目的管理序号和节目元数据信息131c的序号不一致时,用于使节目和元数据相关联的表。
下面,用图8(D)说明乐曲地图信息132b的数据结构。在该层中配置乐曲地图常规信息133a、和与检测出的乐曲数(1~m个)对应的乐曲入口133b。在乐曲地图常规信息133a中,记述用于分别访问乐曲入口133b的地址信息。
最后,用图8(E)说明乐曲入口133b的数据结构。在该层中配置检测出的乐曲区间的乐曲开始时刻信息134a、和乐曲结束时刻信息134b。在时刻信息中使用呈现时间(PTM)等。
如上所述,在本实施方式1中,记述了在元数据中记述乐曲区间的开始时刻和结束时刻的方法的示例,但只要是可根据记录的节目确定乐曲信息的数据结构即可。例如,即便是将以1秒钟等固定时间对节目进行离散化时作为乐曲场景的区间设为High(1)、将作为非乐曲场景的区间设为Low(0)等二值化后的结果列举为乐曲地图信息的数据结构,可也实现同等的功能。
由此,在再现记录于存储介质1中的节目时,可从元数据文件96中读出元数据130,可把握存在于节目中的乐曲的乐曲信息。因此,可通过进行基于乐曲信息的再现控制,仅连续再现乐曲区间、或利用手动跳读至乐曲区间的开始点或结束点的功能等有效地视听乐曲场景。
即,以前为了跳过非乐曲场景或CM播放(在实施方式3中说明CM播放),必需手动操作执行快进或快退再现,检索乐曲场景的开头或结尾等的边界。
并且,在想从长时间记录于记录介质中的节目中视听乐曲场景时、或想视听非乐曲场景时等,视听者必须边看快进(正向扫描)或快退(逆向扫描)图像边搜索所期望的场景、或通过15秒等固定时间的跳读,重复操作直至出现所期望的场景。因此,如果未预先正确地把握乐曲场景的部位,不错过乐曲场景的始点或终点部位地进行再现是很困难的。尤其是,在再现初次观看的节目时,由于不知乐曲场景存在于节目中的哪个部位,所以需要从节目开头开始检索乐曲场景耗费时间。
可是,在再现利用本实施方式1记录的节目时,无需进行上述那样的操作。即,由于在再现时,即便初次观看的节目也可预先把握乐曲区间,所以可进行仅乐曲区间的连续再现、或手动跳读至乐曲区间的始点或终点等再现控制。
另外,在本实施方式1中,作为图像信号3和声音信号4,以电视播放为例进行了说明,但例如也可是其它使用图像再现装置、从外部输入端子供给的图像声音信号。或者,也可读出记录在可移动的存储介质1或内置于图像记录再现装置中的硬盘驱动器(未图示)等中的图像声音数据,对编码压缩后的声音数据进行解码(解密)处理,得到PCM信号,检测乐曲信息。若是该方法,则由于记录时无需实时进行乐曲区间的检测处理,所以即便是记录控制部的处理能力低的情况,也可在记录后花费时间进行检测。并且,也可从已记录在存储介质中的节目中得到乐曲信息。
实施方式2
在本实施方式2中,作为乐曲检测部14执行的乐曲区间的检测处理,说明与实施方式1中说明的方法不同的检测方法。图6是表示本实施方式2的乐曲检测部14执行的乐曲区间检测处理的过程的图。在该图中,(1)、(2)与实施方式1的图6中示出内容的相同,该图(3)是标绘了利用与实施方式1不同的检测方法检测出的标签60的曲线图600。
用图9说明与实施方式1不同的乐曲检测部14的乐曲区间检测处理。本实施方式2的特征在于,以标签50或标签52中的任一方为基点来检测乐曲区间这一点。
作为一例,如图所示,设为检测标签50所示的乐曲候选区间51a、51b、51c和标签52所示的乐曲候选区间53a、53b、53c、53d。这里,说明以标签50为基点的情况。
首先,若在乐曲候选区间51a的开始时刻A1附近检索标签52的乐曲候选区间的开始时刻,则找到B1。如果开始时刻A1与B1相同,则检测后的乐曲区间61a的开始时刻确定为P1。接着,由于当在乐曲候选区间51a的结束时刻A2附近检索标签52的乐曲候选区间的结束时刻时找到B2,所以检测后的乐曲区间61a的结束时刻采用B2的时刻,而成为P2。
并且,由于当在乐曲候选区间51b的开始时刻A3附近检索标签52的乐曲候选区间的开始时刻时找到B3,所以检测后的乐曲区间61b的开始时刻采用B3,而成为P3。同样地,关于结束时刻A4,由于找到结束时刻B4,所以检测后的乐曲区间61b的结束点采用B4,而成为P4。
另外,这时,设以A3为基点检索标签52的乐曲候选区间的开始时刻的范围为A2至A4的时刻,以A4为基点检索标签52的乐曲候选区间的结束时刻的范围为A3至A5。这时,假如在不存在标签52的乐曲候选区间的情况下,标签50的乐曲候选区间为检测后的乐曲区间。
下面同样,关于乐曲区间61c,开始时刻P5和结束时刻P6通过检测处理来确定。另外,关于标签52的乐曲候选区间53c,由于不存在作为基点的标签50的乐曲候选区间,所以通过检测处理进行删除。
这样,在本实施方式2中,以通过第一乐曲候选检测单元10检测出的乐曲候选区间为基准,该第一乐曲候选检测单元10具有以下特性:即虽然可以高准确度地检测乐曲场景、即乐曲区间的中间部分,但检测乐曲场景和非乐曲场景的交界的精度稍含糊。而且,检测有无通过第二乐曲候选检测单元11检测出的乐曲候选区间,该第二乐曲候选检测单元11具有可以高精度地检测乐曲区间的开始时刻或结束时刻之外,还会检测非乐曲场景的检测特性。
即,在检测时,考虑两者的检测特性,对于乐曲区间的开始时刻及结束时刻,进行优先采用由第二乐曲候选检测单元11检测出的乐曲候选区间的开始时刻和结束时刻的检测处理。由此,在可降低非乐曲场景的误检测的同时,可以高精度地检测乐曲区间的开始时刻和结束时刻。
即,可通过考虑在两者为互相补充的关系的检测特性,以作为乐曲区间的中间部分的乐曲场景为基准,检测乐曲区间的开始时刻和结束时刻,高精度地检测乐曲区间。
实施方式3
本实施方式3的特征在于检测CM播放区间。图10是表示本实施方式3的图像声音记录装置的系统框图。并且,图11是表示本实施方式3的乐曲区间的检测、记录方法的流程图。在图像声音记录装置700中具备CM检测部70(ST9),该CM检测部70根据作为进行记录的对象的电视播放等图像信号3和声音信号4的特征,检测CM播放区间。由CM检测部70检测出的CM播放区间的开始时刻和结束时刻输出至乐曲检测部71。关于其它构成要素,与实施方式1中示出的相同,这里省略说明。
下面,用图10、图11说明CM检测部70的动作。首先,视频编码器5监视在以MPEG-2方式对图像信号3进行编码压缩后的图像数据中的I图片等图像帧的亮度信号或色差分量(YUV格式)等的变化量。而且,CM检测部70具有在该变化量为规定阈值以上时判定为产生了场景更换的功能。并且,CM检测部70还具有将A/D转换器6中将声音信号4转换为PCM方式后的声音数据中的声音波形的振幅为规定阈值以下的情况判定为无声的功能。
另外,在电视播放中,设去除CM播放区间后的节目正篇的区间为「主篇播放区间」。通常在CM播放区间和主篇播放区间的交界、或多个连续的CM播放区间和CM播放区间的交界,在同一时刻存在无声和镜头更换。并且,1个CM播放规定为15秒、30秒等时间。着眼于这些现象,在同步检测到场景更换和无声的部位以规定间隔连续时,CM检测部70判断为该区间是CM播放区间。CM检测部70算出表示CM播放多个连续的区间的开始时刻和结束时刻的时间信息的呈现时间(PTM),输出至乐曲检测部71。
另外,CM播放的检测手段只要是可检测CM播放区间的开始时刻和结束时刻的方法,则不限于何种手法。例如,声音信号4的声音方式也可检测从主篇播放时较多的单声道信号变化至CM播放时较多的立体声信号的部位。并且,也可以是在图像信号3中检测在主篇播放区间和CM播放区间的交界出现的黑画面(黑帧)的方法。并且,也可仅根据声音信号或仅根据图像信号检测CM播放区间。
图12是表示本实施方式3的乐曲检测部71执行的检测处理(在图11中相当于ST9的「CM检测」)的过程的图。在该图中(1)是标绘了作为检测出的乐曲区间的标签80的曲线图800。关于乐曲区间的检测处理方法,使用在实施方式1及2中说明的方法。并且,该图(2)是标绘了表示由CM检测部检测出的CM播放区间的CM标签82的曲线图802。图中,用标签轴86将检测为CM播放区间的区间表示为High,其以外的区间表示为Low。
而且,该图(3)是标绘了对检测处理后的标签80和CM标签82进行再次检测得到的CM校正后的标签84的曲线图804。曲线图800、804都用标签轴44将添加表示乐曲区间的标签的区间表示为High,添加表示非乐曲场景的标签的区间表示为Low。
下面,用图12说明乐曲检测部71的CM播放的检测处理。作为一例,在存在根据基于第一乐曲检测单元和第二乐曲检测单元的乐曲候选区间得到的标签80示出的乐曲区间81a、81b和由CM检测部70检测出CM播放的CM播放区间83a时,进行将乐曲区间81a、81b中与CM播放区间83a重复的区间设为非乐曲场景的校正处理。
下面,用图12具体地进行说明。乐曲区间85a的开始时刻D1虽不与CM播放重复,但结束时刻D2与CM播放区间83a重复。因此,CM校正处理后的乐曲区间85a的开始时刻采用D1的时刻,而成为F1,结束时刻采用CM播放区间83a的开始时刻E1,而成为F2。
同样地,乐曲区间81b的结束时刻D4虽不与CM播放重复,但开始时刻D3与CM播放区间83a重复。因此,CM校正处理后的乐曲区间85b的开始时刻采用CM播放区间83a的结束时刻E2,而成为F3,结束时刻采用D4的时刻,而成为F4。这里虽未图示,但在检测处理后的乐曲区间完全与CM播放区间重复时,通过CM校正处理删除该乐曲区间。
这样,由于从乐曲区间中去除检测出CM播放的区间,所以具有不将多用乐曲作为BGM(背景音乐)或效果音的CM播放与本来想作为音乐节目进行视听的乐曲混同、误检测的效果。
另外,在本实施方式3中,说明了乐曲区间检测后去除CM播放区间的方法,但也可在乐曲候选区间确定后,从各乐曲候选区间中去除CM播放区间,之后检测乐曲区间。并且,也可在检测乐曲候选区间之前去除CM播放区间。
另外,在上述实施方式1~3中,设乐曲候选检测单元和校正部件为不同的单元,但也可设为具有该二个单元的功能的一个乐曲检测单元。
并且,在上述实施方式1~3中,设为对包含了乐曲区间的多媒体数据进行记录,但也可仅记录检测出的乐曲区间的多媒体数据。

Claims (14)

1、一种乐曲区间检测方法,其具备以下步骤:
数据输入步骤,输入包含声音信号和图像信号的数据;
多个乐曲候选区间检测步骤,根据各个不同的基准,从所述声音信号中检测所述输入数据的乐曲候选区间;以及
乐曲区间检测步骤,根据所述检测出的多个乐曲候选区间,来检测乐曲区间。
2、根据权利要求1所述的乐曲区间检测方法,其特征在于,
包含于所述多个基准中的一个基准的检测特性设定为补充所述一个以外的其他基准的检测特性。
3、根据权利要求1所述的乐曲区间检测方法,其特征在于,
所述基准之一设定为检测所述乐曲候选区间和所述乐曲候选区间以外的区间之间的交界。
4、根据权利要求1所述的乐曲区间检测方法,其特征在于,
所述基准之一设定为检测所述乐曲候选区间的中间部分。
5、根据权利要求1所述的乐曲区间检测方法,其特征在于,
所述乐曲候选区间检测步骤具备对所述检测出的乐曲候选区间进行校正的校正步骤。
6、根据权利要求1所述的乐曲区间检测方法,其特征在于,
该乐曲区间检测方法具备检测广告区间的广告检测步骤,
从所述乐曲区间中去除所述广告区间。
7、一种数据记录方法,其具备以下步骤:
数据记录步骤,记录包含利用权利要求1所述的乐曲区间检测方法检测出的乐曲区间的数据;以及
信息记录步骤,记录用于确定所述乐曲区间的信息。
8、一种乐曲区间检测装置,其具备:
多个乐曲候选区间检测部,其根据各个不同的基准,从包含声音信号和图像信号的输入数据的所述声音信号中,检测所述输入数据的乐曲候选区间;以及
乐曲区间检测部,其根据所述检测出的多个乐曲候选区间,来检测乐曲区间。
9、根据权利要求8所述的乐曲区间检测装置,其特征在于,
包含于所述多个基准中的一个基准的检测特性设定为补充所述一个以外的其他基准的检测特性。
10、根据权利要求8所述的乐曲区间检测装置,其特征在于,
所述基准之一设定为检测所述乐曲候选区间和所述乐曲候选区间以外的区间之间的交界。
11、根据权利要求所述的乐曲区间检测装置,其特征在于,
所述基准之一设定为检测所述乐曲候选区间的中间部分。
12、根据权利要求8所述的乐曲区间检测装置,其特征在于,
该乐曲区间检测装置具备对所述检测出的乐曲候选区间进行校正的校正部,
所述乐曲检测部根据由所述校正部校正后的多个乐曲候选区间,来检测乐曲区间。
13、根据权利要求8所述的乐曲区间检测装置,其特征在于,
该乐曲区间检测装置具备检测广告区间的广告检测部,
所述乐曲区间检测部从所述乐曲区间中去除所述广告区间。
14、一种数据记录装置,其特征在于,
该数据记录装置具备数据记录部,该数据记录部记录包含由权利要求8所述的乐曲区间检测装置检测出的乐曲区间的数据,
所述数据记录部记录用于确定所述乐曲区间的信息。
CN2006800430357A 2005-12-27 2006-12-25 乐曲区间检测方法及其装置、及数据记录方法及其装置 Expired - Fee Related CN101310327B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP374205/2005 2005-12-27
JP2005374205A JP4321518B2 (ja) 2005-12-27 2005-12-27 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
PCT/JP2006/325720 WO2007074755A1 (ja) 2005-12-27 2006-12-25 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置

Publications (2)

Publication Number Publication Date
CN101310327A true CN101310327A (zh) 2008-11-19
CN101310327B CN101310327B (zh) 2012-07-18

Family

ID=38217975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800430357A Expired - Fee Related CN101310327B (zh) 2005-12-27 2006-12-25 乐曲区间检测方法及其装置、及数据记录方法及其装置

Country Status (7)

Country Link
US (1) US8855796B2 (zh)
EP (1) EP1968043B1 (zh)
JP (1) JP4321518B2 (zh)
KR (1) KR100962803B1 (zh)
CN (1) CN101310327B (zh)
HK (1) HK1122893A1 (zh)
WO (1) WO2007074755A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102956230A (zh) * 2011-08-19 2013-03-06 杜比实验室特许公司 对音频信号进行歌曲检测的方法和设备
CN107077836A (zh) * 2014-06-10 2017-08-18 Makemusic公司 用于跟踪乐谱的方法以及相关的建模方法
CN109448684A (zh) * 2018-11-12 2019-03-08 量子云未来(北京)信息科技有限公司 一种智能编曲方法和系统
CN111095403A (zh) * 2017-09-12 2020-05-01 高通股份有限公司 选择用于帧间时间偏移变异的通道调整方法
CN112567450A (zh) * 2018-08-10 2021-03-26 雅马哈株式会社 乐谱数据的信息处理装置
CN113272890A (zh) * 2019-01-07 2021-08-17 雅马哈株式会社 影像控制系统及影像控制方法

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008241850A (ja) * 2007-03-26 2008-10-09 Sanyo Electric Co Ltd 録音または再生装置
US9154942B2 (en) 2008-11-26 2015-10-06 Free Stream Media Corp. Zero configuration communication between a browser and a networked media device
US9026668B2 (en) 2012-05-26 2015-05-05 Free Stream Media Corp. Real-time and retargeted advertising on multiple screens of a user watching television
US9519772B2 (en) 2008-11-26 2016-12-13 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US10334324B2 (en) 2008-11-26 2019-06-25 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US9961388B2 (en) 2008-11-26 2018-05-01 David Harrison Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements
US10419541B2 (en) 2008-11-26 2019-09-17 Free Stream Media Corp. Remotely control devices over a network without authentication or registration
US9386356B2 (en) 2008-11-26 2016-07-05 Free Stream Media Corp. Targeting with television audience data across multiple screens
US9986279B2 (en) 2008-11-26 2018-05-29 Free Stream Media Corp. Discovery, access control, and communication with networked services
US10631068B2 (en) 2008-11-26 2020-04-21 Free Stream Media Corp. Content exposure attribution based on renderings of related content across multiple devices
US10977693B2 (en) 2008-11-26 2021-04-13 Free Stream Media Corp. Association of content identifier of audio-visual data with additional data through capture infrastructure
US10567823B2 (en) 2008-11-26 2020-02-18 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US8180891B1 (en) 2008-11-26 2012-05-15 Free Stream Media Corp. Discovery, access control, and communication with networked services from within a security sandbox
US10880340B2 (en) 2008-11-26 2020-12-29 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US10375451B2 (en) 2009-05-29 2019-08-06 Inscape Data, Inc. Detection of common media segments
US8930980B2 (en) 2010-05-27 2015-01-06 Cognitive Networks, Inc. Systems and methods for real-time television ad detection using an automated content recognition database
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US9055335B2 (en) 2009-05-29 2015-06-09 Cognitive Networks, Inc. Systems and methods for addressing a media database using distance associative hashing
US8769584B2 (en) 2009-05-29 2014-07-01 TVI Interactive Systems, Inc. Methods for displaying contextually targeted content on a connected television
US8457771B2 (en) * 2009-12-10 2013-06-04 At&T Intellectual Property I, L.P. Automated detection and filtering of audio advertisements
US10192138B2 (en) 2010-05-27 2019-01-29 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
US9838753B2 (en) 2013-12-23 2017-12-05 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
CA2906192C (en) * 2013-03-15 2020-10-27 Cognitive Media Networks, Inc. Systems and methods for real-time television ad detection using an automated content recognition database
CN110265058B (zh) 2013-12-19 2023-01-17 瑞典爱立信有限公司 估计音频信号中的背景噪声
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US20150301718A1 (en) * 2014-04-18 2015-10-22 Google Inc. Methods, systems, and media for presenting music items relating to media content
CA2973740C (en) 2015-01-30 2021-06-08 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
CN107949849B (zh) 2015-04-17 2021-10-08 构造数据有限责任公司 缩减大数据集中数据密度的系统和方法
US10136190B2 (en) 2015-05-20 2018-11-20 Echostar Technologies Llc Apparatus, systems and methods for song play using a media device having a buffer
US10805668B2 (en) 2015-05-20 2020-10-13 DISH Technologies L.L.C. Apparatus, systems and methods for trick function viewing of media content
BR112018000716B1 (pt) 2015-07-16 2023-03-28 Inscape Data, Inc Método e dispositivo de computação para detecção de segmentos de mídia comuns
US11308144B2 (en) 2015-07-16 2022-04-19 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
EP3323054A1 (en) 2015-07-16 2018-05-23 Inscape Data, Inc. Prediction of future views of video segments to optimize system resource utilization
US10381022B1 (en) * 2015-12-23 2019-08-13 Google Llc Audio classifier
CA3058975A1 (en) 2017-04-06 2018-10-11 Inscape Data, Inc. Systems and methods for improving accuracy of device maps using media viewing data
US11523186B2 (en) * 2019-09-27 2022-12-06 Disney Enterprises, Inc. Automated audio mapping using an artificial neural network

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
KR940001861B1 (ko) * 1991-04-12 1994-03-09 삼성전자 주식회사 오디오 대역신호의 음성/음악 판별장치
EP0517233B1 (en) * 1991-06-06 1996-10-30 Matsushita Electric Industrial Co., Ltd. Music/voice discriminating apparatus
JPH08265660A (ja) 1995-03-20 1996-10-11 Nippon Telegr & Teleph Corp <Ntt> 音楽管理方法および装置
JPH099199A (ja) 1995-06-19 1997-01-10 Sony Corp 映像信号記録/再生装置
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
JPH09284704A (ja) 1996-04-15 1997-10-31 Sony Corp 映像信号選択装置及びダイジェスト記録装置
JP3669129B2 (ja) 1996-11-20 2005-07-06 ヤマハ株式会社 音信号分析装置及び方法
US6525255B1 (en) * 1996-11-20 2003-02-25 Yamaha Corporation Sound signal analyzing device
JP3475317B2 (ja) 1996-12-20 2003-12-08 日本電信電話株式会社 映像分類方法および装置
JPH1155613A (ja) * 1997-07-30 1999-02-26 Hitachi Ltd 記録および/または再生装置およびこれに用いられる記録媒体
JP3434195B2 (ja) 1998-03-18 2003-08-04 日本電信電話株式会社 音楽映像管理方法、装置および音楽映像管理プログラムを記録した記録媒体
JP2000099069A (ja) 1998-09-24 2000-04-07 Sony Corp 情報信号処理方法及び装置
JP4300697B2 (ja) * 2000-04-24 2009-07-22 ソニー株式会社 信号処理装置及び方法
JP4596196B2 (ja) * 2000-08-02 2010-12-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
CN1175398C (zh) * 2000-11-18 2004-11-10 中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
US6625600B2 (en) * 2001-04-12 2003-09-23 Telelogue, Inc. Method and apparatus for automatically processing a user's communication
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
JP2002344852A (ja) 2001-05-14 2002-11-29 Sony Corp 情報信号処理装置および情報信号処理方法
JP2003099083A (ja) 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 音声認識装置
US7260439B2 (en) * 2001-11-01 2007-08-21 Fuji Xerox Co., Ltd. Systems and methods for the automatic extraction of audio excerpts
US7386217B2 (en) * 2001-12-14 2008-06-10 Hewlett-Packard Development Company, L.P. Indexing video by detecting speech and music in audio
KR100472904B1 (ko) 2002-02-20 2005-03-08 안호성 음악 부분을 자동으로 선별해 저장하는 디지털 음악 재생장치 및 그 방법
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
JP2003298981A (ja) 2002-04-03 2003-10-17 Oojisu Soken:Kk 要約画像作成装置、要約画像作成方法、要約画像作成プログラム、及び要約画像作成プログラムを記憶したコンピュータ読取可能な記憶媒体
JP4086532B2 (ja) 2002-04-16 2008-05-14 キヤノン株式会社 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
US7286749B2 (en) * 2002-04-16 2007-10-23 Canon Kabushiki Kaisha Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period
JP4109065B2 (ja) 2002-09-27 2008-06-25 クラリオン株式会社 記録再生装置、記録装置、それらの制御方法、制御プログラム及び記録媒体
WO2004040416A2 (en) * 2002-10-28 2004-05-13 Gracenote, Inc. Personal audio recording system
US7031915B2 (en) * 2003-01-23 2006-04-18 Aurilab Llc Assisted speech recognition by dual search acceleration technique
US7336890B2 (en) * 2003-02-19 2008-02-26 Microsoft Corporation Automatic detection and segmentation of music videos in an audio/video stream
US20040167767A1 (en) * 2003-02-25 2004-08-26 Ziyou Xiong Method and system for extracting sports highlights from audio signals
JP4199097B2 (ja) * 2003-11-21 2008-12-17 パイオニア株式会社 楽曲自動分類装置及び方法
WO2005069172A1 (ja) * 2004-01-14 2005-07-28 Mitsubishi Denki Kabushiki Kaisha 要約再生装置および要約再生方法
US20050154987A1 (en) * 2004-01-14 2005-07-14 Isao Otsuka System and method for recording and reproducing multimedia
US7022907B2 (en) * 2004-03-25 2006-04-04 Microsoft Corporation Automatic music mood detection
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
FI20045146A0 (fi) * 2004-04-22 2004-04-22 Nokia Corp Audioaktiivisuuden ilmaisu
US20060149693A1 (en) * 2005-01-04 2006-07-06 Isao Otsuka Enhanced classification using training data refinement and classifier updating
US20060212297A1 (en) * 2005-03-18 2006-09-21 International Business Machines Corporation System and method using blind change detection for audio segmentation
JP2006301134A (ja) 2005-04-19 2006-11-02 Hitachi Ltd 音楽検出装置、音楽検出方法及び録音再生装置
GB2465918B (en) * 2005-05-03 2010-08-04 Codemasters Software Co Rhythm action game apparatus and method
JP4201204B2 (ja) 2005-05-26 2008-12-24 Kddi株式会社 オーディオ情報分類装置
KR100749045B1 (ko) * 2006-01-26 2007-08-13 삼성전자주식회사 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102956230A (zh) * 2011-08-19 2013-03-06 杜比实验室特许公司 对音频信号进行歌曲检测的方法和设备
CN102956230B (zh) * 2011-08-19 2017-03-01 杜比实验室特许公司 对音频信号进行歌曲检测的方法和设备
CN107077836A (zh) * 2014-06-10 2017-08-18 Makemusic公司 用于跟踪乐谱的方法以及相关的建模方法
CN111095403A (zh) * 2017-09-12 2020-05-01 高通股份有限公司 选择用于帧间时间偏移变异的通道调整方法
CN111095403B (zh) * 2017-09-12 2023-11-03 高通股份有限公司 选择用于帧间时间偏移变异的通道调整方法
CN112567450A (zh) * 2018-08-10 2021-03-26 雅马哈株式会社 乐谱数据的信息处理装置
CN112567450B (zh) * 2018-08-10 2024-03-29 雅马哈株式会社 乐谱数据的信息处理装置
CN109448684A (zh) * 2018-11-12 2019-03-08 量子云未来(北京)信息科技有限公司 一种智能编曲方法和系统
CN109448684B (zh) * 2018-11-12 2023-11-17 合肥科拉斯特网络科技有限公司 一种智能编曲方法和系统
CN113272890A (zh) * 2019-01-07 2021-08-17 雅马哈株式会社 影像控制系统及影像控制方法

Also Published As

Publication number Publication date
KR100962803B1 (ko) 2010-06-10
US8855796B2 (en) 2014-10-07
HK1122893A1 (en) 2009-05-29
KR20080059650A (ko) 2008-06-30
WO2007074755A1 (ja) 2007-07-05
JP2007180669A (ja) 2007-07-12
CN101310327B (zh) 2012-07-18
EP1968043A4 (en) 2011-09-28
US20090088878A1 (en) 2009-04-02
JP4321518B2 (ja) 2009-08-26
EP1968043A1 (en) 2008-09-10
EP1968043B1 (en) 2013-02-20

Similar Documents

Publication Publication Date Title
CN101310327B (zh) 乐曲区间检测方法及其装置、及数据记录方法及其装置
US8682132B2 (en) Method and device for detecting music segment, and method and device for recording data
US8332059B2 (en) Apparatus and method for synchronizing additional data and base data
US6917566B2 (en) System and method of creating digital recordings of live performances
CN100458956C (zh) 光盘记录方法和光盘记录设备
US20050259828A1 (en) Multi-channel compatible stereo recording
KR20030004922A (ko) 멀티채널 스트림 기록 재생장치 및 방법
WO2006069248A2 (en) Audio fidelity meter
US6577589B1 (en) Information recording medium, information recording apparatus and information reproducing apparatus
Park et al. Energy-based linear PCM audio recovery method of impaired MP4 file stored in dashboard camera memory
JP4053399B2 (ja) 音楽情報記録再生装置
JP2006270233A (ja) 信号処理方法及び信号記録再生装置
Verbakel et al. Super audio CD format
JP2003272283A (ja) デジタル音声信号の記録装置及び記録媒体
US6239728B1 (en) Dual rate encoding scheme and apparatus using the same
KR100201307B1 (ko) 기록매체의 음성다중신호 기록방법
CN101241737B (zh) 信息记录装置和方法
Sax Perceived Quality of Digital Audio Recordings
Neubert et al. A Professional DAT for Audio and Video Application
Cain CORRUPTED DVDs: An Emerging Forensic Problem That May Constitute Untrustworthy Evidence.
JP2005223794A (ja) 映像音響コンテンツの記録装置及び方法
IT1282640B1 (it) Sistema di registrazione e riproduzione di informazioni su bande magnetiche e relativo strumento di lettura/registrazione
UA28630U (en) Method for tracing audio records

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1122893

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1122893

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120718

Termination date: 20181225