WO2007074755A1

WO2007074755A1 - 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置

Info

Publication number: WO2007074755A1
Application number: PCT/JP2006/325720
Authority: WO
Inventors: Isao Otsuka; Hidetsugu Suginohara
Original assignee: Mitsubishi Electric Corporation
Priority date: 2005-12-27
Filing date: 2006-12-25
Publication date: 2007-07-05
Also published as: JP2007180669A; EP1968043A4; EP1968043B1; CN101310327A; US20090088878A1; KR100962803B1; JP4321518B2; HK1122893A1; US8855796B2; CN101310327B; KR20080059650A; EP1968043A1

Abstract

課題　　　本発明は、テレビジョン放送から楽曲シーンを効率よく検出する方法を提供するものである。解決手段　本発明に係る楽曲区間検出方法は、音声信号と映像信号とを含むデータを入力するデータ入力ステップと、各々異なる基準に基づいて、前記音声信号から楽曲候補区間を検出する複数の楽曲候補区間検出ステップと、前記検出された複数の楽曲候補区間に基づいて、楽曲区間を検出する楽曲区間検出ステップとを備える。これにより、ロックや演歌、クラシックなど、曲調の異なる広い楽曲に対して高い検出精度を確保することができる。

Description

明細書

楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置

技術分野

[0001] この発明は、テレビジョン放送等のデータ力楽曲区間を検出する方法、及び装置、並びに、この方法により検出された楽曲区間を含むデータを、 DVD-R^DVD- RWなどを含む記録型 DVDディスク、ハードディスクドライブ、または Blu— ray Disc などの記録媒体に記録する記録方法、及び装置に関するものである。

背景技術

[0002] テレビジョン放送の一つに、所謂「歌番組」や「音楽番組」と呼ばれるジャンルが存在する。音楽番組は出演者による演奏や歌唱、あるいはビデオ映像による楽曲の映像 (以下、「楽曲シーン」と記す。なお、この明細書において、「楽曲シーン」とは歌や演奏などの音楽が音声に含まれる映像を全般に指す。）と、司会者などによる楽曲の紹介や出演者とのトーク (会話)ショーなどの楽曲以外の映像 (以下、「非楽曲シーン」と記す。）とから構成される場合が多い。

[0003] また民法放送であれば、番組の広告主の宣伝や、放送局自らの広告宣伝のためのコマーシャルメッセージ放送（以下、「CM放送」と記す。また、 CM放送の区間を「C M放送区間」と記す。 )が番組の構成に含まれる場合もある。

[0004] ところで、録画した音楽番組を再生する場合、楽曲に集中したい視聴者にとっては非楽曲シーンや CM放送などの楽曲シーン以外を効率よく見飛ばしたい要望がある。また逆に、楽曲には興味が無い視聴者には、楽曲シーンや CM放送を見飛ばしてトークショーなどの非楽曲シーンのみを視聴したいとする要望もある。

[0005] このような要望に対し、従来の楽曲検出方法及び記録方法では、音情報の周波数スペクトルのピークが周波数方向に対して時間的に安定している特徴を用いて楽曲シーンを特定し、楽曲の映像音声のみを蓄積している（例えば、特許文献 1参照)。

[0006] 特許文献 1 :特開平 11 266435号公報 (第 5頁、第 1図）

発明の開示発明が解決しょうとする課題

[0007] しかし、特許文献 1に記載されているような楽曲検出方法では、楽曲シーンの検出を単一の手法により判定していたために、ロックや演歌、クラシックなど、曲調の異なる全ての楽曲に対して一様に検出精度を確保することは困難であった。

[0008] この発明は、上述のような課題を解消するためになされたもので、テレビジョン放送等の映像信号及び音声信号を含むデータから楽曲シーンを効率よく検出する方法、及び装置を提供するものである。

課題を解決するための手段

[0009] 本発明に係わる楽曲区間検出方法は、

音声信号と映像信号とを含むデータを入力するデータ入力ステップと、各々異なる基準に基づいて、前記音声信号から、前記入力データの楽曲候補区間を検出する複数の楽曲候補区間検出ステップと、

前記検出された複数の楽曲候補区間に基づいて、楽曲区間を検出する楽曲区間検出ステップと

を備えることとしたものである。

発明の効果

[0010] 本発明の楽曲区間検出方法によれば、音声信号に対して各々異なる複数の基準に基づいて楽曲候補区間検出し、さらにこの検出された複数の楽曲候補区間力楽曲区間を検出するので、ロックや演歌、クラシックなど、曲調の異なる広い楽曲に対して高い検出精度を確保することができる。

図面の簡単な説明

[0011] [図 1]実施の形態 1の映像音声記録装置を示すシステムブロック図である。

[図 2]実施の形態 1の楽曲区間の検出、記録方法を示すフローチャートである。

[図 3]実施の形態 1の第一の楽曲候補検出部を示すブロック図である。

[図 4]実施の形態 1の第二の楽曲候補検出部を示すブロック図である。

[図 5]実施の形態 1の補正処理を示すチャート図である。

[図 6]実施の形態 1の楽曲区間の検出処理を示すチャート図である。 [図 7]実施の形態 1の映像音声記録装置のファイル構成図である。

[図 8]実施の形態 1のメタデータ構造図である。

[図 9]実施の形態 2の楽曲区間の検出処理を示すチャート図である。

[図 10]実施の形態 3の映像音声記録装置を示すシステムブロック図である。

[図 11]実施の形態 3の楽曲区間の検出、記録方法を示すフローチャートである。

[図 12]実施の形態 3の CM放送区間の検出処理を示すチャート図である。

符号の説明

1 蓄積メディア、 2 書込みドライブ、 3 映像信号、 4 音声信号、 5 ビデオエンコーダ、 6 A/Dコンバータ、 7 オーディオエンコーダ、 8 マルチプレクサ、 9 書込みバッファメモリ、 10 第一の楽曲候補検出部、 11 第二の楽曲候補検出部、 12 第一の補正部、 13 第二の補正部、 14 楽曲検出部、 15 メタデータ生成部、 16 記録制御部、 20 直交変換処理部、 21 尤度比較処理部、 22 モデルデータ、 30 差分演算処理部、 40 時間経過 (横軸）、 41 差異量 (縦軸）、 42 差異量、 43 閾値、 44 ラベル軸、 45 ラベル、 46a, 46b, 46c 楽曲候補区間、 47 補正処理後のラベル、 48 補正処理後の楽曲候補区間、 50 補正処理後のラベル、

51a, 51b, 51c 補正処理後の楽曲候補区間、 52 補正処理後のラベル、 53a、 53b、 53c、 53d 補正処理後の楽曲候補区間、 54 検出処理後のラベル、 55a、 55b、 55c、 55d 楽曲区間、 60 検出処理後のラベル、 61a, 61b , 61c 楽曲区間、 70 CM検出部、 71 楽曲検出部、 80 検出処理後のラベル、 81a, 81b 楽曲区間、 82 CMラベル、 83a CM放送区間、 8 4 CM補正処理後のラベル、 85a, 85b 楽曲区間、 86 ラベル軸、 90 ルートディレクトリ、 91 マルチメディアディレクトリ、 92 メタデータディレクトリ、 93 情報管理ファイル、 94 マルチメディアデータファイル、 95 ノックアツプファイル、 96 メタデータファイル、 100 映像音声記録装置、 130 メタデータ、 131a メタデータ管理情報、 131b 番組メタデータ情報サーチポインタ、 131c 番組メタデータ情報、 132a メタデータ一般情報、 132b 楽曲マップ情報、 133a 楽曲マップ一般情報、 133b 楽曲エントリ、 134a 楽曲開始時刻情報、 134b 楽曲終了時刻情報、 400 差異量のグラフ、 405 ラベルのグラフ、 407 補正処理後のラベルのグラフ、 500 補正処理後のラベルのグラフ、 502 補正処理後のラベルのグラフ、 504 検出処理後のラベルのグラフ、 600 検出処理後のラベルのグラフ、 700 映像音声記録装置発明を実施するための最良の形態

[0013] 実施の形態 1.

以下、図を用いて本実施の形態 1に係る楽曲検出方法、及び検出装置、並びに記録方法、及び記録装置を説明する。本実施の形態 1に係る楽曲検出方法は、音声信号に対して各々異なる複数の基準に基づいて楽曲候補区間検出し、さらにこの検出された複数の楽曲候補区間から楽曲区間を検出することに特徴がある。

[0014] なお、この明細書において、楽曲シーンを記録した時、記録開始を基点として楽曲シーンの開始時刻となる時間位置情報と、楽曲シーンの終了時刻となる時間位置情報とにより特定される区間を「楽曲区間」とする。

[0015] ここで、蓄積メディアに記録した映像音声を再生制御する方法について説明する。

一般に、上記のような再生制御を行う場合には、時間位置情報を 90kHzでカウントするプレゼンテーションタイム (PTM)が広く使われている。つまり、楽曲区間を特定するために、開始時刻と終了時刻の PTMを時間位置情報として参照する方法である。しかし、この以外にも、映像音声を録画時間軸にて 1秒間などの固定時間で離散化した時に楽曲シーンである区間は High (l)、非楽曲シーンである区間は Low(O)とするなどのニ値ィ匕して Highとなる区間を検索するなどの方法がある。この明細書において、これらの楽曲区間の開始点と終了点を特定するための情報を「楽曲情報」と呼ぶ。

[0016] 図 1は、本実施の形態 1の映像音声記録装置を示すシステムブロック図である。また、図 2は、本実施の形態 1の楽曲区間の検出、記録方法を示すフローチャートである。まず、図 1及び図 2を用いて本実施の形態 1の映像音声記録装置について概説する。映像音声記録装置 100には、記録を行う対象となるテレビジョン放送などの映像信号 3と音声信号 4が入力される（ST1)。次に、映像信号 3は、ビデオエンコーダ 5 において MPEG— 2方式などにより符号ィ匕圧縮されて、映像データとなる。

[0017] 一方、音声信号 4がアナログ信号である場合には、アナログデジタル変換機 (A/D コンバータ） 6によって音声波形を一定時間おきにサンプリングして振幅をデータ化した PCM (Pulse Code Modulation)方式などによりデジタル信号に変換される（S T2)。その後、オーディオエンコーダ 7においてドルビー AC— 3方式などによって符号化圧縮されて、音声データとなる。

[0018] マルチプレクサ 8では、映像データと音声データとを多重化してマルチメディアデータを生成する。その後、書き込みバッファ 9でマルチメディアデータを逐次取り込んだ後に書き込みドライブ 2に送出し、 DVD— Rや DVD— RWディスクあるいは記録型 B lu-ray Discなどのリムーバブルな蓄積メディア 1に記録（一連の処理は「録画」とも言われる。）が行われる。映像音声記録装置 100および書き込みドライブ 2の動作は、マイクロプロセッサなど力も構成する記録制御部 16によって統括的に管理して制御されている。なお蓄積メディア 1と書き込みドライブ 2は、ハードディスクドライブ (HDD )などのリムーバブルではな、蓄積メディアに置き換わっても構わな、。

[0019] 次に、本実施の形態 1の映像音声記録装置の特徴的な構成要素である複数の楽曲候補検出部について説明する。第一の楽曲候補検出部 10では、 AZDコンパ一タ 6から出力される PCM方式のデジタル信号を分析して楽曲候補区間を検出する（ ST3、 4)。第一の楽曲候補検出部 10で検出された楽曲候補区間は、必要に応じて、第一の補正部 12によって検出誤差が補正される（ST6)。また、第一の楽曲候補検出部 10とは異なる基準を持つ第二の楽曲候補検出部 11でも、第一の楽曲候補検出部 10と同様に、楽曲候補区間が検出されて (ST3、 5)、第二の補正部 13にて必要に応じて検出誤差が補正される（ST6)。

[0020] 第一の楽曲候補検出部 10と第一の補正部 12により検出'補正された楽曲候補区間と、第二の楽曲候補検出部 11と第二の補正部 13により検出'補正された楽曲候補区間は楽曲検出部 14において統合あるいは取捨選択の判断が行われ、楽曲区間が検出される（ST7)。検出された楽曲区間は、メタデータ生成部 15にてメタデータファイルに生成されて、書込みバッファメモリ 9を介して蓄積メディア 1に記録される ( ST8)。なお、メタデータ生成部 15は、逐次算出されて決定する楽曲区間の楽曲情報を保持するメモリ機能を有して、る。

[0021] なお、映像音声記録装置 100の記録部の概念としては、書き込みドライブ 2のみを含めてもよいし、マルチプレクサ 8、メタデータ生成部 15、書き込みバッファ 9、記録制御部 16を含めてもよい。

[0022] また、ここでは楽曲候補区間を検出する楽曲候補検出部 10、 11が 2つの場合について記載した力さらに多くの楽曲候補検出部を有する構成であっても良い。また、補正部 12、 13は、楽曲候補検出部 10、 11の各々に対して個別に補正を行った後に、楽曲検出部 14に補正後の楽曲候補区間を出力する構成について記載したが、個別の補正は行わずに、一つの補正部により補正された後、楽曲検出部 14に補正後の楽曲候補区間を出力する構成としてもよい。また、楽曲検出部 14にて検出した後の楽曲区間に対して補正を行う構成としてもよ!、。

[0023] 図 3は、本実施の形態 1の第一の楽曲候補検出部 10を詳細に記した機能ブロック図である。第一の楽曲候補検出部 10は、直交変換処理部 20と尤度比較処理部 21、および参照のためのデータテーブルであるモデルデータ 22から構成される。図に示すように、 AZDコンバータ 6で変換されたデジタル信号の直交変換係数が直交変換処理部 20で算出され、さらに尤度比較処理部 21がモデルデータ 22を参照してラベルが割り当てられた後、第一の補正部 12に出力される。

[0024] さらに、第一の楽曲候補検出部 10による楽曲候補区間の検出の詳細について述ベる。音声信号 4がステレオ信号である場合、 AZDコンバータ 6では右チャンネルと左チャンネルの PCMデータが個々に得られる。このステレオ信号は、民生用レコーダ機器であれば、サンプリング周波数は 48kHz、量子化ビット数は 16bitなどの品質が使われる。

[0025] 次に、直交変換処理部 20では、時間領域の PCMデータを周波数領域に直交変換を施す (ST3)。直交変換には、 PCMデータを時間的に 50%重複する MDCT( 変形離散コサイン変換)を使用する例について述べる。 50%のオーバーラップを行うため、 512個の PCMデータをサンプリングすると、 256個の直交変換係数（MDCT 係数）が右チャンネルと左チャンネルの各々について得られる。ステレオ信号の片チヤンネル（例えば左チャンネル）、あるいはモノラル信号の 1チャンネルに対する直交変換係数から、 256次元の係数ベクトルが得られる。係数ベクトルは計算量の軽減を目的に、射影変換により次元数の低減を図っても良い。

[0026] なお、入力された音声信号を分析するに先立ち、あらかじめ主観評価で顕著に楽曲シーンと判断される音声の係数ベクトルを収集してトレーニングデータとして、係数ベクトルの分布傾向を、混合ガウス分布モデル (GMM法）を使用してモデル化しておく。楽曲シーン力作成したものを「音楽クラスモデル」と呼ぶ。この他、顕著な観客の歓声や声援、拍手、笑い声、出演者のトークシーン、などの非楽曲シーンについても同様にトレーニングデータを収集して混合ガウス分布モデルを作成して、複数の音声クラスモデルを用意する。

[0027] モデルデータ 22は、これらの音声クラスモデルが参照できるデータテーブルとなる。尤度比較処理部 21では、モデルデータ 22を参照して、記録を行っている音声信号の直交変換係数ベクトルがベクトル空間として最も尤度の高い音声クラスを探して、その音声のクラスを当該区間のラベルとして割り当てる（ST4)。

[0028] すなわち、音楽クラスモデルの周波数特性と尤度の高い音声入力があった場合に楽曲を示すラベルが割り当てられ、その区間が楽曲シーンであるとの検出が可能になる。なお、あらかじめ用意したモデルを参照して入力信号の音声クラスを特定する手法であれば混合ガウス分布モデルによる尤度比較でなくても良ぐ隠れマルコフ法 (HMM法)などの統計的な手法を使用しても構わな!/、。

[0029] 混合ガウス分布モデルによる尤度比較によって楽曲を示すラベルを割り当てる手法は、ステレオ放送やモノラル放送などのチャンネル数に影響を受けずに高、確度で楽曲シーンのみを検出できるという長所がある。その一方、楽曲シーンと非楽曲シーンとの境界を検出する精度は若干曖昧になる短所もある。またトレーニングデータの収集方法によっては、ロックや演歌、クラシックなど、曲調や楽器構成による得手、不得手が生じる場合がある。

[0030] 次に、第二の楽曲候補検出部 11について説明する。図 4は、本実施の形態 1の第二の楽曲候補検出部 11を詳細に記した機能ブロック図である。第二の楽曲候補検出部 11は、直交変換処理部 20と差分演算処理部 30から構成される。図に示すように、 AZDコンバータ 6で変換されたデジタル信号の直交変換係数が直交変換処理部 20で算出され、さらに差分演算処理部 30で直交変換係数の差異量が算出された後、第二の補正部 13に出力される。

[0031] さらに、第二の楽曲候補検出部 11による楽曲候補区間の検出の詳細について述ベる。音声信号 4から直交変換処理部 20を経て 256個の直交変換係数 (MDCT係数）が得られるまでの過程 (ST3)は第一の検出部 10で述べたものと共通であり、ここでは省略する。

[0032] 直交変換係数を（1 X 256)行列として、 n行目の右チャンネルの直交変換係数を M r (n)、左チャンネルの直行変換係数を Ml (n)とすると、差分演算処理部 30では両チヤンネルの直交変換係数行列の差を算出して、係数の二乗和である差異量 Dを次式で得る。

[0033] [数 1]

[0034] この処理を継続的に行うことにより、記録を行う番組の差異量 Dの変化を把握することが出来る（ST5)。なお、差異量 Dは直交係数行列の差による係数の二乗和とした力右チャンネルと左チャンネルの差異が数値ィ匕される手法であれば、他の算出式を使用しても構わない。

[0035] ここで、差異量は、右チャンネルと左チャンネルの違いを表すものであり、音の広がり感、ステレオ感、などとも言い表せる。一般的に、楽曲シーンでは音の広がり感が大きぐ出演者によるトークシーンなどの非楽曲シーンでは音の広がり感が小さいことが分力つている。すなわち、差異量が所定の値（閾値)を超える区間が楽曲シーンであるとの検出が可會になる。

[0036] 一般的に、楽曲シーンと非楽曲シーンとの境界では差異量が大きく変動することから、左右チャンネルの直交係数行列の差異量を検出する手法は、楽曲区間の開始時刻および終了時刻が高い精度で検出できるという長所がある。その一方、コンサ一トゃライブ会場など常に音の広がり感が高い番組では非楽曲シーンでも高い差異量を検出したり、またモノラル放送では差異量が検出できない等の短所もある。またロックゃ演歌、クラシックなど、曲調や楽器構成などによる得手、不得手が生じる場合がある。

[0037] 図 5は、本実施の形態 1の補正処理（図 2では、 ST6の「フィルター」に相当）の過程を示すチャート図である。同図において、（1)は第二の楽曲候補検出部 11で算出された差異量 42をプロットしたグラフ 400であり、横軸は記録した番組の時間経過 40、縦軸 41は差異量である。

[0038] 第二の補正部 13では、差異量 42を所定の閾値 43でニ値ィ匕して、閾値 43を超える区間に楽曲を示すラベル付けを行い、閾値 43を下回る区間は非楽曲を示すラベル付けを行う。同図において、（2)は二値化したラベル 45をプロットしたグラフ 402で、楽曲を示すラベルが付、た区間を High、非楽曲シーンを示すラベルが付、た区間を Lowとしてラベル軸 44で表している。さらに、同図（3)はラベル 45に対して補正の処理を行うことで得られる補正後のラベル 47をプロットしたグラフ 407である。

[0039] ここで、図 5を用いて、第二の楽曲候補検出部 11で算出された差異量に対する第二の補正部 13による補正処理の詳細につ、て説明する。一例である差異量 42を閾値 43で二値化すると、ラベル 45のように 3つの楽曲候補区間 46a、 46b、 46cが検出される。

[0040] そして、次に、ニ値ィ匕により得たラベル 45に対して、次の 3通りの補正処理を必要に応じて行う。

[0041] (a)楽曲候補区間が所定時間 T1 (例えば 5秒)以下であれば、楽曲にラベル付けされた区間は、非楽曲（Low)にラベルを変更する。

(b)連続する楽曲候補区間の間隔が所定時間 T2 (例えば 5秒)以内であれば、非楽曲にラベル付けされた間隔は、楽曲（High)にラベルを変更する。

(c)上記の（a)、（b)のラベル変更を行った後、楽曲にラベル付けされた区間が所定時間 T3 (例えば 60秒)を超える区間を補正後の楽曲候補区間とする。なお、（a)と (b)はどちらか一方であっても良い。

[0042] 図 5 (2)を用いて説明すると、楽曲候補区間 46cは間隔 Aは、所定時間 T1を満たないために、補正処理 (a)によって非楽曲区間となり、楽曲候補区間 46aと 46bとの間隔 Bは、所定時間 T2よりも短いために、補正処理 (b)によってひとつの楽曲候補区間となる。その結果、得られる楽曲候補区間の間隔 Cは所定時間 T3を越えるので、この補正処理によって楽曲区間 48が得られることになる。

[0043] また、第一の楽曲候補検出部 10で算出したラベルに対する第一の補正部 12による補正処理について、同じく図 5を用いて説明する。第一の楽曲候補検出部 10では楽曲を示すラベルと非楽曲を示すラベルが、もとより二値で算出されているので、そのまま図 5 (2)のラベル 45のプロットとなる。一例として示したラベル 45では、 3つの楽曲候補区間 46a、 46b、 46cが検出されたことになり、これに対して第二の補正部 1 3と同様に、補正処理 (a)、（b)、（c)を必要に応じて施すことで、楽曲候補区間 48が得られること〖こなる。

[0044] このように、それぞれの補正部において補正処理を施すことにより、出演者によるトークショーでの効果音などの非楽曲シーンにて、瞬間的に楽曲シーンと誤検出されてしまった区間や、あるいは演奏途中の演出としての全休止など楽曲シーンであるにも関わらず部分的に非楽曲シーンと誤検出されてしまった区間などを補正することが可能となる。また、一般的に、楽曲の 1コーラスに相当する 60秒などの所定時間を越えて楽曲が検出される区間を楽曲候補区間とすることで、トークショーでの短時間の BGMや宣伝用に楽曲のサビ部分のビデオクリップ紹介、あるいは番組のオーブニングゃエンディングテーマのような、楽曲シーンとして扱うには適切ではないシーンを除外することちでさる。

[0045] 次に、図 1の楽曲検出部 14での処理 (ST7)について説明する。図 6は、本実施の形態 1の楽曲検出部 14による、楽曲区間の検出処理の過程を示すチャート図である。同図において（1)は、第一の楽曲候補検出部 10で算出されたラベルに対し、第一の補正部 12によって補正処理を施して得たラベル 50をプロットしたグラフ 500である。また同じぐ同図（2)は、第二の楽曲候補検出部 11で算出された差異量に対し、第二の補正部 13によって補正処理を施して得たラベル 52をプロットしたグラフ 502である。同図（3)は、ラベル 50とラベル 51とに基づいて検出処理したラベル 54をプロットしたグラフ 504である。グラフ 500、 502、 504ίま!ヽずれも、楽曲を示すラベノレ力 ^付!ヽた区間を High、非楽曲シーンを示すラベルが付!、た区間を Lowとしてラベル軸 44 で表している。

[0046] さらに、図 6を用いて、楽曲検出部 14における楽曲区間の検出処理について説明する。一例として、図に示すように、ラベル 50に示す楽曲候補区間 51a、 51b、 51cと、ラベル 52に示す楽曲候補区間 53a、 53b、 53c、 53dが検出されているとする。本実施の形態 1の楽曲検出部 14では、双方の楽曲候補区間を論理 OR (論理和)で処理し、楽曲区間を検出する。以下、図 6を使って具体的に説明する。

[0047] 一部の時刻で重複して検出された楽曲候補区間 51aと 53aから楽曲区間を検出する場合、開始時刻 A1と B1が同じであれば、検出後の楽曲区間 55aの開始時刻は C 1で決定する。次に、終了時刻 A2は B2よりも長い (楽曲区間が時間として延長する方向）ため、検出後の楽曲区間 55aの終了時刻は A2の時刻を採用して C2となる。

[0048] 同様に、楽曲候補区間 51bと 53bから楽曲区間を検出する場合、開始時刻 A3と B 3とでは B3の方が長いため、検出後の楽曲区間 55bの開始時刻は B3の時刻を採用して C3となる。終了時刻 A4と B4とでは B4の方が長いため、検出後の楽曲区間 55b の終了時刻は B4の時刻を採用して C4となる。

[0049] さらに、楽曲候補区間 53cについては時刻が重複する他方の楽曲候補区間が存在しないため、開始時刻 B5と終了時刻 B6がそのまま検出後の楽曲区間 55cの開始時刻 C5と終了時刻 C6に採用される。

[0050] 最後に、楽曲候補区間 51cと 53dから楽曲区間を検出する場合、開始時刻 A5と B 7とでは A5の方が長いため、検出後の楽曲区間 55dの開始時刻は A5の時刻を採用して C7となる。終了時刻 A6と B8とでは A6の方が長いため、検出後の楽曲区間 55b の終了時刻は A6の時刻を採用して C8となる。これにより、検出後の楽曲区間 55a、 55b、 55c、 55d力決定する。

[0051] このように、楽曲区間の検出を楽曲候補区間の論理 ORで判定することにより、複数の楽曲検出手段により、各々異なる基準で検出された楽曲候補区間を全て楽曲区間として決定することとなる。これにより、採用する楽曲検出手段に応じて広い範囲のジャンルの楽曲を検出することが可能となる。また、論理 ORによる検出では楽曲区間を加算するものであるので、複数の楽曲検出手段による楽曲候補区間のうちに誤検出された非楽曲シーンが含まれて!/、たとしても、判定処理の過程で他の楽曲検出手段で検出できていた楽曲シーンが弊害として削除されてしまうことがない。

[0052] また、上記で説明したとおり、第一の楽曲候補検出手段 10は、高い確度で楽曲シーン、即ち楽曲区間の途中を検出できるが、楽曲シーンと非楽曲シーンとの境界を検出する精度は若干曖昧になるとの検出特性を有する。一方、第二の楽曲候補検出部 11は、楽曲区間の開始時刻および終了時刻が高!、精度で検出できるとの検出特性を有する。本実施の形態 1の楽曲検出方法では、上記のように互いに検出特性の異なる検出方法を組み合わせることにより、より精度の高い方法としている。すなわち、第一の楽曲候補検出手段 10の検出特性と第二の楽曲候補検出部 11の検出特性とが互いの検出特性を補完しあうような関係となっているため、楽曲検出の精度をより高いものとしている。

[0053] 次に、図 7、 8を用いて、検出された楽曲区間の楽曲情報をメタデータ生成部 15にてメタデータファイルに生成する方法を説明する。図 7は、本実施の形態 1の映像音声記録装置のファイル構成図である。すなわち、図 7は、蓄積メディア 1の論理フアイル構造を示したものであり、論理的に階層構造を成すディレクトリ構造の最上位階層にルートディレクトリ 90が配置され、そのルートディレクトリ 90の下位層に、マルチメディアディレクトリ 91、およびメタデータディレクトリ 92が配置されて、る。

[0054] マルチメディアディレクトリ 91には、蓄積メディア 1に記録されて、る番組の管理番号を含む管理情報を記述した情報管理ファイル 93、番組の映像信号または音声信号を符号ィ匕圧縮して多重化したマルチメディアデータファイル 94、さらに情報管理フアイル 93などのバックアップファイル 95が配置されている。

[0055] 一方、メタデータディレクトリ 92には、番組を記録してマルチメディアデータファイル 94が生成された際に検出された楽曲区間の楽曲情報が、独立した論理ファイルで成るメタデータファイル 96に記述され、配置される。

[0056] なお、図 7では、マルチメディアデータファイル 94とメタデータファイル 96とが個別のディレクトリに配置する例を示した。しかし、同一のディレクトリ内に配置されたり、メタデータファイル 96がルートディレクトリ 90に直接配置されてもよい。また、マルチメディアデータファイル 94、あるいはメタデータファイル 96は、記録した番組の数に応じて分割されたり、ファイル容量の制限などによって複数に分割されてもよい。 [0057] さらに、本実施の形態 1におけるメタデータファイル 96は、そのデータ形式は問わず、テキスト形式であってもノイナリ形式であってもよい。また、メタデータファイル 96 に記述されているデータの改ざんや、情報の流出を阻むために、暗号処理を施してちょい。

[0058] また、管理情報ファイル 93に、所望の番組に対応するメタデータファイル 96が存在しているか否力、あるいはメタデータファイル 96に有効な値が存在するか否力などの情報を記述してぉ、てもよ、。このような情報が管理情報ファイル 93に記録されていると、番組を再生する際に、当該情報を参照することで、素早く楽曲情報の存在あるいは有効性を判断することができる。

[0059] このように、メタデータファイル 96をマルチメディアデータファイル 94に重畳、多重化せずに独立した論理ファイルとする。これにより、番組を再生する際に、ファイル容量が大きなマルチメディアデータファイル 94を走査することなく、比較的ファイル容量の小さなメタデータファイル 96を読み出すことで楽曲情報を素早く取得することが可能となる。

なお、メタデータファイル 96をマルチメディアデータファイル 94に重畳してもよい。この場合は、ファイル数を少なくでき、また、マルチメディアデータと同一のファイルなので、楽曲情報を伴うマルチメディアデータをリムーバブルな記録媒体に記録して他機器で編集やコピーなどのファイル操作を行う際、メタデータが散逸することを抑制できる。

[0060] 図 8は、階層構造である本実施の形態 1のメタデータ構造図である。図において、（ A)は、データ構造の最上位の階層のメタデータ 130である。

[0061] 次に、図 8 (B)を用いて、メタデータ 130のデータ構造を説明する。メタデータ全体の情報は、メタデータ管理情報 131aに統括的に記述されている。この階層には、楽曲情報を持つ番組の数（1力も n個）に応じた番組メタデータ情報 131cと、番組メタデータ情報 13 lcを個々にアクセスするためのアドレス情報である番糸且メタデータ情報サーチポインタ 13 lbが配置される。

[0062] ここで、蓄積メディア 1に楽曲情報を持つ番組が存在しな!、場合には、メタデータフアイル 96を作成しなくてもよぐまた、メタデータ管理情報 131aに番組メタデータ情報 131cを 0個と記述したメタデータファイル 96を用意しても良い。

[0063] 次に、図 8 (C)を用いて、番組メタデータ情報 131cのデータ構造を説明する。この階層には、メタデータ一般情報 132aと、楽曲マップ情報 132bが配置される。メタデータ一般情報 132aには、楽曲マップ情報 132bをアクセスするためのアドレス情報などの他、番組メタデータ情報 131cが対応するべき番組の管理番号が記述される。これは音楽番組以外を記録した時など、番組によっては楽曲情報を生成しな、場合もあるために、情報管理ファイル 93で管理される番組の管理番号と番組メタデータ情報 131cの番号とがー致しない場合に、番組とメタデータとを関連付けるためのテーブルである。

[0064] 次に、図 8 (D)を用いて、楽曲マップ情報 132bのデータ構造を説明する。この階層には、楽曲マップ一般情報 133aと、検出した楽曲の数（1から m個）に応じた楽曲ェントリ 133bが配置される。楽曲マップ一般情報 133aには、楽曲エントリ 133bを個々にアクセスするためのアドレス情報が記述される。

[0065] 最後に、図 8 (E)を用いて、楽曲エントリ 133bのデータ構造を説明する。この階層には、検出した楽曲区間の楽曲開始時刻情報 134aと、楽曲終了時刻情報 134bが配置される。時刻情報には、プレゼンテーションタイム (PTM)などが使用される。

[0066] 以上説明したように、本実施の形態 1では、楽曲区間の開始時刻と終了時刻をメタデータに記述する方法の例を述べたが、記録した番組から楽曲情報が特定できるデータ構造であれば良い。例えば、番組を 1秒間などの固定時間で離散化した時に楽曲シーンである区間は High (1)、非楽曲シーンである区間は Low(O)とするなど二値ィ匕した結果を楽曲マップ情報として列挙するデータ構造としても、同等の機能が実現できる。

[0067] これにより、蓄積メディア 1に記録した番組を再生する際にはメタデータファイル 96 からメタデータ 130を読み出し、番組に存在する楽曲の楽曲情報を把握することができる。したがって、楽曲情報に基づく再生制御を行うことで、楽曲区間のみを連続再生したり、楽曲区間の開始点あるいは終了点に手動でスキップする機能など、効率的に楽曲シーンを視聴することが可能となる。

[0068] すなわち、従来は、非楽曲シーンや CM放送 (CM放送については、実施の形態 3 で説明する。）を見飛ばすには、手動操作による早送りや早戻し再生によって楽曲シーンの先頭や終端などの境界を検索する必要があった。

[0069] また、記録媒体に長時間記録された番組から楽曲シーンを視聴した!/、場合、ある!/、は非楽曲シーンを視聴したい場合などは、視聴者が早送り（フォワードスキャン)や早戻し (バックワードスキャン）映像を見ながら所望のシーンを探したり、 15秒などの固定時間のスキップによって所望のシーンが現れるまで操作を繰り返したりしなければならない。そのため、楽曲シーンの始点ゃ終点の箇所を誤って行き過ぎることなく再生するには、予め楽曲シーンの箇所を正確に把握していなければ至難であった。特に、初見の番組を再生する場合においては、番組中のどこに楽曲シーンがあるのかわからな!/、ために、番組の冒頭力も楽曲シーンを検索して行く手間を要して、た。

[0070] しかし、本実施の形態 1により記録された番組を再生する場合は、上記のような操作をする必要が無い。すなわち、再生時には初見の番糸且でも楽曲区間をあら力じめ把握することができるので、楽曲区間のみの連続再生や、楽曲区間の始点ゃ終点への手動でのスキップ等の再生制御が可能となる。

[0071] なお、本実施の形態 1では、映像信号 3と音声信号 4としてテレビジョン放送を例に説明したが、例えば、別の映像再生装置を使って外部入力端子力供給される映像音声信号であっても良い。あるいは、リムーバブルな蓄積メディア 1や映像記録再生装置に内蔵したノヽードディスク（図示なし)などに記録して、る映像音声データを読み出し、符号化圧縮した音声データをデコード (複号)処理して PCM信号を得て楽曲情報を検出しても良い。この方法であれば、記録時にリアルタイムで楽曲区間の検出処理を行う必要が無いので、記録制御部の処理能力が低い場合であっても、記録後に時間を掛けて検出が可能となる。さらに、既に蓄積メディアに記録済の番組からも楽曲情報を得ることが出来る。

[0072] 実施の形態 2.

本実施の形態 2では、楽曲検出部 14による楽曲区間の検出処理として、実施の形態 1で説明した方法とは異なる検出方法について説明する。図 6は、本実施の形態 2 の楽曲検出部 14による、楽曲区間の検出処理の過程を示すチャート図である。同図において（1)、（2)は、実施の形態 1の図 6に示したものと同じであり、同図（3)は、実施の形態 1とは異なる検出方法により検出されたラベル 60をプロットしたグラフ 600である。

[0073] 図 9を用いて、実施の形態 1とは異なる楽曲検出部 14における楽曲区間の検出処理について説明する。本実施の形態 2では、ラベル 50、あるいはラベル 52のいずれか一方を基点として楽曲区間を検出する点に特徴がある。

[0074] 一例として、図に示すように、ラベル 50に示す楽曲候補区間 51a、 51b、 51cと、ラベル 52に示す楽曲候補区間 53a、 53b、 53c、 53dが検出されているとする。ここでは、ラベル 50を基点とする場合にっ、て説明する。

[0075] まず、楽曲候補区間 51aの開始時刻 A1の近傍でラベル 52の楽曲候補区間の開始時刻を検索すると、 B1が見つかる。開始時刻 A1と B1が同じであれば、検出後の楽曲区間 61aの開始時刻は P1で決定する。次に、楽曲候補区間 51aの終了時刻 A 2の近傍でラベル 52の楽曲候補区間の終了時刻を検索すると B2が見つ力るので、検出後の楽曲区間 61aの終了時刻は B2の時刻を採用して P2となる。

[0076] さらに、楽曲候補区間 51bの開始時刻 A3の近傍で、ラベル 52の楽曲候補区間の開始時刻を検索すると B3が見つ力るので、検出後の楽曲区間 61bの開始時刻は B3 を採用して P3となる。同様に、終了時刻 A4については終了時刻 B4が見つかるので、検出後の楽曲区間 61bの終了点は B4を採用して P4となる。

[0077] なお、この時、 A3を基点としてラベル 52における楽曲候補区間の開始時刻を検索する範囲は A2から A4までの時刻とし、 A4を基点としてラベル 52における楽曲候補区間の終了時刻を検索する範囲は A3から A5までとする。この場合、仮に、ラベル 5 2の楽曲候補区間が存在しない場合には、ラベル 50の楽曲候補区間が検出後の楽曲区間となる。

[0078] 以下同様に、楽曲区間 61cについても検出処理によって開始時刻 P5と終了時刻 P 6が決定する。なお、ラベル 52の楽曲候補区間 53cについては、基点となるラベル 5 0の楽曲候補区間が存在しないために、検出処理によって削除されることになる。

[0079] このように、本実施の形態 2では、高い確度で楽曲シーン、即ち楽曲区間の途中を検出できるが、楽曲シーンと非楽曲シーンとの境界を検出する精度は若干曖昧になるとの検出特性を有する第一の楽曲候補検出手段 10により検出された楽曲候補区間を基準とする。そして、楽曲区間の開始時刻や終了時刻が高い精度で検出できる一方で非楽曲シーンを検出してしまう検出特性を持つ第二の楽曲候補検出手段 11 により検出された楽曲候補区間の有無を検出する。

[0080] つまり、検出時に、両者の検出特性を考慮して、楽曲区間の開始時刻及び終了時刻を、第二の楽曲候補検出手段 11により検出された楽曲候補区間の開始時刻と終了時刻を優先的に採用する検出処理を行う。これにより、非楽曲シーンの誤検出を低減できると共に楽曲区間の開始時刻と終了時刻とを高い精度で検出することが可能となる。

[0081] すなわち、両者が互いに補完的な関係にある検出特性を考慮して、楽曲区間の途中である楽曲シーンを基準に楽曲区間の開始時刻と終了時刻とを検出することにより、高い精度で楽曲区間を検出することが可能となる。

[0082] 実施の形態 3.

本実施の形態 3では、 CM放送区間を検出することに特徴がある。図 10は、本実施の形態 3の映像音声記録装置を示すシステムブロック図である。また、図 11は、本実施の形態 3の楽曲区間の検出、記録方法を示すフローチャートである。映像音声記録装置 700には、記録を行う対象となるテレビジョン放送などの映像信号 3と音声信号 4の特徴に基づいて CM放送区間を検出する CM検出部 70を備える（ST9)。 CM 検出部 70で検出された CM放送区間の開始時刻と終了時刻は、楽曲検出部 71に出力される。その他の構成要素については実施の形態 1で示したものと同じであり、ここでは説明を省略する。

[0083] 次に、図 10、図 11を用いて、 CM検出部 70の動作を説明する。まず、ビデオェンコーダ 5は、映像信号 3を MPEG— 2方式で符号ィ匕圧縮した映像データにおける Iピクチヤなどの映像フレームの輝度信号や色差成分 (YUVフォーマット）等の変化量を監視する。そして、 CM検出部 70は、この変化量が所定の閾値以上となった場合にシーンチェンジが発生したと判定する機能を備える。さらに、 CM検出部 70は、 AZ Dコンバータ 6において音声信号 4を PCM方式に変換した音声データにおける音声波形の振幅が所定の閾値以下となった場合を無音と判定する機能も有する。

[0084] なお、テレビ放送において、 CM放送区間を除外した番組本編の区間を「本編放送区間」とする。一般的に CM放送区間と本編放送区間との境界、あるいは複数連続する CM放送区間と CM放送区間との境界には、無音とシーンチェンジが同時刻に存在する。また、 1つの CM放送は 15秒、 30秒など時間が決まっている。これらの現象に着目し、 CM検出部 70は、シーンチェンジと無音が同期して検出される箇所が所定間隔で連続する場合、この区間が CM放送区間であると判断する。 CM検出部 70は、 CM放送が複数連続する区間の開始時刻と終了時刻の時間情報を示すプレゼンテーシヨンタイム（PTM)を算出し、楽曲検出部 71に出力する。

[0085] なお、 CM放送の検出手段は、 CM放送区間の開始時刻と終了時刻が検出できる方法であれば手法は問わない。例えば、音声信号 4の音声方式が、本編放送に多いモノラル信号力も CM放送に多、ステレオ信号に変化する箇所を検出してもよ!/、。また、映像信号 3において本編放送区間と CM放送区間との境界に現れる黒画面 (ブラックフレーム）を検出するものであってもよい。また、音声信号のみから、または映像信号のみ力 CM放送区間を検出しても良い。

[0086] 図 12は、本実施の形態 3の楽曲検出部 71による検出処理（図 11では、 ST9の「C M検出」に相当）の過程を示すチャート図である。同図において（1)は、検出された楽曲区間であるラベル 80をプロットしたグラフ 800である。楽曲区間の検出処理の方法については、実施の形態 1および 2で説明したものを用いる。また、同図（2)は、 C M検出部で検出された CM放送区間を示す CMラベル 82をプロットしたグラフ 802である。図中、 CM放送区間として検出された区間を High、それ以外の区間を Lowとしてラベル軸 86で表して!/、る。

[0087] そして、同図（3)は、検出処理したラベル 80と CMラベル 82とをさらに再検出して得られる CM補正したラベル 84をプロットしたグラフ 804である。グラフ 800、 804は共に、楽曲区間を示すラベルが付いた区間を High、非楽曲シーンを示すラベルが付！、た区間を Lowとしてラベル軸 44で表して!/、る。

[0088] 次に、図 12を用いて、楽曲検出部 71における CM放送の検出処理について説明する。一例として、第一の楽曲検出手段と第二の楽曲検出手段による楽曲候補区間力も得たラベル 80に示す楽曲区間 81a、 81bと、 CM検出部 70により CM放送を検出した CM放送区間 83aがある場合、楽曲区間 81a、 81bのうち CM放送区間 83aと重複する区間を非楽曲シーンとする補正処理を行う。

[0089] 以下、図 12を用いて具体的に説明する。楽曲区間 85aの開始時刻 D1は、 CM放送と重複していないが、終了時刻 D2は CM放送区間 83aと重複している。よって、 C M補正処理後の楽曲区間 85aの開始時刻は、 D1の時刻を採用して F1となり、終了時刻は CM放送区間 83aの開始時刻 E 1を採用して F2となる。

[0090] 同様に、楽曲区間 81bの終了時刻 D4は CM放送と重複していないが、開始時刻 D 3は CM放送区間 83aと重複している。よって、 CM補正処理後の楽曲区間 85bの開始時刻は、 CM放送区間 83aの終了時刻 E2を採用して F3となり、終了時刻は D4の時刻を採用して F4となる。ここでは図示しないが、検出処理後の楽曲区間が完全に CM放送区間と重複している場合には、その楽曲区間は CM補正処理により削除されること〖こなる。

[0091] このように、 CM放送が検出された区間は楽曲区間から除外されるので、 BGM (バックグラウンドミュージック）や効果音として楽曲が多用される CM放送を、本来の音楽番組として視聴した、楽曲と混同して誤検出しなヽ効果がある。

[0092] なお、本実施の形態 3では、楽曲区間の検出の後、 CM放送区間を除外する方法について説明したが、楽曲候補区間決定後に、それぞれの楽曲候補区間力も CM 放送区間を除外し、その後に楽曲区間を検出してもよい。また、楽曲候補区間を検出する前に CM放送区間を除外してもよい。

[0093] なお、上記実施の形態 1から 3では、楽曲候補検出手段と補正手段とを別の手段としたが、これら二つの手段の機能を有する一つの楽曲検出手段としてもよい。

[0094] また、上記実施の形態 1から 3では、楽曲区間を含んだマルチメディアデータを記録するとした力検出された楽曲区間のみのマルチメディアデータを記録してもよい。

Claims

請求の範囲

[1] 音声信号と映像信号とを含むデータを入力するデータ入力ステップと、

各々異なる基準に基づいて、前記音声信号から、前記入力データの楽曲候補区間を検出する複数の楽曲候補区間検出ステップと、

を備える楽曲区間検出方法。

[2] 前記複数の基準に含まれる一の基準の検出特性は、

前記一以外の他の基準の検出特性を補完するように設定される

請求項 1に記載の楽曲区間検出方法。

[3] 前記基準の一つは、

前記楽曲候補区間と、前記楽曲候補区間以外の区間との境界を検出するように設定される

請求項 1に記載の楽曲区間検出方法。

[4] 前記基準の一つは、

前記楽曲候補区間の途中を検出するように設定される

請求項 1に記載の楽曲区間検出方法。

[5] 前記楽曲候補区間検出ステップは、

前記検出された楽曲候補区間を補正する補正ステップを備える

請求項 1に記載の楽曲区間検出方法。

[6] コマーシャル区間を検出するコマーシャル検出ステップを備え、

前記楽曲区間から前記コマーシャル区間を除く

請求項 1に記載の楽曲区間検出方法。

[7] 請求項 1に記載の楽曲区間検出方法により検出された楽曲区間を含むデータを記録するデータ記録ステップと、

前記楽曲区間を特定するための情報を記録する情報記録ステップと

を備えるデータ記録方法。

[8] 各々異なる基準に基づいて、音声信号と映像信号とを含む入力データの前記音声信号から、前記入力データの楽曲候補区間を検出する複数の楽曲候補区間検出部と、

前記検出された複数の楽曲候補区間に基づいて、楽曲区間を検出する楽曲区間検出部とを備える楽曲区間検出装置。

[9] 前記複数の基準に含まれる一の基準の検出特性は、

請求項 8に記載の楽曲区間検出装置。

[10] 前記基準の一つは、

請求項 8に記載の楽曲区間検出装置。

[11] 前記基準の一つは、

前記楽曲候補区間の途中を検出するように設定される

請求項に記載の楽曲区間検出装置。

[12] 前記検出された楽曲候補区間を補正する補正部を備え、

前記楽曲検出部は、前記補正部により補正された複数の楽曲候補区間に基づいて楽曲区間を検出する

請求項 8に記載の楽曲区間検出装置。

[13] コマーシャル区間を検出するコマーシャル検出部を備え、

前記楽曲区間検出部は、前記楽曲区間から前記コマーシャル区間を除く請求項 8に記載の楽曲区間検出装置。

[14] 請求項 8に記載の楽曲区間検出装置により検出された楽曲区間を含むデータを記録するデータ記録部を備え、

前記データ記録部は、前記楽曲区間を特定するための情報を記録することを特徴とするデータ記録装置。