WO2007074755A1 - 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 - Google Patents

楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 Download PDF

Info

Publication number
WO2007074755A1
WO2007074755A1 PCT/JP2006/325720 JP2006325720W WO2007074755A1 WO 2007074755 A1 WO2007074755 A1 WO 2007074755A1 JP 2006325720 W JP2006325720 W JP 2006325720W WO 2007074755 A1 WO2007074755 A1 WO 2007074755A1
Authority
WO
WIPO (PCT)
Prior art keywords
music
section
candidate
detection
detected
Prior art date
Application number
PCT/JP2006/325720
Other languages
English (en)
French (fr)
Inventor
Isao Otsuka
Hidetsugu Suginohara
Original Assignee
Mitsubishi Electric Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corporation filed Critical Mitsubishi Electric Corporation
Priority to EP06835167A priority Critical patent/EP1968043B1/en
Priority to US12/087,248 priority patent/US8855796B2/en
Priority to CN2006800430357A priority patent/CN101310327B/zh
Publication of WO2007074755A1 publication Critical patent/WO2007074755A1/ja
Priority to HK08113942.4A priority patent/HK1122893A1/xx

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/781Television signal recording using magnetic recording on disks or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/84Television signal recording using optical recording
    • H04N5/85Television signal recording using optical recording on discs or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals

Definitions

  • the present invention relates to a method and apparatus for detecting a data-powered music segment such as a television broadcast, and data including a music segment detected by this method, including a DVD-R ⁇ DVD-RW.
  • the present invention relates to a recording method and apparatus for recording on a recording medium such as a type DVD disk, hard disk drive, or Blu-ray Disc.
  • “song program” or “music program” in one of the television broadcasts.
  • a music program is a performance or song performed by a performer, or a video image of a song (hereinafter referred to as a “song scene”.
  • a “song scene” refers to music such as a song or a performance.
  • non-musical images hereinafter referred to as “non-musical scenes”.
  • CM broadcasting commercial message broadcasting
  • Engagement is also included in the program structure.
  • the conventional music detection method and recording method specify a music scene using the feature that the peak of the frequency spectrum of sound information is temporally stable in the frequency direction, Only video and audio of music are stored (see, for example, Patent Document 1).
  • Patent Document 1 Japanese Patent Laid-Open No. 11 266435 (page 5, FIG. 1)
  • the present invention has been made to solve the above-described problems, and provides a method and apparatus for efficiently detecting a music scene from data including video signals and audio signals such as television broadcasting. Is.
  • a music section detection method includes:
  • a data input step for inputting data including an audio signal and a video signal; a plurality of song candidate section detection steps for detecting a song candidate section of the input data from the audio signal based on different criteria;
  • a music section detecting step for detecting a music section based on the plurality of music candidate sections detected
  • a music candidate section is detected based on a plurality of different criteria for an audio signal, and a plurality of detected music candidate section power music sections are detected. Therefore, it is possible to ensure high detection accuracy for a wide variety of songs such as rock, enka, and classic.
  • FIG. 1 is a system block diagram showing a video / audio recording apparatus according to a first embodiment.
  • FIG. 2 is a flowchart showing a music section detection and recording method according to the first embodiment.
  • FIG. 3 is a block diagram showing a first music candidate detection unit of the first embodiment.
  • FIG. 4 is a block diagram showing a second music candidate detection unit of the first embodiment.
  • FIG. 5 is a chart showing a correction process according to the first embodiment.
  • FIG. 6 is a chart showing a music section detection process in the first embodiment.
  • FIG. 7 is a file configuration diagram of the video / audio recording apparatus according to the first embodiment.
  • FIG. 8 is a metadata structure diagram of the first embodiment.
  • FIG. 9 is a chart showing a music section detection process according to the second embodiment.
  • FIG. 10 is a system block diagram showing a video / audio recording apparatus according to a third embodiment.
  • FIG. 11 is a flowchart showing a music section detection and recording method according to the third embodiment.
  • FIG. 12 is a chart showing a CM broadcast section detection process in the third embodiment.
  • 1 Storage media 2 Write drive, 3 Video signal, 4 Audio signal, 5 Video encoder, 6 A / D converter, 7 Audio encoder, 8 Multiplexer, 9 Write buffer memory, 10 First music candidate detection unit, 11 Second music candidate detection unit, 12 first correction unit, 13 second correction unit, 14 music detection unit, 15 metadata generation unit, 16 recording control unit, 20 orthogonal transform processing unit, 21 likelihood comparison processing unit, 22 Model data, 30 Difference calculation processing section, 40 hours elapsed (horizontal axis), 41 Difference amount (vertical axis), 42 Difference amount, 43 threshold, 44 label axis, 45 label, 46a, 46b, 46c Song candidate section, 47 Label after correction processing, 48 Song candidate section after correction processing, Label after 50 correction processing,
  • a music candidate section is detected based on a plurality of different criteria for the audio signal, and a music section is detected from the detected plurality of music candidate sections.
  • presentation time which counts time position information at 90 kHz.
  • the PTM of the start time and end time is referred to as time position information.
  • the section that is a music scene is set to High (l)
  • the section that is a non-music scene is set to Low (O).
  • searching for a section in which the two values become high is called “music information”.
  • FIG. 1 is a system block diagram showing the video / audio recording apparatus according to the first embodiment.
  • FIG. 2 is a flowchart showing the music segment detection and recording method according to the first embodiment.
  • the video / audio recording apparatus of the first embodiment will be outlined with reference to FIG. 1 and FIG.
  • the video / audio recording apparatus 100 receives a video signal 3 and an audio signal 4 of a television broadcast or the like to be recorded (ST1).
  • video signal 3 is sent to video encoder 5
  • the video data is compressed by the MPEG-2 method.
  • audio signal 4 is an analog signal
  • PCM Pulse Code Modulation
  • a / D converter analog-to-digital converter
  • the audio encoder 7 encodes and compresses the audio data by the Dolby AC-3 method or the like, and becomes audio data.
  • the multiplexer 8 multiplexes video data and audio data to generate multimedia data.
  • the multimedia data is sequentially captured in the write buffer 9 and then sent to the write drive 2 and recorded on a removable storage medium 1 such as a DVD-R, DVD-RW disc or recordable Blu-ray Disc (a series of processing) Is also called “recording”).
  • a removable storage medium 1 such as a DVD-R, DVD-RW disc or recordable Blu-ray Disc (a series of processing) Is also called “recording”.
  • the operations of the video / audio recording apparatus 100 and the writing drive 2 are managed and controlled in an integrated manner by a recording control unit 16 that also constitutes a power such as a microprocessor.
  • storage media 1 and writing drive 2 may be replaced with storage media, not removable, such as a hard disk drive (HDD).
  • HDD hard disk drive
  • the first music candidate detection unit 10 analyzes the PCM digital signal output from the AZD comparator 6 to detect a music candidate section (ST3, 4). In the music candidate section detected by the first music candidate detection unit 10, the detection error is corrected by the first correction unit 12 as necessary (ST6).
  • the second music candidate detection unit 11 having a different standard from the first music candidate detection unit 10 detects the music candidate section (ST3, 5)
  • the second correction unit 13 corrects the detection error as necessary (ST6).
  • the music candidate section is determined to be integrated or selected by the music detection unit 14, and the music section is detected (ST7).
  • the detected music section is generated in the metadata file by the metadata generation unit 15 and recorded in the storage medium 1 via the write buffer memory 9 (ST8).
  • the metadata generation unit 15 stores the music information of the music sections that are sequentially calculated and determined. It has a memory function to hold information.
  • the concept of the recording unit of the video / audio recording apparatus 100 may include only the writing drive 2, or includes the multiplexer 8, the metadata generation unit 15, the writing buffer 9, and the recording control unit 16. Also good.
  • the configuration described in the case where there are two music candidate detection units 10 and 11 for detecting music candidate sections may be configured to have more music candidate detection units.
  • the correction units 12 and 13 described the configuration in which the corrected music candidate section is output to the music detection unit 14 after the correction is individually made to each of the music candidate detection units 10 and 11.
  • the corrected music candidate section may be output to the music detection unit 14 after being corrected by one correction unit.
  • a configuration may be adopted in which the music section after detection by the music detection unit 14 is corrected!
  • FIG. 3 is a functional block diagram showing in detail the first music candidate detection unit 10 of the first embodiment.
  • the first music candidate detection unit 10 includes an orthogonal transform processing unit 20, a likelihood comparison processing unit 21, and model data 22 that is a data table for reference. As shown in the figure, the orthogonal transform coefficient of the digital signal converted by the AZD converter 6 is calculated by the orthogonal transform processing unit 20, and the likelihood comparison processing unit 21 assigns a label with reference to the model data 22. Is output to the first correction unit 12.
  • the AZD converter 6 can obtain PCM data for the right channel and the left channel individually. If this stereo signal is a consumer recorder device, the quality of the sampling frequency is 48 kHz and the number of quantization bits is 16 bits.
  • orthogonal transform processing section 20 performs orthogonal transform on the time domain PCM data in the frequency domain (ST3).
  • ST3 frequency domain
  • MDCT Modified Discrete Cosine Transform
  • Sampling 512 PCM data for 50% overlap yields 256 orthogonal transform coefficients (MDCT coefficients) for each of the right and left channels.
  • MDCT coefficients Orthogonal transform coefficients
  • a 256-dimensional coefficient vector is obtained from the conversion coefficient.
  • the coefficient vector may be reduced in the number of dimensions by projective transformation for the purpose of reducing the amount of calculation.
  • the coefficient vector distribution tendency Prior to the analysis of the input audio signal, the coefficient vector distribution tendency is mixed Gaussian as training data by collecting audio coefficient vectors that are markedly determined as musical scenes by subjective evaluation in advance. Model using the distribution model (GMM method). The music scene power is called “music class model”. In addition, for non-musical scenes such as prominent audience cheers and cheering, applause, laughter, performers' talk scenes, etc., collect training data and create a mixed Gaussian distribution model to create multiple voice classes. Prepare a model.
  • the model data 22 is a data table that can be referred to by these voice class models.
  • the likelihood comparison processing unit 21 refers to the model data 22 and searches for the speech class having the highest likelihood as the vector space of the orthogonal transform coefficient vector of the speech signal being recorded, Assign as a section label (ST4).
  • the method of assigning a label indicating a song by likelihood comparison using a mixed Gaussian distribution model has the advantage of being able to detect only the music scene with high accuracy without being affected by the number of channels such as stereo broadcasting and monaural broadcasting. .
  • the accuracy of detecting the boundary between a music scene and a non-music scene has some disadvantages.
  • FIG. 4 is a functional block diagram showing in detail the second music candidate detection unit 11 of the first embodiment.
  • the second music candidate detection unit 11 includes an orthogonal transformation processing unit 20 and a difference calculation processing unit 30.
  • the orthogonal transform coefficient of the digital signal converted by the AZD converter 6 is orthogonal transform processing. After being calculated by the unit 20 and further calculating the difference amount of the orthogonal transform coefficient by the difference calculation processing unit 30, it is output to the second correction unit 13.
  • the orthogonal transformation coefficient is a (1 X 256) matrix
  • the orthogonal transformation coefficient of the right channel of the nth row is M r (n)
  • the orthogonal transformation coefficient of the left channel is Ml (n)
  • the difference between the orthogonal transformation coefficient matrices of both channels is calculated, and the difference amount D, which is the sum of the squares of the coefficients, is obtained by the following equation.
  • the difference D is a sum of squares of coefficients due to the difference of the orthogonal coefficient matrix. If the difference between the right channel and the left channel is numerically calculated, another calculation formula may be used.
  • the difference amount represents a difference between the right channel and the left channel, and can also be expressed as a feeling of sound spread, a feeling of stereo, and the like.
  • the sound spread is small in non-music scenes such as talk scenes by performers who have a large sense of sound spread in music scenes. That is, it is possible to detect that a section in which the difference amount exceeds a predetermined value (threshold value) is a music scene.
  • the method for detecting the difference between the orthogonal coefficient matrices of the left and right channels is the start time and end time of the music section. Can be detected with high accuracy.
  • the amount of difference is high even in non-music scenes in programs where concert halls and live venues always have a high sense of sound spread.
  • disadvantages such as being unable to detect the difference amount in monaural broadcasting.
  • rock enka, classical music, etc. may produce pros and cons due to musical tone and instrument composition.
  • FIG. 5 is a chart showing the process of the correction process of the first embodiment (corresponding to “filter” in ST6 in FIG. 2).
  • (1) is a graph 400 in which the difference amount 42 calculated by the second music candidate detection unit 11 is plotted.
  • the horizontal axis indicates the elapsed time 40 of the recorded program, and the vertical axis 41 indicates the difference amount. is there.
  • the difference amount 42 is devalued by a predetermined threshold 43, and a label indicating music is provided in a section exceeding the threshold 43, and a non-music is recorded in a section below the threshold 43.
  • Label as shown.
  • (2) is a graph 402 in which binarized labels 45 are plotted, with a label indicating a music piece labeled High, a section indicated with a label indicating a non-musical scene, and a section indicated with Low set as a label axis 44
  • (3) in the figure is a graph 407 in which the corrected label 47 obtained by performing the correction process on the label 45 is plotted.
  • the correction process by the first correction unit 12 for the label calculated by the first music candidate detection unit 10 will be described with reference to FIG.
  • the label indicating the music and the label indicating the non-music are originally calculated as binary values, and the plot of the label 45 in FIG.
  • label 45 shown as an example three music candidate sections 46a, 46b, and 46c are detected, and correction processing (a) and (b) is performed in the same manner as in the second correction unit 13 in response to this.
  • the music candidate section 48 can be obtained.
  • FIG. 6 is a chart diagram showing the process of music segment detection processing by the music detection unit 14 of the first embodiment.
  • (1) is a graph 500 in which the label 50 obtained by performing the correction process by the first correction unit 12 on the label calculated by the first music candidate detection unit 10 is plotted.
  • the same figure (2) is a graph 502 in which the label 52 obtained by performing the correction process by the second correction unit 13 on the difference amount calculated by the second music candidate detection unit 11 is plotted.
  • the FIG. 3C is a graph 504 in which the label 54 detected based on the label 50 and the label 51 is plotted.
  • Graphs 500, 502, and 504 ⁇ are also labeled with a lavenore power that indicates the song. It is represented by
  • both music candidate sections are processed by a logical OR (logical sum) to detect a music section. This will be specifically described below with reference to FIG.
  • the start time B5 and the end time B6 are directly detected as the start time C5 and the end time C6 of the music section 55c. Adopted.
  • the plurality of music detecting means determine all the music candidate sections detected by different criteria as the music sections. It becomes. Thereby, it becomes possible to detect music in a wide range of genres according to the music detection means employed.
  • the detection by logical OR adds the music interval, the judgment process is performed even if a non-musical scene detected erroneously is included in the music candidate intervals by a plurality of music detection means! / Detect other songs in the process The music scene that has been detected by the means is not deleted as an adverse effect.
  • the first music candidate detection means 10 can detect the music scene, that is, the middle of the music section with high accuracy, but detects the boundary between the music scene and the non-music scene.
  • the accuracy of the detection has a detection characteristic that it becomes slightly ambiguous.
  • the second music candidate detection unit 11 has a detection characteristic that the start time and end time of the music section are high and can be detected with high accuracy.
  • a method with higher accuracy is achieved by combining detection methods having different detection characteristics as described above. That is, since the detection characteristics of the first music candidate detection means 10 and the detection characteristics of the second music candidate detection unit 11 complement each other's detection characteristics, The accuracy is higher.
  • FIG. 7 is a file configuration diagram of the video / audio recording apparatus according to the first embodiment. That is, FIG. 7 shows the logical file structure of the storage medium 1.
  • the root directory 90 is arranged at the highest level of the directory structure that is logically hierarchical, and the root directory 90 is below the root directory 90.
  • a multimedia directory 91 and a metadata directory 92 are arranged.
  • the information management file 93 describing management information including the management number of the program recorded in the storage medium 1 and the video signal or audio signal of the program is code-compressed.
  • a multimedia data file 94 multiplexed and a backup file 95 such as an information management file 93 are arranged.
  • the music information of the music section detected when the program is recorded and the multimedia data file 94 is generated is described in the metadata file 96 composed of independent logical files. And placed.
  • FIG. 7 shows an example in which the multimedia data file 94 and the metadata file 96 are arranged in separate directories. However, it may be arranged in the same directory, or the metadata file 96 may be arranged directly in the root directory 90. In addition, the multimedia data file 94 or the metadata file 96 may be divided according to the number of recorded programs, or may be divided into a plurality of files depending on file capacity limitations.
  • the metadata file 96 according to the first embodiment is not limited to the data format, and may be a text format or a noisy format. Also, perform cryptographic processing to prevent alteration of the data described in the metadata file 96 and leakage of information.
  • the metadata file 96 is formed as an independent logical file without being superimposed on the multimedia data file 94 and multiplexed. This makes it possible to quickly acquire music information by reading the metadata file 96 with a relatively small file size without scanning the multimedia data file 94 with a large file size when playing a program. It becomes.
  • the metadata file 96 may be superimposed on the multimedia data file 94.
  • the number of files can be reduced, and since it is the same file as the multimedia data, the multimedia data with music information is recorded on a removable recording medium, and file operations such as editing and copying with other devices are performed. It is possible to prevent the metadata from being dissipated.
  • FIG. 8 is a metadata structure diagram of the first embodiment having a hierarchical structure.
  • (A) is the metadata 130 of the highest hierarchy of the data structure.
  • FIG. 8 The entire metadata information is described in the metadata management information 131a.
  • program metadata information 131c corresponding to the number of programs having music information (1 n is also available
  • program metadata information 13lc are address information for individually accessing program metadata information 131c.
  • Metadata information Search pointer 13 lb is placed.
  • the program metadata information is stored in the metadata management information 131a.
  • a metadata file 96 in which 131c is described as 0 may be prepared.
  • the data structure of the program metadata information 131c will be described with reference to FIG.
  • metadata general information 132a and music map information 132b are arranged.
  • the management number of the program to which the program metadata information 131c should correspond is described. Since this may not generate music information for some programs, such as when a non-music program is recorded, the program management number and program metadata information 131c number managed in the information management file 93 This is a table for associating a program with metadata if it does not match.
  • the music map general information 133a describes address information for individually accessing the music entry 133b.
  • music start time information 134a and music end time information 134b of the detected music section are arranged.
  • presentation time (PTM) or the like is used for the time information.
  • the metadata 130 can be read from the metadata file 96 and the music information of the music existing in the program can be grasped. Therefore, by performing playback control based on music information, it is possible to view music scenes efficiently, such as continuous playback of only music sections or manual skipping to the start or end of music sections. It becomes.
  • the television broadcast is described as an example of the video signal 3 and the audio signal 4.
  • a video / audio signal supplied from an external input terminal using another video playback device It may be.
  • it can be recorded on removable storage media 1 or a node disk (not shown) built into the video recording / playback device, read the video / audio data, and decode (decode) the encoded and compressed audio data.
  • Music information may be detected by obtaining a PCM signal. With this method, it is not necessary to perform the music section detection process in real time during recording, so even if the processing capability of the recording control unit is low, it is possible to detect over time after recording. In addition, music information can be obtained from programs already recorded on storage media.
  • FIG. 6 is a chart diagram showing the process of music segment detection processing by the music detection unit 14 of the second embodiment.
  • (1) and (2) are the same as those shown in FIG. 6 of the first embodiment
  • (3) in FIG. 6 is a graph 600 in which labels 60 detected by a detection method different from that in Embodiment 1 are plotted.
  • the second embodiment is characterized in that the music section is detected using either the label 50 or the label 52 as a base point.
  • the range for searching the start time of the music candidate section at label 52 from A3 is the time from A2 to A4, and the end time of the music candidate section at label 52 is searched from A4.
  • the range is from A3 to A5.
  • the music candidate section labeled 50 is the music section after detection.
  • the start time P5 and the end time P6 are determined by the detection process. Note that the music candidate section 53c with label 52 is deleted by the detection process because there is no music candidate section with label 50 as the base point.
  • a music scene that is, the middle of a music section can be detected with high accuracy, but the accuracy of detecting the boundary between a music scene and a non-music scene is somewhat ambiguous.
  • Song candidate section detected by the first song candidate detection means 10 having the detection characteristics of Based on the interval. Then, the presence / absence of a music candidate section detected by the second music candidate detection means 11 having a detection characteristic that can detect a non-music scene while detecting the start time and end time of the music section with high accuracy is detected. .
  • the start time and end time of the music section are set to the start time and end time of the music candidate section detected by the second music candidate detection means 11.
  • a detection process that preferentially employs is performed. As a result, it is possible to reduce erroneous detection of a non-music scene and to detect the start time and end time of a music section with high accuracy.
  • the third embodiment is characterized by detecting a CM broadcast section.
  • FIG. 10 is a system block diagram showing the video / audio recording apparatus according to the third embodiment.
  • FIG. 11 is a flowchart showing a method for detecting and recording a music section according to the third embodiment.
  • the video / audio recording device 700 includes a CM detection unit 70 that detects a CM broadcast section based on the characteristics of the video signal 3 and the audio signal 4 such as a television broadcast to be recorded (ST9).
  • the start time and end time of the CM broadcast section detected by the CM detection unit 70 are output to the music detection unit 71.
  • Other components are the same as those shown in the first embodiment, and a description thereof is omitted here.
  • the video encoder 5 monitors the amount of change in the luminance signal and color difference component (YUV format) of a video frame such as an I-picture in video data obtained by compressing the video signal 3 using the MPEG-2 method.
  • the CM detection unit 70 has a function of determining that a scene change has occurred when the amount of change exceeds a predetermined threshold. Furthermore, the CM detection unit 70 also has a function of determining silence when the amplitude of the speech waveform in the speech data obtained by converting the speech signal 4 into the PCM format in the AZ D converter 6 is equal to or less than a predetermined threshold.
  • the section of the main part of the program excluding the CM broadcasting section is referred to as "main part broadcasting.” “Section”.
  • silence and scene changes exist at the same time at the boundary between the CM broadcast section and the main broadcast section, or at the boundary between multiple consecutive CM broadcast sections and CM broadcast sections.
  • one CM broadcast has a fixed time such as 15 seconds or 30 seconds.
  • the CM detection unit 70 determines that this section is a CM broadcast section when the locations where the scene change and silence are detected in synchronization are continued at a predetermined interval.
  • the CM detection unit 70 calculates a presentation time (PTM) indicating the time information of the start time and end time of a section in which a plurality of CM broadcasts continue, and outputs the calculation time to the music detection unit 71.
  • PTM presentation time
  • the CM broadcast detection means may be any method as long as it can detect the start time and end time of the CM broadcast section.
  • the audio system of audio signal 4 has a higher monaural signal power than that of the main broadcast but also CM broadcasts, so you can detect where it changes to a stereo signal! /.
  • a black screen (black frame) appearing at the boundary between the main broadcast section and the CM broadcast section in the video signal 3 may be detected. It is also possible to detect a CM broadcast section only from an audio signal or only from a video signal.
  • FIG. 12 is a chart showing a process of detection processing (corresponding to “CM detection” in ST9 in FIG. 11) by the music detection unit 71 of the third embodiment.
  • (1) is a graph 800 in which a label 80 which is a detected music section is plotted. The method described in Embodiments 1 and 2 is used as the method for detecting the music section.
  • (2) in the figure is a graph 802 in which CM labels 82 indicating CM broadcast sections detected by the CM detection unit are plotted.
  • the section detected as the CM broadcast section is expressed as High and the other sections as Low as the label axis 86! /.
  • Fig. 3 (3) is a graph 804 in which a CM corrected label 84 obtained by further redetecting the detected label 80 and the CM label 82 is plotted.
  • Graphs 800 and 804 are both labeled High for the section with the label indicating the music section and the label for the non-music scene! , Represent the interval as Low on the label axis 44! /
  • CM broadcast detection processing in the music detection unit 71 will be described with reference to FIG.
  • the start time D1 of the music section 85a does not overlap with the CM broadcast, but the end time D2 overlaps with the CM broadcast section 83a. Therefore, the start time of the music section 85a after the CM correction process is F1 using the time D1, and the end time is F2 using the start time E1 of the CM broadcast section 83a.
  • the end time D4 of the music section 81b does not overlap with the CM broadcast, but the start time D3 overlaps with the CM broadcast section 83a. Therefore, the start time of the music section 85b after the CM correction process is F3 using the end time E2 of the CM broadcast section 83a, and the end time is F4 using the time of D4.
  • the music section after the detection process completely overlaps with the CM broadcast section, the music section will be deleted by the CM correction process.
  • the section in which the CM broadcast is detected is excluded from the music section, the BGM (background music) and the CM broadcast in which the music is frequently used as a sound effect are viewed as an original music program. Therefore, there is an effect that is not confused with music and misdetected.
  • each song candidate section power is also excluded from the CM broadcast section. Thereafter, the music section may be detected. Also, the CM broadcast section may be excluded before the music candidate section is detected.
  • the music candidate detection unit and the correction unit are separate units. However, a single music detection unit having the functions of these two units may be used.
  • multimedia data of only a music section in which the force is detected may be recorded as multimedia data including the music section is recorded.

Abstract

課題   本発明は、テレビジョン放送から楽曲シーンを効率よく検出する方法を提供するものである。 解決手段 本発明に係る楽曲区間検出方法は、音声信号と映像信号とを含むデータを入力するデータ入力ステップと、各々異なる基準に基づいて、前記音声信号から楽曲候補区間を検出する複数の楽曲候補区間検出ステップと、前記検出された複数の楽曲候補区間に基づいて、楽曲区間を検出する楽曲区間検出ステップとを備える。これにより、ロックや演歌、クラシックなど、曲調の異なる広い楽曲に対して高い検出精度を確保することができる。

Description

明 細 書
楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその 装置
技術分野
[0001] この発明は、テレビジョン放送等のデータ力 楽曲区間を検出する方法、及び装置 、並びに、この方法により検出された楽曲区間を含むデータを、 DVD-R^DVD- RWなどを含む記録型 DVDディスク、ハードディスクドライブ、または Blu— ray Disc などの記録媒体に記録する記録方法、及び装置に関するものである。
背景技術
[0002] テレビジョン放送の一つに、所謂「歌番組」や「音楽番組」と呼ばれるジャンルが存 在する。音楽番組は出演者による演奏や歌唱、あるいはビデオ映像による楽曲の映 像 (以下、「楽曲シーン」と記す。なお、この明細書において、「楽曲シーン」とは歌や 演奏などの音楽が音声に含まれる映像を全般に指す。)と、司会者などによる楽曲の 紹介や出演者とのトーク (会話)ショーなどの楽曲以外の映像 (以下、「非楽曲シーン 」と記す。)とから構成される場合が多い。
[0003] また民法放送であれば、番組の広告主の宣伝や、放送局自らの広告宣伝のための コマーシャルメッセージ放送(以下、「CM放送」と記す。また、 CM放送の区間を「C M放送区間」と記す。 )が番組の構成に含まれる場合もある。
[0004] ところで、録画した音楽番組を再生する場合、楽曲に集中したい視聴者にとっては 非楽曲シーンや CM放送などの楽曲シーン以外を効率よく見飛ばしたい要望がある 。また逆に、楽曲には興味が無い視聴者には、楽曲シーンや CM放送を見飛ばして トークショーなどの非楽曲シーンのみを視聴したいとする要望もある。
[0005] このような要望に対し、従来の楽曲検出方法及び記録方法では、音情報の周波数 スペクトルのピークが周波数方向に対して時間的に安定している特徴を用いて楽曲 シーンを特定し、楽曲の映像音声のみを蓄積している(例えば、特許文献 1参照)。
[0006] 特許文献 1 :特開平 11 266435号公報 (第 5頁、第 1図)
発明の開示 発明が解決しょうとする課題
[0007] しかし、特許文献 1に記載されているような楽曲検出方法では、楽曲シーンの検出 を単一の手法により判定していたために、ロックや演歌、クラシックなど、曲調の異な る全ての楽曲に対して一様に検出精度を確保することは困難であった。
[0008] この発明は、上述のような課題を解消するためになされたもので、テレビジョン放送 等の映像信号及び音声信号を含むデータから楽曲シーンを効率よく検出する方法、 及び装置を提供するものである。
課題を解決するための手段
[0009] 本発明に係わる楽曲区間検出方法は、
音声信号と映像信号とを含むデータを入力するデータ入力ステップと、 各々異なる基準に基づいて、前記音声信号から、前記入力データの楽曲候補区間 を検出する複数の楽曲候補区間検出ステップと、
前記検出された複数の楽曲候補区間に基づいて、楽曲区間を検出する楽曲区間 検出ステップと
を備えることとしたものである。
発明の効果
[0010] 本発明の楽曲区間検出方法によれば、音声信号に対して各々異なる複数の基準 に基づいて楽曲候補区間検出し、さらにこの検出された複数の楽曲候補区間力 楽 曲区間を検出するので、ロックや演歌、クラシックなど、曲調の異なる広い楽曲に対し て高い検出精度を確保することができる。
図面の簡単な説明
[0011] [図 1]実施の形態 1の映像音声記録装置を示すシステムブロック図である。
[図 2]実施の形態 1の楽曲区間の検出、記録方法を示すフローチャートである。
[図 3]実施の形態 1の第一の楽曲候補検出部を示すブロック図である。
[図 4]実施の形態 1の第二の楽曲候補検出部を示すブロック図である。
[図 5]実施の形態 1の補正処理を示すチャート図である。
[図 6]実施の形態 1の楽曲区間の検出処理を示すチャート図である。 [図 7]実施の形態 1の映像音声記録装置のファイル構成図である。
[図 8]実施の形態 1のメタデータ構造図である。
[図 9]実施の形態 2の楽曲区間の検出処理を示すチャート図である。
[図 10]実施の形態 3の映像音声記録装置を示すシステムブロック図である。
[図 11]実施の形態 3の楽曲区間の検出、記録方法を示すフローチャートである。
[図 12]実施の形態 3の CM放送区間の検出処理を示すチャート図である。
符号の説明
1 蓄積メディア、 2 書込みドライブ、 3 映像信号、 4 音声信号、 5 ビデオエンコーダ、 6 A/Dコンバータ、 7 オーディオエンコーダ、 8 マ ルチプレクサ、 9 書込みバッファメモリ、 10 第一の楽曲候補検出部、 11 第二の楽曲候補検出部、 12 第一の補正部、 13 第二の補正部、 14 楽曲検出部、 15 メタデータ生成部、 16 記録制御部、 20 直交変換処理 部、 21 尤度比較処理部、 22 モデルデータ、 30 差分演算処理部、 40 時間経過 (横軸)、 41 差異量 (縦軸)、 42 差異量、 43 閾値、 44 ラベル軸、 45 ラベル、 46a, 46b, 46c 楽曲候補区間、 47 補正処理 後のラベル、 48 補正処理後の楽曲候補区間、 50 補正処理後のラベル、
51a, 51b, 51c 補正処理後の楽曲候補区間、 52 補正処理後のラベル、 53a、 53b、 53c、 53d 補正処理後の楽曲候補区間、 54 検出処理後のラベル 、 55a、 55b、 55c、 55d 楽曲区間、 60 検出処理後のラベル、 61a, 61b , 61c 楽曲区間、 70 CM検出部、 71 楽曲検出部、 80 検出処理後の ラベル、 81a, 81b 楽曲区間、 82 CMラベル、 83a CM放送区間、 8 4 CM補正処理後のラベル、 85a, 85b 楽曲区間、 86 ラベル軸、 90 ルートディレクトリ、 91 マルチメディアディレクトリ、 92 メタデータディレクトリ、 93 情報管理ファイル、 94 マルチメディアデータファイル、 95 ノ ックアツ プファイル、 96 メタデータファイル、 100 映像音声記録装置、 130 メタ データ、 131a メタデータ管理情報、 131b 番組メタデータ情報サーチポイン タ、 131c 番組メタデータ情報、 132a メタデータ一般情報、 132b 楽曲 マップ情報、 133a 楽曲マップ一般情報、 133b 楽曲エントリ、 134a 楽 曲開始時刻情報、 134b 楽曲終了時刻情報、 400 差異量のグラフ、 405 ラベルのグラフ、 407 補正処理後のラベルのグラフ、 500 補正処理後のラ ベルのグラフ 、 502 補正処理後のラベルのグラフ、 504 検出処理後のラ ベルのグラフ、 600 検出処理後のラベルのグラフ、 700 映像音声記録装置 発明を実施するための最良の形態
[0013] 実施の形態 1.
以下、図を用いて本実施の形態 1に係る楽曲検出方法、及び検出装置、並びに記 録方法、及び記録装置を説明する。本実施の形態 1に係る楽曲検出方法は、音声信 号に対して各々異なる複数の基準に基づいて楽曲候補区間検出し、さらにこの検出 された複数の楽曲候補区間から楽曲区間を検出することに特徴がある。
[0014] なお、この明細書において、楽曲シーンを記録した時、記録開始を基点として楽曲 シーンの開始時刻となる時間位置情報と、楽曲シーンの終了時刻となる時間位置情 報とにより特定される区間を「楽曲区間」とする。
[0015] ここで、蓄積メディアに記録した映像音声を再生制御する方法について説明する。
一般に、上記のような再生制御を行う場合には、時間位置情報を 90kHzでカウント するプレゼンテーションタイム (PTM)が広く使われている。つまり、楽曲区間を特定 するために、開始時刻と終了時刻の PTMを時間位置情報として参照する方法である 。しかし、この以外にも、映像音声を録画時間軸にて 1秒間などの固定時間で離散化 した時に楽曲シーンである区間は High (l)、非楽曲シーンである区間は Low(O)と するなどのニ値ィ匕して Highとなる区間を検索するなどの方法がある。この明細書に おいて、これらの楽曲区間の開始点と終了点を特定するための情報を「楽曲情報」と 呼ぶ。
[0016] 図 1は、本実施の形態 1の映像音声記録装置を示すシステムブロック図である。ま た、図 2は、本実施の形態 1の楽曲区間の検出、記録方法を示すフローチャートであ る。まず、図 1及び図 2を用いて本実施の形態 1の映像音声記録装置について概説 する。映像音声記録装置 100には、記録を行う対象となるテレビジョン放送などの映 像信号 3と音声信号 4が入力される(ST1)。次に、映像信号 3は、ビデオエンコーダ 5 において MPEG— 2方式などにより符号ィ匕圧縮されて、映像データとなる。
[0017] 一方、音声信号 4がアナログ信号である場合には、アナログデジタル変換機 (A/D コンバータ) 6によって音声波形を一定時間おきにサンプリングして振幅をデータ化し た PCM (Pulse Code Modulation)方式などによりデジタル信号に変換される(S T2)。その後、オーディオエンコーダ 7においてドルビー AC— 3方式などによって符 号化圧縮されて、音声データとなる。
[0018] マルチプレクサ 8では、映像データと音声データとを多重化してマルチメディアデー タを生成する。その後、書き込みバッファ 9でマルチメディアデータを逐次取り込んだ 後に書き込みドライブ 2に送出し、 DVD— Rや DVD— RWディスクあるいは記録型 B lu-ray Discなどのリムーバブルな蓄積メディア 1に記録(一連の処理は「録画」とも 言われる。)が行われる。映像音声記録装置 100および書き込みドライブ 2の動作は 、マイクロプロセッサなど力も構成する記録制御部 16によって統括的に管理して制御 されている。なお蓄積メディア 1と書き込みドライブ 2は、ハードディスクドライブ (HDD )などのリムーバブルではな 、蓄積メディアに置き換わっても構わな 、。
[0019] 次に、本実施の形態 1の映像音声記録装置の特徴的な構成要素である複数の楽 曲候補検出部について説明する。第一の楽曲候補検出部 10では、 AZDコンパ一 タ 6から出力される PCM方式のデジタル信号を分析して楽曲候補区間を検出する( ST3、 4)。第一の楽曲候補検出部 10で検出された楽曲候補区間は、必要に応じて 、第一の補正部 12によって検出誤差が補正される(ST6)。また、第一の楽曲候補検 出部 10とは異なる基準を持つ第二の楽曲候補検出部 11でも、第一の楽曲候補検 出部 10と同様に、楽曲候補区間が検出されて (ST3、 5)、第二の補正部 13にて必 要に応じて検出誤差が補正される(ST6)。
[0020] 第一の楽曲候補検出部 10と第一の補正部 12により検出'補正された楽曲候補区 間と、第二の楽曲候補検出部 11と第二の補正部 13により検出'補正された楽曲候 補区間は楽曲検出部 14において統合あるいは取捨選択の判断が行われ、楽曲区 間が検出される(ST7)。検出された楽曲区間は、メタデータ生成部 15にてメタデー タファイルに生成されて、書込みバッファメモリ 9を介して蓄積メディア 1に記録される ( ST8)。なお、メタデータ生成部 15は、逐次算出されて決定する楽曲区間の楽曲情 報を保持するメモリ機能を有して 、る。
[0021] なお、映像音声記録装置 100の記録部の概念としては、書き込みドライブ 2のみを 含めてもよいし、マルチプレクサ 8、メタデータ生成部 15、書き込みバッファ 9、記録制 御部 16を含めてもよい。
[0022] また、ここでは楽曲候補区間を検出する楽曲候補検出部 10、 11が 2つの場合につ いて記載した力 さらに多くの楽曲候補検出部を有する構成であっても良い。また、 補正部 12、 13は、楽曲候補検出部 10、 11の各々に対して個別に補正を行った後 に、楽曲検出部 14に補正後の楽曲候補区間を出力する構成について記載したが、 個別の補正は行わずに、一つの補正部により補正された後、楽曲検出部 14に補正 後の楽曲候補区間を出力する構成としてもよい。また、楽曲検出部 14にて検出した 後の楽曲区間に対して補正を行う構成としてもよ!、。
[0023] 図 3は、本実施の形態 1の第一の楽曲候補検出部 10を詳細に記した機能ブロック 図である。第一の楽曲候補検出部 10は、直交変換処理部 20と尤度比較処理部 21、 および参照のためのデータテーブルであるモデルデータ 22から構成される。図に示 すように、 AZDコンバータ 6で変換されたデジタル信号の直交変換係数が直交変換 処理部 20で算出され、さらに尤度比較処理部 21がモデルデータ 22を参照してラベ ルが割り当てられた後、第一の補正部 12に出力される。
[0024] さらに、第一の楽曲候補検出部 10による楽曲候補区間の検出の詳細について述 ベる。音声信号 4がステレオ信号である場合、 AZDコンバータ 6では右チャンネルと 左チャンネルの PCMデータが個々に得られる。このステレオ信号は、民生用レコー ダ機器であれば、サンプリング周波数は 48kHz、量子化ビット数は 16bitなどの品質 が使われる。
[0025] 次に、直交変換処理部 20では、時間領域の PCMデータを周波数領域に直交変 換を施す (ST3)。直交変換には、 PCMデータを時間的に 50%重複する MDCT( 変形離散コサイン変換)を使用する例について述べる。 50%のオーバーラップを行う ため、 512個の PCMデータをサンプリングすると、 256個の直交変換係数(MDCT 係数)が右チャンネルと左チャンネルの各々について得られる。ステレオ信号の片チ ヤンネル(例えば左チャンネル)、あるいはモノラル信号の 1チャンネルに対する直交 変換係数から、 256次元の係数ベクトルが得られる。係数ベクトルは計算量の軽減を 目的に、射影変換により次元数の低減を図っても良い。
[0026] なお、入力された音声信号を分析するに先立ち、あらかじめ主観評価で顕著に楽 曲シーンと判断される音声の係数ベクトルを収集してトレーニングデータとして、係数 ベクトルの分布傾向を、混合ガウス分布モデル (GMM法)を使用してモデル化して おく。楽曲シーン力 作成したものを「音楽クラスモデル」と呼ぶ。この他、顕著な観客 の歓声や声援、拍手、笑い声、出演者のトークシーン、などの非楽曲シーンについて も同様にトレーニングデータを収集して混合ガウス分布モデルを作成して、複数の音 声クラスモデルを用意する。
[0027] モデルデータ 22は、これらの音声クラスモデルが参照できるデータテーブルとなる 。尤度比較処理部 21では、モデルデータ 22を参照して、記録を行っている音声信 号の直交変換係数ベクトルがベクトル空間として最も尤度の高い音声クラスを探して 、その音声のクラスを当該区間のラベルとして割り当てる(ST4)。
[0028] すなわち、音楽クラスモデルの周波数特性と尤度の高い音声入力があった場合に 楽曲を示すラベルが割り当てられ、その区間が楽曲シーンであるとの検出が可能に なる。なお、あらかじめ用意したモデルを参照して入力信号の音声クラスを特定する 手法であれば混合ガウス分布モデルによる尤度比較でなくても良ぐ隠れマルコフ法 (HMM法)などの統計的な手法を使用しても構わな!/、。
[0029] 混合ガウス分布モデルによる尤度比較によって楽曲を示すラベルを割り当てる手法 は、ステレオ放送やモノラル放送などのチャンネル数に影響を受けずに高 、確度で 楽曲シーンのみを検出できるという長所がある。その一方、楽曲シーンと非楽曲シー ンとの境界を検出する精度は若干曖昧になる短所もある。またトレーニングデータの 収集方法によっては、ロックや演歌、クラシックなど、曲調や楽器構成による得手、不 得手が生じる場合がある。
[0030] 次に、第二の楽曲候補検出部 11について説明する。図 4は、本実施の形態 1の第 二の楽曲候補検出部 11を詳細に記した機能ブロック図である。第二の楽曲候補検 出部 11は、直交変換処理部 20と差分演算処理部 30から構成される。図に示すよう に、 AZDコンバータ 6で変換されたデジタル信号の直交変換係数が直交変換処理 部 20で算出され、さらに差分演算処理部 30で直交変換係数の差異量が算出された 後、第二の補正部 13に出力される。
[0031] さらに、第二の楽曲候補検出部 11による楽曲候補区間の検出の詳細について述 ベる。音声信号 4から直交変換処理部 20を経て 256個の直交変換係数 (MDCT係 数)が得られるまでの過程 (ST3)は第一の検出部 10で述べたものと共通であり、ここ では省略する。
[0032] 直交変換係数を(1 X 256)行列として、 n行目の右チャンネルの直交変換係数を M r (n)、左チャンネルの直行変換係数を Ml (n)とすると、差分演算処理部 30では両チ ヤンネルの直交変換係数行列の差を算出して、係数の二乗和である差異量 Dを次式 で得る。
[0033] [数 1]
Figure imgf000010_0001
[0034] この処理を継続的に行うことにより、記録を行う番組の差異量 Dの変化を把握するこ とが出来る(ST5)。なお、差異量 Dは直交係数行列の差による係数の二乗和とした 力 右チャンネルと左チャンネルの差異が数値ィ匕される手法であれば、他の算出式 を使用しても構わない。
[0035] ここで、差異量は、右チャンネルと左チャンネルの違いを表すものであり、音の広が り感、ステレオ感、などとも言い表せる。一般的に、楽曲シーンでは音の広がり感が大 きぐ出演者によるトークシーンなどの非楽曲シーンでは音の広がり感が小さいことが 分力つている。すなわち、差異量が所定の値(閾値)を超える区間が楽曲シーンであ るとの検出が可會 になる。
[0036] 一般的に、楽曲シーンと非楽曲シーンとの境界では差異量が大きく変動することか ら、左右チャンネルの直交係数行列の差異量を検出する手法は、楽曲区間の開始 時刻および終了時刻が高い精度で検出できるという長所がある。その一方、コンサ一 トゃライブ会場など常に音の広がり感が高い番組では非楽曲シーンでも高い差異量 を検出したり、またモノラル放送では差異量が検出できない等の短所もある。またロッ クゃ演歌、クラシックなど、曲調や楽器構成などによる得手、不得手が生じる場合が ある。
[0037] 図 5は、本実施の形態 1の補正処理(図 2では、 ST6の「フィルター」に相当)の過程 を示すチャート図である。同図において、(1)は第二の楽曲候補検出部 11で算出さ れた差異量 42をプロットしたグラフ 400であり、横軸は記録した番組の時間経過 40、 縦軸 41は差異量である。
[0038] 第二の補正部 13では、差異量 42を所定の閾値 43でニ値ィ匕して、閾値 43を超える 区間に楽曲を示すラベル付けを行い、閾値 43を下回る区間は非楽曲を示すラベル 付けを行う。同図において、(2)は二値化したラベル 45をプロットしたグラフ 402で、 楽曲を示すラベルが付 、た区間を High、非楽曲シーンを示すラベルが付 、た区間 を Lowとしてラベル軸 44で表している。さらに、同図(3)はラベル 45に対して補正の 処理を行うことで得られる補正後のラベル 47をプロットしたグラフ 407である。
[0039] ここで、図 5を用いて、第二の楽曲候補検出部 11で算出された差異量に対する第 二の補正部 13による補正処理の詳細につ 、て説明する。一例である差異量 42を閾 値 43で二値化すると、ラベル 45のように 3つの楽曲候補区間 46a、 46b、 46cが検出 される。
[0040] そして、次に、ニ値ィ匕により得たラベル 45に対して、次の 3通りの補正処理を必要 に応じて行う。
[0041] (a)楽曲候補区間が所定時間 T1 (例えば 5秒)以下であれば、楽曲にラベル付けさ れた区間は、非楽曲(Low)にラベルを変更する。
(b)連続する楽曲候補区間の間隔が所定時間 T2 (例えば 5秒)以内であれば、非 楽曲にラベル付けされた間隔は、楽曲(High)にラベルを変更する。
(c)上記の(a)、(b)のラベル変更を行った後、楽曲にラベル付けされた区間が所 定時間 T3 (例えば 60秒)を超える区間を補正後の楽曲候補区間とする。なお、(a)と (b)はどちらか一方であっても良い。
[0042] 図 5 (2)を用いて説明すると、楽曲候補区間 46cは間隔 Aは、所定時間 T1を満たな いために、補正処理 (a)によって非楽曲区間となり、楽曲候補区間 46aと 46bとの間 隔 Bは、所定時間 T2よりも短いために、補正処理 (b)によってひとつの楽曲候補区 間となる。その結果、得られる楽曲候補区間の間隔 Cは所定時間 T3を越えるので、 この補正処理によって楽曲区間 48が得られることになる。
[0043] また、第一の楽曲候補検出部 10で算出したラベルに対する第一の補正部 12によ る補正処理について、同じく図 5を用いて説明する。第一の楽曲候補検出部 10では 楽曲を示すラベルと非楽曲を示すラベルが、もとより二値で算出されているので、そ のまま図 5 (2)のラベル 45のプロットとなる。一例として示したラベル 45では、 3つの 楽曲候補区間 46a、 46b、 46cが検出されたことになり、これに対して第二の補正部 1 3と同様に、補正処理 (a)、(b)、(c)を必要に応じて施すことで、楽曲候補区間 48が 得られること〖こなる。
[0044] このように、それぞれの補正部において補正処理を施すことにより、出演者によるト ークショーでの効果音などの非楽曲シーンにて、瞬間的に楽曲シーンと誤検出され てしまった区間や、あるいは演奏途中の演出としての全休止など楽曲シーンであるに も関わらず部分的に非楽曲シーンと誤検出されてしまった区間などを補正することが 可能となる。また、一般的に、楽曲の 1コーラスに相当する 60秒などの所定時間を越 えて楽曲が検出される区間を楽曲候補区間とすることで、トークショーでの短時間の BGMや宣伝用に楽曲のサビ部分のビデオクリップ紹介、あるいは番組のオーブニン グゃエンディングテーマのような、楽曲シーンとして扱うには適切ではないシーンを除 外することちでさる。
[0045] 次に、図 1の楽曲検出部 14での処理 (ST7)について説明する。図 6は、本実施の 形態 1の楽曲検出部 14による、楽曲区間の検出処理の過程を示すチャート図である 。同図において(1)は、第一の楽曲候補検出部 10で算出されたラベルに対し、第一 の補正部 12によって補正処理を施して得たラベル 50をプロットしたグラフ 500である 。また同じぐ同図(2)は、第二の楽曲候補検出部 11で算出された差異量に対し、第 二の補正部 13によって補正処理を施して得たラベル 52をプロットしたグラフ 502であ る。同図(3)は、ラベル 50とラベル 51とに基づいて検出処理したラベル 54をプロット したグラフ 504である。グラフ 500、 502、 504ίま!ヽずれも、楽曲を示すラベノレ力 ^付!ヽ た区間を High、非楽曲シーンを示すラベルが付!、た区間を Lowとしてラベル軸 44 で表している。
[0046] さらに、図 6を用いて、楽曲検出部 14における楽曲区間の検出処理について説明 する。一例として、図に示すように、ラベル 50に示す楽曲候補区間 51a、 51b、 51cと 、ラベル 52に示す楽曲候補区間 53a、 53b、 53c、 53dが検出されているとする。本 実施の形態 1の楽曲検出部 14では、双方の楽曲候補区間を論理 OR (論理和)で処 理し、楽曲区間を検出する。以下、図 6を使って具体的に説明する。
[0047] 一部の時刻で重複して検出された楽曲候補区間 51aと 53aから楽曲区間を検出す る場合、開始時刻 A1と B1が同じであれば、検出後の楽曲区間 55aの開始時刻は C 1で決定する。次に、終了時刻 A2は B2よりも長い (楽曲区間が時間として延長する 方向)ため、検出後の楽曲区間 55aの終了時刻は A2の時刻を採用して C2となる。
[0048] 同様に、楽曲候補区間 51bと 53bから楽曲区間を検出する場合、開始時刻 A3と B 3とでは B3の方が長いため、検出後の楽曲区間 55bの開始時刻は B3の時刻を採用 して C3となる。終了時刻 A4と B4とでは B4の方が長いため、検出後の楽曲区間 55b の終了時刻は B4の時刻を採用して C4となる。
[0049] さらに、楽曲候補区間 53cについては時刻が重複する他方の楽曲候補区間が存 在しないため、開始時刻 B5と終了時刻 B6がそのまま検出後の楽曲区間 55cの開始 時刻 C5と終了時刻 C6に採用される。
[0050] 最後に、楽曲候補区間 51cと 53dから楽曲区間を検出する場合、開始時刻 A5と B 7とでは A5の方が長いため、検出後の楽曲区間 55dの開始時刻は A5の時刻を採用 して C7となる。終了時刻 A6と B8とでは A6の方が長いため、検出後の楽曲区間 55b の終了時刻は A6の時刻を採用して C8となる。これにより、検出後の楽曲区間 55a、 55b、 55c、 55d力決定する。
[0051] このように、楽曲区間の検出を楽曲候補区間の論理 ORで判定することにより、複数 の楽曲検出手段により、各々異なる基準で検出された楽曲候補区間を全て楽曲区 間として決定することとなる。これにより、採用する楽曲検出手段に応じて広い範囲の ジャンルの楽曲を検出することが可能となる。また、論理 ORによる検出では楽曲区 間を加算するものであるので、複数の楽曲検出手段による楽曲候補区間のうちに誤 検出された非楽曲シーンが含まれて!/、たとしても、判定処理の過程で他の楽曲検出 手段で検出できていた楽曲シーンが弊害として削除されてしまうことがない。
[0052] また、上記で説明したとおり、第一の楽曲候補検出手段 10は、高い確度で楽曲シ ーン、即ち楽曲区間の途中を検出できるが、楽曲シーンと非楽曲シーンとの境界を 検出する精度は若干曖昧になるとの検出特性を有する。一方、第二の楽曲候補検 出部 11は、楽曲区間の開始時刻および終了時刻が高!、精度で検出できるとの検出 特性を有する。本実施の形態 1の楽曲検出方法では、上記のように互いに検出特性 の異なる検出方法を組み合わせることにより、より精度の高い方法としている。すなわ ち、第一の楽曲候補検出手段 10の検出特性と第二の楽曲候補検出部 11の検出特 性とが互いの検出特性を補完しあうような関係となっているため、楽曲検出の精度を より高いものとしている。
[0053] 次に、図 7、 8を用いて、検出された楽曲区間の楽曲情報をメタデータ生成部 15に てメタデータファイルに生成する方法を説明する。図 7は、本実施の形態 1の映像音 声記録装置のファイル構成図である。すなわち、図 7は、蓄積メディア 1の論理フアイ ル構造を示したものであり、論理的に階層構造を成すディレクトリ構造の最上位階層 にルートディレクトリ 90が配置され、そのルートディレクトリ 90の下位層に、マルチメデ ィアディレクトリ 91、およびメタデータディレクトリ 92が配置されて 、る。
[0054] マルチメディアディレクトリ 91には、蓄積メディア 1に記録されて 、る番組の管理番 号を含む管理情報を記述した情報管理ファイル 93、番組の映像信号または音声信 号を符号ィ匕圧縮して多重化したマルチメディアデータファイル 94、さらに情報管理フ アイル 93などのバックアップファイル 95が配置されている。
[0055] 一方、メタデータディレクトリ 92には、番組を記録してマルチメディアデータファイル 94が生成された際に検出された楽曲区間の楽曲情報が、独立した論理ファイルで 成るメタデータファイル 96に記述され、配置される。
[0056] なお、図 7では、マルチメディアデータファイル 94とメタデータファイル 96とが個別 のディレクトリに配置する例を示した。しかし、同一のディレクトリ内に配置されたり、メ タデータファイル 96がルートディレクトリ 90に直接配置されてもよい。また、マルチメ ディアデータファイル 94、あるいはメタデータファイル 96は、記録した番組の数に応 じて分割されたり、ファイル容量の制限などによって複数に分割されてもよい。 [0057] さらに、本実施の形態 1におけるメタデータファイル 96は、そのデータ形式は問わ ず、テキスト形式であってもノイナリ形式であってもよい。また、メタデータファイル 96 に記述されているデータの改ざんや、情報の流出を阻むために、暗号処理を施して ちょい。
[0058] また、管理情報ファイル 93に、所望の番組に対応するメタデータファイル 96が存在 しているか否力、あるいはメタデータファイル 96に有効な値が存在するか否力 など の情報を記述してぉ 、てもよ 、。このような情報が管理情報ファイル 93に記録されて いると、番組を再生する際に、当該情報を参照することで、素早く楽曲情報の存在あ るいは有効性を判断することができる。
[0059] このように、メタデータファイル 96をマルチメディアデータファイル 94に重畳、多重 化せずに独立した論理ファイルとする。これにより、番組を再生する際に、ファイル容 量が大きなマルチメディアデータファイル 94を走査することなく、比較的ファイル容量 の小さなメタデータファイル 96を読み出すことで楽曲情報を素早く取得することが可 能となる。
なお、メタデータファイル 96をマルチメディアデータファイル 94に重畳してもよい。こ の場合は、ファイル数を少なくでき、また、マルチメディアデータと同一のファイルなの で、楽曲情報を伴うマルチメディアデータをリムーバブルな記録媒体に記録して他機 器で編集やコピーなどのファイル操作を行う際、メタデータが散逸することを抑制でき る。
[0060] 図 8は、階層構造である本実施の形態 1のメタデータ構造図である。図において、( A)は、データ構造の最上位の階層のメタデータ 130である。
[0061] 次に、図 8 (B)を用いて、メタデータ 130のデータ構造を説明する。メタデータ全体 の情報は、メタデータ管理情報 131aに統括的に記述されている。この階層には、楽 曲情報を持つ番組の数(1力も n個)に応じた番組メタデータ情報 131cと、番組メタデ ータ情報 13 lcを個々にアクセスするためのアドレス情報である番糸且メタデータ情報 サーチポインタ 13 lbが配置される。
[0062] ここで、蓄積メディア 1に楽曲情報を持つ番組が存在しな!、場合には、メタデータフ アイル 96を作成しなくてもよぐまた、メタデータ管理情報 131aに番組メタデータ情報 131cを 0個と記述したメタデータファイル 96を用意しても良い。
[0063] 次に、図 8 (C)を用いて、番組メタデータ情報 131cのデータ構造を説明する。この 階層には、メタデータ一般情報 132aと、楽曲マップ情報 132bが配置される。メタデ ータ一般情報 132aには、楽曲マップ情報 132bをアクセスするためのアドレス情報な どの他、番組メタデータ情報 131cが対応するべき番組の管理番号が記述される。こ れは音楽番組以外を記録した時など、番組によっては楽曲情報を生成しな 、場合も あるために、情報管理ファイル 93で管理される番組の管理番号と番組メタデータ情 報 131cの番号とがー致しない場合に、番組とメタデータとを関連付けるためのテー ブルである。
[0064] 次に、図 8 (D)を用いて、楽曲マップ情報 132bのデータ構造を説明する。この階層 には、楽曲マップ一般情報 133aと、検出した楽曲の数(1から m個)に応じた楽曲ェ ントリ 133bが配置される。楽曲マップ一般情報 133aには、楽曲エントリ 133bを個々 にアクセスするためのアドレス情報が記述される。
[0065] 最後に、図 8 (E)を用いて、楽曲エントリ 133bのデータ構造を説明する。この階層 には、検出した楽曲区間の楽曲開始時刻情報 134aと、楽曲終了時刻情報 134bが 配置される。時刻情報には、プレゼンテーションタイム (PTM)などが使用される。
[0066] 以上説明したように、本実施の形態 1では、楽曲区間の開始時刻と終了時刻をメタ データに記述する方法の例を述べたが、記録した番組から楽曲情報が特定できるデ ータ構造であれば良い。例えば、番組を 1秒間などの固定時間で離散化した時に楽 曲シーンである区間は High (1)、非楽曲シーンである区間は Low(O)とするなど二 値ィ匕した結果を楽曲マップ情報として列挙するデータ構造としても、同等の機能が実 現できる。
[0067] これにより、蓄積メディア 1に記録した番組を再生する際にはメタデータファイル 96 からメタデータ 130を読み出し、番組に存在する楽曲の楽曲情報を把握することがで きる。したがって、楽曲情報に基づく再生制御を行うことで、楽曲区間のみを連続再 生したり、楽曲区間の開始点あるいは終了点に手動でスキップする機能など、効率 的に楽曲シーンを視聴することが可能となる。
[0068] すなわち、従来は、非楽曲シーンや CM放送 (CM放送については、実施の形態 3 で説明する。)を見飛ばすには、手動操作による早送りや早戻し再生によって楽曲シ ーンの先頭や終端などの境界を検索する必要があった。
[0069] また、記録媒体に長時間記録された番組から楽曲シーンを視聴した!/、場合、ある!/、 は非楽曲シーンを視聴したい場合などは、視聴者が早送り(フォワードスキャン)や早 戻し (バックワードスキャン)映像を見ながら所望のシーンを探したり、 15秒などの固 定時間のスキップによって所望のシーンが現れるまで操作を繰り返したりしなければ ならない。そのため、楽曲シーンの始点ゃ終点の箇所を誤って行き過ぎることなく再 生するには、予め楽曲シーンの箇所を正確に把握していなければ至難であった。特 に、初見の番組を再生する場合においては、番組中のどこに楽曲シーンがあるのか わからな!/、ために、番組の冒頭力も楽曲シーンを検索して行く手間を要して 、た。
[0070] しかし、本実施の形態 1により記録された番組を再生する場合は、上記のような操作 をする必要が無い。すなわち、再生時には初見の番糸且でも楽曲区間をあら力じめ把 握することができるので、楽曲区間のみの連続再生や、楽曲区間の始点ゃ終点への 手動でのスキップ等の再生制御が可能となる。
[0071] なお、本実施の形態 1では、映像信号 3と音声信号 4としてテレビジョン放送を例に 説明したが、例えば、別の映像再生装置を使って外部入力端子力 供給される映像 音声信号であっても良い。あるいは、リムーバブルな蓄積メディア 1や映像記録再生 装置に内蔵したノヽードディスク(図示なし)などに記録して 、る映像音声データを読 み出し、符号化圧縮した音声データをデコード (複号)処理して PCM信号を得て楽 曲情報を検出しても良い。この方法であれば、記録時にリアルタイムで楽曲区間の検 出処理を行う必要が無いので、記録制御部の処理能力が低い場合であっても、記録 後に時間を掛けて検出が可能となる。さらに、既に蓄積メディアに記録済の番組から も楽曲情報を得ることが出来る。
[0072] 実施の形態 2.
本実施の形態 2では、楽曲検出部 14による楽曲区間の検出処理として、実施の形 態 1で説明した方法とは異なる検出方法について説明する。図 6は、本実施の形態 2 の楽曲検出部 14による、楽曲区間の検出処理の過程を示すチャート図である。同図 において(1)、(2)は、実施の形態 1の図 6に示したものと同じであり、同図(3)は、実 施の形態 1とは異なる検出方法により検出されたラベル 60をプロットしたグラフ 600で ある。
[0073] 図 9を用いて、実施の形態 1とは異なる楽曲検出部 14における楽曲区間の検出処 理について説明する。本実施の形態 2では、ラベル 50、あるいはラベル 52のいずれ か一方を基点として楽曲区間を検出する点に特徴がある。
[0074] 一例として、図に示すように、ラベル 50に示す楽曲候補区間 51a、 51b、 51cと、ラ ベル 52に示す楽曲候補区間 53a、 53b、 53c、 53dが検出されているとする。ここで は、ラベル 50を基点とする場合にっ 、て説明する。
[0075] まず、楽曲候補区間 51aの開始時刻 A1の近傍でラベル 52の楽曲候補区間の開 始時刻を検索すると、 B1が見つかる。開始時刻 A1と B1が同じであれば、検出後の 楽曲区間 61aの開始時刻は P1で決定する。次に、楽曲候補区間 51aの終了時刻 A 2の近傍でラベル 52の楽曲候補区間の終了時刻を検索すると B2が見つ力るので、 検出後の楽曲区間 61aの終了時刻は B2の時刻を採用して P2となる。
[0076] さらに、楽曲候補区間 51bの開始時刻 A3の近傍で、ラベル 52の楽曲候補区間の 開始時刻を検索すると B3が見つ力るので、検出後の楽曲区間 61bの開始時刻は B3 を採用して P3となる。同様に、終了時刻 A4については終了時刻 B4が見つかるので 、検出後の楽曲区間 61bの終了点は B4を採用して P4となる。
[0077] なお、この時、 A3を基点としてラベル 52における楽曲候補区間の開始時刻を検索 する範囲は A2から A4までの時刻とし、 A4を基点としてラベル 52における楽曲候補 区間の終了時刻を検索する範囲は A3から A5までとする。この場合、仮に、ラベル 5 2の楽曲候補区間が存在しない場合には、ラベル 50の楽曲候補区間が検出後の楽 曲区間となる。
[0078] 以下同様に、楽曲区間 61cについても検出処理によって開始時刻 P5と終了時刻 P 6が決定する。なお、ラベル 52の楽曲候補区間 53cについては、基点となるラベル 5 0の楽曲候補区間が存在しないために、検出処理によって削除されることになる。
[0079] このように、本実施の形態 2では、高い確度で楽曲シーン、即ち楽曲区間の途中を 検出できるが、楽曲シーンと非楽曲シーンとの境界を検出する精度は若干曖昧にな るとの検出特性を有する第一の楽曲候補検出手段 10により検出された楽曲候補区 間を基準とする。そして、楽曲区間の開始時刻や終了時刻が高い精度で検出できる 一方で非楽曲シーンを検出してしまう検出特性を持つ第二の楽曲候補検出手段 11 により検出された楽曲候補区間の有無を検出する。
[0080] つまり、検出時に、両者の検出特性を考慮して、楽曲区間の開始時刻及び終了時 刻を、第二の楽曲候補検出手段 11により検出された楽曲候補区間の開始時刻と終 了時刻を優先的に採用する検出処理を行う。これにより、非楽曲シーンの誤検出を 低減できると共に楽曲区間の開始時刻と終了時刻とを高い精度で検出することが可 能となる。
[0081] すなわち、両者が互いに補完的な関係にある検出特性を考慮して、楽曲区間の途 中である楽曲シーンを基準に楽曲区間の開始時刻と終了時刻とを検出することによ り、高い精度で楽曲区間を検出することが可能となる。
[0082] 実施の形態 3.
本実施の形態 3では、 CM放送区間を検出することに特徴がある。図 10は、本実施 の形態 3の映像音声記録装置を示すシステムブロック図である。また、図 11は、本実 施の形態 3の楽曲区間の検出、記録方法を示すフローチャートである。映像音声記 録装置 700には、記録を行う対象となるテレビジョン放送などの映像信号 3と音声信 号 4の特徴に基づいて CM放送区間を検出する CM検出部 70を備える(ST9)。 CM 検出部 70で検出された CM放送区間の開始時刻と終了時刻は、楽曲検出部 71に 出力される。その他の構成要素については実施の形態 1で示したものと同じであり、 ここでは説明を省略する。
[0083] 次に、図 10、図 11を用いて、 CM検出部 70の動作を説明する。まず、ビデオェンコ ーダ 5は、映像信号 3を MPEG— 2方式で符号ィ匕圧縮した映像データにおける Iピク チヤなどの映像フレームの輝度信号や色差成分 (YUVフォーマット)等の変化量を 監視する。そして、 CM検出部 70は、この変化量が所定の閾値以上となった場合に シーンチェンジが発生したと判定する機能を備える。さらに、 CM検出部 70は、 AZ Dコンバータ 6において音声信号 4を PCM方式に変換した音声データにおける音声 波形の振幅が所定の閾値以下となった場合を無音と判定する機能も有する。
[0084] なお、テレビ放送において、 CM放送区間を除外した番組本編の区間を「本編放送 区間」とする。一般的に CM放送区間と本編放送区間との境界、あるいは複数連続 する CM放送区間と CM放送区間との境界には、無音とシーンチェンジが同時刻に 存在する。また、 1つの CM放送は 15秒、 30秒など時間が決まっている。これらの現 象に着目し、 CM検出部 70は、シーンチェンジと無音が同期して検出される箇所が 所定間隔で連続する場合、この区間が CM放送区間であると判断する。 CM検出部 70は、 CM放送が複数連続する区間の開始時刻と終了時刻の時間情報を示すプレ ゼンテーシヨンタイム(PTM)を算出し、楽曲検出部 71に出力する。
[0085] なお、 CM放送の検出手段は、 CM放送区間の開始時刻と終了時刻が検出できる 方法であれば手法は問わない。例えば、音声信号 4の音声方式が、本編放送に多い モノラル信号力も CM放送に多 、ステレオ信号に変化する箇所を検出してもよ!/、。ま た、映像信号 3において本編放送区間と CM放送区間との境界に現れる黒画面 (ブ ラックフレーム)を検出するものであってもよい。また、音声信号のみから、または映像 信号のみ力 CM放送区間を検出しても良い。
[0086] 図 12は、本実施の形態 3の楽曲検出部 71による検出処理(図 11では、 ST9の「C M検出」に相当)の過程を示すチャート図である。同図において(1)は、検出された 楽曲区間であるラベル 80をプロットしたグラフ 800である。楽曲区間の検出処理の方 法については、実施の形態 1および 2で説明したものを用いる。また、同図(2)は、 C M検出部で検出された CM放送区間を示す CMラベル 82をプロットしたグラフ 802で ある。図中、 CM放送区間として検出された区間を High、それ以外の区間を Lowとし てラベル軸 86で表して!/、る。
[0087] そして、同図(3)は、検出処理したラベル 80と CMラベル 82とをさらに再検出して 得られる CM補正したラベル 84をプロットしたグラフ 804である。グラフ 800、 804は 共に、楽曲区間を示すラベルが付いた区間を High、非楽曲シーンを示すラベルが 付!、た区間を Lowとしてラベル軸 44で表して!/、る。
[0088] 次に、図 12を用いて、楽曲検出部 71における CM放送の検出処理について説明 する。一例として、第一の楽曲検出手段と第二の楽曲検出手段による楽曲候補区間 力も得たラベル 80に示す楽曲区間 81a、 81bと、 CM検出部 70により CM放送を検 出した CM放送区間 83aがある場合、楽曲区間 81a、 81bのうち CM放送区間 83aと 重複する区間を非楽曲シーンとする補正処理を行う。
[0089] 以下、図 12を用いて具体的に説明する。楽曲区間 85aの開始時刻 D1は、 CM放 送と重複していないが、終了時刻 D2は CM放送区間 83aと重複している。よって、 C M補正処理後の楽曲区間 85aの開始時刻は、 D1の時刻を採用して F1となり、終了 時刻は CM放送区間 83aの開始時刻 E 1を採用して F2となる。
[0090] 同様に、楽曲区間 81bの終了時刻 D4は CM放送と重複していないが、開始時刻 D 3は CM放送区間 83aと重複している。よって、 CM補正処理後の楽曲区間 85bの開 始時刻は、 CM放送区間 83aの終了時刻 E2を採用して F3となり、終了時刻は D4の 時刻を採用して F4となる。ここでは図示しないが、検出処理後の楽曲区間が完全に CM放送区間と重複している場合には、その楽曲区間は CM補正処理により削除さ れること〖こなる。
[0091] このように、 CM放送が検出された区間は楽曲区間から除外されるので、 BGM (バ ックグラウンドミュージック)や効果音として楽曲が多用される CM放送を、本来の音楽 番組として視聴した 、楽曲と混同して誤検出しな ヽ効果がある。
[0092] なお、本実施の形態 3では、楽曲区間の検出の後、 CM放送区間を除外する方法 について説明したが、楽曲候補区間決定後に、それぞれの楽曲候補区間力も CM 放送区間を除外し、その後に楽曲区間を検出してもよい。また、楽曲候補区間を検 出する前に CM放送区間を除外してもよい。
[0093] なお、上記実施の形態 1から 3では、楽曲候補検出手段と補正手段とを別の手段と したが、これら二つの手段の機能を有する一つの楽曲検出手段としてもよい。
[0094] また、上記実施の形態 1から 3では、楽曲区間を含んだマルチメディアデータを記 録するとした力 検出された楽曲区間のみのマルチメディアデータを記録してもよい。

Claims

請求の範囲
[1] 音声信号と映像信号とを含むデータを入力するデータ入力ステップと、
各々異なる基準に基づいて、前記音声信号から、前記入力データの楽曲候補区間 を検出する複数の楽曲候補区間検出ステップと、
前記検出された複数の楽曲候補区間に基づいて、楽曲区間を検出する楽曲区間 検出ステップと
を備える楽曲区間検出方法。
[2] 前記複数の基準に含まれる一の基準の検出特性は、
前記一以外の他の基準の検出特性を補完するように設定される
請求項 1に記載の楽曲区間検出方法。
[3] 前記基準の一つは、
前記楽曲候補区間と、前記楽曲候補区間以外の区間との境界を検出するように設 定される
請求項 1に記載の楽曲区間検出方法。
[4] 前記基準の一つは、
前記楽曲候補区間の途中を検出するように設定される
請求項 1に記載の楽曲区間検出方法。
[5] 前記楽曲候補区間検出ステップは、
前記検出された楽曲候補区間を補正する補正ステップを備える
請求項 1に記載の楽曲区間検出方法。
[6] コマーシャル区間を検出するコマーシャル検出ステップを備え、
前記楽曲区間から前記コマーシャル区間を除く
請求項 1に記載の楽曲区間検出方法。
[7] 請求項 1に記載の楽曲区間検出方法により検出された楽曲区間を含むデータを記 録するデータ記録ステップと、
前記楽曲区間を特定するための情報を記録する情報記録ステップと
を備えるデータ記録方法。
[8] 各々異なる基準に基づいて、音声信号と映像信号とを含む入力データの前記音声 信号から、前記入力データの楽曲候補区間を検出する複数の楽曲候補区間検出部 と、
前記検出された複数の楽曲候補区間に基づいて、楽曲区間を検出する楽曲区間 検出部とを備える楽曲区間検出装置。
[9] 前記複数の基準に含まれる一の基準の検出特性は、
前記一以外の他の基準の検出特性を補完するように設定される
請求項 8に記載の楽曲区間検出装置。
[10] 前記基準の一つは、
前記楽曲候補区間と、前記楽曲候補区間以外の区間との境界を検出するように設 定される
請求項 8に記載の楽曲区間検出装置。
[11] 前記基準の一つは、
前記楽曲候補区間の途中を検出するように設定される
請求項に記載の楽曲区間検出装置。
[12] 前記検出された楽曲候補区間を補正する補正部を備え、
前記楽曲検出部は、前記補正部により補正された複数の楽曲候補区間に基づい て楽曲区間を検出する
請求項 8に記載の楽曲区間検出装置。
[13] コマーシャル区間を検出するコマーシャル検出部を備え、
前記楽曲区間検出部は、前記楽曲区間から前記コマーシャル区間を除く 請求項 8に記載の楽曲区間検出装置。
[14] 請求項 8に記載の楽曲区間検出装置により検出された楽曲区間を含むデータを記 録するデータ記録部を備え、
前記データ記録部は、前記楽曲区間を特定するための情報を記録すること を特徴とするデータ記録装置。
PCT/JP2006/325720 2005-12-27 2006-12-25 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 WO2007074755A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP06835167A EP1968043B1 (en) 2005-12-27 2006-12-25 Musical composition section detecting method and its device, and data recording method and its device
US12/087,248 US8855796B2 (en) 2005-12-27 2006-12-25 Method and device for detecting music segment, and method and device for recording data
CN2006800430357A CN101310327B (zh) 2005-12-27 2006-12-25 乐曲区间检测方法及其装置、及数据记录方法及其装置
HK08113942.4A HK1122893A1 (en) 2005-12-27 2008-12-24 Musical composition section detecting method and its device, and data recording method and its device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-374205 2005-12-27
JP2005374205A JP4321518B2 (ja) 2005-12-27 2005-12-27 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置

Publications (1)

Publication Number Publication Date
WO2007074755A1 true WO2007074755A1 (ja) 2007-07-05

Family

ID=38217975

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/325720 WO2007074755A1 (ja) 2005-12-27 2006-12-25 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置

Country Status (7)

Country Link
US (1) US8855796B2 (ja)
EP (1) EP1968043B1 (ja)
JP (1) JP4321518B2 (ja)
KR (1) KR100962803B1 (ja)
CN (1) CN101310327B (ja)
HK (1) HK1122893A1 (ja)
WO (1) WO2007074755A1 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008241850A (ja) * 2007-03-26 2008-10-09 Sanyo Electric Co Ltd 録音または再生装置
US9154942B2 (en) 2008-11-26 2015-10-06 Free Stream Media Corp. Zero configuration communication between a browser and a networked media device
US10880340B2 (en) 2008-11-26 2020-12-29 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US10419541B2 (en) 2008-11-26 2019-09-17 Free Stream Media Corp. Remotely control devices over a network without authentication or registration
US10631068B2 (en) 2008-11-26 2020-04-21 Free Stream Media Corp. Content exposure attribution based on renderings of related content across multiple devices
US9026668B2 (en) 2012-05-26 2015-05-05 Free Stream Media Corp. Real-time and retargeted advertising on multiple screens of a user watching television
US9961388B2 (en) 2008-11-26 2018-05-01 David Harrison Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements
US10567823B2 (en) 2008-11-26 2020-02-18 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US8180891B1 (en) 2008-11-26 2012-05-15 Free Stream Media Corp. Discovery, access control, and communication with networked services from within a security sandbox
US9986279B2 (en) 2008-11-26 2018-05-29 Free Stream Media Corp. Discovery, access control, and communication with networked services
US10977693B2 (en) 2008-11-26 2021-04-13 Free Stream Media Corp. Association of content identifier of audio-visual data with additional data through capture infrastructure
US10334324B2 (en) 2008-11-26 2019-06-25 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US9519772B2 (en) 2008-11-26 2016-12-13 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9386356B2 (en) 2008-11-26 2016-07-05 Free Stream Media Corp. Targeting with television audience data across multiple screens
US8769584B2 (en) 2009-05-29 2014-07-01 TVI Interactive Systems, Inc. Methods for displaying contextually targeted content on a connected television
US9055335B2 (en) 2009-05-29 2015-06-09 Cognitive Networks, Inc. Systems and methods for addressing a media database using distance associative hashing
US10375451B2 (en) 2009-05-29 2019-08-06 Inscape Data, Inc. Detection of common media segments
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US8930980B2 (en) 2010-05-27 2015-01-06 Cognitive Networks, Inc. Systems and methods for real-time television ad detection using an automated content recognition database
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US8457771B2 (en) * 2009-12-10 2013-06-04 At&T Intellectual Property I, L.P. Automated detection and filtering of audio advertisements
US10192138B2 (en) 2010-05-27 2019-01-29 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
US9838753B2 (en) 2013-12-23 2017-12-05 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
CN102956230B (zh) 2011-08-19 2017-03-01 杜比实验室特许公司 对音频信号进行歌曲检测的方法和设备
CA2906192C (en) * 2013-03-15 2020-10-27 Cognitive Media Networks, Inc. Systems and methods for real-time television ad detection using an automated content recognition database
CN105830154B (zh) * 2013-12-19 2019-06-28 瑞典爱立信有限公司 估计音频信号中的背景噪声
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US20150301718A1 (en) * 2014-04-18 2015-10-22 Google Inc. Methods, systems, and media for presenting music items relating to media content
FR3022051B1 (fr) * 2014-06-10 2016-07-15 Weezic Procede de suivi d'une partition musicale et procede de modelisation associe
CN108337925B (zh) 2015-01-30 2024-02-27 构造数据有限责任公司 用于识别视频片段以及显示从替代源和/或在替代设备上观看的选项的方法
CA2982797C (en) 2015-04-17 2023-03-14 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
US10136190B2 (en) 2015-05-20 2018-11-20 Echostar Technologies Llc Apparatus, systems and methods for song play using a media device having a buffer
US10805668B2 (en) 2015-05-20 2020-10-13 DISH Technologies L.L.C. Apparatus, systems and methods for trick function viewing of media content
WO2017011792A1 (en) 2015-07-16 2017-01-19 Vizio Inscape Technologies, Llc Prediction of future views of video segments to optimize system resource utilization
CN108293140B (zh) 2015-07-16 2020-10-02 构造数据有限责任公司 公共媒体段的检测
KR20180030885A (ko) 2015-07-16 2018-03-26 인스케이프 데이터, 인코포레이티드 미디어 세그먼트를 식별함에 있어 향상된 효율성을 위해 검색 인덱스를 나누는 시스템 및 방법
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
US10381022B1 (en) 2015-12-23 2019-08-13 Google Llc Audio classifier
BR112019019430A2 (pt) 2017-04-06 2020-04-14 Inscape Data Inc sistema, método e produto de programa de computador
US10872611B2 (en) * 2017-09-12 2020-12-22 Qualcomm Incorporated Selecting channel adjustment method for inter-frame temporal shift variations
WO2020031544A1 (ja) * 2018-08-10 2020-02-13 ヤマハ株式会社 楽譜データの情報処理装置
CN109448684B (zh) * 2018-11-12 2023-11-17 合肥科拉斯特网络科技有限公司 一种智能编曲方法和系统
JP7226709B2 (ja) * 2019-01-07 2023-02-21 ヤマハ株式会社 映像制御システム、及び映像制御方法
US11523186B2 (en) * 2019-09-27 2022-12-06 Disney Enterprises, Inc. Automated audio mapping using an artificial neural network

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207455A (ja) * 1996-11-20 1998-08-07 Yamaha Corp 音信号分析装置及び方法
JPH1155613A (ja) * 1997-07-30 1999-02-26 Hitachi Ltd 記録および/または再生装置およびこれに用いられる記録媒体
JPH11266435A (ja) 1998-03-18 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 音楽映像管理方法、装置および音楽映像管理プログラムを記録した記録媒体
JP2000099069A (ja) * 1998-09-24 2000-04-07 Sony Corp 情報信号処理方法及び装置
JP2002344852A (ja) * 2001-05-14 2002-11-29 Sony Corp 情報信号処理装置および情報信号処理方法
JP2005284308A (ja) * 2005-05-26 2005-10-13 Kddi Corp オーディオ情報分類装置

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
KR940001861B1 (ko) 1991-04-12 1994-03-09 삼성전자 주식회사 오디오 대역신호의 음성/음악 판별장치
DE69214882T2 (de) * 1991-06-06 1997-03-20 Matsushita Electric Ind Co Ltd Gerät zur Unterscheidung von Musik und Sprache
JPH08265660A (ja) 1995-03-20 1996-10-11 Nippon Telegr & Teleph Corp <Ntt> 音楽管理方法および装置
JPH099199A (ja) 1995-06-19 1997-01-10 Sony Corp 映像信号記録/再生装置
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
JPH09284704A (ja) 1996-04-15 1997-10-31 Sony Corp 映像信号選択装置及びダイジェスト記録装置
US6525255B1 (en) * 1996-11-20 2003-02-25 Yamaha Corporation Sound signal analyzing device
JP3475317B2 (ja) 1996-12-20 2003-12-08 日本電信電話株式会社 映像分類方法および装置
JP4300697B2 (ja) * 2000-04-24 2009-07-22 ソニー株式会社 信号処理装置及び方法
JP4596196B2 (ja) * 2000-08-02 2010-12-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
CN1175398C (zh) * 2000-11-18 2004-11-10 中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
US6625600B2 (en) * 2001-04-12 2003-09-23 Telelogue, Inc. Method and apparatus for automatically processing a user's communication
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
JP2003099083A (ja) 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 音声認識装置
US7260439B2 (en) * 2001-11-01 2007-08-21 Fuji Xerox Co., Ltd. Systems and methods for the automatic extraction of audio excerpts
US7386217B2 (en) * 2001-12-14 2008-06-10 Hewlett-Packard Development Company, L.P. Indexing video by detecting speech and music in audio
KR100472904B1 (ko) 2002-02-20 2005-03-08 안호성 음악 부분을 자동으로 선별해 저장하는 디지털 음악 재생장치 및 그 방법
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
JP2003298981A (ja) 2002-04-03 2003-10-17 Oojisu Soken:Kk 要約画像作成装置、要約画像作成方法、要約画像作成プログラム、及び要約画像作成プログラムを記憶したコンピュータ読取可能な記憶媒体
US7286749B2 (en) * 2002-04-16 2007-10-23 Canon Kabushiki Kaisha Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period
JP4086532B2 (ja) 2002-04-16 2008-05-14 キヤノン株式会社 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP4109065B2 (ja) 2002-09-27 2008-06-25 クラリオン株式会社 記録再生装置、記録装置、それらの制御方法、制御プログラム及び記録媒体
US20040143349A1 (en) * 2002-10-28 2004-07-22 Gracenote, Inc. Personal audio recording system
US7031915B2 (en) * 2003-01-23 2006-04-18 Aurilab Llc Assisted speech recognition by dual search acceleration technique
US7336890B2 (en) * 2003-02-19 2008-02-26 Microsoft Corporation Automatic detection and segmentation of music videos in an audio/video stream
US20040167767A1 (en) * 2003-02-25 2004-08-26 Ziyou Xiong Method and system for extracting sports highlights from audio signals
JP4199097B2 (ja) * 2003-11-21 2008-12-17 パイオニア株式会社 楽曲自動分類装置及び方法
US20050154987A1 (en) * 2004-01-14 2005-07-14 Isao Otsuka System and method for recording and reproducing multimedia
TWI259719B (en) * 2004-01-14 2006-08-01 Mitsubishi Electric Corp Apparatus and method for reproducing summary
US7022907B2 (en) * 2004-03-25 2006-04-04 Microsoft Corporation Automatic music mood detection
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
FI20045146A0 (fi) * 2004-04-22 2004-04-22 Nokia Corp Audioaktiivisuuden ilmaisu
US20060149693A1 (en) * 2005-01-04 2006-07-06 Isao Otsuka Enhanced classification using training data refinement and classifier updating
US20060212297A1 (en) * 2005-03-18 2006-09-21 International Business Machines Corporation System and method using blind change detection for audio segmentation
JP2006301134A (ja) 2005-04-19 2006-11-02 Hitachi Ltd 音楽検出装置、音楽検出方法及び録音再生装置
GB2465917B (en) * 2005-05-03 2010-08-04 Codemasters Software Co Rhythm action game apparatus and method
KR100749045B1 (ko) * 2006-01-26 2007-08-13 삼성전자주식회사 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207455A (ja) * 1996-11-20 1998-08-07 Yamaha Corp 音信号分析装置及び方法
JPH1155613A (ja) * 1997-07-30 1999-02-26 Hitachi Ltd 記録および/または再生装置およびこれに用いられる記録媒体
JPH11266435A (ja) 1998-03-18 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 音楽映像管理方法、装置および音楽映像管理プログラムを記録した記録媒体
JP2000099069A (ja) * 1998-09-24 2000-04-07 Sony Corp 情報信号処理方法及び装置
JP2002344852A (ja) * 2001-05-14 2002-11-29 Sony Corp 情報信号処理装置および情報信号処理方法
JP2005284308A (ja) * 2005-05-26 2005-10-13 Kddi Corp オーディオ情報分類装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1968043A4

Also Published As

Publication number Publication date
JP2007180669A (ja) 2007-07-12
EP1968043A4 (en) 2011-09-28
EP1968043B1 (en) 2013-02-20
CN101310327A (zh) 2008-11-19
US20090088878A1 (en) 2009-04-02
KR100962803B1 (ko) 2010-06-10
JP4321518B2 (ja) 2009-08-26
HK1122893A1 (en) 2009-05-29
US8855796B2 (en) 2014-10-07
CN101310327B (zh) 2012-07-18
KR20080059650A (ko) 2008-06-30
EP1968043A1 (en) 2008-09-10

Similar Documents

Publication Publication Date Title
JP4321518B2 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP4442585B2 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP4081120B2 (ja) 記録装置、記録再生装置
US8332059B2 (en) Apparatus and method for synchronizing additional data and base data
JPWO2005069172A1 (ja) 要約再生装置および要約再生方法
JP4491700B2 (ja) 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
KR20060027826A (ko) 비디오 처리장치, 비디오 처리장치용 집적회로, 비디오처리방법, 및 비디오 처리 프로그램
WO2001016935A1 (fr) Procede et dispositif d&#39;extraction/traitement d&#39;informations, et procede et dispositif de stockage
JP4259500B2 (ja) 映像音声記録装置
JP4432823B2 (ja) 特定条件区間検出装置および特定条件区間検出方法
JP4840325B2 (ja) 映像音声記録装置
JP2006270233A (ja) 信号処理方法及び信号記録再生装置
JP2010074823A (ja) 録画編集装置
JP2008124551A (ja) ダイジェスト作成装置
JP4312167B2 (ja) コンテンツ再生装置
JP5132789B2 (ja) 動画像符号化装置及び方法
JP2005223794A (ja) 映像音響コンテンツの記録装置及び方法
JP2006303868A (ja) 信号属性判定装置、信号属性判定方法、情報信号記録装置、情報信号記録方法、情報信号再生装置、情報信号再生方法、情報信号記録再生装置および情報信号記録再生方法並びに記録媒体

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680043035.7

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006835167

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 12087248

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE