WO2009101319A1 - Method, device and computer program for searching for keywords in a speech signal - Google Patents

Method, device and computer program for searching for keywords in a speech signal Download PDF

Info

Publication number
WO2009101319A1
WO2009101319A1 PCT/FR2009/050159 FR2009050159W WO2009101319A1 WO 2009101319 A1 WO2009101319 A1 WO 2009101319A1 FR 2009050159 W FR2009050159 W FR 2009050159W WO 2009101319 A1 WO2009101319 A1 WO 2009101319A1
Authority
WO
WIPO (PCT)
Prior art keywords
sub
speech signal
search
sequence
lexical
Prior art date
Application number
PCT/FR2009/050159
Other languages
French (fr)
Inventor
Corentin Dubois
Delphine Charlet
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2009101319A1 publication Critical patent/WO2009101319A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Definitions

  • the invention relates to the field of identification of keywords in a speech signal.
  • a person When a person utters a sentence, it generates an acoustic signal. This acoustic signal can be converted into an electrical signal to be processed. Nevertheless, in the remainder of the description, the term “acoustic signal”, “speech signal” or “pronounced sentence” will be used to designate any signal representative of the acoustic signal.
  • STD Sesen Term Detection
  • LVCSR Large Vocabulary Continuous Speech Recognizer
  • the LVCSR methods use closed dictionaries, which is a limit, although some dictionaries may have a relatively high number of entries, of the order of 70000 currently.
  • a request formulated by a user can contain one or more keyword (s) not belonging to the dictionary.
  • These keywords are said to be out of vocabulary or OOV (from the English "Out Of Vocabulary").
  • OOV contained in a speech signal is therefore absent from the transcription of this speech signal.
  • these OOV words which may include, for example, proper nouns, are generally information carriers and may be primarily searched for as keywords. The treatment of OOV keywords is therefore a real challenge in the field of STD.
  • Another approach based on a phonetic search, makes it possible to take into account the keywords OOV.
  • This approach uses a representation of the speech signal in sub-lexical units, for example in phonemes. These lexical units are shorter than most words and can be combined to represent any keyword.
  • the representation in sub-lexical units can be obtained for example by decoding the speech signal in phoneme sequence or phonemic lattice, or by phonadossant a textual transcription of the speech signal obtained by LVCSR.
  • the search for a keyword is then performed using a representation in sub-lexical units of this keyword on the one hand, and the representation of the speech signal in sub-lexical units on the other hand.
  • Such research based on representations in sub-lexical units is likely to generate false alarms, especially for relatively short keywords.
  • the subject of the invention is a method for identifying at least one keyword in a speech signal, comprising, for each keyword, a step consisting in: a / performing a search for a sequence of sub-lexical units, called request, obtained by conversion of the keyword, in a sequence of sub-lexical units obtained by conversion of the speech signal.
  • the method further comprises the steps of: b / detecting segmentation marks, called boundaries, in the speech signal, and c / use the boundaries detected in step b / to validate or invalidate the search results of step a /.
  • Searching for step a / may make it possible to identify one (or more) sub-sequence of sub-lexical units of the sequence corresponding to the speech signal, this identified subsequence, called candidate subsequence or detection, concordant with the request.
  • the detected boundaries may include word boundaries. If a detection is exactly framed by two consecutive word boundaries, we can think that this detection actually corresponds to a word and the detection is retained. On the other hand, if, for example, the boundaries of words that surround a detection are relatively far from this detection, the detection probably corresponds to only a part of a spoken word, and the detection is rejected.
  • the sub-lexical units may for example include phones, phonemes, diphones, syllables, or other.
  • the detected segments can be words, breath groups, phrases or other. Segmentation marks, or borders, may include word, sentence or other boundaries.
  • the method may comprise a step of transcription of the speech signal using a dictionary.
  • the transcription can be performed according to an LVCSR method, for example using an existing LVCSR software.
  • step b / is thus implemented relatively simply.
  • the invention is of course not limited by the use of a transcription of the speech signal to detect the boundaries.
  • the resulting transcription can be used for the conversion of the speech signal.
  • the speech signal is first transcribed and the textual transcription of the speech signal thus obtained, for example by LVCSR, is then transformed into a sequence of sub-lexical units.
  • the conversion of the speech signal is thus performed in a relatively reliable manner, the transcription can be implemented by means of known software, and with a relatively low error rate.
  • the invention is in no way limited by this transcription step to achieve the conversion of the speech signal.
  • it may be provided to perform conversions of the speech signal directly into phonemes. It can be expected to search for one or more keyword (s). The number of keywords can be relatively high.
  • the method includes a text search step in the transcription of the speech signal.
  • the search can be on the same keyword as for the search based on sub-lexical units, or for another keyword.
  • the results of the text search can be combined with the search results of step a /. This can benefit both the relatively good accuracy of textual inquiry and the ability to process the OOV keywords of research based on lexical units.
  • the method may thus comprise a transcription step of the speech signal, the results of which can be used for step b / of border detection, for the conversion of the speech signal, and / or for a textual search. Nevertheless, the method according to one aspect of the invention can be implemented without any transcription of the speech signal.
  • a score is estimated for each candidate detection or sub-sequence obtained in step a / of research.
  • the estimation of a score can be used to qualify the consideration of word boundaries.
  • the different search steps may lead to associating different keywords with the same sub-sequence or sub-sequences overlapping at least in part.
  • the invention is in no way limited by this step of estimating a score. For example, it may be possible to retain a detection only if the first sub-lexical unit of this detection comes immediately after a word boundary and if the last sub-lexical unit of this detection is immediately followed by a word boundary.
  • the score is estimated from at least one distance corresponding to this detection.
  • This distance parameter can be obtained in step a / search and characterizes the alignment between the candidate sub-sequence and the suite of sub-lexical units corresponding to the keyword.
  • alignment is taken into account in deciding whether to keep or reject a particular detection.
  • the score may not take into account the alignment between the detection and the searched keyword.
  • the score is estimated from a number of sub-lexical units obtained by the subtraction of the number of sub-lexical units of detection, the number of lexical units between the border immediately preceding the detection and the border immediately following the detection. If the first sub-lexical unit of the detection comes immediately after a word boundary and the last sub-lexical unit of this detection is immediately followed by a word boundary, this number is zero. On the other hand, if, for example, detection is part of a longer word, this number may have a relatively high value. This takes into account the fact that the detection coincides more or less with a pronounced word, in the case of word boundaries.
  • the score is estimated from a result of a comparison between the number of boundaries, for example word boundaries, within the desired lexical unit sequence and the number of boundaries of the detection. If these numbers of borders are different, the detection may be rejected. For example, if the detection covers (at least partially) more than one word, while the keyword corresponds to a single word, the detection may be rejected. The detection may also be rejected if the detection, corresponding for example to the word pronounced "ham", covers a single word, while the keyword, for example "Jean Bon” corresponds to two words. It is recalled that in the present description, the term "word” refers to both an isolated word and a phrase.
  • the score is estimated from the number of sub-lexical units of the detection. Indeed, the lower the number, the higher the risk of false alarm. On the other hand, if the detection is relatively long, the results of the research are likely to be correct.
  • the subject of the invention is a computer program, the computer program being intended to be stored in a memory of a device for identifying keywords in a speech signal, and / or stored on a memory medium intended to cooperate with a reader of the central unit of this device and / or downloaded via a telecommunication network, characterized in that it comprises instructions for implementing the method according to one aspect of the invention, when the instructions are executed by a processor of this device.
  • the subject of the invention is a device for identifying at least one keyword in a speech signal, comprising:
  • automatic search means for searching for at least one series of sub-lexical units respectively obtained by conversion of the at least one keyword, in a sequence of sub-lexical units obtained by conversion of the speech signal;
  • detection means for detecting segmentation marks of the speech signal; processing means connected to the detection means and the automatic search means for validating or invalidating the search results using the segmentation marks obtained from the detection means.
  • the automatic search means, the detection means and the processing means can be integrated in the same electronic chip, for example a processor, a microprocessor, a DSP (of the "Digital Signal Processor") or other.
  • the device may further comprise any other means for implementing the method according to one of the embodiments of the invention.
  • the device for identifying at least one keyword in a speech signal may include a computer, a terminal, a possibly remote server, a chip or other.
  • the speech signal may for example be stored in different media, such as a CD (the English "Compact Disc”) or other.
  • CD the English "Compact Disc”
  • the invention finds a particularly advantageous application in the field of spontaneous speech recognition, in which the user enjoys total freedom of speech, but is of course not limited to this area.
  • Other features and advantages of the present invention will appear in the following detailed description, made with reference to the accompanying drawings in which: - Figure 1 shows an example of a keyword identification device in a speech signal according to an embodiment of the present invention.
  • FIG. 2 shows an exemplary architecture of a keyword identification device according to an embodiment of the present invention.
  • FIG. 3 is a flowchart of an exemplary method of identifying key words in a speech signal, implemented in a device according to the embodiment of FIG. 2.
  • FIG. 4 shows an exemplary portion of a sequence of sub-lexical units including a detection, according to one embodiment of the invention.
  • FIG. 5 is a flowchart of an exemplary method of identifying key words in a speech signal, according to an embodiment of the present invention.
  • FIG. 6 is a flowchart of an exemplary method of identifying key words in a speech signal according to another embodiment of the present invention.
  • a device for identifying keywords in a speech signal 1 comprises a central unit 2.
  • Means for recording an acoustic signal for example a microphone 13, communicate with acoustic signal processing means, for example a sound card 7.
  • the sound card 7 provides a signal having a format suitable for processing by a microprocessor 8.
  • a computer program for identifying keywords in a speech signal may be stored in a memory, for example a hard disk 6.
  • the program of computer and the signal representative of the acoustic signal can be momentarily stored in a random access memory 9 communicating with the microprocessor 8.
  • the computer program can also be stored on a memory medium, for example a floppy disk or a CD-ROM, intended to cooperate with a reader, for example a floppy disk drive 10a or a CD-ROM reader 10b.
  • a memory medium for example a floppy disk or a CD-ROM
  • a reader for example a floppy disk drive 10a or a CD-ROM reader 10b.
  • the computer program can also be downloaded via a telecommunication network, for example the Internet, represented in FIG. 1 by the reference 12.
  • a modem 11 can be used for this purpose.
  • Device 1 may also include peripherals. For example, a screen 3, a keyboard 4 and a mouse 5.
  • FIG. 2 shows an exemplary architecture of a device for identifying keywords in a speech signal according to one embodiment of the invention.
  • First conversion means 21 make it possible to convert a speech signal S (t), also referred to as a document, into a sequence of sub-lexical units P, for example a sequence of phonemes.
  • the first conversion means 21 may comprise LVCSR transcription means 22 as well as phonation means 23.
  • the LVCSR transcription means 22 are arranged to perform a transcription of the speech signal S (t) using a dictionary of for example 65000 entries.
  • the transcription T of the speech signal S (t) comprises words W j corresponding to the speech signal S (t), and temporal indicators t (0) j , t (1) j .
  • the time indicators may comprise, for each word of the transcription, a start time and a duration, or a start time t (0) j and an end time t (1) j .
  • the variable j serves to index the words of the transcription T.
  • the phonation means 23 make it possible to obtain a P phoneme sequence from the T transcription at the output of the LVCSR transcription means 22.
  • Each word W j of the transcription T can be phonetized separately, that is to say that no matching phoneme is added between two words of the transcription T. It thus facilitates the recognition of keywords converted into phonemes among the sequence of phonemes, insofar as the keywords are converted in an isolated manner, without particular context, by second conversion means 24 described below.
  • Each word W j of the transcription T is phonetized by resorting to the most probable pronunciation of this word.
  • the phoneme sequence P comprises, in addition to the phonemes themselves pi, temporal indicators t ,. Each phoneme can thus be localized in time. These temporal indicators t, are obtained from the transcription T. This transcription T having temporal indicators t (0) j , t (1) j for the words only, we deduce the temporal indicators t, of phoneme sequence P by linear interpolation for example. We can take into account the periods of silence if they exceed a certain duration, for example 0.2 seconds.
  • the variable i serves to index the phonemes of the P sequence.
  • the first conversion means 21 thus make it possible to obtain a transcription T and a phoneme sequence P from the speech signal S (t).
  • the second conversion means 24 make it possible to convert the key words W Q into a sequence W P of phonemes pi.
  • the variable I is used to index the phonemes of the sequence W P.
  • the second conversion means can be confused with the phonation means.
  • Automatic search means 25 make it possible to search for the sequence W P in the phoneme sequence P.
  • the search can be carried out taking into account or not taking into account the variants of pronunciations.
  • the search can be performed by aligning the sequence Wp with the sequence P, each alignment being characterized by a distance.
  • the distance can be estimated as a sum of the costs of operations, such as substitution, insertion, deletion, to be made to match part of the sequence P and the sequence W P. These costs can be derived from preprogrammed matrices, stored for example in LUT tables (from the English "Look-Up Table").
  • the search performed by the means 25 may be a phonetic search of a type known to those skilled in the art.
  • the search leads to obtaining at least one subsequence Ck of the P-sequence.
  • the search means can be configured to keep only the sub-sequences Ck corresponding to a distance below a certain threshold THR1.
  • the variable k serves to index the subsequences obtained by the search means 25.
  • Detection means 26 make it possible to detect word boundaries in the speech signal S (t).
  • the detection means receive the transcription T of the LVCSR transcription means 22, so that the detection of the temporal indicators of beginning t (0) j and ending t (1) j of word is trivial.
  • processing means 27 are used by processing means 27 to validate or invalidate the results obtained from the search means 25, as detailed below. Only the validated sub-sequences C * m are conserved, the variable m serving to index these retained subsequences.
  • FIG. 3 represents a flowchart of an example of a method for identifying keywords in a speech signal implemented in a device according to the embodiment of FIG. 2.
  • the conversion of the signal phonemic speech is performed via a transcription into words, this transcription is also used for the detection of boundaries.
  • a LVSCR transcription is performed during a step 31, then the T transcription thus obtained is phonetized in a step 32.
  • a phonation step 34 is implemented to convert the keyword into a series of phonemes W P , or request.
  • subsequences Ck (or detections) of the sequence T are identified as relatively close to the request W P.
  • the algorithm implemented assigns each detection Ck a distance D k indicative of the alignment between this detection Ck and the request W P. This distance D k is called alignment distance. Only the detections C k for which the distance D k is below a certain threshold THR1 are preserved.
  • a step 36 of detecting word boundaries makes it possible to locate the start times t (0) j and the end t (1) j of each word transcribed during the search step LVSCR 31. These start times t (0 ) j and end t (1) constitute the boundaries of words detected in the speech signal.
  • a loop 37 is implemented to traverse the different detections Ck, with conventional steps of initialization, testing and incrementation.
  • each detection Ck it is estimated in a step 38 a number N b (k) of sub-lexical units preceding the first sub-lexical unit of the detection and located between the same boundaries as said first sub-lexical unit.
  • N b (k) it is possible to refer, for example, to the phoneme sequence portion of FIG. 4. In this figure, only one candidate subsequence 49 is represented, and the number N b (k) is called N b for simplicity.
  • the portion of Figure 4 corresponds to the transcription of a speech signal corresponding to the text "grow together”.
  • the phonemes are referenced 48.
  • the boundaries of detected words, represented by double vertical bars, have been superimposed on this phoneme sequence portion.
  • the phonetic search step leads to selecting the framed subsequence 49.
  • an N a (k) number of sublexical units is estimated according to the last sub-lexical unit of the candidate subsequence 49 and situated between the same boundaries as the latter sub-lexical unit. .
  • N N d - N q
  • N s 1. This difference is called N s (k) in the context of the loop 37 of FIG.
  • L 3
  • a relatively short detection is more likely to correspond to a false alarm than a relatively long detection.
  • the distance characterizing the alignment between a relatively short query and a portion of a longer word may be relatively small.
  • a relatively short detection may also infringe on two words, as in the example of Figure 4. Also this number L (k), or L in the context of Figure 4, is it considered.
  • N a (k) , N b (k) , N s (k) , L (k) are thus estimated from the results of the search (the detection, referenced 49 in FIG. 4, C k in FIG. 2) and from the results of the detection of borders (the word boundaries, represented in FIG. 4 by double vertical bars).
  • These numbers N a (k) , N b (k) , N s (k) , L (k) thus make it possible to describe the textual configuration of the detection Ck.
  • the step 38 of estimating the parameters N a (k) , N b (k) , N s (k) and L (k) is followed by a step 39 of calculating a score D ' k , according to the formula: c3 + N w + Ni k) + N w
  • the number L (k) is likely to be relatively high, so that the weight of the sum c3 + N a (k) + Nl k) + N ⁇ k) is relatively small.
  • phonetic search (step 35) generally provides relatively good results for relatively long detections, and word boundaries may be less relevant in this case.
  • detection of the type of detection 49 in Fig. 4 will correspond to a relatively high score D k .
  • a test step 40 during which the score D k is compared with a second threshold thus makes it possible to reject the detections for which the corresponding score is too high. Only detections C * m corresponding to scores D 'k are kept sufficiently low (step 41).
  • FIG. 5 shows an exemplary embodiment in which an improved phonetic search, such as the search described with reference to FIGS. 2 and 3, is combined with a textual search.
  • a step 50 for receiving a search keyword is followed by a test step 51 to determine whether this keyword belongs to a fixed dictionary.
  • a text search (step 52) is carried out, using a method known from the prior art, and using this dictionary.
  • an improved phonetic search is carried out (step 53), for example using the method of the embodiment described with reference to FIGS. 2 and 3.
  • a given keyword is thus searched according to one or the other of a textual search and an improved phonetic search.
  • the results of these two searches are collected (step 54).
  • Fig. 6 is an algorithm corresponding to another embodiment, wherein a conventional text search is combined with an improved phonetic search.
  • a text search step 61 is performed. Following a test step 62: if the text search has led to select no detection, then we proceed to an improved phonetic search (step 63).
  • step 64 the results of the text search of step 61 and / or the results of the improved phonetic search of step 63 are collected.
  • Tables 1 and 2 below show the results of an exemplary application of the invention. Experiments focus on finding two lists of keywords. The first list is composed of all the proper names pronounced in the speech signal. The second list is composed of undefined proper names in the speech signal.
  • the speech signal comes from eight French television newscasts, broadcast in 2002 and 2003, and has a duration of approximately 2:30.
  • the “recall” is the ratio of the number of correct detections to the number of detections to be made.
  • "Precision” is the ratio of the number of correct detections to the number of detections made.
  • the measure F max is a harmonic mean of precision and recall. This performance measure F max can serve as optimization criterion for the triplet ⁇ d, c2, c3 ⁇ in the embodiment of FIG. 3.
  • textual search and “classical phonetic search” denote respectively a conventional textual search and a conventional phonetic search, as described above with reference to the prior art.
  • improved phonetic search refers to a search according to the embodiment of Figures 2 and 3.
  • the combination criterion is the dictionary of the LVCSR
  • the method implemented is of the type of the method described with reference to FIG. 5.
  • the combination criterion is the result of the textual search
  • the method implemented is of the type of the method described with reference to FIG.
  • the search of the keywords of the first list makes it possible to evaluate the performances of the method according to one aspect of the invention, in terms of recall and precision.
  • the search of the keywords of the first and second lists together makes it possible to more specifically test the robustness of the method, insofar as the search for words of the second list tends to reduce the accuracy without modifying the recall.
  • Table 1 below shows the search results for the keywords in the first list.
  • Table 2 below shows the search results of the union keywords of the first and second lists.

Abstract

A method of identifying at least one keyword in a speech signal, comprising the steps consisting in: a/ performing a search for a series of sub-lexical units which is obtained by converting the keyword, in a sequence of sub-lexical units which is obtained by converting the speech signal, b/ detecting segmentation marks in the speech signal, and c/ using the segmentation marks detected in step b/ to validate or deny the results of the search of step a/.

Description

Procédé, dispositif et programme d'ordinateur pour la recherche de mots-clés dans un signal de parole Method, device and computer program for searching for keywords in a speech signal
L'invention se rapporte au domaine de l'identification de mots-clés dans un signal de parole.The invention relates to the field of identification of keywords in a speech signal.
Lorsqu'une personne prononce une phrase, elle génère un signal acoustique. Ce signal acoustique peut être transformé en signal électrique pour être traité. Néanmoins, dans la suite de la description, on utilisera le terme « signal acoustique », « signal de parole » ou « phrase prononcée » pour désigner tout signal représentatif du signal acoustique.When a person utters a sentence, it generates an acoustic signal. This acoustic signal can be converted into an electrical signal to be processed. Nevertheless, in the remainder of the description, the term "acoustic signal", "speech signal" or "pronounced sentence" will be used to designate any signal representative of the acoustic signal.
On peut chercher à reconnaître les mots prononcés en procédant par recherche de mots-clés dans le signal de parole, par exemple selon un procédé STD (de l'anglais « Spoken Term Détection »). Par exemple, on peut chercher à détecter et localiser toutes les occurrences de prononciation d'un mot-clé dans le signal de parole émis par un présentateur de journal télévisé. Le mot-clé peut être saisi de façon textuelle par un utilisateur.One can seek to recognize the words spoken by proceeding by searching for keywords in the speech signal, for example according to a method STD (Spoken Term Detection). For example, one can seek to detect and locate all occurrences of pronunciation of a keyword in the speech signal emitted by a newscaster. The keyword can be entered verbatim by a user.
Une approche connue consiste à utiliser un procédé de reconnaissance automatique de la parole à grand vocabulaire ou LVCSR (de l'anglais « Large Vocabulary Continuous Speech Recognizer »), pour transcrire le signal de parole en un texte. Une recherche textuelle classique est ensuite effectuée pour identifier le ou les mot(s)-clé(s) recherché(s) dans le texte. Toutefois, les procédés LVCSR conduisent à un taux d'erreurs non négligeable, par exemple de 15 à 20%.A known approach is to use a method of automatic speech recognition with large vocabulary or LVCSR (of the "Large Vocabulary Continuous Speech Recognizer"), to transcribe the speech signal into a text. A classic textual search is then performed to identify the keyword (s) searched for in the text. However, LVCSR processes lead to a significant error rate, for example 15 to 20%.
En outre, les procédés LVCSR utilisent des dictionnaires fermés, ce qui constitue une limite, même si certains dictionnaires peuvent présenter un nombre d'entrées relativement élevé, de l'ordre de 70000 actuellement. En effet, une requête formulée par un utilisateur peut contenir un ou plusieurs mot(s)-clé(s) n'appartenant pas au dictionnaire. Ces mots-clés sont dits hors vocabulaire ou OOV (de l'anglais « Out Of Vocabulary »). Un mot-clé OOV contenu dans un signal de parole est donc absent de la transcription de ce signal de parole. De plus, ces mots OOV, qui peuvent comprendre par exemple des noms propres, sont en général porteurs d'informations et peuvent être prioritairement recherchés en tant que mots-clés. Le traitement des mots- clés OOV représente donc un réel défi dans le domaine de la STD.In addition, the LVCSR methods use closed dictionaries, which is a limit, although some dictionaries may have a relatively high number of entries, of the order of 70000 currently. Indeed, a request formulated by a user can contain one or more keyword (s) not belonging to the dictionary. These keywords are said to be out of vocabulary or OOV (from the English "Out Of Vocabulary"). A keyword OOV contained in a speech signal is therefore absent from the transcription of this speech signal. In addition, these OOV words, which may include, for example, proper nouns, are generally information carriers and may be primarily searched for as keywords. The treatment of OOV keywords is therefore a real challenge in the field of STD.
Une autre approche, basée sur une recherche phonétique, permet de prendre en considération les mots-clés OOV. Cette approche utilise une représentation du signal de parole en unités sous-lexicales, par exemple en phonèmes. Ces unités sous-lexicales sont plus courtes que la plupart des mots et peuvent être combinées de façon à représenter n'importe quel mot- clé. La représentation en unités sous-lexicales peut être obtenue par exemple par décodage du signal de parole en séquence de phonèmes ou en treillis de phonèmes, ou bien encore en phonétisant une transcription textuelle du signal de parole obtenue par LVCSR. La recherche d'un mot-clé est alors effectuée en utilisant une représentation en unités sous-lexicales de ce mot-clé d'une part, et la représentation du signal de parole en unités sous-lexicales d'autre part. Cependant, une telle recherche basée sur des représentations en unités sous- lexicales est susceptible de générer des fausses alarmes, en particulier pour des mots-clés relativement courts.Another approach, based on a phonetic search, makes it possible to take into account the keywords OOV. This approach uses a representation of the speech signal in sub-lexical units, for example in phonemes. These lexical units are shorter than most words and can be combined to represent any keyword. The representation in sub-lexical units can be obtained for example by decoding the speech signal in phoneme sequence or phonemic lattice, or by phonétisant a textual transcription of the speech signal obtained by LVCSR. The search for a keyword is then performed using a representation in sub-lexical units of this keyword on the one hand, and the representation of the speech signal in sub-lexical units on the other hand. However, such research based on representations in sub-lexical units is likely to generate false alarms, especially for relatively short keywords.
Il existe donc un besoin d'amélioration de la fiabilité des recherches basées sur des représentations en unités sous-lexicales.There is therefore a need to improve the reliability of searches based on representations in sub-lexical units.
Selon un premier aspect, l'invention a pour objet un procédé d'identification d'au moins un mot-clé dans un signal de parole, comportant, pour chaque mot-clé, une étape consistant à: a/ effectuer une recherche d'une suite d'unités sous-lexicales, dite requête, obtenue par conversion du mot-clé, dans une séquence d'unités sous-lexicales obtenue par conversion du signal de parole.According to a first aspect, the subject of the invention is a method for identifying at least one keyword in a speech signal, comprising, for each keyword, a step consisting in: a / performing a search for a sequence of sub-lexical units, called request, obtained by conversion of the keyword, in a sequence of sub-lexical units obtained by conversion of the speech signal.
Le procédé comporte en outre les étapes consistant à : b/ détecter des marques de segmentation, dites frontières, dans le signal de parole, et c/ utiliser les frontières détectées à l'étape b/ pour valider ou infirmer les résultats de la recherche de l'étape a/.The method further comprises the steps of: b / detecting segmentation marks, called boundaries, in the speech signal, and c / use the boundaries detected in step b / to validate or invalidate the search results of step a /.
Cette prise en compte des frontières du signal de parole permet de rejeter au moins une partie des résultats de la recherche qui correspondraient à de fausses alarmes. On contraint ainsi les résultats de la recherche basée sur des représentations en unités sous-lexicales à rester cohérents avec les résultats de la détection de frontières.Taking into account the boundaries of the speech signal makes it possible to reject at least part of the search results that correspond to false alarms. The results of the research based on representations in sub-lexical units are thus constrained to remain consistent with the results of the detection of borders.
La recherche de l'étape a/ peut permettre d'identifier une (ou plusieurs) sous-séquence d'unités sous-lexicales de la séquence correspondant au signal de parole, cette sous-séquence identifiée, dite sous- séquence candidate ou détection, concordant avec la requête.Searching for step a / may make it possible to identify one (or more) sub-sequence of sub-lexical units of the sequence corresponding to the speech signal, this identified subsequence, called candidate subsequence or detection, concordant with the request.
Par exemple, les frontières détectées peuvent comprendre des frontières de mots. Si une détection est exactement encadrée par deux frontières de mots consécutives, on peut penser que cette détection correspond effectivement à un mot et la détection est retenue. En revanche, si par exemple les frontières de mots qui encadrent une détection sont relativement éloignées de cette détection, la détection correspond probablement à une partie seulement d'un mot prononcé, et la détection est rejetée. Les unités sous-lexicales peuvent par exemple comprendre des phones, des phonèmes, des diphones, des syllabes, ou autre.For example, the detected boundaries may include word boundaries. If a detection is exactly framed by two consecutive word boundaries, we can think that this detection actually corresponds to a word and the detection is retained. On the other hand, if, for example, the boundaries of words that surround a detection are relatively far from this detection, the detection probably corresponds to only a part of a spoken word, and the detection is rejected. The sub-lexical units may for example include phones, phonemes, diphones, syllables, or other.
Les segments détectés peuvent être des mots, des groupes de souffle, des phrases ou autre. Les marques de segmentation, ou frontières, peuvent comprendre des frontières de mots, de phrase ou autre. Avantageusement, le procédé peut comprendre une étape de transcription du signal de parole à l'aide d'un dictionnaire. La transcription peut être effectuée suivant un procédé LVCSR, en utilisant par exemple un logiciel LVCSR existant.The detected segments can be words, breath groups, phrases or other. Segmentation marks, or borders, may include word, sentence or other boundaries. Advantageously, the method may comprise a step of transcription of the speech signal using a dictionary. The transcription can be performed according to an LVCSR method, for example using an existing LVCSR software.
La transcription ainsi obtenue peut être utilisée pour l'étape b/ de détection de frontières. Cette étape b/ est ainsi mise en œuvre relativement simplement. L'invention n'est bien entendu pas limitée par l'utilisation d'une transcription du signal de parole pour détecter les frontières.The resulting transcription can be used for step b / border detection. This step b / is thus implemented relatively simply. The invention is of course not limited by the use of a transcription of the speech signal to detect the boundaries.
Avantageusement, la transcription obtenue peut être utilisée pour la conversion du signal de parole. Par exemple, le signal de parole est d'abord transcrit et la transcription textuelle du signal de parole ainsi obtenue, par exemple par LVCSR, est ensuite transformée en une séquence d'unités sous- lexicales.Advantageously, the resulting transcription can be used for the conversion of the speech signal. For example, the speech signal is first transcribed and the textual transcription of the speech signal thus obtained, for example by LVCSR, is then transformed into a sequence of sub-lexical units.
La conversion du signal de parole est ainsi effectuée de façon relativement fiable, la transcription pouvant être mise en œuvre par le biais d'un logiciel connu, et avec un taux d'erreur relativement faible.The conversion of the speech signal is thus performed in a relatively reliable manner, the transcription can be implemented by means of known software, and with a relatively low error rate.
Bien entendu, l'invention n'est en rien limitée par cette étape de transcription pour réaliser la conversion du signal de parole. Par exemple, on peut prévoir d'effectuer des conversions du signal de parole directement en phonèmes. On peut prévoir de rechercher un ou plusieurs mot(s)-clé(s). Le nombre de mots-clés peut être relativement élevé.Of course, the invention is in no way limited by this transcription step to achieve the conversion of the speech signal. For example, it may be provided to perform conversions of the speech signal directly into phonemes. It can be expected to search for one or more keyword (s). The number of keywords can be relatively high.
Les termes « mot » et « mot-clé » désignent à la fois des mots au sens habituel du terme et des locutions, c'est à dire des suites de mots formant des unités de sens. Avantageusement, le procédé comporte une étape de recherche textuelle dans la transcription du signal de parole. La recherche peut porter sur le même mot-clé que pour la recherche à base d'unités sous-lexicales, ou pour un autre mot-clé. Les résultats de la recherche textuelle peuvent être combinés aux résultats de la recherche de l'étape a/. On peut ainsi bénéficier à la fois de la relativement bonne précision de la recherche textuelle et de la capacité à traiter les mots-clés OOV de la recherche basée sur les unités sous-lexicales.The terms "word" and "keyword" refer to both words in the usual sense of the term and phrases, ie sequences of words forming units of meaning. Advantageously, the method includes a text search step in the transcription of the speech signal. The search can be on the same keyword as for the search based on sub-lexical units, or for another keyword. The results of the text search can be combined with the search results of step a /. This can benefit both the relatively good accuracy of textual inquiry and the ability to process the OOV keywords of research based on lexical units.
Le procédé peut ainsi comprendre une étape de transcription du signal de parole, dont les résultats peuvent être utilisés pour l'étape b/ de détection de frontière, pour la conversion du signal de parole, et/ou pour une recherche textuelle. Néanmoins, le procédé selon un aspect de l'invention peut tout à fait être mis en œuvre sans aucune transcription du signal de parole.The method may thus comprise a transcription step of the speech signal, the results of which can be used for step b / of border detection, for the conversion of the speech signal, and / or for a textual search. Nevertheless, the method according to one aspect of the invention can be implemented without any transcription of the speech signal.
Avantageusement, pour chaque détection ou sous-séquence candidate obtenue à l'étape a/ de recherche, on estime un score. L'estimation d'un score peut permettre de nuancer la prise en compte des frontières de mots.Advantageously, for each candidate detection or sub-sequence obtained in step a / of research, a score is estimated. The estimation of a score can be used to qualify the consideration of word boundaries.
On peut décider de conserver ou de rejeter une sous-séquence candidate selon la valeur du score correspondant. Par exemple, on peut ne conserver que les détections dont le score dépasse un certain seuil ou est en dessous d'un certain seuil.One can decide to keep or reject a candidate sub-sequence according to the value of the corresponding score. For example, only those detections whose score exceeds a certain threshold or is below a certain threshold may be retained.
Par exemple, si plusieurs mots-clés sont recherchés, les différentes étapes de recherche peuvent conduire à associer à des mots-clés différents une même sous-séquence ou des sous-séquences se recouvrant au moins en partie. On peut alors prévoir de calculer un score pour chaque sous-séquence et pour chacun de ces mots-clés, et de choisir l'association sous- séquence/mot-clé correspondant au score le plus faible.For example, if several keywords are searched, the different search steps may lead to associating different keywords with the same sub-sequence or sub-sequences overlapping at least in part. One can then plan to calculate a score for each subsequence and for each of these keywords, and choose the sub-sequence / keyword association corresponding to the lowest score.
L'invention n'est en rien limitée par cette étape d'estimation d'un score. On peut par exemple prévoir de conserver une détection seulement si la première unité sous-lexicale de cette détection vient immédiatement après une frontière de mot et si la dernière unité sous-lexicale de cette détection est immédiatement suivie par une frontière de mot.The invention is in no way limited by this step of estimating a score. For example, it may be possible to retain a detection only if the first sub-lexical unit of this detection comes immediately after a word boundary and if the last sub-lexical unit of this detection is immediately followed by a word boundary.
Avantageusement, pour chaque détection, le score est estimé à partir d'au moins une distance correspondant à cette détection. Ce paramètre de distance peut être obtenu à l'étape a/ de recherche et caractérise l'alignement entre la sous-séquence candidate et la suite d'unités sous- lexicales correspondant au mot-clé. Ainsi, l'alignement est pris en compte pour décider de conserver ou de rejeter telle ou telle détection.Advantageously, for each detection, the score is estimated from at least one distance corresponding to this detection. This distance parameter can be obtained in step a / search and characterizes the alignment between the candidate sub-sequence and the suite of sub-lexical units corresponding to the keyword. Thus, alignment is taken into account in deciding whether to keep or reject a particular detection.
Alternativement, le score peut ne pas tenir compte de l'alignement entre la détection et le mot-clé recherché. Avantageusement et de façon non limitative, le score est estimé à partir d'un nombre d'unités sous-lexicales obtenu par la soustraction du nombre d'unités sous-lexicales de la détection, au nombre d'unités lexicales comprises entre la frontière précédent immédiatement la détection et la frontière suivant immédiatement la détection. Si la première unité sous-lexicale de la détection vient immédiatement après une frontière de mot et la dernière unité sous-lexicale de cette détection est immédiatement suivie par une frontière de mot, ce nombre est nul. En revanche, si par exemple la détection fait partie d'un mot plus long, ce nombre peut avoir une valeur relativement élevée. On prend ainsi en compte le fait que la détection coïncide plus ou moins bien avec un mot prononcé, dans le cas de frontières de mots. Avantageusement et de façon non limitative, le score est estimé à partir d'un résultat d'une comparaison entre le nombre de frontières, par exemple des frontières de mots, à l'intérieur de la suite d'unités sous-lexicales recherchée et le nombre de frontières de la détection. Si ces nombres de frontières sont différents, la détection risque d'être rejetée. Par exemple, si la détection recouvre (au moins partiellement) plus d'un mot, alors que le mot-clé correspond à un seul mot, la détection risque d'être rejetée. La détection risque également d'être rejetée si la détection, correspondant par exemple au mot prononcé « jambon », recouvre un seul mot, alors que le mot-clé, par exemple « Jean Bon » correspond à deux mots. Il est rappelé que dans la présente description, le terme « mot » désigne à la fois un mot isolé et une locution.Alternatively, the score may not take into account the alignment between the detection and the searched keyword. Advantageously and in a nonlimiting manner, the score is estimated from a number of sub-lexical units obtained by the subtraction of the number of sub-lexical units of detection, the number of lexical units between the border immediately preceding the detection and the border immediately following the detection. If the first sub-lexical unit of the detection comes immediately after a word boundary and the last sub-lexical unit of this detection is immediately followed by a word boundary, this number is zero. On the other hand, if, for example, detection is part of a longer word, this number may have a relatively high value. This takes into account the fact that the detection coincides more or less with a pronounced word, in the case of word boundaries. Advantageously and in a nonlimiting manner, the score is estimated from a result of a comparison between the number of boundaries, for example word boundaries, within the desired lexical unit sequence and the number of boundaries of the detection. If these numbers of borders are different, the detection may be rejected. For example, if the detection covers (at least partially) more than one word, while the keyword corresponds to a single word, the detection may be rejected. The detection may also be rejected if the detection, corresponding for example to the word pronounced "ham", covers a single word, while the keyword, for example "Jean Bon" corresponds to two words. It is recalled that in the present description, the term "word" refers to both an isolated word and a phrase.
Avantageusement et de façon non limitative, le score est estimé à partir du nombre d'unités sous-lexicales de la détection. En effet, plus ce nombre est faible, plus le risque de fausse alarme est élevé. En revanche, si la détection est relativement longue, les résultats de la recherche ont de bonnes chances d'être corrects.Advantageously and in a nonlimiting manner, the score is estimated from the number of sub-lexical units of the detection. Indeed, the lower the number, the higher the risk of false alarm. On the other hand, if the detection is relatively long, the results of the research are likely to be correct.
On notera que l'invention n'est limitée par l'ordre des étapes que dans la mesure où cet ordre est nécessaire à la mise en œuvre du procédé. Par exemple, l'étape b/ peut être effectuée avant l'étape a/. Selon un autre aspect, l'invention a pour objet un programme d'ordinateur, le programme d'ordinateur étant destiné à être stocké dans une mémoire d'un dispositif d'identification de mots-clés dans un signal de parole, et/ou stocké sur un support mémoire destiné à coopérer avec un lecteur de l'unité centrale de ce dispositif et/ou téléchargé via un réseau de télécommunication, caractérisé en ce qu'il comprend des instructions pour la mise en œuvre du procédé selon un aspect de l'invention, lorsque les instructions sont exécutées par un processeur de ce dispositif.It should be noted that the invention is limited by the order of the steps only insofar as this order is necessary for the implementation of the method. For example, step b / may be performed before step a /. According to another aspect, the subject of the invention is a computer program, the computer program being intended to be stored in a memory of a device for identifying keywords in a speech signal, and / or stored on a memory medium intended to cooperate with a reader of the central unit of this device and / or downloaded via a telecommunication network, characterized in that it comprises instructions for implementing the method according to one aspect of the invention, when the instructions are executed by a processor of this device.
Selon encore un autre aspect, l'invention a pour objet un dispositif d'identification d'au moins un mot-clé dans un signal de parole, comprenant:According to yet another aspect, the subject of the invention is a device for identifying at least one keyword in a speech signal, comprising:
- des moyens de recherche automatique pour effectuer une recherche d'au moins une suite d'unités sous-lexicales respectivement obtenue par conversion du au moins un mot-clé, dans une séquence d'unités sous-lexicales obtenue par conversion du signal de parole,automatic search means for searching for at least one series of sub-lexical units respectively obtained by conversion of the at least one keyword, in a sequence of sub-lexical units obtained by conversion of the speech signal; ,
- des moyens de détection pour détecter des marques de segmentation du signal de parole, - des moyens de traitement reliés aux moyens de détection et aux moyens de recherche automatique, pour valider ou infirmer les résultats de la recherche en utilisant les marques de segmentation obtenues des moyens de détection.detection means for detecting segmentation marks of the speech signal; processing means connected to the detection means and the automatic search means for validating or invalidating the search results using the segmentation marks obtained from the detection means.
Les moyens de recherche automatique, les moyens de détection et les moyens de traitement peuvent être intégrés dans une même puce électronique, par exemple un processeur, un microprocesseur, un DSP (de l'anglais « Digital Signal Processor ») ou autre.The automatic search means, the detection means and the processing means can be integrated in the same electronic chip, for example a processor, a microprocessor, a DSP (of the "Digital Signal Processor") or other.
Le dispositif peut en outre comporter tout autre moyen pour la mise en œuvre du procédé selon l'un des modes de réalisation de l'invention. Le dispositif d'identification d'au moins un mot-clé dans un signal de parole peut comprendre un ordinateur, un terminal, un serveur éventuellement distant, une puce ou autre.The device may further comprise any other means for implementing the method according to one of the embodiments of the invention. The device for identifying at least one keyword in a speech signal may include a computer, a terminal, a possibly remote server, a chip or other.
Le signal de parole peut par exemple être mémorisé sous différents supports, comme un CD (de l'anglais « Compact Disc ») ou autre. L'invention trouve une application particulièrement avantageuse dans le domaine de la reconnaissance de parole spontanée, dans lequel l'utilisateur bénéficie d'une totale liberté de parole, mais n'est bien entendu pas limitée à ce domaine. D'autres particularités et avantages de la présente invention apparaîtront dans la description détaillée ci-après, faite en référence aux dessins annexés sur lesquels : - La figure 1 montre un exemple de dispositif d'identification de mots-clés dans un signal de parole selon une réalisation de la présente invention.The speech signal may for example be stored in different media, such as a CD (the English "Compact Disc") or other. The invention finds a particularly advantageous application in the field of spontaneous speech recognition, in which the user enjoys total freedom of speech, but is of course not limited to this area. Other features and advantages of the present invention will appear in the following detailed description, made with reference to the accompanying drawings in which: - Figure 1 shows an example of a keyword identification device in a speech signal according to an embodiment of the present invention.
- La figure 2 montre un exemple d'architecture d'un dispositif d'identification de mots-clés selon un mode de réalisation de la présente invention.FIG. 2 shows an exemplary architecture of a keyword identification device according to an embodiment of the present invention.
- La figure 3 est un organigramme d'un exemple de procédé de d'identification de mots-clés dans un signal de parole, mis en œuvre dans un dispositif selon le mode de réalisation de la figure 2.FIG. 3 is a flowchart of an exemplary method of identifying key words in a speech signal, implemented in a device according to the embodiment of FIG. 2.
- La figure 4 montre un exemple de portion de séquence d'unités sous-lexicales incluant une détection, selon un mode de réalisation de l'invention.FIG. 4 shows an exemplary portion of a sequence of sub-lexical units including a detection, according to one embodiment of the invention.
- La figure 5 est un organigramme d'un exemple de procédé d'identification de mots-clés dans un signal de parole, selon un mode de réalisation de la présente invention. - La figure 6 est un organigramme d'un exemple de procédé d'identification de mots-clés dans un signal de parole selon un autre mode réalisation de la présente invention.FIG. 5 is a flowchart of an exemplary method of identifying key words in a speech signal, according to an embodiment of the present invention. FIG. 6 is a flowchart of an exemplary method of identifying key words in a speech signal according to another embodiment of the present invention.
Des références identiques désignent des objets identiques ou similaires d'une figure à l'autre. On se réfère tout d'abord à la figure 1 , sur laquelle un dispositif d'identification de mots-clés dans un signal de parole 1 comprend une unité centrale 2. Des moyens d'enregistrement d'un signal acoustique, par exemple un microphone 13, communiquent avec des moyens de traitement des signaux acoustiques, par exemple une carte son 7. La carte son 7 permet d'obtenir un signal présentant un format adapté pour un traitement par un microprocesseur 8. Un programme d'ordinateur d'identification de mots-clés dans un signal de parole peut être stocké dans une mémoire, par exemple un disque dur 6. Lors de l'exécution de ce programme d'ordinateur par le microprocesseur 8, le programme d'ordinateur ainsi que le signal représentatif du signal acoustique peuvent être momentanément stockés dans une mémoire vive 9 communiquant avec le microprocesseur 8.Identical references designate identical or similar objects from one figure to another. Reference is first made to FIG. 1, in which a device for identifying keywords in a speech signal 1 comprises a central unit 2. Means for recording an acoustic signal, for example a microphone 13, communicate with acoustic signal processing means, for example a sound card 7. The sound card 7 provides a signal having a format suitable for processing by a microprocessor 8. A computer program for identifying keywords in a speech signal may be stored in a memory, for example a hard disk 6. When executing this computer program by the microprocessor 8, the program of computer and the signal representative of the acoustic signal can be momentarily stored in a random access memory 9 communicating with the microprocessor 8.
Le programme d'ordinateur peut également être stocké sur un support mémoire, par exemple une disquette ou un CD-ROM, destiné à coopérer avec un lecteur, par exemple un lecteur de disquettes 10a ou un lecteur de CD-ROM 10b.The computer program can also be stored on a memory medium, for example a floppy disk or a CD-ROM, intended to cooperate with a reader, for example a floppy disk drive 10a or a CD-ROM reader 10b.
Le programme d'ordinateur peut également être téléchargé via un réseau de télécommunication, par exemple Internet, représenté sur la figure 1 par la référence 12. Un modem 1 1 peut être utilisé à cet effet.The computer program can also be downloaded via a telecommunication network, for example the Internet, represented in FIG. 1 by the reference 12. A modem 11 can be used for this purpose.
Le dispositif 1 peut également comprendre des périphériques. On peut citer à titre d'exemple un écran 3, un clavier 4 et une souris 5.Device 1 may also include peripherals. For example, a screen 3, a keyboard 4 and a mouse 5.
La figure 2 montre un exemple d'architecture d'un dispositif d'identification de mots-clés dans un signal de parole selon un mode de réalisation de l'invention.FIG. 2 shows an exemplary architecture of a device for identifying keywords in a speech signal according to one embodiment of the invention.
Des premiers moyens de conversion 21 permettent de convertir un signal de parole S(t), dit également document, en une séquence d'unités sous- lexicales P, par exemple une séquence de phonèmes. Les premiers moyens de conversion 21 peuvent comprendre des moyens de transcription LVCSR 22 ainsi que des moyens de phonétisation 23.First conversion means 21 make it possible to convert a speech signal S (t), also referred to as a document, into a sequence of sub-lexical units P, for example a sequence of phonemes. The first conversion means 21 may comprise LVCSR transcription means 22 as well as phonation means 23.
Les moyens de transcription LVCSR 22 sont agencés pour effectuer une transcription du signal de parole S(t) à l'aide d'un dictionnaire de par exemple 65000 entrées. La transcription T du signal de parole S(t) comprend des mots Wj correspondant au signal de parole S(t), et des indicateurs temporels t(0) j, t(1) j. Par exemple, les indicateurs temporels peuvent comprendre, pour chaque mot de la transcription, un instant de début et une durée, ou bien un instant de début t(0) j et un instant de fin t(1) j. La variable j sert à indicer les mots de la transcription T. Les moyens de phonétisation 23 permettent d'obtenir une séquence de phonèmes P à partir de la transcription T en sortie des moyens de transcription LVCSR 22. Chaque mot Wj de la transcription T peut être phonétisé séparément, c'est-à-dire qu'aucun phonème de raccord n'est rajouté entre deux mots de la transcription T. On facilite ainsi la reconnaissance de mots-clés convertis en phonèmes parmi la séquence de phonèmes, dans la mesure où les mots-clés sont convertis de façon isolée, sans contexte particulier, par des deuxièmes moyens de conversion 24 décrits ci-dessous.The LVCSR transcription means 22 are arranged to perform a transcription of the speech signal S (t) using a dictionary of for example 65000 entries. The transcription T of the speech signal S (t) comprises words W j corresponding to the speech signal S (t), and temporal indicators t (0) j , t (1) j . For example, the time indicators may comprise, for each word of the transcription, a start time and a duration, or a start time t (0) j and an end time t (1) j . The variable j serves to index the words of the transcription T. The phonation means 23 make it possible to obtain a P phoneme sequence from the T transcription at the output of the LVCSR transcription means 22. Each word W j of the transcription T can be phonetized separately, that is to say that no matching phoneme is added between two words of the transcription T. It thus facilitates the recognition of keywords converted into phonemes among the sequence of phonemes, insofar as the keywords are converted in an isolated manner, without particular context, by second conversion means 24 described below.
Chaque mot Wj de la transcription T est phonétisé en ayant recours à la prononciation la plus probable de ce mot.Each word W j of the transcription T is phonetized by resorting to the most probable pronunciation of this word.
La séquence de phonèmes P comporte, outre les phonèmes eux- mêmes pi, des indicateurs temporels t,. Chaque phonème peut ainsi être localisé dans le temps. Ces indicateurs temporels t, sont obtenus à partir de la transcription T. Cette transcription T comportant des indicateurs temporels t(0) j, t(1) j pour les mots seulement, on déduit les indicateurs temporels t, de séquence de phonèmes P par interpolation linéaire par exemple. On peut prendre en compte les périodes de silence si elles excèdent une certaine durée, par exemple 0,2 secondes.The phoneme sequence P comprises, in addition to the phonemes themselves pi, temporal indicators t ,. Each phoneme can thus be localized in time. These temporal indicators t, are obtained from the transcription T. This transcription T having temporal indicators t (0) j , t (1) j for the words only, we deduce the temporal indicators t, of phoneme sequence P by linear interpolation for example. We can take into account the periods of silence if they exceed a certain duration, for example 0.2 seconds.
La variable i sert à indicer les phonèmes de la séquence P. Les premiers moyens de conversion 21 permettent ainsi d'obtenir une transcription T et une séquence de phonèmes P à partir du signal de parole S(t).The variable i serves to index the phonemes of the P sequence. The first conversion means 21 thus make it possible to obtain a transcription T and a phoneme sequence P from the speech signal S (t).
Les deuxièmes moyens de conversion 24 permettent de convertir les mots-clés WQ en suite WP de phonèmes pi. La variable I sert à indicer les phonèmes de la suite WP.The second conversion means 24 make it possible to convert the key words W Q into a sequence W P of phonemes pi. The variable I is used to index the phonemes of the sequence W P.
Dans un mode de réalisation alternatif et non représenté, les deuxièmes moyens de conversion peuvent être confondus avec les moyens de phonétisation.In an alternative embodiment and not shown, the second conversion means can be confused with the phonation means.
Des moyens de recherche automatique 25, par exemple un DSP, permettent d'effectuer une recherche de la suite WP dans la séquence de phonèmes P. La recherche peut être effectuée en tenant compte ou en ne tenant pas compte des variantes de prononciations. Dans le premier cas, on peut se limiter aux prononciations les plus probables, dans la mesure où les moyens de phonétisation 23 ne prennent en compte que la prononciation la plus probable. Si un mot-clé est reconnu avec plusieurs prononciations possibles, dans une même sous-séquence de la séquence P, on ne conserve que la prononciation pour laquelle une mesure de distance caractérisant l'alignement est la plus faible.Automatic search means 25, for example a DSP, make it possible to search for the sequence W P in the phoneme sequence P. The search can be carried out taking into account or not taking into account the variants of pronunciations. In the first case, we can limit ourselves to the most probable pronunciations, insofar as the phonation means 23 take into account only the most probable pronunciation. If a keyword is recognized with several possible pronunciations, in the same subsequence of the sequence P, only the pronunciation for which a distance measurement characterizing the alignment is kept is the lowest.
La recherche peut être effectuée en faisant des alignements entre la suite Wp et la séquence P, chaque alignement étant caractérisé par une distance.The search can be performed by aligning the sequence Wp with the sequence P, each alignment being characterized by a distance.
La distance peut être estimée comme une somme des coûts d'opérations, comme la substitution, l'insertion, la suppression, à effectuer pour faire concorder une partie de la séquence P et la suite WP. Ces coûts peuvent être tirés de matrices préprogrammées, mémorisées par exemple dans des tables LUT (de l'anglais « Look-Up Table »).The distance can be estimated as a sum of the costs of operations, such as substitution, insertion, deletion, to be made to match part of the sequence P and the sequence W P. These costs can be derived from preprogrammed matrices, stored for example in LUT tables (from the English "Look-Up Table").
La recherche effectuée par les moyens 25 peut être une recherche phonétique, de type connu de l'homme du métier.The search performed by the means 25 may be a phonetic search of a type known to those skilled in the art.
La recherche conduit à obtenir au moins une sous-séquence Ck de la séquence P. Les moyens de recherche 25 peuvent être configurés pour ne conserver que les sous-séquences Ck correspondant à une distance au- dessous d'un certain seuil THR1. La variable k sert à indicer les sous- séquences obtenues par les moyens de recherche 25.The search leads to obtaining at least one subsequence Ck of the P-sequence. The search means can be configured to keep only the sub-sequences Ck corresponding to a distance below a certain threshold THR1. The variable k serves to index the subsequences obtained by the search means 25.
Des moyens de détection 26 permettent de détecter des frontières de mots dans le signal de parole S(t). Dans cet exemple, les moyens de détection reçoivent la transcription T des moyens de transcription LVCSR 22, de sorte que la détection des indicateurs temporels de début t(0) j et de fin t(1 ) j de mot est triviale.Detection means 26 make it possible to detect word boundaries in the speech signal S (t). In this example, the detection means receive the transcription T of the LVCSR transcription means 22, so that the detection of the temporal indicators of beginning t (0) j and ending t (1) j of word is trivial.
Ces frontières de mots sont utilisées par des moyens de traitement 27 pour valider ou infirmer les résultats obtenus des moyens de recherche 25, comme détaillé plus loin. Seules les sous-séquences validées C* m sont conservées, la variable m servant à indicer ces sous-séquences conservées.These word boundaries are used by processing means 27 to validate or invalidate the results obtained from the search means 25, as detailed below. Only the validated sub-sequences C * m are conserved, the variable m serving to index these retained subsequences.
On notera que les différents moyens 21 , 24, 25, 26 et 27 peuvent être intégrés en un seul composant, par exemple un microprocesseur. La figure 3 représente un organigramme d'un exemple de procédé d'identification de mots-clés dans un signal de parole mis en œuvre dans un dispositif conforme au mode de réalisation de la figure 2. Dans ce mode de réalisation, la conversion du signal de parole en phonèmes est effectuée via une transcription en mots, cette transcription étant également utilisée pour la détection de frontières.It should be noted that the various means 21, 24, 25, 26 and 27 can be integrated into a single component, for example a microprocessor. FIG. 3 represents a flowchart of an example of a method for identifying keywords in a speech signal implemented in a device according to the embodiment of FIG. 2. In this embodiment, the conversion of the signal phonemic speech is performed via a transcription into words, this transcription is also used for the detection of boundaries.
Après une étape 30 de réception d'un signal de parole S(t), une transcription LVSCR est effectuée lors d'une étape 31 , puis la transcription T ainsi obtenue est phonétisée lors d'une étape 32.After a step 30 of receiving a speech signal S (t), a LVSCR transcription is performed during a step 31, then the T transcription thus obtained is phonetized in a step 32.
Pour un mot-clé WQ donné, après une étape 33 de réception de ce mot-clé, une étape de phonétisation 34 est mise en œuvre pour convertir le mot-clé en suite de phonèmes WP, ou requête.For a given keyword W Q , after a step 33 for receiving this keyword, a phonation step 34 is implemented to convert the keyword into a series of phonemes W P , or request.
Lors d'une étape 35 de recherche phonétique, des sous-séquences Ck (ou détections) de la séquence T sont identifiées comme relativement proches de la requête WP. L'algorithme mis en œuvre attribue à chaque détection Ck une distance Dk indicatrice de l'alignement entre cette détection Ck et la requête WP. Cette distance Dk est dite distance d'alignement. Seules sont conservées les détections Ck pour lesquelles la distance Dk est en dessous d'un certain seuil THR1.In a phonetic search step, subsequences Ck (or detections) of the sequence T are identified as relatively close to the request W P. The algorithm implemented assigns each detection Ck a distance D k indicative of the alignment between this detection Ck and the request W P. This distance D k is called alignment distance. Only the detections C k for which the distance D k is below a certain threshold THR1 are preserved.
Une étape 36 de détection de frontières de mots permet de repérer les instants de début t(0) j et de fin t(1 ) j de chaque mot transcrit lors de l'étape de recherche LVSCR 31. Ces instants de début t(0) j et de fin t(1) constituent les frontières de mots détectées dans le signal de parole.A step 36 of detecting word boundaries makes it possible to locate the start times t (0) j and the end t (1) j of each word transcribed during the search step LVSCR 31. These start times t (0 ) j and end t (1) constitute the boundaries of words detected in the speech signal.
Pour chaque détection Ck obtenue de la recherche phonétique, on teste si cette détection est cohérente avec des frontières de mots détectées dans le signal de parole. Une boucle 37 est mise en œuvre pour parcourir les différentes détections Ck, avec des étapes classiques d'initialisation, de test et d'incrémentation.For each detection Ck obtained from the phonetic search, it is tested whether this detection is consistent with word boundaries detected in the speech signal. A loop 37 is implemented to traverse the different detections Ck, with conventional steps of initialization, testing and incrementation.
Pour chaque détection Ck, on estime lors d'une étape 38 un nombre Nb (k) d'unités sous-lexicales précédent la première unité sous-lexicale de la détection et situées entre les mêmes frontières que ladite première unité sous- lexicale.For each detection Ck, it is estimated in a step 38 a number N b (k) of sub-lexical units preceding the first sub-lexical unit of the detection and located between the same boundaries as said first sub-lexical unit.
Pour mieux comprendre ce qu'on entend par ce nombre Nb (k), on peut se reporter par exemple à la portion de séquence de phonèmes de la figure 4. Sur cette figure, une seule sous-séquence candidate 49 est représentée, et le nombre Nb (k) est dit Nb pour plus de simplicité.To better understand what is meant by this number N b (k) , it is possible to refer, for example, to the phoneme sequence portion of FIG. 4. In this figure, only one candidate subsequence 49 is represented, and the number N b (k) is called N b for simplicity.
La portion de la figure 4 correspond à la transcription d'un signal de parole correspondant au texte « grandir ensemble ». Les phonèmes sont référencés 48. On a superposé à cette portion de séquence de phonèmes les frontières de mots détectées, représentées par des doubles barres verticales.The portion of Figure 4 corresponds to the transcription of a speech signal corresponding to the text "grow together". The phonemes are referenced 48. The boundaries of detected words, represented by double vertical bars, have been superimposed on this phoneme sequence portion.
Pour un mot-clé « Iran », l'étape de recherche phonétique conduit à sélectionner la sous-séquence encadrée 49.For an "Iran" keyword, the phonetic search step leads to selecting the framed subsequence 49.
Le nombre Nb correspond au nombre de phonèmes entre la frontière de mot précédent la détection 49 et le premier phonème « I » de la détection 49, soit Nb = 4.The number N b corresponds to the number of phonemes between the word boundary preceding the detection 49 and the first phoneme "I" of the detection 49, ie N b = 4.
Egalement, lors de cette étape 38, on estime un nombre Na (k) d'unités sous-lexicales suivant la dernière unité sous-lexicale de la sous- séquence candidate 49 et situées entre les mêmes frontières que cette dernière unité sous-lexicale. Ce nombre, dit Na sur la figure 4, correspond au nombre de phonèmes entre le dernier phonème « AN » de la détection et la frontière de mot suivant la détection, soit Na = 4.Also, during this step 38, an N a (k) number of sublexical units is estimated according to the last sub-lexical unit of the candidate subsequence 49 and situated between the same boundaries as the latter sub-lexical unit. . This number, called N a in FIG. 4, corresponds to the number of phonemes between the last "AN" phoneme of the detection and the word boundary following the detection, ie N a = 4.
Le résultat de la soustraction du nombre d'unités sous-lexicales de la détection au nombre d'unités sous-lexicales entre la frontière précédent immédiatement la détection 49 et la frontière suivant immédiatement la détection 49, est donc Na,b = Na + Nb = 8. Cette somme indique dans quelle mesure la détection correspond à une partie seulement d'un ou plusieurs mot(s) plus grand(s).The result of subtracting the number of sub-lexical units of detection from the number of sublexical units between the border immediately preceding detection 49 and the boundary immediately following detection 49 is therefore N a , b = N a + N b = 8. This sum indicates in which measure detection is only part of one or more larger word (s).
En outre, lors de cette étape 38, on estime un nombre Ns d de frontières de mots à l'intérieur de la détection 49, soit ici Ns d=1 , car la détection 49 recouvre en partie deux mots. On estime également nombre Ns q de frontières de mots à l'intérieur de la suite de phonèmes recherchée « I R AN », dite requête. Soit Ns q=0, car la requête correspond à un seul mot « Iran ». On calcule une différence entre ces deux derniers nombres :In addition, during this step 38, it is estimated a number N s d of word boundaries within the detection 49, here N s d = 1, since the detection 49 partially covers two words. It is also estimated that the number of word boundaries N S q within the sequence of phonemes sought "IR AN", said request. Let N s q = 0 because the query corresponds to one word "Iran". We calculate a difference between these two last numbers:
N = Nd - Nq Dans l'exemple de la figure 4, on a donc Ns=1. Cette différence est dite Ns (k) dans le cadre de la boucle 37 de la figure 3.N = N d - N q In the example of Figure 4, so there are N s = 1. This difference is called N s (k) in the context of the loop 37 of FIG.
Enfin, lors de l'étape 38, on mémorise un nombre L(k) d'unités sous- lexicales de la détection, soit dans l'exemple de la figure 4, L=3. En effet, une détection relativement courte risque davantage de correspondre à une fausse alerte qu'une détection relativement longue. Par exemple, la distance caractérisant l'alignement entre une requête relativement courte et une portion d'un mot plus long peut être relativement faible. Une détection relativement courte peut aussi empiéter sur deux mots, comme dans l'exemple de la figure 4. Aussi ce nombre L(k), ou L dans le contexte de la figure 4, est-il pris en considération.Finally, during step 38, a number L (k) of sub-lexical units of the detection is stored, ie in the example of FIG. 4, L = 3. In fact, a relatively short detection is more likely to correspond to a false alarm than a relatively long detection. For example, the distance characterizing the alignment between a relatively short query and a portion of a longer word may be relatively small. A relatively short detection may also infringe on two words, as in the example of Figure 4. Also this number L (k), or L in the context of Figure 4, is it considered.
Les nombres Na (k) , Nb (k) , Ns (k), L(k) sont ainsi estimés à partir des résultats de la recherche (la détection, référencée 49 sur la figure 4, Ck sur la figure 2) et à partir des résultats de la détection de frontières (les frontières de mots, représentées sur la figure 4 par des doubles barres verticales). Ces nombres Na (k) , Nb (k) , Ns (k), L(k) permettent ainsi de décrire la configuration textuelle de la détection Ck.The numbers N a (k) , N b (k) , N s (k) , L (k) are thus estimated from the results of the search (the detection, referenced 49 in FIG. 4, C k in FIG. 2) and from the results of the detection of borders (the word boundaries, represented in FIG. 4 by double vertical bars). These numbers N a (k) , N b (k) , N s (k) , L (k) thus make it possible to describe the textual configuration of the detection Ck.
L'étape 38 d'estimation des paramètres Na (k), Nb (k), Ns (k) et L(k) est suivie d'une étape 39 de calcul d'un score D'k, suivant la formule : c3 + Nw + Nik) + Nw The step 38 of estimating the parameters N a (k) , N b (k) , N s (k) and L (k) is followed by a step 39 of calculating a score D ' k , according to the formula: c3 + N w + Ni k) + N w
D\ = cl*Dk + c2- r(k) Où d , c2 et c3 désignent des constantes positives ou nulles. Le triplet {d , c2, c3} peut être optimisé de façon à obtenir une mesure de performance la plus élevée possible.D \ = D k + cl * 2- r (k) Where d, c2 and c3 denote positive or zero constants. The {d, c2, c3} triplet can be optimized to obtain the highest possible measure of performance.
Pour une détection relativement longue, le nombre L(k) risque d'être relativement élevé, de sorte que le poids de la somme c3 + Na (k) + Nlk) +N^k) est relativement faible. En effet, la recherche phonétique (étape 35) fournit en général des résultats relativement corrects pour les détections relativement longues, et les frontières de mots peuvent être moins prises en considération dans ce cas. Ainsi, pour un mot-clé relativement court, comme « Iran », une détection du type de la détection 49 sur la figure 4 correspondra à un score D'k relativement élevé. Une étape de test 40 au cours de laquelle on compare le score D'k à un deuxième seuil permet ainsi de rejeter les détections pour lesquelles le score correspondant est trop élevé. Seules les détections C* m correspondant à des scores D'k suffisamment faibles sont conservées (étape 41 ).For a relatively long detection, the number L (k) is likely to be relatively high, so that the weight of the sum c3 + N a (k) + Nl k) + N ^ k) is relatively small. Indeed, phonetic search (step 35) generally provides relatively good results for relatively long detections, and word boundaries may be less relevant in this case. Thus, for a relatively short keyword, such as "Iran", detection of the type of detection 49 in Fig. 4 will correspond to a relatively high score D k . A test step 40 during which the score D k is compared with a second threshold thus makes it possible to reject the detections for which the corresponding score is too high. Only detections C * m corresponding to scores D 'k are kept sufficiently low (step 41).
La figure 5 montre un exemple de mode de réalisation dans lequel une recherche phonétique améliorée, comme par exemple la recherche décrite en référence aux figures 2 et 3, est combinée à une recherche textuelle.FIG. 5 shows an exemplary embodiment in which an improved phonetic search, such as the search described with reference to FIGS. 2 and 3, is combined with a textual search.
Dans l'exemple de la figure 5, une étape 50 de réception d'un mot- clé à rechercher est suivie d'une étape 51 de test pour déterminer si ce mot- clé appartient à un dictionnaire fixé.In the example of FIG. 5, a step 50 for receiving a search keyword is followed by a test step 51 to determine whether this keyword belongs to a fixed dictionary.
Si ce mot-clé appartient effectivement au dictionnaire, on procède à une recherche textuelle (étape 52), en recourant à un procédé connu de l'art antérieur, et en utilisant ce dictionnaire.If this keyword does indeed belong to the dictionary, a text search (step 52) is carried out, using a method known from the prior art, and using this dictionary.
Dans le cas contraire, on procède à une recherche phonétique améliorée (étape 53), en recourant par exemple au procédé du mode de réalisation décrit en référence aux figures 2 et 3. Un mot-clé donné est ainsi recherché selon l'un ou l'autre d'une recherche textuelle et d'une recherche phonétique améliorée. Les résultats de ces deux recherches sont recueillis (étape 54).In the opposite case, an improved phonetic search is carried out (step 53), for example using the method of the embodiment described with reference to FIGS. 2 and 3. A given keyword is thus searched according to one or the other of a textual search and an improved phonetic search. The results of these two searches are collected (step 54).
La figure 6 est un algorithme correspondant à un autre mode de réalisation, dans lequel une recherche textuelle classique est combinée à une recherche phonétique améliorée.Fig. 6 is an algorithm corresponding to another embodiment, wherein a conventional text search is combined with an improved phonetic search.
Dans cet exemple, après une étape 60 de réception d'un mot-clé, une étape de recherche textuelle 61 est effectuée. Suit une étape de test 62 : si la recherche textuelle a conduit à ne sélectionner aucune détection, alors on procède à une recherche phonétique améliorée (étape 63).In this example, after a step 60 of receiving a keyword, a text search step 61 is performed. Following a test step 62: if the text search has led to select no detection, then we proceed to an improved phonetic search (step 63).
On recueille lors d'une étape 64 les résultats de la recherche textuelle de l'étape 61 et/ou les résultats de la recherche phonétique améliorée de l'étape 63.At step 64, the results of the text search of step 61 and / or the results of the improved phonetic search of step 63 are collected.
Les tableaux 1 et 2 ci-dessous montrent les résultats d'un exemple d'application de l'invention. Les expérimentations portent sur la recherche de deux listes de mots-clés. La première liste est composée de tous les noms propres prononcés dans le signal de parole. La deuxième liste est composée de noms propres non prononcés dans le signal de parole.Tables 1 and 2 below show the results of an exemplary application of the invention. Experiments focus on finding two lists of keywords. The first list is composed of all the proper names pronounced in the speech signal. The second list is composed of undefined proper names in the speech signal.
Le signal de parole provient de huit journaux télévisés français, diffusés en 2002 et 2003, et a une durée de 2h30 environ.The speech signal comes from eight French television newscasts, broadcast in 2002 and 2003, and has a duration of approximately 2:30.
Le "rappel" est le rapport du nombre de détections correctes sur le nombre de détections à effectuer. La "précision" est le rapport du nombre de détections correctes sur le nombre de détections effectuées. La mesure Fmax est une moyenne harmonique de la précision et du rappel. Cette mesure de performance Fmax peut servir de critère d'optimisation du triplet {d , c2, c3} dans le mode de réalisation de la figure 3.The "recall" is the ratio of the number of correct detections to the number of detections to be made. "Precision" is the ratio of the number of correct detections to the number of detections made. The measure F max is a harmonic mean of precision and recall. This performance measure F max can serve as optimization criterion for the triplet {d, c2, c3} in the embodiment of FIG. 3.
Les termes « recherche textuelle » et « recherche phonétique classique » désignent respectivement une recherche textuelle classique et une recherche phonétique classique, telle que décrites plus haut en référence à l'art antérieur. Le terme « recherche phonétique améliorée » désigne une recherche selon le mode de réalisation des figures 2 et 3. Lorsque le critère de combinaison est le dictionnaire du LVCSR, le procédé mis en œuvre est du type du procédé décrit en référence à la figure 5. Lorsque le critère de combinaison est le résultat de la recherche textuelle, le procédé mis en œuvre est du type du procédé décrit en référence à la figure 6.The terms "textual search" and "classical phonetic search" denote respectively a conventional textual search and a conventional phonetic search, as described above with reference to the prior art. The term "improved phonetic search" refers to a search according to the embodiment of Figures 2 and 3. When the combination criterion is the dictionary of the LVCSR, the method implemented is of the type of the method described with reference to FIG. 5. When the combination criterion is the result of the textual search, the method implemented is of the type of the method described with reference to FIG.
La recherche des mots-clés de la première liste permet d'évaluer les performances du procédé selon un aspect de l'invention, en termes de rappel et de précision. La recherche des mots-clés des première et deuxième listes conjointement permet de tester plus spécifiquement la robustesse du procédé, dans la mesure où la recherche de mots de la deuxième liste tend à diminuer la précision sans modifier le rappel.The search of the keywords of the first list makes it possible to evaluate the performances of the method according to one aspect of the invention, in terms of recall and precision. The search of the keywords of the first and second lists together makes it possible to more specifically test the robustness of the method, insofar as the search for words of the second list tends to reduce the accuracy without modifying the recall.
Le tableau 1 ci-dessous montre les résultats de la recherche des mots-clés de la première liste.Table 1 below shows the search results for the keywords in the first list.
Figure imgf000019_0001
Figure imgf000019_0001
Tableau 1Table 1
Le tableau 2 ci-dessous montre les résultats de la recherche des mots-clés de l'union des première et deuxième listes.
Figure imgf000020_0001
Table 2 below shows the search results of the union keywords of the first and second lists.
Figure imgf000020_0001
Tableau 2Table 2
Ces résultats montrent la capacité de la recherche phonétique améliorée à éliminer une bonne partie des fausses alarmes. Même dans le cas où seulement une recherche phonétique est effectuée, le rappel est bien entendu augmenté par rapport à la recherche textuelle, du fait de la prise en compte de mots-clés OOV, mais la précision est aussi améliorée par rapport à la recherche phonétique classique, pour atteindre un niveau comparable à celui de la recherche textuelle.These results show the ability of improved phonetic search to eliminate many of the false alarms. Even in the case where only a phonetic search is performed, the recall is of course increased compared to the textual search, due to the inclusion of OOV keywords, but the accuracy is also improved over the phonetic search to a level comparable to that of textual research.
Dans le cas de combinaison de deux types de recherches, ce gain en précision est d'autant plus marqué, car la recherche de mots-clés relativement courts, c'est à dire risquant de générer de fausses alarmes, est souvent prise en charge par la recherche textuelle. Des deux modes de réalisation envisagés pour combiner les recherches, c'est le mode de réalisation utilisant comme critère de combinaison le résultat de la recherche textuelle qui permet d'obtenir les meilleurs résultats. En effet, ce mode de réalisation permet, en plus de la gestion des mots-clés OOV, une certaine correction des erreurs de transcription faites par le procédé LVCSR, en ayant recours à la recherche phonétique. In the case of a combination of two types of searches, this gain in precision is all the more marked, since the search for relatively short keywords, that is to say, generating false alarms, is often supported by textual research. Of the two embodiments envisaged for combining the searches, it is the embodiment using as a combination criterion the result of the textual search which makes it possible to obtain the best results. Indeed, this embodiment makes it possible, in addition to the management of the OOV keywords, a certain correction of the transcription errors made by the LVCSR method, by resorting to the phonetic search.

Claims

Revendications claims
1. Procédé d'identification d'au moins un mot-clé dans un signal de parole, le procédé comportant pour chaque mot-clé une étape consistant à: a/ effectuer une recherche (35) d'une suite d'unités sous-lexicales obtenue par conversion (34) du mot-clé, dans une séquence d'unités sous- lexicales obtenue par conversion (31 , 32) du signal de parole, caractérisé en ce qu'il comporte en outre les étapes consistant à b/ détecter (36) des marques de segmentation, dites frontières, dans le signal de parole, et c/ utiliser (37) les marques de segmentation détectées à l'étape b/ pour valider ou infirmer les résultats de la recherche de l'étape a/.A method of identifying at least one keyword in a speech signal, the method comprising for each keyword a step of: a / performing a search (35) of a series of sub-units; lexical obtained by conversion (34) of the keyword, in a sequence of sub-lexical units obtained by conversion (31, 32) of the speech signal, characterized in that it further comprises the steps of b / detect (36) segmentation marks, called boundaries, in the speech signal, and c / using (37) the segmentation marks detected in step b / to validate or invalidate the search results of step a / .
2. Procédé selon la revendication 1 , comprenant en outre des étapes consistant à transcrire le signal de parole à l'aide d'un dictionnaire, effectuer une recherche textuelle (52 ; 61 ) dans la transcription du signal de parole ainsi obtenue, et combiner (54 ; 64) les résultats de la recherche textuelle aux résultats validés à l'étape c/.The method of claim 1, further comprising the steps of transcribing the speech signal with the aid of a dictionary, performing a text search (52; 61) in the transcription of the speech signal thus obtained, and combining (54; 64) the results of the text search with the results validated in step c /.
3. Procédé selon l'une des revendications 1 ou 2, comprenant une étape consistant à transcrire (31 ) le signal de parole à l'aide d'un dictionnaire, la transcription ainsi obtenue étant utilisée pour la conversion (32) du signal de parole.3. Method according to one of claims 1 or 2, comprising a step of transcribing (31) the speech signal using a dictionary, the resulting transcription being used for the conversion (32) of the signal of word.
4. Procédé selon l'une des revendications 1 à 3, comprenant une étape consistant à transcrire (31 ) le signal de parole à l'aide d'un dictionnaire, la transcription ainsi obtenue étant utilisée pour l'étape b/ de détection de frontières (36).4. Method according to one of claims 1 to 3, comprising a step of transcribing (31) the speech signal using a dictionary, the transcription thus obtained being used for the step b / of detection of borders (36).
5. Procédé selon l'une des revendications 1 à 4, dans lequel, à l'étape a/ de recherche, on obtient, pour la suite de sous-unités lexicales recherchée (WP), au moins une sous-séquence de sous-unités lexicales candidate (Ck ; 49) de la séquence de sous-unités lexicales (P), et à l'étape c/ on estime un score (D'k) pour chaque sous-séquence candidate obtenue à l'étape a/ de recherche.5. A method according to one of claims 1 to 4, wherein, in step a / search is obtained, to read the searched word sub-units (W P), at least one sub-sequence of sub candidate lexical units (C k ; 49) of the lexical subunit sequence (P), and in step c / a score (D ' k ) is estimated for each candidate subsequence obtained in step a / of research.
6. Procédé selon la revendication 5, dans lequel, pour chaque sous-séquence candidate (Ck ; 49), le score est estimé à partir d'au moins un paramètre parmi :The method according to claim 5, wherein, for each candidate subsequence (Ck; 49), the score is estimated from at least one of:
- une distance (Dk) correspondant à ladite sous-séquence candidate, ladite distance étant obtenue à l'étape a/ de recherche,a distance (D k ) corresponding to said candidate subsequence, said distance being obtained in step a / of search,
- un nombre d'unités sous-lexicales (Na,b) obtenu par la soustraction du nombre d'unités sous-lexicales de la sous-séquence candidate, au nombre d'unités lexicales comprises entre la frontière précédent immédiatement la sous-séquence candidate et la frontière suivant immédiatement la sous- séquence candidate,a number of sub-lexical units (N a , b) obtained by subtracting the number of sub-lexical units of the candidate sub-sequence from the number of lexical units between the preceding border immediately the subsequence candidate and the boundary immediately following the candidate subsequence,
- un résultat (Ns) d'une comparaison entre le nombre de frontières à l'intérieur de la suite d'unités sous-lexicales recherchée et le nombre de frontières à l'intérieur de la sous-séquence candidate, eta result (N s ) of a comparison between the number of boundaries within the desired lexical unit sequence and the number of boundaries within the candidate subsequence, and
- le nombre d'unités sous-lexicales (L) de la sous-séquence candidate.the number of sub-lexical units (L) of the candidate subsequence.
7. Procédé selon la revendication 6, dans lequel pour chaque sous-séquence candidate (Ck ; 49), le score est estimé en utilisant la formule : c3 + N^ + N.The method of claim 6, wherein for each candidate subsequence (Ck; 49), the score is estimated using the formula: c3 + N ^ + N.
D' = cl*D + c2- ' a,bD = cl * D + c2- 'a, b
L où D' désigne le score, D la distance, Na,b le nombre d'unités sous-lexicales obtenu par la soustraction du nombre d'unités sous-lexicales de la sous-séquence candidate, au nombre d'unités lexicales comprises entre la frontière précédent immédiatement la sous- séquence candidate et la frontière suivant immédiatement la sous-séquence candidate,Where D 'denotes the score, D the distance, N a, b the number of sub-lexical units obtained by subtracting the number of sub-lexical units of the candidate sub-sequence from the number of lexical units between the preceding border immediately the candidate subsequence and the boundary immediately following the candidate subsequence,
Ns la valeur absolue de la différence entre le nombre de frontières à l'intérieur de la suite d'unités sous-lexicales recherchée et le nombre de frontières à l'intérieur de la sous-séquence candidate,N s the absolute value of the difference between the number of boundaries within the desired lexical unit sequence and the number of boundaries within the candidate subsequence,
L le nombre d'unités sous-lexicales de la sous-séquence candidate, et d , c2, c3 trois valeurs constantes, ces valeurs étant positives ou nulles.L the number of sub-lexical units of the candidate subsequence, and d, c2, c3 three constant values, these values being positive or zero.
8. Programme d'ordinateur destiné à être stocké dans une mémoire d'un dispositif (2) d'identification de mots-clés dans un signal de parole, et/ou stocké sur un support mémoire destiné à coopérer avec un lecteur (10a, 10b) dudit dispositif et/ou téléchargé via un réseau de télécommunication (12), caractérisé en ce qu'il comporte des instructions pour la mise en œuvre du procédé selon l'une des revendications précédentes, lorsque lesdites instructions sont exécutées par un processeur dudit dispositif d'identification de mots-clés dans un signal de parole.8. Computer program intended to be stored in a memory of a device (2) for identifying keywords in a speech signal, and / or stored on a memory medium intended to cooperate with a reader (10a, 10b) of said device and / or downloaded via a telecommunication network (12), characterized in that it comprises instructions for implementing the method according to one of the preceding claims, when said instructions are executed by a processor of said device for identifying keywords in a speech signal.
9. Dispositif d'identification d'au moins un mot-clé (WQ) dans un signal de parole (S(t)), ledit dispositif comportant9. Device for identifying at least one keyword (WQ) in a speech signal (S (t)), said device comprising
- des moyens de recherche automatique (25) pour effectuer une recherche d'au moins une suite d'unités sous-lexicales (WP) respectivement obtenue par conversion dudit au moins un mot-clé, dans une séquence d'unités sous-lexicales (T) obtenue par conversion du signal de parole, caractérisé en ce qu'il comporte en outre- automatic search means (25) for searching at least a sequence of sub-word units (W P) respectively obtained by converting said at least one keyword, in a sequence of sub-word units (T) obtained by conversion of the speech signal, characterized in that it further comprises
- des moyens de détection (26) pour détecter des marques de segmentation du signal de parole, et - des moyens de traitement (27) reliés aux moyens de détection et aux moyens de recherche automatique, pour valider ou infirmer les résultats de la recherche en utilisant les marques de segmentation obtenues des moyens de détection.detection means (26) for detecting segmentation marks of the speech signal; and processing means (27) connected to the detection means and to the automatic search means for validating or invalidating the results of the search using the segmentation marks obtained from the detection means.
10. Dispositif selon la revendication 9, caractérisé en ce qu'il comporte des moyens pour la mise en œuvre du procédé selon l'une quelconque des revendications 2 à 7. 10. Device according to claim 9, characterized in that it comprises means for implementing the method according to any one of claims 2 to 7.
PCT/FR2009/050159 2008-02-08 2009-02-03 Method, device and computer program for searching for keywords in a speech signal WO2009101319A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0850810A FR2927461A1 (en) 2008-02-08 2008-02-08 METHOD, DEVICE AND COMPUTER PROGRAM FOR SEARCHING FOR KEYWORDS IN A SPEECH SIGNAL
FR0850810 2008-02-08

Publications (1)

Publication Number Publication Date
WO2009101319A1 true WO2009101319A1 (en) 2009-08-20

Family

ID=39333045

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2009/050159 WO2009101319A1 (en) 2008-02-08 2009-02-03 Method, device and computer program for searching for keywords in a speech signal

Country Status (2)

Country Link
FR (1) FR2927461A1 (en)
WO (1) WO2009101319A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020210050A1 (en) * 2019-04-12 2020-10-15 Bose Corporation Automated control of noise reduction or noise masking

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0800158A1 (en) * 1996-04-01 1997-10-08 Hewlett-Packard Company Word spotting
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
EP0800158A1 (en) * 1996-04-01 1997-10-08 Hewlett-Packard Company Word spotting

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
THAMBIRATNAM K ET AL: "Dynamic Match Phone-Lattice Searches For Very Fast And Accurate Unrestricted Vocabulary Keyword Spotting", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2005. PROCEEDINGS. (ICASSP ' 05). IEEE INTERNATIONAL CONFERENCE ON PHILADELPHIA, PENNSYLVANIA, USA MARCH 18-23, 2005, PISCATAWAY, NJ, USA,IEEE, vol. 1, 18 March 2005 (2005-03-18), pages 465 - 468, XP010792075, ISBN: 978-0-7803-8874-1 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020210050A1 (en) * 2019-04-12 2020-10-15 Bose Corporation Automated control of noise reduction or noise masking
US11076219B2 (en) 2019-04-12 2021-07-27 Bose Corporation Automated control of noise reduction or noise masking

Also Published As

Publication number Publication date
FR2927461A1 (en) 2009-08-14

Similar Documents

Publication Publication Date Title
EP1886304B1 (en) Method, device and computer programme for speech recognition
US20230125170A1 (en) Background audio identification for speech disambiguation
US7788095B2 (en) Method and apparatus for fast search in call-center monitoring
US8831947B2 (en) Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
Tür et al. Integrating prosodic and lexical cues for automatic topic segmentation
US8209171B2 (en) Methods and apparatus relating to searching of spoken audio data
JP4195428B2 (en) Speech recognition using multiple speech features
Wright et al. Uncovering spoken phrases in encrypted voice over IP conversations
US20150032448A1 (en) Method and apparatus for expansion of search queries on large vocabulary continuous speech recognition transcripts
US20110004473A1 (en) Apparatus and method for enhanced speech recognition
EP2202723B1 (en) Method and system for speaker authentication
US9311914B2 (en) Method and apparatus for enhanced phonetic indexing and search
US8285542B2 (en) Adapting a language model to accommodate inputs not found in a directory assistance listing
FR2842643A1 (en) STANDARDIZATION OF VERIFICATION SCORE IN SPEAKER SPEECH RECOGNITION DEVICE
EP2795618B1 (en) Method of detecting a predetermined frequency band in an audio data signal, detection device and computer program corresponding thereto
Weinstein et al. Music identification with weighted finite-state transducers
FR2735268A1 (en) Voice recognition apparatus for speech transcription
WO2009101319A1 (en) Method, device and computer program for searching for keywords in a speech signal
Wang Mandarin spoken document retrieval based on syllable lattice matching
JP2011248107A (en) Voice recognition result search method, apparatus and program for the same
US11632345B1 (en) Message management for communal account
WO2014155652A1 (en) Speaker retrieval system and program
Tucker et al. Speech-as-data technologies for personal information devices
Dhananjaya et al. Speaker change detection in casual conversations using excitation source features
Van Heerden et al. The semi-automated creation of stratified speech corpora

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09710069

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09710069

Country of ref document: EP

Kind code of ref document: A1