Suche Bilder Maps Play YouTube News Gmail Drive Mehr »
Anmelden
Nutzer von Screenreadern: Klicke auf diesen Link, um die Bedienungshilfen zu aktivieren. Dieser Modus bietet die gleichen Grundfunktionen, funktioniert aber besser mit deinem Reader.

Patentsuche

  1. Erweiterte Patentsuche
VeröffentlichungsnummerWO2009101319 A1
PublikationstypAnmeldung
AnmeldenummerPCT/FR2009/050159
Veröffentlichungsdatum20. Aug. 2009
Eingetragen3. Febr. 2009
Prioritätsdatum8. Febr. 2008
VeröffentlichungsnummerPCT/2009/50159, PCT/FR/2009/050159, PCT/FR/2009/50159, PCT/FR/9/050159, PCT/FR/9/50159, PCT/FR2009/050159, PCT/FR2009/50159, PCT/FR2009050159, PCT/FR200950159, PCT/FR9/050159, PCT/FR9/50159, PCT/FR9050159, PCT/FR950159, WO 2009/101319 A1, WO 2009101319 A1, WO 2009101319A1, WO-A1-2009101319, WO2009/101319A1, WO2009101319 A1, WO2009101319A1
ErfinderCorentin Dubois, Delphine Charlet
AntragstellerFrance Telecom
Zitat exportierenBiBTeX, EndNote, RefMan
Externe Links:  Patentscope, Espacenet
Method, device and computer program for searching for keywords in a speech signal
WO 2009101319 A1
Zusammenfassung
A method of identifying at least one keyword in a speech signal, comprising the steps consisting in: a/ performing a search for a series of sub-lexical units which is obtained by converting the keyword, in a sequence of sub-lexical units which is obtained by converting the speech signal, b/ detecting segmentation marks in the speech signal, and c/ using the segmentation marks detected in step b/ to validate or deny the results of the search of step a/.
Ansprüche  übersetzt aus folgender Sprache: Französisch  (OCR-Text kann Fehler enthalten)
Revendications claims
1. Procédé d'identification d'au moins un mot-clé dans un signal de parole, le procédé comportant pour chaque mot-clé une étape consistant à: a/ effectuer une recherche (35) d'une suite d'unités sous-lexicales obtenue par conversion (34) du mot-clé, dans une séquence d'unités sous- lexicales obtenue par conversion (31 , 32) du signal de parole, caractérisé en ce qu'il comporte en outre les étapes consistant à b/ détecter (36) des marques de segmentation, dites frontières, dans le signal de parole, et c/ utiliser (37) les marques de segmentation détectées à l'étape b/ pour valider ou infirmer les résultats de la recherche de l'étape a/. 1. A method of identifying at least one keyword in a speech signal, the method comprising for each keyword a step of: c / search (35) of a sequence of sub-units lexical obtained by converting (34) the keyword, in a sequence of sub-lexical units obtained by converting (31, 32) of the speech signal, characterized in that it further comprises the steps of b / detect (36) segmentation marks, tell borders, in the speech signal, and c / used (37) the segmentation marks detected in step b / to confirm or deny the search results of step a / .
2. Procédé selon la revendication 1 , comprenant en outre des étapes consistant à transcrire le signal de parole à l'aide d'un dictionnaire, effectuer une recherche textuelle (52 ; 61 ) dans la transcription du signal de parole ainsi obtenue, et combiner (54 ; 64) les résultats de la recherche textuelle aux résultats validés à l'étape c/. 2. Method according to claim 1, further comprising the steps of transcribing the speech signal using a dictionary, search for text (52; 61) in the transcription of the speech signal thus obtained, and combining (54; 64) the results of the text search results validated in step c /.
3. Procédé selon l'une des revendications 1 ou 2, comprenant une étape consistant à transcrire (31 ) le signal de parole à l'aide d'un dictionnaire, la transcription ainsi obtenue étant utilisée pour la conversion (32) du signal de parole. 3. Method according to one of claims 1 or 2, comprising a step of transcribing (31) the speech signal by using a dictionary, transcription thus obtained being used for the conversion (32) of the signal word.
4. Procédé selon l'une des revendications 1 à 3, comprenant une étape consistant à transcrire (31 ) le signal de parole à l'aide d'un dictionnaire, la transcription ainsi obtenue étant utilisée pour l'étape b/ de détection de frontières (36). 4. Method according to one of claims 1 to 3, comprising a step of transcribing (31) the speech signal by using a dictionary, transcription thus obtained is used for step b / detection borders (36).
5. Procédé selon l'une des revendications 1 à 4, dans lequel, à l'étape a/ de recherche, on obtient, pour la suite de sous-unités lexicales recherchée (W P ), au moins une sous-séquence de sous-unités lexicales candidate (C k ; 49) de la séquence de sous-unités lexicales (P), et à l'étape c/ on estime un score (D' k ) pour chaque sous-séquence candidate obtenue à l'étape a/ de recherche. 5. Method according to one of claims 1 to 4, wherein, in step a / search is obtained, to read the desired lexical subunits (W P), at least one sub-sequence of sub -Units lexical candidate (C k; 49) of the sequence of word sub-units (P), and in step c / estimating a score (D 'k) for each candidate sub-sequence obtained in step a / of research.
6. Procédé selon la revendication 5, dans lequel, pour chaque sous-séquence candidate (Ck ; 49), le score est estimé à partir d'au moins un paramètre parmi : 6. The method of claim 5, wherein, for each candidate sub-sequence (Ck; 49), the score is estimated from at least one of:
- une distance (D k ) correspondant à ladite sous-séquence candidate, ladite distance étant obtenue à l'étape a/ de recherche, - A distance (D k) corresponding to said candidate subsequence, said distance being obtained in step a / search,
- un nombre d'unités sous-lexicales (N a ,b) obtenu par la soustraction du nombre d'unités sous-lexicales de la sous-séquence candidate, au nombre d'unités lexicales comprises entre la frontière précédent immédiatement la sous-séquence candidate et la frontière suivant immédiatement la sous- séquence candidate, - A number of sub-word units (N a, b) obtained by subtracting the number of sub-word units of the candidate sub-sequence, the number of tokens between the border immediately previous sub-sequence candidate and the border immediately following the sub-candidate sequence,
- un résultat (N s ) d'une comparaison entre le nombre de frontières à l'intérieur de la suite d'unités sous-lexicales recherchée et le nombre de frontières à l'intérieur de la sous-séquence candidate, et - A result (N s) of a comparison between the number of boundaries within the following sub-lexical units searched and the number of boundaries within the candidate sub-sequence, and
- le nombre d'unités sous-lexicales (L) de la sous-séquence candidate. - The number of sub-lexical units (L) of the candidate subsequence.
7. Procédé selon la revendication 6, dans lequel pour chaque sous-séquence candidate (Ck ; 49), le score est estimé en utilisant la formule : c3 + N ^ + N. 7. The method of claim 6, wherein for each candidate sub-sequence (Ck; 49), the score is estimated using the formula: c3 + N ^ + N
D' = cl*D + c2- ' a,b D '= cl * D + C2' a, b
L où D' désigne le score, D la distance, N a,b le nombre d'unités sous-lexicales obtenu par la soustraction du nombre d'unités sous-lexicales de la sous-séquence candidate, au nombre d'unités lexicales comprises entre la frontière précédent immédiatement la sous- séquence candidate et la frontière suivant immédiatement la sous-séquence candidate, L where D 'refers to the score, the distance D, N a, b the number of sub-word units obtained by subtracting the number of sub-word units of the candidate sub-sequence, the number of tokens plus between the border immediately preceding sub-candidate sequence and the border immediately following the candidate subsequence,
N s la valeur absolue de la différence entre le nombre de frontières à l'intérieur de la suite d'unités sous-lexicales recherchée et le nombre de frontières à l'intérieur de la sous-séquence candidate, N s the absolute value of the difference between the number of boundaries within the following sub-lexical units searched and the number of boundaries within the candidate sub-sequence,
L le nombre d'unités sous-lexicales de la sous-séquence candidate, et d , c2, c3 trois valeurs constantes, ces valeurs étant positives ou nulles. L is the number of sub-word units of the candidate subsequence and d, c2, c3 three constant values, these values being positive or zero.
8. Programme d'ordinateur destiné à être stocké dans une mémoire d'un dispositif (2) d'identification de mots-clés dans un signal de parole, et/ou stocké sur un support mémoire destiné à coopérer avec un lecteur (10a, 10b) dudit dispositif et/ou téléchargé via un réseau de télécommunication (12), caractérisé en ce qu'il comporte des instructions pour la mise en œuvre du procédé selon l'une des revendications précédentes, lorsque lesdites instructions sont exécutées par un processeur dudit dispositif d'identification de mots-clés dans un signal de parole. 8. A computer program intended to be stored in a memory of a device (2) for identifying keywords in a speech signal, and / or stored on a memory medium intended to cooperate with a reader (10a, 10b) of said device and / or downloaded via a telecommunication network (12), characterized in that it comprises instructions for implementing the method according to one of the preceding claims, when said instructions are executed by a processor of said Identification device of keywords in a speech signal.
9. Dispositif d'identification d'au moins un mot-clé (WQ) dans un signal de parole (S(t)), ledit dispositif comportant 9. The device for identifying at least one keyword (WQ) in a speech signal (S (t)), said device comprising
- des moyens de recherche automatique (25) pour effectuer une recherche d'au moins une suite d'unités sous-lexicales (W P ) respectivement obtenue par conversion dudit au moins un mot-clé, dans une séquence d'unités sous-lexicales (T) obtenue par conversion du signal de parole, caractérisé en ce qu'il comporte en outre - Automatic search means (25) for performing a search for at least a sequence of sub-word units (W P) respectively obtained by converting said at least one keyword, in a sequence of sub-word units (T) obtained by converting the speech signal, characterized in that it further comprises
- des moyens de détection (26) pour détecter des marques de segmentation du signal de parole, et - des moyens de traitement (27) reliés aux moyens de détection et aux moyens de recherche automatique, pour valider ou infirmer les résultats de la recherche en utilisant les marques de segmentation obtenues des moyens de détection. - Detection means (26) for detecting marks of segmentation of the speech signal, and - processing means (27) connected to the detection means and the automatic search means to validate or invalidate the results of research using the segmentation marks obtained from the detection means.
10. Dispositif selon la revendication 9, caractérisé en ce qu'il comporte des moyens pour la mise en œuvre du procédé selon l'une quelconque des revendications 2 à 7. 10. Device according to claim 9, characterized in that it comprises means for implementing the method according to any one of claims 2 to 7.
Beschreibung  übersetzt aus folgender Sprache: Französisch  (OCR-Text kann Fehler enthalten)

Procédé, dispositif et programme d'ordinateur pour la recherche de mots-clés dans un signal de parole Process, apparatus and computer program to search for keywords in a speech signal

L'invention se rapporte au domaine de l'identification de mots-clés dans un signal de parole. The invention relates to the field of the identification of keywords in a speech signal.

Lorsqu'une personne prononce une phrase, elle génère un signal acoustique. When a person makes a statement, it generates an acoustic signal. Ce signal acoustique peut être transformé en signal électrique pour être traité. This acoustic signal may be converted into an electrical signal for processing. Néanmoins, dans la suite de la description, on utilisera le terme « signal acoustique », « signal de parole » ou « phrase prononcée » pour désigner tout signal représentatif du signal acoustique. Nevertheless, in the following description, the term will be used "acoustic signal", "speech signal" or "sentence spoken" to refer to any signal representative of the acoustic signal.

On peut chercher à reconnaître les mots prononcés en procédant par recherche de mots-clés dans le signal de parole, par exemple selon un procédé STD (de l'anglais « Spoken Term Détection »). We can try to recognize words spoken by process of search keywords in the speech signal, such as an STD process (from the English "Spoken Term Detection"). Par exemple, on peut chercher à détecter et localiser toutes les occurrences de prononciation d'un mot-clé dans le signal de parole émis par un présentateur de journal télévisé. For example, we can try to detect and locate all the pronunciation of occurrences of a keyword in the speech signal from a television news presenter. Le mot-clé peut être saisi de façon textuelle par un utilisateur. The keyword can be entered textually by a user.

Une approche connue consiste à utiliser un procédé de reconnaissance automatique de la parole à grand vocabulaire ou LVCSR (de l'anglais « Large Vocabulary Continuous Speech Recognizer »), pour transcrire le signal de parole en un texte. A known approach is to use an automatic recognition method of speech large vocabulary or LVCSR (standing for "Large Vocabulary Continuous Speech Recognizer") to transcribe the speech signal into text. Une recherche textuelle classique est ensuite effectuée pour identifier le ou les mot(s)-clé(s) recherché(s) dans le texte. A classic text search is then performed to identify the word (s) (s) desired (s) in the text. Toutefois, les procédés LVCSR conduisent à un taux d'erreurs non négligeable, par exemple de 15 à 20%. However, LVCSR processes lead to a significant error rate, for example 15 to 20%.

En outre, les procédés LVCSR utilisent des dictionnaires fermés, ce qui constitue une limite, même si certains dictionnaires peuvent présenter un nombre d'entrées relativement élevé, de l'ordre de 70000 actuellement. In addition, the methods use closed LVCSR dictionaries, which constitutes a limit, even if some dictionaries may have a relatively large number of inputs, of the order of 70000 currently. En effet, une requête formulée par un utilisateur peut contenir un ou plusieurs mot(s)-clé(s) n'appartenant pas au dictionnaire. Indeed, a request by a user may contain one or more word (s) (s) not belonging to the dictionary. Ces mots-clés sont dits hors vocabulaire ou OOV (de l'anglais « Out Of Vocabulary »). These keywords are called out vocabulary or OOV (standing for "Out Of Vocabulary"). Un mot-clé OOV contenu dans un signal de parole est donc absent de la transcription de ce signal de parole. OOV keyword contained in a speech signal is absent from the transcript of the speech signal. De plus, ces mots OOV, qui peuvent comprendre par exemple des noms propres, sont en général porteurs d'informations et peuvent être prioritairement recherchés en tant que mots-clés. In addition, these OOV words, which may include for example, proper names, are usually carriers of information and may be sought primarily as keywords. Le traitement des mots- clés OOV représente donc un réel défi dans le domaine de la STD. The treatment of OOV keywords represents a real challenge in the field of STD.

Une autre approche, basée sur une recherche phonétique, permet de prendre en considération les mots-clés OOV. Another approach, based on a phonetic search, lets consider the keywords OOV. Cette approche utilise une représentation du signal de parole en unités sous-lexicales, par exemple en phonèmes. This approach uses a representation of the speech signal into sub-word units, such as phonemes. Ces unités sous-lexicales sont plus courtes que la plupart des mots et peuvent être combinées de façon à représenter n'importe quel mot- clé. These sub-word units are shorter than most of the words and may be combined to represent any word-key. La représentation en unités sous-lexicales peut être obtenue par exemple par décodage du signal de parole en séquence de phonèmes ou en treillis de phonèmes, ou bien encore en phonétisant une transcription textuelle du signal de parole obtenue par LVCSR. Representation sub-word units can be obtained for example by decoding the speech signal sequence of phonemes or phoneme lattice, or even in phonétisant a verbatim transcript of the speech signal obtained by LVCSR. La recherche d'un mot-clé est alors effectuée en utilisant une représentation en unités sous-lexicales de ce mot-clé d'une part, et la représentation du signal de parole en unités sous-lexicales d'autre part. The search for a keyword is then performed using a representation of sub-word units that keyword one hand, and the representation of the speech signal into sub-lexical units on the other. Cependant, une telle recherche basée sur des représentations en unités sous- lexicales est susceptible de générer des fausses alarmes, en particulier pour des mots-clés relativement courts. However, such a search based on performances in sub-lexical units is likely to generate false alarms, particularly for relatively short keywords.

Il existe donc un besoin d'amélioration de la fiabilité des recherches basées sur des représentations en unités sous-lexicales. There is therefore a need to improve the reliability of research based on representations in sub-word units.

Selon un premier aspect, l'invention a pour objet un procédé d'identification d'au moins un mot-clé dans un signal de parole, comportant, pour chaque mot-clé, une étape consistant à: a/ effectuer une recherche d'une suite d'unités sous-lexicales, dite requête, obtenue par conversion du mot-clé, dans une séquence d'unités sous-lexicales obtenue par conversion du signal de parole. According to a first aspect, the invention relates to a method of identifying at least one keyword in a speech signal, comprising, for each keyword, a step consisting in: a / search of a sequence of sub-word units, said petition, obtained by converting the keyword in a sequence of sub-word units obtained by converting the speech signal.

Le procédé comporte en outre les étapes consistant à : b/ détecter des marques de segmentation, dites frontières, dans le signal de parole, et c/ utiliser les frontières détectées à l'étape b/ pour valider ou infirmer les résultats de la recherche de l'étape a/. The method further includes the steps of: b / detecting segmentation marks, tell borders, in the speech signal, and c / use borders detected in step b / to confirm or refute the results of the research step a /.

Cette prise en compte des frontières du signal de parole permet de rejeter au moins une partie des résultats de la recherche qui correspondraient à de fausses alarmes. This consideration of the speech signal of the borders to reject at least part of the search results that correspond to false alarms. On contraint ainsi les résultats de la recherche basée sur des représentations en unités sous-lexicales à rester cohérents avec les résultats de la détection de frontières. Thus constrained the results of research based on representations in sub-word units to remain consistent with the results of the detection boundaries.

La recherche de l'étape a/ peut permettre d'identifier une (ou plusieurs) sous-séquence d'unités sous-lexicales de la séquence correspondant au signal de parole, cette sous-séquence identifiée, dite sous- séquence candidate ou détection, concordant avec la requête. The research stage a / can identify one (or more) sub-sequence of sub-word units of the sequence corresponding to the speech signal, the identified sub-sequence, called sub-candidate detection or sequence, concordant with the request.

Par exemple, les frontières détectées peuvent comprendre des frontières de mots. For example, the detected boundaries may include word boundaries. Si une détection est exactement encadrée par deux frontières de mots consécutives, on peut penser que cette détection correspond effectivement à un mot et la détection est retenue. When detection is exactly framed by two borders of consecutive words, one can think that this detection actually corresponds to a word and detection is retained. En revanche, si par exemple les frontières de mots qui encadrent une détection sont relativement éloignées de cette détection, la détection correspond probablement à une partie seulement d'un mot prononcé, et la détection est rejetée. However, if for example the word boundaries that frame detection are relatively distant from this detection, detection is likely to only part of a word pronounced, and detection is rejected. Les unités sous-lexicales peuvent par exemple comprendre des phones, des phonèmes, des diphones, des syllabes, ou autre. The sub-word units may for example include phones, phonemes, diphones, syllables, or otherwise.

Les segments détectés peuvent être des mots, des groupes de souffle, des phrases ou autre. The segments can be detected words, breath groups, sentences or other. Les marques de segmentation, ou frontières, peuvent comprendre des frontières de mots, de phrase ou autre. segmentation of the brands, or borders, boundaries may include words, sentence or otherwise. Avantageusement, le procédé peut comprendre une étape de transcription du signal de parole à l'aide d'un dictionnaire. Advantageously, the method may comprise a step of transcription of the speech signal with the aid of a dictionary. La transcription peut être effectuée suivant un procédé LVCSR, en utilisant par exemple un logiciel LVCSR existant. Transcription can be performed according to a process LVCSR, using for example an existing software LVCSR.

La transcription ainsi obtenue peut être utilisée pour l'étape b/ de détection de frontières. Transcription thus obtained can be used for step b / boundary detection. Cette étape b/ est ainsi mise en œuvre relativement simplement. This step b / is well implemented relatively simply. L'invention n'est bien entendu pas limitée par l'utilisation d'une transcription du signal de parole pour détecter les frontières. The invention is of course not limited by the use of a transcript of the speech signal to detect borders.

Avantageusement, la transcription obtenue peut être utilisée pour la conversion du signal de parole. Advantageously, the transcript obtained can be used for converting the speech signal. Par exemple, le signal de parole est d'abord transcrit et la transcription textuelle du signal de parole ainsi obtenue, par exemple par LVCSR, est ensuite transformée en une séquence d'unités sous- lexicales. For example, the speech signal is first transcribed and the text transcript of the speech signal thus obtained, eg by LVCSR, then turned into a sequence of sub-lexical units.

La conversion du signal de parole est ainsi effectuée de façon relativement fiable, la transcription pouvant être mise en œuvre par le biais d'un logiciel connu, et avec un taux d'erreur relativement faible. The conversion of the speech signal is thus performed fairly reliably, transcription can be implemented through a known software, and with a relatively low error rate.

Bien entendu, l'invention n'est en rien limitée par cette étape de transcription pour réaliser la conversion du signal de parole. Of course, the invention is in no way limited by this transcription step to effect the conversion of the speech signal. Par exemple, on peut prévoir d'effectuer des conversions du signal de parole directement en phonèmes. For example, it may be provided to perform speech signal conversions directly into phonemes. On peut prévoir de rechercher un ou plusieurs mot(s)-clé(s). Provision may be to seek one or more word (s) (s). Le nombre de mots-clés peut être relativement élevé. The number of keywords can be relatively high.

Les termes « mot » et « mot-clé » désignent à la fois des mots au sens habituel du terme et des locutions, c'est à dire des suites de mots formant des unités de sens. The terms "word" and "keyword" means both words usual sense and phrases, ie sequences of words forming units of meaning. Avantageusement, le procédé comporte une étape de recherche textuelle dans la transcription du signal de parole. Advantageously, the method includes a step text search in the transcript of the speech signal. La recherche peut porter sur le même mot-clé que pour la recherche à base d'unités sous-lexicales, ou pour un autre mot-clé. You can search on the same keyword to search based sub-word units, or another keyword. Les résultats de la recherche textuelle peuvent être combinés aux résultats de la recherche de l'étape a/. The results of the text search can be combined with search results from step a /. On peut ainsi bénéficier à la fois de la relativement bonne précision de la recherche textuelle et de la capacité à traiter les mots-clés OOV de la recherche basée sur les unités sous-lexicales. One can thus benefit both the relatively good accuracy of text search and the ability to process the keywords OOV research-based sub-word units.

Le procédé peut ainsi comprendre une étape de transcription du signal de parole, dont les résultats peuvent être utilisés pour l'étape b/ de détection de frontière, pour la conversion du signal de parole, et/ou pour une recherche textuelle. The method may thus include a transcription step of the speech signal, the results can be used to step b / boundary detection for the conversion of the speech signal, and / or a text search. Néanmoins, le procédé selon un aspect de l'invention peut tout à fait être mis en œuvre sans aucune transcription du signal de parole. However, the method according to one aspect of the invention may well be implemented without transcription of the speech signal.

Avantageusement, pour chaque détection ou sous-séquence candidate obtenue à l'étape a/ de recherche, on estime un score. Advantageously, for each candidate detection or sub-sequence obtained in step a / search, it is estimated a score. L'estimation d'un score peut permettre de nuancer la prise en compte des frontières de mots. The estimate of a score can be used to qualify the inclusion of the words boundaries.

On peut décider de conserver ou de rejeter une sous-séquence candidate selon la valeur du score correspondant. We can decide to keep or reject a candidate subsequence according to the value of the corresponding score. Par exemple, on peut ne conserver que les détections dont le score dépasse un certain seuil ou est en dessous d'un certain seuil. For example, you can keep only the detections whose score exceeds a certain threshold or is below a certain threshold.

Par exemple, si plusieurs mots-clés sont recherchés, les différentes étapes de recherche peuvent conduire à associer à des mots-clés différents une même sous-séquence ou des sous-séquences se recouvrant au moins en partie. For example, if multiple keywords are searched, the various search steps can lead to associate with different keywords one subsequence or sub-sequences covering at least in part. On peut alors prévoir de calculer un score pour chaque sous-séquence et pour chacun de ces mots-clés, et de choisir l'association sous- séquence/mot-clé correspondant au score le plus faible. a score can then be provided to calculate for each subsequence and for each of these keywords, and choose the subsequence Association / keyword corresponding to the lowest score.

L'invention n'est en rien limitée par cette étape d'estimation d'un score. The invention is in no way limited by this step of estimating a score. On peut par exemple prévoir de conserver une détection seulement si la première unité sous-lexicale de cette détection vient immédiatement après une frontière de mot et si la dernière unité sous-lexicale de cette détection est immédiatement suivie par une frontière de mot. expected to maintain a detection only if the first sub-lexical unit may for example this detection comes immediately after a word boundary and if the last sub-token of this detection is immediately followed by a word boundary.

Avantageusement, pour chaque détection, le score est estimé à partir d'au moins une distance correspondant à cette détection. Advantageously, for each detection, the score is estimated from at least a distance corresponding to this detection. Ce paramètre de distance peut être obtenu à l'étape a/ de recherche et caractérise l'alignement entre la sous-séquence candidate et la suite d'unités sous- lexicales correspondant au mot-clé. This distance setting can be obtained in step a / Research and characterizes the alignment between the candidate subsequence and following sub-lexical units corresponding to the keyword. Ainsi, l'alignement est pris en compte pour décider de conserver ou de rejeter telle ou telle détection. Thus, the alignment is taken into account in deciding to keep or disallow detection.

Alternativement, le score peut ne pas tenir compte de l'alignement entre la détection et le mot-clé recherché. Alternatively, the score may not reflect the alignment between the detection and the search term. Avantageusement et de façon non limitative, le score est estimé à partir d'un nombre d'unités sous-lexicales obtenu par la soustraction du nombre d'unités sous-lexicales de la détection, au nombre d'unités lexicales comprises entre la frontière précédent immédiatement la détection et la frontière suivant immédiatement la détection. Advantageously and without limitation, the score is estimated from a number of sub-tokens obtained by subtracting the number of sub-lexical units detection, the number of tokens between the previous border immediately detecting and immediately following detection border. Si la première unité sous-lexicale de la détection vient immédiatement après une frontière de mot et la dernière unité sous-lexicale de cette détection est immédiatement suivie par une frontière de mot, ce nombre est nul. If the first sub-token detection comes immediately after a word boundary and the last sub-token of this detection is immediately followed by a word boundary, that number is zero. En revanche, si par exemple la détection fait partie d'un mot plus long, ce nombre peut avoir une valeur relativement élevée. However, if such detection is part of a longer word, this number may have a relatively high value. On prend ainsi en compte le fait que la détection coïncide plus ou moins bien avec un mot prononcé, dans le cas de frontières de mots. It thus takes into account the fact that the detection coincides more or less with a spoken word, in the case of word boundaries. Avantageusement et de façon non limitative, le score est estimé à partir d'un résultat d'une comparaison entre le nombre de frontières, par exemple des frontières de mots, à l'intérieur de la suite d'unités sous-lexicales recherchée et le nombre de frontières de la détection. Advantageously and without limitation, the score is estimated from a result of a comparison between the number of borders, such as word boundaries, within the following sub-lexical units sought and number of boundaries of the detection. Si ces nombres de frontières sont différents, la détection risque d'être rejetée. If these numbers are different borders, detection may be rejected. Par exemple, si la détection recouvre (au moins partiellement) plus d'un mot, alors que le mot-clé correspond à un seul mot, la détection risque d'être rejetée. For example, if the detection covers (at least partially) over a word, while the keyword corresponding to a word, detection may be rejected. La détection risque également d'être rejetée si la détection, correspondant par exemple au mot prononcé « jambon », recouvre un seul mot, alors que le mot-clé, par exemple « Jean Bon » correspond à deux mots. The detection also may be rejected if the detection, for example corresponding to the spoken word "ham" covers a single word, whereas the keyword, eg "John Bon" is two words. Il est rappelé que dans la présente description, le terme « mot » désigne à la fois un mot isolé et une locution. It is recalled that in the present description, the term "word" refers both to a single word and phrase.

Avantageusement et de façon non limitative, le score est estimé à partir du nombre d'unités sous-lexicales de la détection. Advantageously and without limitation, the score is estimated from the number of sub-word units of detection. En effet, plus ce nombre est faible, plus le risque de fausse alarme est élevé. Indeed, the higher the number, the lower the risk of false alarms is high. En revanche, si la détection est relativement longue, les résultats de la recherche ont de bonnes chances d'être corrects. However, if the detection is relatively long, the search results are likely to be correct.

On notera que l'invention n'est limitée par l'ordre des étapes que dans la mesure où cet ordre est nécessaire à la mise en œuvre du procédé. Note that the invention is not limited by the order of the steps to the extent that this order is necessary for the implementation of the process. Par exemple, l'étape b/ peut être effectuée avant l'étape a/. For example, step b / may be carried out before step a /. Selon un autre aspect, l'invention a pour objet un programme d'ordinateur, le programme d'ordinateur étant destiné à être stocké dans une mémoire d'un dispositif d'identification de mots-clés dans un signal de parole, et/ou stocké sur un support mémoire destiné à coopérer avec un lecteur de l'unité centrale de ce dispositif et/ou téléchargé via un réseau de télécommunication, caractérisé en ce qu'il comprend des instructions pour la mise en œuvre du procédé selon un aspect de l'invention, lorsque les instructions sont exécutées par un processeur de ce dispositif. According to another aspect, the invention relates to a computer program, the computer program being designed to be stored in a memory of a device for identifying keywords in a speech signal, and / or stored on a memory medium intended to cooperate with a CPU player of this device and / or downloaded via a telecommunication network, characterized in that it comprises instructions for the implementation of the method according to one aspect of the invention, when the instructions are executed by a processor of that device.

Selon encore un autre aspect, l'invention a pour objet un dispositif d'identification d'au moins un mot-clé dans un signal de parole, comprenant: According to yet another aspect, the invention relates to a device for identifying at least one keyword in a speech signal, comprising:

- des moyens de recherche automatique pour effectuer une recherche d'au moins une suite d'unités sous-lexicales respectivement obtenue par conversion du au moins un mot-clé, dans une séquence d'unités sous-lexicales obtenue par conversion du signal de parole, - Automatic search means for searching at least a sequence of sub-word units respectively obtained by converting at least one keyword, in a sequence of sub-word units obtained by converting the speech signal ,

- des moyens de détection pour détecter des marques de segmentation du signal de parole, - des moyens de traitement reliés aux moyens de détection et aux moyens de recherche automatique, pour valider ou infirmer les résultats de la recherche en utilisant les marques de segmentation obtenues des moyens de détection. - Detection means for detecting brand segmentation of the speech signal, - detection of processing means connected to the means and automatic search for ways to validate or invalidate the results of the search using the segmentation marks obtained for detection means.

Les moyens de recherche automatique, les moyens de détection et les moyens de traitement peuvent être intégrés dans une même puce électronique, par exemple un processeur, un microprocesseur, un DSP (de l'anglais « Digital Signal Processor ») ou autre. Auto search means, the detecting means and the processing means may be integrated in a same chip, for example a processor, a microprocessor, a DSP (standing for "Digital Signal Processor") or other.

Le dispositif peut en outre comporter tout autre moyen pour la mise en œuvre du procédé selon l'un des modes de réalisation de l'invention. The device may further comprise any other means for the implementation of the method according one of the embodiments of the invention. Le dispositif d'identification d'au moins un mot-clé dans un signal de parole peut comprendre un ordinateur, un terminal, un serveur éventuellement distant, une puce ou autre. The identification device of at least one keyword in a speech signal may include a computer terminal, possibly remote server, chip or other.

Le signal de parole peut par exemple être mémorisé sous différents supports, comme un CD (de l'anglais « Compact Disc ») ou autre. The speech signal can for example be stored on various media such as a CD (standing for "Compact Disc") or otherwise. L'invention trouve une application particulièrement avantageuse dans le domaine de la reconnaissance de parole spontanée, dans lequel l'utilisateur bénéficie d'une totale liberté de parole, mais n'est bien entendu pas limitée à ce domaine. The invention finds a particularly advantageous application in the field of recognition of spontaneous speech, in which the user enjoys full freedom of speech, but is of course not limited to this area. D'autres particularités et avantages de la présente invention apparaîtront dans la description détaillée ci-après, faite en référence aux dessins annexés sur lesquels : - La figure 1 montre un exemple de dispositif d'identification de mots-clés dans un signal de parole selon une réalisation de la présente invention. Other features and advantages of the present invention will become apparent in the detailed description below, with reference to the accompanying drawings in which: - Figure 1 shows an example of an identification device of keywords in a speech signal according to an embodiment of the present invention.

- La figure 2 montre un exemple d'architecture d'un dispositif d'identification de mots-clés selon un mode de réalisation de la présente invention. - Figure 2 shows an exemplary architecture of an identification device of keywords according to one embodiment of the present invention.

- La figure 3 est un organigramme d'un exemple de procédé de d'identification de mots-clés dans un signal de parole, mis en œuvre dans un dispositif selon le mode de réalisation de la figure 2. - Figure 3 is a flowchart of an exemplary method for identifying keywords in a speech signal, implemented in a device according to the embodiment of Figure 2.

- La figure 4 montre un exemple de portion de séquence d'unités sous-lexicales incluant une détection, selon un mode de réalisation de l'invention. - Figure 4 shows an example sequence portion of sub-lexical units including a detection, according to one embodiment of the invention.

- La figure 5 est un organigramme d'un exemple de procédé d'identification de mots-clés dans un signal de parole, selon un mode de réalisation de la présente invention. - Figure 5 is a flowchart of an exemplary method for identifying keywords in a speech signal, according to an embodiment of the present invention. - La figure 6 est un organigramme d'un exemple de procédé d'identification de mots-clés dans un signal de parole selon un autre mode réalisation de la présente invention. - Figure 6 is a flowchart of an exemplary method for identifying keywords in a speech signal according to another embodiment of the present invention.

Des références identiques désignent des objets identiques ou similaires d'une figure à l'autre. Identical references designate identical or similar objects from one figure to another. On se réfère tout d'abord à la figure 1 , sur laquelle un dispositif d'identification de mots-clés dans un signal de parole 1 comprend une unité centrale 2. Des moyens d'enregistrement d'un signal acoustique, par exemple un microphone 13, communiquent avec des moyens de traitement des signaux acoustiques, par exemple une carte son 7. La carte son 7 permet d'obtenir un signal présentant un format adapté pour un traitement par un microprocesseur 8. Un programme d'ordinateur d'identification de mots-clés dans un signal de parole peut être stocké dans une mémoire, par exemple un disque dur 6. Lors de l'exécution de ce programme d'ordinateur par le microprocesseur 8, le programme d'ordinateur ainsi que le signal représentatif du signal acoustique peuvent être momentanément stockés dans une mémoire vive 9 communiquant avec le microprocesseur 8. firstly refers to Figure 1, on which an identification device of keywords in a speech signal 1 comprises a central unit 2. Recording means of an acoustic signal, for example a microphone 13, communicate with the acoustic signal processing means, such as a sound card 7. The sound card 7 provides a signal having a format suitable for processing by a microprocessor 8. a computer program identification keywords in a speech signal can be stored in a memory, such as a hard disk 6. When executing this computer program by the microprocessor 8, the computer program and the signal representative of the signal sound may be temporarily stored in a RAM 9 communicating with the microprocessor 8.

Le programme d'ordinateur peut également être stocké sur un support mémoire, par exemple une disquette ou un CD-ROM, destiné à coopérer avec un lecteur, par exemple un lecteur de disquettes 10a ou un lecteur de CD-ROM 10b. The computer program can also be stored on a memory medium, such as a floppy disk or CD-ROM, intended to cooperate with a reader, such as a floppy disk 10a or a CD-ROM 10b.

Le programme d'ordinateur peut également être téléchargé via un réseau de télécommunication, par exemple Internet, représenté sur la figure 1 par la référence 12. Un modem 1 1 peut être utilisé à cet effet. The computer program can also be downloaded via a telecommunications network, for example Internet, represented in Figure 1 by reference numeral 12. A 1 modem 1 can be used for this purpose.

Le dispositif 1 peut également comprendre des périphériques. The device 1 may also include devices. On peut citer à titre d'exemple un écran 3, un clavier 4 et une souris 5. One can cite as an example a screen 3, a keyboard 4 and a mouse 5.

La figure 2 montre un exemple d'architecture d'un dispositif d'identification de mots-clés dans un signal de parole selon un mode de réalisation de l'invention. 2 shows an exemplary architecture of an identification device of keywords in a speech signal according to one embodiment of the invention.

Des premiers moyens de conversion 21 permettent de convertir un signal de parole S(t), dit également document, en une séquence d'unités sous- lexicales P, par exemple une séquence de phonèmes. 21 of the first conversion means can convert a speech signal S (t), also said document into a sequence of sub-lexical units P, for example a phoneme sequence. Les premiers moyens de conversion 21 peuvent comprendre des moyens de transcription LVCSR 22 ainsi que des moyens de phonétisation 23. The first 21 conversion means may include transcription LVCSR means 22 and means 23 of phonetics.

Les moyens de transcription LVCSR 22 sont agencés pour effectuer une transcription du signal de parole S(t) à l'aide d'un dictionnaire de par exemple 65000 entrées. Transcription LVCSR means 22 is arranged to perform a transcription of the speech signal S (t) using a dictionary for example 65000 entries. La transcription T du signal de parole S(t) comprend des mots W j correspondant au signal de parole S(t), et des indicateurs temporels t (0) j , t (1) j . T transcription of the speech signal S (t) includes the words W j corresponding to the speech signal S (t), and timing indicators t (0) j, t (1) j. Par exemple, les indicateurs temporels peuvent comprendre, pour chaque mot de la transcription, un instant de début et une durée, ou bien un instant de début t (0) j et un instant de fin t (1) j . For example, time indicators may include, for each word in the transcript, a start time and a duration, or a start time t (0) j and an end time t (1) j. La variable j sert à indicer les mots de la transcription T. Les moyens de phonétisation 23 permettent d'obtenir une séquence de phonèmes P à partir de la transcription T en sortie des moyens de transcription LVCSR 22. Chaque mot W j de la transcription T peut être phonétisé séparément, c'est-à-dire qu'aucun phonème de raccord n'est rajouté entre deux mots de la transcription T. On facilite ainsi la reconnaissance de mots-clés convertis en phonèmes parmi la séquence de phonèmes, dans la mesure où les mots-clés sont convertis de façon isolée, sans contexte particulier, par des deuxièmes moyens de conversion 24 décrits ci-dessous. Variable j subscript is used to the words of T. The phonetic transcription means 23 enable a sequence of phonemes P from the transcript T in output LVCSR transcription means 22. Each word W j transcription T can be phonetized separately, that is to say that no coupling phoneme is added between two words of transcription T. this facilitates recognition of keywords converted into phonemes from the phoneme sequence, in the since the keywords are translated in isolation, without particular context, by second conversion means 24 described below.

Chaque mot W j de la transcription T est phonétisé en ayant recours à la prononciation la plus probable de ce mot. Every word W j of T phonetized transcription is by using the most likely pronunciation of the word.

La séquence de phonèmes P comporte, outre les phonèmes eux- mêmes pi, des indicateurs temporels t,. The phonemes P sequence includes, besides the phonemes themselves pi, timing indicators t ,. Chaque phonème peut ainsi être localisé dans le temps. Each phoneme can thus be localized in time. Ces indicateurs temporels t, sont obtenus à partir de la transcription T. Cette transcription T comportant des indicateurs temporels t (0) j , t (1) j pour les mots seulement, on déduit les indicateurs temporels t, de séquence de phonèmes P par interpolation linéaire par exemple. These time t, indicators are obtained from the transcript T. This transcript T comprising timing indicators t (0) j, t (1) j for words only, we deduce the time indicators t, phoneme sequence P by linear interpolation, for example. On peut prendre en compte les périodes de silence si elles excèdent une certaine durée, par exemple 0,2 secondes. One can take into account periods of silence if they exceed a certain duration, eg 0.2 seconds.

La variable i sert à indicer les phonèmes de la séquence P. Les premiers moyens de conversion 21 permettent ainsi d'obtenir une transcription T et une séquence de phonèmes P à partir du signal de parole S(t). The variable i is used to subscript phonemes sequence P. 21 The first conversion means and enable a T transcription and a sequence of phonemes P from the speech signal S (t).

Les deuxièmes moyens de conversion 24 permettent de convertir les mots-clés W Q en suite W P de phonèmes pi. The second conversion means 24 can convert the keywords W Q W P suite of phonemes ft. La variable I sert à indicer les phonèmes de la suite W P . The variable I is used to be subscripted the phonemes of the sequence W P.

Dans un mode de réalisation alternatif et non représenté, les deuxièmes moyens de conversion peuvent être confondus avec les moyens de phonétisation. In an alternative embodiment, not shown, the second conversion means may be confused with the means phonetisation.

Des moyens de recherche automatique 25, par exemple un DSP, permettent d'effectuer une recherche de la suite W P dans la séquence de phonèmes P. La recherche peut être effectuée en tenant compte ou en ne tenant pas compte des variantes de prononciations. Automatic search means 25, for example a DSP, let you perform a search after P W in the sequence of phonemes P. Research can be done taking or not taking into account the pronunciation variants. Dans le premier cas, on peut se limiter aux prononciations les plus probables, dans la mesure où les moyens de phonétisation 23 ne prennent en compte que la prononciation la plus probable. In the first case, it can be limited to the most likely pronunciations, insofar as the means to phonetization 23 not take into account that the most likely pronunciation. Si un mot-clé est reconnu avec plusieurs prononciations possibles, dans une même sous-séquence de la séquence P, on ne conserve que la prononciation pour laquelle une mesure de distance caractérisant l'alignement est la plus faible. If a keyword is recognized with several possible pronunciations, in the same subsequence of the sequence P, it retains only the pronunciation to which a distance measurement characterizing the alignment is lowest.

La recherche peut être effectuée en faisant des alignements entre la suite Wp et la séquence P, chaque alignement étant caractérisé par une distance. The search can be performed by making the following alignments between Wp and the sequence P, each alignment being characterized by a distance.

La distance peut être estimée comme une somme des coûts d'opérations, comme la substitution, l'insertion, la suppression, à effectuer pour faire concorder une partie de la séquence P et la suite W P . The distance can be estimated as the sum of operating costs, such as substitution, insertion, deletion, to perform to match a portion of the sequence P and W P later. Ces coûts peuvent être tirés de matrices préprogrammées, mémorisées par exemple dans des tables LUT (de l'anglais « Look-Up Table »). These costs can be derived from preprogrammed matrices, for example stored in the LUTs (from the English "Look-Up Table").

La recherche effectuée par les moyens 25 peut être une recherche phonétique, de type connu de l'homme du métier. Research by the means 25 may be a phonetic search, of a type known to the art.

La recherche conduit à obtenir au moins une sous-séquence Ck de la séquence P. Les moyens de recherche 25 peuvent être configurés pour ne conserver que les sous-séquences Ck correspondant à une distance au- dessous d'un certain seuil THR1. The research led to at least get a Ck subsequence of the sequence P. The search means 25 can be configured to keep only the sub-sequences Ck corresponding to a distance below a certain threshold THR1. La variable k sert à indicer les sous- séquences obtenues par les moyens de recherche 25. The variable k used to subscript sub-sequences obtained by the search means 25.

Des moyens de détection 26 permettent de détecter des frontières de mots dans le signal de parole S(t). detection means 26 can detect word boundaries in the speech signal S (t). Dans cet exemple, les moyens de détection reçoivent la transcription T des moyens de transcription LVCSR 22, de sorte que la détection des indicateurs temporels de début t (0) j et de fin t (1 ) j de mot est triviale. In this example, the detection means receives the transcript T transcription LVCSR means 22 so that the detection timing indicators Start t (0) j and t end (1) word j is trivial.

Ces frontières de mots sont utilisées par des moyens de traitement 27 pour valider ou infirmer les résultats obtenus des moyens de recherche 25, comme détaillé plus loin. These word boundaries are used by the processing means 27 to confirm or refute the results of the search means 25, as detailed below. Seules les sous-séquences validées C * m sont conservées, la variable m servant à indicer ces sous-séquences conservées. Only sub-sequences validated C * m are retained, the variable m for subscript these conserved sub-sequences.

On notera que les différents moyens 21 , 24, 25, 26 et 27 peuvent être intégrés en un seul composant, par exemple un microprocesseur. It will be noted that the various means 21, 24, 25, 26 and 27 may be integrated into a single component, for example a microprocessor. La figure 3 représente un organigramme d'un exemple de procédé d'identification de mots-clés dans un signal de parole mis en œuvre dans un dispositif conforme au mode de réalisation de la figure 2. Dans ce mode de réalisation, la conversion du signal de parole en phonèmes est effectuée via une transcription en mots, cette transcription étant également utilisée pour la détection de frontières. 3 shows a flowchart of an exemplary method for identifying keywords in a speech signal implemented in a device according to the embodiment of FIG 2. In this embodiment, the conversion of the signal speech into phonemes is carried out via a transcript words, this transcript is also used for the detection boundaries.

Après une étape 30 de réception d'un signal de parole S(t), une transcription LVSCR est effectuée lors d'une étape 31 , puis la transcription T ainsi obtenue est phonétisée lors d'une étape 32. After a step 30 for receiving a speech signal S (t), a LVSCR transcription is performed at a step 31, then the transcript T is thus obtained phonetised during a step 32.

Pour un mot-clé W Q donné, après une étape 33 de réception de ce mot-clé, une étape de phonétisation 34 est mise en œuvre pour convertir le mot-clé en suite de phonèmes W P , ou requête. For a keyword W Q given after a stage 33 receiving this keyword, a phonetic stage 34 is implemented to convert the keyword in sequence of phonemes P W, or query.

Lors d'une étape 35 de recherche phonétique, des sous-séquences Ck (ou détections) de la séquence T sont identifiées comme relativement proches de la requête W P . In a step 35 of phonetic search, sub-sequences Ck (or detection) of the sequence T are identified as relatively close to the query W P. L'algorithme mis en œuvre attribue à chaque détection Ck une distance D k indicatrice de l'alignement entre cette détection Ck et la requête W P . The algorithm used assigns to each detection Ck a distance D k indicative of the alignment between this detection and Ck request W P. Cette distance D k est dite distance d'alignement. This distance D k is called alignment distance. Seules sont conservées les détections C k pour lesquelles la distance D k est en dessous d'un certain seuil THR1. Only are kept C k for which the detection distance D k is below a certain threshold THR1.

Une étape 36 de détection de frontières de mots permet de repérer les instants de début t (0) j et de fin t (1 ) j de chaque mot transcrit lors de l'étape de recherche LVSCR 31. Ces instants de début t (0) j et de fin t (1) constituent les frontières de mots détectées dans le signal de parole. A step 36 of detecting word boundaries can identify the start times t (0) j and T end (1) j of each word transcribed during the search step LVSCR 31. These start times t (0 ) j and t end (1) form the word boundaries detected in the speech signal.

Pour chaque détection Ck obtenue de la recherche phonétique, on teste si cette détection est cohérente avec des frontières de mots détectées dans le signal de parole. Each Ck obtained detection of phonetic search, it is tested whether this detection is consistent with word boundaries detected in the speech signal. Une boucle 37 est mise en œuvre pour parcourir les différentes détections Ck, avec des étapes classiques d'initialisation, de test et d'incrémentation. A loop 37 is implemented to move through the Ck detections, with classic initialization steps, test and increment.

Pour chaque détection Ck, on estime lors d'une étape 38 un nombre N b (k) d'unités sous-lexicales précédent la première unité sous-lexicale de la détection et situées entre les mêmes frontières que ladite première unité sous- lexicale. Ck for each detection, it is estimated during a step 38 a number N b (k) of sub-lexical units preceding the first sub-token detection and located between the same boundaries as said first sub-lexical unit.

Pour mieux comprendre ce qu'on entend par ce nombre N b (k) , on peut se reporter par exemple à la portion de séquence de phonèmes de la figure 4. Sur cette figure, une seule sous-séquence candidate 49 est représentée, et le nombre N b (k) est dit N b pour plus de simplicité. To better understand what is meant by this number N b (k), reference may be made for example to the phoneme sequence portion of Figure 4. In this figure, only one candidate subsequence 49 is represented, and the number N b (k) is said to b N for simplicity.

La portion de la figure 4 correspond à la transcription d'un signal de parole correspondant au texte « grandir ensemble ». The portion of Figure 4 corresponds to the transcript of a speech signal corresponding to the text "grow together". Les phonèmes sont référencés 48. On a superposé à cette portion de séquence de phonèmes les frontières de mots détectées, représentées par des doubles barres verticales. Phonemes are referenced 48. It was superimposed on the phoneme sequence portion of the detected word boundaries, represented by double vertical bars.

Pour un mot-clé « Iran », l'étape de recherche phonétique conduit à sélectionner la sous-séquence encadrée 49. For keyword "Iran", the phonetic search step leads to select the framed subsequence 49.

Le nombre N b correspond au nombre de phonèmes entre la frontière de mot précédent la détection 49 et le premier phonème « I » de la détection 49, soit N b = 4. The number N b is the number of phonemes between the previous word boundary detection 49 and the first phoneme "I" of the detection 49, be N b = 4.

Egalement, lors de cette étape 38, on estime un nombre N a (k) d'unités sous-lexicales suivant la dernière unité sous-lexicale de la sous- séquence candidate 49 et situées entre les mêmes frontières que cette dernière unité sous-lexicale. Also, during this step 38, a number N is estimated a (k) of sub-word units of the last sub-lexical unit of the sub-candidate sequence 49 and located between the same boundaries as the latter sub-token . Ce nombre, dit N a sur la figure 4, correspond au nombre de phonèmes entre le dernier phonème « AN » de la détection et la frontière de mot suivant la détection, soit N a = 4. This number, said N a in Figure 4, corresponds to the number of phonemes from the last phoneme "AN" detection and the next word boundary detection, let N a = 4.

Le résultat de la soustraction du nombre d'unités sous-lexicales de la détection au nombre d'unités sous-lexicales entre la frontière précédent immédiatement la détection 49 et la frontière suivant immédiatement la détection 49, est donc N a , b = N a + N b = 8. Cette somme indique dans quelle mesure la détection correspond à une partie seulement d'un ou plusieurs mot(s) plus grand(s). The result of subtracting the number of sub-word units of the detection to the number of sub-word units between the immediately previous detection 49 border and the border immediately following detection 49, is thus N a, N b = a N + b = 8. This sum indicates how the detection corresponds to a part of one or more word (s) largest (s).

En outre, lors de cette étape 38, on estime un nombre N s d de frontières de mots à l'intérieur de la détection 49, soit ici N s d =1 , car la détection 49 recouvre en partie deux mots. In addition, in this step 38, it is estimated a number N s of word boundaries within the detection 49, is here of N s = 1, because the detection part 49 covers in two words. On estime également nombre N s q de frontières de mots à l'intérieur de la suite de phonèmes recherchée « IR AN », dite requête. It is also estimated number N s q of word boundaries within the sequence of phonemes desired "IR AN" query itself. Soit N s q =0, car la requête correspond à un seul mot « Iran ». Let N s q = 0 because the query matches a single word "Iran". On calcule une différence entre ces deux derniers nombres : Calculating a difference between these two numbers:

N = N d - N q Dans l'exemple de la figure 4, on a donc N s =1. N = N d - N q In the example of Figure 4, so there are N s = 1. Cette différence est dite N s (k) dans le cadre de la boucle 37 de la figure 3. This difference is called N s (k) as part of the loop 37 of Figure 3.

Enfin, lors de l'étape 38, on mémorise un nombre L (k) d'unités sous- lexicales de la détection, soit dans l'exemple de la figure 4, L=3. Finally, in step 38, is stored a number L (k) of sub-lexical units of detection, ie in the example of FIG 4, L = 3. En effet, une détection relativement courte risque davantage de correspondre à une fausse alerte qu'une détection relativement longue. Indeed, a relatively short detection is more likely to correspond to a false alarm that a relatively long detection. Par exemple, la distance caractérisant l'alignement entre une requête relativement courte et une portion d'un mot plus long peut être relativement faible. For example, the distance characterizing the alignment between a relatively short application and a portion of a longer word can be relatively small. Une détection relativement courte peut aussi empiéter sur deux mots, comme dans l'exemple de la figure 4. Aussi ce nombre L (k) , ou L dans le contexte de la figure 4, est-il pris en considération. A relatively short detection may also encroach on two words, as in the example of Figure 4. As this number L (k), or L in the context of Figure 4, is it considered.

Les nombres N a (k) , N b (k) , N s (k) , L (k) sont ainsi estimés à partir des résultats de la recherche (la détection, référencée 49 sur la figure 4, C k sur la figure 2) et à partir des résultats de la détection de frontières (les frontières de mots, représentées sur la figure 4 par des doubles barres verticales). The numbers N a (k), N b (k), N s (k), L (k) are thus estimated from the search results (detection, referenced 49 in figure 4, C k in Figure 2) and from the results of the detection boundaries (word boundaries, represented in Figure 4 by double vertical bars). Ces nombres N a (k) , N b (k) , N s (k) , L (k) permettent ainsi de décrire la configuration textuelle de la détection Ck. These numbers N a (k), N b (k), N s (k), L (k) and can describe the textual configuration Ck detection.

L'étape 38 d'estimation des paramètres N a (k) , N b (k) , N s (k) et L (k) est suivie d'une étape 39 de calcul d'un score D' k , suivant la formule : c3 + N w + Ni k) + N w The step 38 for estimating parameters N a (k), N b (k), N s (k) and L (k) is followed by a step 39 of calculating a score D 'k, according to formula: c3 + Ni + N w k) + N w

D\ = cl*D k + c2- r(k) Où d , c2 et c3 désignent des constantes positives ou nulles. D \ D = cl * k + 2- r (k) where d, c2 and c3 denote positive or zero constants. Le triplet {d , c2, c3} peut être optimisé de façon à obtenir une mesure de performance la plus élevée possible. The triplet {d, c2, c3} can be optimized so as to obtain a measure of the best possible performance.

Pour une détection relativement longue, le nombre L (k) risque d'être relativement élevé, de sorte que le poids de la somme c3 + N a (k) + Nl k) +N^ k) est relativement faible. For a relatively long detection, the number L (k) may be relatively high, so that the weight of the sum c3 + N a (k) + Nl k) + N ^ k) is relatively low. En effet, la recherche phonétique (étape 35) fournit en général des résultats relativement corrects pour les détections relativement longues, et les frontières de mots peuvent être moins prises en considération dans ce cas. Indeed, the phonetic search (step 35) usually provides relatively accurate results for relatively long detections, and word boundaries may be less considered in this case. Ainsi, pour un mot-clé relativement court, comme « Iran », une détection du type de la détection 49 sur la figure 4 correspondra à un score D' k relativement élevé. Thus, for a relatively short keyword, such as "Iran", a type detection detection 49 in Figure 4 correspond to a score D 'k relatively high. Une étape de test 40 au cours de laquelle on compare le score D' k à un deuxième seuil permet ainsi de rejeter les détections pour lesquelles le score correspondant est trop élevé. A test step 40 during which we compare the score D 'k a second threshold and to reject detections where the corresponding score is too high. Seules les détections C * m correspondant à des scores D' k suffisamment faibles sont conservées (étape 41 ). Only detections C * m corresponding to scores OF k low enough are retained (step 41).

La figure 5 montre un exemple de mode de réalisation dans lequel une recherche phonétique améliorée, comme par exemple la recherche décrite en référence aux figures 2 et 3, est combinée à une recherche textuelle. Figure 5 shows an example of embodiment in which improved phonetic search, such as the research described with reference to Figures 2 and 3, is combined with a text search.

Dans l'exemple de la figure 5, une étape 50 de réception d'un mot- clé à rechercher est suivie d'une étape 51 de test pour déterminer si ce mot- clé appartient à un dictionnaire fixé. In the example of Figure 5, a step 50 for receiving a keyword to search is followed by a step 51 of testing whether this key word belongs to a fixed dictionary.

Si ce mot-clé appartient effectivement au dictionnaire, on procède à une recherche textuelle (étape 52), en recourant à un procédé connu de l'art antérieur, et en utilisant ce dictionnaire. If this keyword actually belongs to the dictionary, is performed a text search (step 52), using a method known in the prior art, and use the dictionary.

Dans le cas contraire, on procède à une recherche phonétique améliorée (étape 53), en recourant par exemple au procédé du mode de réalisation décrit en référence aux figures 2 et 3. Un mot-clé donné est ainsi recherché selon l'un ou l'autre d'une recherche textuelle et d'une recherche phonétique améliorée. Otherwise, we proceed to an improved phonetic search (step 53), for example by using the method of the embodiment described with reference to Figures 2 and 3. A given keyword is searched as well as one or the other of a text search and improved phonetic search. Les résultats de ces deux recherches sont recueillis (étape 54). The results of these two studies is collected (step 54).

La figure 6 est un algorithme correspondant à un autre mode de réalisation, dans lequel une recherche textuelle classique est combinée à une recherche phonétique améliorée. 6 is an algorithm corresponding to another embodiment, in which a conventional text search combined with improved phonetic search.

Dans cet exemple, après une étape 60 de réception d'un mot-clé, une étape de recherche textuelle 61 est effectuée. In this example, after step 60 of receiving a keyword, a text search step 61 is performed. Suit une étape de test 62 : si la recherche textuelle a conduit à ne sélectionner aucune détection, alors on procède à une recherche phonétique améliorée (étape 63). Following a test step 62: if the text search led to detection select no, then we proceed to improved phonetic search (step 63).

On recueille lors d'une étape 64 les résultats de la recherche textuelle de l'étape 61 et/ou les résultats de la recherche phonétique améliorée de l'étape 63. It collects in a step 64 the results of the text search step 61 and / or the results of the improved phonetic search step 63.

Les tableaux 1 et 2 ci-dessous montrent les résultats d'un exemple d'application de l'invention. Tables 1 and 2 below show the results of an application example of the invention. Les expérimentations portent sur la recherche de deux listes de mots-clés. The experiments focus on the research of two lists of keywords. La première liste est composée de tous les noms propres prononcés dans le signal de parole. The first list consists of all proper names pronounced in the speech signal. La deuxième liste est composée de noms propres non prononcés dans le signal de parole. The second list consists of unspoken own names in the speech signal.

Le signal de parole provient de huit journaux télévisés français, diffusés en 2002 et 2003, et a une durée de 2h30 environ. The speech signal comes from eight French television news broadcast in 2002 and 2003 and has a duration of about 2:30.

Le "rappel" est le rapport du nombre de détections correctes sur le nombre de détections à effectuer. The "recall" is the ratio of the number of correct detections on the number of detections to perform. La "précision" est le rapport du nombre de détections correctes sur le nombre de détections effectuées. "Accuracy" is the ratio of the number of correct detections performed on the number of detections. La mesure F max est une moyenne harmonique de la précision et du rappel. Measurement F max is a harmonic mean of precision and recall. Cette mesure de performance F max peut servir de critère d'optimisation du triplet {d , c2, c3} dans le mode de réalisation de la figure 3. This performance measure F max can be used as the optimization criterion of the triplet {d, c2, c3} in the embodiment of Figure 3.

Les termes « recherche textuelle » et « recherche phonétique classique » désignent respectivement une recherche textuelle classique et une recherche phonétique classique, telle que décrites plus haut en référence à l'art antérieur. The terms "text search" and "conventional phonetic search" mean respectively a classical text search and a conventional phonetic search, as described above with reference to the prior art. Le terme « recherche phonétique améliorée » désigne une recherche selon le mode de réalisation des figures 2 et 3. Lorsque le critère de combinaison est le dictionnaire du LVCSR, le procédé mis en œuvre est du type du procédé décrit en référence à la figure 5. Lorsque le critère de combinaison est le résultat de la recherche textuelle, le procédé mis en œuvre est du type du procédé décrit en référence à la figure 6. The term "improved phonetic search" means a search according to the embodiment of Figures 2 and 3. When the combination criterion is the dictionary LVCSR, the method used is the method of the type described with reference to Figure 5. when the combination criterion is the result of textual research, the method used is the process of type described with reference to Figure 6.

La recherche des mots-clés de la première liste permet d'évaluer les performances du procédé selon un aspect de l'invention, en termes de rappel et de précision. Search keywords in the first list evaluates the performance of the method according to an aspect of the invention, in terms of recall and precision. La recherche des mots-clés des première et deuxième listes conjointement permet de tester plus spécifiquement la robustesse du procédé, dans la mesure où la recherche de mots de la deuxième liste tend à diminuer la précision sans modifier le rappel. Search keywords first and second lists together specifically allows testing the robustness of the process, insofar as the search words on the second list tends to decrease the accuracy without changing the recall.

Le tableau 1 ci-dessous montre les résultats de la recherche des mots-clés de la première liste. Table 1 below shows the results of search keywords on the first list.

Figure imgf000019_0001

Tableau 1 Table 1

Le tableau 2 ci-dessous montre les résultats de la recherche des mots-clés de l'union des première et deuxième listes. Table 2 below shows the results of the search keywords of the union of the first and second lists.

Figure imgf000020_0001

Tableau 2 Table 2

Ces résultats montrent la capacité de la recherche phonétique améliorée à éliminer une bonne partie des fausses alarmes. These results show the phonetic research capacity improved to eliminate a lot of false alarms. Même dans le cas où seulement une recherche phonétique est effectuée, le rappel est bien entendu augmenté par rapport à la recherche textuelle, du fait de la prise en compte de mots-clés OOV, mais la précision est aussi améliorée par rapport à la recherche phonétique classique, pour atteindre un niveau comparable à celui de la recherche textuelle. Even if only a phonetic search is performed, the reminder is of course increased compared to textual research, due to the inclusion of keywords OOV, but accuracy is also improved compared with the phonetic search classic, to a level comparable to that of the text search.

Dans le cas de combinaison de deux types de recherches, ce gain en précision est d'autant plus marqué, car la recherche de mots-clés relativement courts, c'est à dire risquant de générer de fausses alarmes, est souvent prise en charge par la recherche textuelle. In the case of combination of two types of research, this increase in precision is even more pronounced, because the relatively short search keywords, ie risk of generating false alarms is often supported by text search. Des deux modes de réalisation envisagés pour combiner les recherches, c'est le mode de réalisation utilisant comme critère de combinaison le résultat de la recherche textuelle qui permet d'obtenir les meilleurs résultats. Two embodiments contemplated to combine the research is the embodiment using such combination criterion the result of textual research that provides the best results. En effet, ce mode de réalisation permet, en plus de la gestion des mots-clés OOV, une certaine correction des erreurs de transcription faites par le procédé LVCSR, en ayant recours à la recherche phonétique. Indeed, this embodiment provides, in addition to managing keywords OOV, some correction of clerical errors made by the LVCSR process, using the phonetic search.

Patentzitate
Zitiertes PatentEingetragen Veröffentlichungsdatum Antragsteller Titel
EP0800158A1 *1. Apr. 19968. Okt. 1997Hewlett-Packard CompanyWord spotting
US5794194 *3. Febr. 199711. Aug. 1998Kabushiki Kaisha ToshibaWord spotting in a variable noise level environment
Nichtpatentzitate
Referenz
1 *THAMBIRATNAM K ET AL: "Dynamic Match Phone-Lattice Searches For Very Fast And Accurate Unrestricted Vocabulary Keyword Spotting" ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2005. PROCEEDINGS. (ICASSP ' 05). IEEE INTERNATIONAL CONFERENCE ON PHILADELPHIA, PENNSYLVANIA, USA MARCH 18-23, 2005, PISCATAWAY, NJ, USA,IEEE, vol. 1, 18 mars 2005 (2005-03-18), pages 465-468, XP010792075 ISBN: 978-0-7803-8874-1
Klassifizierungen
Internationale KlassifikationG10L15/00, G10L15/08
UnternehmensklassifikationG10L15/08, G10L2015/088
Europäische KlassifikationG10L15/08
Juristische Ereignisse
DatumCodeEreignisBeschreibung
14. Okt. 2009121Ep: the epo has been informed by wipo that ep was designated in this application
Ref document number: 09710069
Country of ref document: EP
Kind code of ref document: A1
10. Aug. 2010NENPNon-entry into the national phase in:
Ref country code: DE
23. März 2011122Ep: pct app. not ent. europ. phase
Ref document number: 09710069
Country of ref document: EP
Kind code of ref document: A1