WO2005059771A1 - 対訳判断装置、方法及びプログラム - Google Patents

対訳判断装置、方法及びプログラム Download PDF

Info

Publication number
WO2005059771A1
WO2005059771A1 PCT/JP2004/015263 JP2004015263W WO2005059771A1 WO 2005059771 A1 WO2005059771 A1 WO 2005059771A1 JP 2004015263 W JP2004015263 W JP 2004015263W WO 2005059771 A1 WO2005059771 A1 WO 2005059771A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
translation
natural
words
word
Prior art date
Application number
PCT/JP2004/015263
Other languages
English (en)
French (fr)
Inventor
Yoko Jacobson
Original Assignee
Laboratory For Language Technology Incorporated
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Laboratory For Language Technology Incorporated filed Critical Laboratory For Language Technology Incorporated
Priority to CA002549769A priority Critical patent/CA2549769A1/en
Priority to US10/582,932 priority patent/US20070112553A1/en
Priority to EP04792480A priority patent/EP1703419A1/en
Publication of WO2005059771A1 publication Critical patent/WO2005059771A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Definitions

  • the present invention relates to a bilingual translation judging device, a method, and a program, and more particularly, to a bilingual judging device for judging at least a translation target phrase in an original sentence of a source language, and a bilingual judging applicable to the bilingual judging device.
  • the present invention relates to a method and a program for causing a computer to function as the translation judging device.
  • a so-called machine that uses a computer to translate a sentence (original text) written in one natural language (source language) into a text (translation sentence) written in another natural language (target language).
  • source language natural language
  • translation sentence text written in another natural language
  • Patent Document 1 a set of expression forms represented by collocations is stored in an English-Japanese collocation dictionary prepared in an HD device, and in a syntactic analysis process, words combined by coordination conjunctions are used.
  • the composed expression form is searched in the English text and the searched expression form is stored in the English-Japanese collocation dictionary, or when the words constituting the searched expression form have the same prefix or suffix.
  • Patent Document 2 a feature table in which the meaning and the feature are associated with each polysemy is stored in advance, and a feature record is generated for the input original language of the first language, and the generated feature table is generated.
  • a technology that compares a record with a feature table and selects and outputs the meaning of a polysemy based on the features of the original sentence.
  • Patent Document 1 JP-A-11-328178
  • Patent Document 2 JP-A-6-314294
  • the work of translating an original sentence written in a source language into a translated sentence written in a target language is generally performed.
  • words in the source language written in the source language are converted to words in the target language, and the converted words are rearranged according to the grammar rules of the target language. It goes through a translation process.
  • This translation process is also used in machine translation, which translates using a computer.Registration is registered in the dictionary in units of words, and the original literacy is also extracted in order, and the translation of the extracted words is searched.
  • the original sentence is replaced by a word-by-word translation, and the part of speech of each word in the original sentence is determined and the syntax is analyzed. It is common to obtain translations (translations) by rearranging the translations.
  • the present invention has been made in view of the above fact, and it is highly possible that a natural bilingual sentence can be obtained as a target language sentence from a source language original sentence. It is an object of the present invention to obtain a translation judging device, a translation judging method and a program capable of obtaining a proper translation.
  • a bilingual determination device includes a storage unit configured to store a plurality of natural sentences of a source language including a plurality of words in association with a bilingual sentence of a target language, Search means for searching a plurality of natural sentences of the source language stored in the storage means for a natural sentence including a translation target phrase in the original language of the source language, and extracting by a search by the search means The degree of coincidence between the obtained natural sentence and the original sentence is obtained, and based on the obtained degree of coincidence, at least the translation target phrase in the translated sentence of the natural sentence selected is converted into at least the translation target phrase in the original sentence And first translation judging means for judging that the translation is a translation.
  • a plurality of natural sentences in the source language composed of a plurality of words are stored in the storage unit in association with the translated sentences in the target language.
  • the natural sentence according to the present invention is a sentence, a phrase, a collocation, a fixed expression, a collocation, etc., which is not edited and processed such as division in words or extraction of polysemous words, such as a dictionary in conventional machine translation.
  • a translation corresponding to a natural sentence may be used as a natural language sentence.
  • words and their translations are also used. It may be stored in the storage means.
  • the source sentence of the source language (any one of a sentence, a phrase, a collocation, a fixed expression, and a collocation) may be used.
  • the natural sentence including the translation target phrase in (i) is searched by the search means.
  • the word to be translated is a word to be translated in the original text, and may be a word or may be composed of a plurality of words.
  • the translation judging device according to the present invention is used as an electronic dictionary when a human (translator) translates, the translation target phrase is specified by the translator.
  • the translation target phrase performs machine translation using the bilingual determined by the bilingual determination device according to the present invention.
  • the bilingual determination device Specified by machine translation equipment or automatic translation equipment.
  • the user may be allowed to specify the original sentence that contains the translation target phrase, or it will be automatically determined (for example, the sentence or phrase containing the translation target phrase is automatically identified as the original sentence). Judgment, etc.). Since the search means searches for a natural sentence that includes the phrase to be translated, this search extracts a natural sentence that includes the translation of the word to be translated in the corresponding bilingual sentence. .
  • the first bilingual judging means obtains a degree of coincidence between the natural sentence extracted by the retrieval means and the original sentence, and selects based on the obtained degree of coincidence. At least the translation of the target phrase in the translated sentence of the natural sentence is determined to be a translation of at least the target phrase in the original sentence.
  • the natural sentences for example, natural sentences having the same meaning using polysemous words existing in the original sentence
  • the natural sentences are close to the original sentence, and have a high probability and a high probability. Is selected as a natural sentence, and a natural bilingual sentence corresponding to the selected natural sentence is obtained.
  • At least a bilingual translation of the translation target phrase in the bilingual sentence is a translation of the translation target phrase in the original sentence.
  • a bilingual translation of a phrase other than the translation target phrase in the bilingual translation may be determined to be a bilingual translation of the phrase in the original text, needless to say, ).
  • the invention described in claim 1 converts a natural sentence in the original language into a bilingual sentence in the target language.
  • a natural sentence in the original language are stored in memory, and stored in the source sentence.
  • a high natural sentence is selected, and a translation in a natural bilingual sentence corresponding to the selected natural sentence is determined to be at least a translation of the target phrase in the original sentence.
  • the invention described in claim 1 can be realized by storing a natural sentence and a bilingual sentence in the storage means. Therefore, at least when the natural sentence and the bilingual sentence are stored in the storage means, the natural sentence is stored in word units. This eliminates the need to perform complicated editing and processing such as dividing by, extracting ambiguous words, listing all possible translations of ambiguous words and associating them. Further, in the invention described in claim 1, it is possible to obtain a match between the natural sentence extracted by the search means and the original sentence, and select a natural sentence based on the obtained matching degree to obtain an appropriate translation. Therefore, there is no need to perform complicated processing such as part-of-speech determination and syntax analysis in conventional machine translation, and the processing can be simplified.
  • the retrieval unit matches the original sentence completely from a plurality of natural sentences of the source language stored in the storage unit.
  • the first bilingual judging means searches the bilingual sentence of the perfectly matched natural sentence with the translated sentence of the original sentence. It is preferable to make a judgment. Thereby, when a natural sentence that completely matches the original sentence is stored in the storage means, a bilingual sentence of the original sentence can be obtained.
  • the matching degree between the natural sentence extracted by the search and the original sentence can be obtained, for example, as follows. That is, in the invention of claim 3, in the invention of claim 1, the first translation judging means counts and counts the number of matching words between the natural sentence extracted by the search means and the original sentence. The feature is to evaluate the degree of coincidence with the original text so that the degree of coincidence with the original text increases as the number of matching words increases. The number of matching words is an important index indicating the degree of matching between the natural sentence and the original sentence. By evaluating the matching degree so that the matching degree increases as the number of matching words increases, the A natural sentence close to the original sentence can be selected with high accuracy based on the criticality.
  • the degree of coincidence for example, the counted number of matching words can be used as it is. It is preferable to obtain a value obtained by dividing the number of words by the number of words constituting the translation target phrase, and use the obtained value as the degree of coincidence.
  • the matching score according to the present invention is a value obtained by normalizing the number of matching words based on the number of words forming the translation target phrase. Therefore, by using this matching score, the word forming the translation target phrase is obtained. Regardless of the number, natural sentences close to the original can be selected with higher accuracy.
  • the matching word is a word constituting the translation target phrase or another word, and the number of matching words of the words constituting the translation target phrase and the matching of the other words are determined.
  • a value obtained by multiplying the number of words by a different weight (a weight set so that the words constituting the translation target phrase have a higher weight) (evaluation value of the number of matching words) may be used as the number of matching words. ! ⁇ .
  • the first bilingual judging means also counts the number of mismatched words between the natural sentence extracted by the search means and the original sentence, as described in claim 5. Then, the degree of coincidence with the original sentence may be evaluated so that the degree of coincidence with the original sentence increases as the counted number of unmatched words decreases.
  • the number of unmatched words is also an important index indicating the degree of matching between the natural sentence and the original sentence, along with the number of matched words, and the number of unmatched words is small using the above-mentioned unmatched words in addition to the number of matched words described in claim 3.
  • a natural sentence is stored in the storage means. Therefore, in the invention of claim 3, for example, "a”, “the”, “to”, “in” or the like in English sentence. If words that appear frequently in the natural language of the source language are determined to be matching words, the source text that contains many of these frequently occurring words will not be close to the original text due to the effects of the frequent words. A sentence may be incorrectly selected as a natural sentence with a high degree of coincidence.
  • the first parallel translation judging means excludes a predetermined frequently occurring word from the counting target power when counting the number of matching words, for example, as described in claim 6. This eliminates the effects of frequent words on the number of matching words, and determines the number of matching words to determine the degree of matching between the natural sentence and the original sentence. It can be used as an index that reflects more accurately.
  • the first parallel translation judging means uses single or plural or tense in counting the number of matching words or mismatching words. It is preferable to count words whose endings are different due to the difference as matching words. For words whose endings are different due to single or tense differences, for example, the words are registered separately in a table, and words whose only endings do not match are registered in the table. It can be recognized by judging or not. As a result, it is possible to exclude the influence of words having different endings due to single or plural differences in tense, which should be regarded as matching words, on the number of matching words and the number of non-matching words.
  • the number and the number of unmatched words can be used as an index that more accurately reflects the degree of matching between the natural sentence and the original sentence.
  • differences between uppercase and lowercase letters of words in English sentences and the like are regarded as a match word.
  • the first bilingual judging means duplicates a matching word appearing a plurality of times when counting the number of matching words as described in claim 8, for example. It is preferable not to count. As a result, it is possible to exclude the influence of the matching word appearing a plurality of times on the number of matching words, and to use the number of matching words as an index that more accurately reflects the degree of matching between the natural sentence and the original sentence. Further, instead of not performing the duplicate counting as described above, the matching word appearing multiple times may not be counted n or more (n ⁇ 2) predetermined times.
  • the first bilingual judging means compares the natural sentence extracted by the search by the search means with the original sentence. It is preferable to evaluate the degree of similarity in the order of words and evaluate the degree of coincidence with the original text so that the higher the degree of similarity in the order of words, the higher the degree of coincidence with the original.
  • the degree of similarity in the order of words may differ depending on the arrangement order.
  • the similarity of the word arrangement order is evaluated, and the similarity of the word arrangement order is determined.
  • the first bilingual judging means includes, for example, a natural sentence extracted by a search by the search means as described in claim 10. Then, the number of unmatched words existing between the matched words with the original sentence is counted, and the matching with the original sentence becomes higher as the number of unmatched words existing between the counted matched words becomes higher. It is preferable to evaluate the degree. As a result, the accuracy of the matching score is improved, and a natural sentence close to the original sentence can be selected with high accuracy based on the matching score.
  • a recognizing means for recognizing a frequently appearing phrase which appears frequently in the same sentence in the source language as the translation target phrase is further provided, and the first bilingual judging means includes a natural language sentence extracted by the searching means.
  • the specific frequent words recognized by the recognition means and present in the original sentence and the bilingual sentence of the natural sentence that contains the words to be translated the words to be translated and the specific frequent words are included. It is preferable to recognize a high-frequency bilingual translation of a phrase to be translated in a natural-language bilingual sentence, and determine the recognized high-frequency bilingual translation as a bilingual translation of the translated phrase in the original text.
  • the frequency of occurrence (correlation) between a word to be translated and the same language in the source language is high. If a specific frequently-occurring word exists in the original text, the translation of the word to be translated is It is highly likely that the phrase and the specific frequent phrase are included, respectively, and correspond to the translation of the translation target phrase in the natural sentence. However, although it is highly likely that the appropriate translation of the translation target phrase in the natural language sentence that contains the translation target phrase and the specific frequently occurring phrase is the same, the above natural sentence stored in the storage means is high. It is possible that some of the natural sentences in which the appropriate translation of the target phrase is different.
  • the invention according to claim 11 recognizes a frequent phrase having a high correlation with the phrase to be translated, and, among the recognized frequent phrases, a specific frequent phrase existing in the original text and the phrase to be translated are each
  • a high-frequency bilingual translation is recognized for the translation target phrase in the natural sentence bilingual sentence that includes each of the translation target phrase and a specific frequently appearing phrase. Recognized high-frequency translations are interpreted as the translations of the words to be translated in the original text.
  • the above frequently-recognized phrases can be recognized by, for example, registering the phrases frequently occurring in the same sentence of the source language in a table and referring to the table.
  • the trouble of creating the table can be omitted and the table can be saved.
  • An effect is also obtained that the storage capacity required for storing can be reduced.
  • the target word phrase which is present in the original sentence and not included in the natural sentence extracted by the search by the search means can be substituted.
  • Judgment means for judging an alternative word is further provided, and the first bilingual judging means includes, among natural sentences extracted by the search by the search means, the alternative word and the translation target word judged by the judgment means, respectively. It is preferable to determine at least the translation of the translation target phrase in the natural language bilingual translation as at least the translation target phrase in the original text.
  • a natural sentence in which a specific word in the original sentence is replaced by another word may be extracted by the search by the search means.
  • the meaning of the original sentence and the natural sentence If the meanings are similar, it is considered that one word and another word are interchangeable.
  • a specific phrase can be substituted for the original sentence. If there is a natural sentence that has been replaced with another word (alternative phrase) that has a similar relationship, this natural sentence is likely to be similar in meaning to the original sentence, so this natural sentence is selected. It is desirable.
  • an alternative word that can be substituted for the word of interest! / ⁇ that is present in the original sentence and included in the natural sentence extracted by the search by the search means is used. Judgment is made by the judgment means, and the first bilingual judging means is a bilingual sentence of the natural sentence extracted from the natural sentence extracted by the search means and containing the alternative word and the translation target word judged by the judgment means.
  • the determination of the substitute words by the determining means according to the twelfth aspect of the present invention is performed, for example, by registering words having a replaceable relationship in a table and referring to this table.
  • a natural sentence including the target word is searched from a plurality of natural sentences stored in the storage means, and the natural sentence extracted by the search is searched for.
  • a natural sentence having the same syntax is stored in the storage means, and a search is performed from among the natural sentences, and the natural sentence extracted by the search is replaced with the word of interest! / Puru is determined as an alternative word. You may do so. Also in this case, the time and effort for creating the table can be omitted, and the storage capacity required for storing the table can be reduced.
  • the bilingual determination device as set forth in claim 14 is characterized by that A storage unit for storing a plurality of sentences in association with a bilingual sentence of the target language; and a plurality of natural sentences of the source language stored in the storage unit, the words to be translated in the original sentence of the source language are included.
  • a high-frequency bilingual translation of the translation-target phrase in the natural-language bilingual sentence including each of the translation target phrase and the specific frequent phrase is recognized, and the recognized high-frequency translation is translated.
  • a second translation determining means for determining at least translation of the translated phrase in the serial textual is configured to include a.
  • the same storage means and search means as those of the first aspect are provided, and the recognizing means performs translation based on a natural sentence extracted by the search by the search means. Recognize frequently occurring words and phrases that appear frequently in the same sentence of the target word and the source language, and the second bilingual judging means recognizes the natural sentence extracted by the search By translating a natural sentence that contains a phrase to be translated and a specific frequently appearing phrase by referring to a specific frequently occurring phrase and a bilingual sentence of a natural sentence that contains each of the words to be translated. A high-frequency bilingual translation is recognized for the target phrase, and the recognized high-frequency bilingual translation is determined as a bilingual translation of the target phrase in the original text.
  • the phrase to be translated may include a plurality of words, but when the number of words constituting the phrase to be translated increases, the search means However, there is a possibility that a natural sentence that contains all the words to be translated is not extracted even if a search is performed. Considering this, for example, as described in claim 15, When the phrase to be translated is composed of a plurality of words, the search means includes at least one of the plurality of words constituting the phrase to be translated from among the plurality of natural sentences of the source language stored in the storage means.
  • a natural sentence that has been included that is, search for a natural sentence that includes all the words to be translated and a part of the natural sentence and a part of the word to be translated!.
  • search for a natural sentence that includes all the words to be translated and a part of the natural sentence and a part of the word to be translated! a phrase composed of many words is specified as the phrase to be translated, so that all the phrases to be translated are included! /
  • the natural sentence is stored in the storage means!
  • it is possible to obtain a natural sentence (translated sentence) from which at least a translation of the phrase to be translated can be estimated by the search means.
  • the translation judging method according to the invention according to claim 16 is characterized in that a natural language sentence in a source language composed of a plurality of words, each of which is stored in a storage unit in association with a bilingual sentence in a target language.
  • the translation judging method according to the invention according to claim 17 is characterized in that a natural language sentence in a source language composed of a plurality of words, each of which is stored in a storage unit in association with a translated sentence in a target language.
  • the words to be translated in the translated words of the natural sentences and the specific frequently-used words are respectively included. It recognizes the high frequency translation of the attached, a translation of the recognized high frequency, comprising a third step of determining a translation of the translated phrase in the original sentence, Runode invention of claim 14, wherein
  • an appropriate bilingual translation of the phrase to be translated in the original sentence (a high possibility that a natural translated sentence can be obtained from the original sentence as a sentence in the target language) can be obtained.
  • a degree of matching between a sentence and the original sentence is obtained, and based on the obtained degree of matching, at least a translation of the translation target phrase in the selected translated sentence of the natural sentence is compared with a translation of at least the translation target phrase in the original sentence. It functions as the first means of judging translation.
  • a program according to the invention as set forth in claim 18 is a computer connected to a storage means for storing a plurality of natural sentences of a source language consisting of a plurality of words in association with a bilingual sentence of a target language. And the other computer connected to the storage means via a communication line.
  • the above-mentioned search means and the first computer may be used. Since the computer executes the program according to the invention described in claim 18, the computer functions as the translation determination device described in claim 1. In the same way as in the invention described in claim 1, it is possible to obtain an appropriate bilingual translation of the word to be translated in the original sentence (a high possibility that a natural translated sentence can be obtained as the target language sentence from the original sentence). Can.
  • a recognition unit for recognizing a frequently appearing phrase that appears frequently in the same sentence of the source language and the translation target phrase, and a natural sentence extracted by the search by the search unit.
  • the specific phrase frequently recognized in the original text and the phrase to be translated are each included by referring to the bilingual sentence of the natural sentence, and the translation target phrase and the specific frequent phrase are referred to.
  • the translation target words in the bilingual sentences of the natural sentences included in each! Recognize all the high-frequency translations and make the recognized high-frequency translations function as second translation determination means for determining the translations of the words to be translated in the original text.
  • a program according to the invention described in claim 19 is a computer connected to a storage means for storing a plurality of natural sentences of a source language composed of a plurality of words in association with a bilingual sentence of a target language. Or the other computer connected to the storage means via a communication line, and the above-mentioned search means and recognition means. Since the computer is a program for causing the computer to function as the second translation judging means, the computer functions as the bilingual judgment device according to claim 14 by executing the program according to the invention described in claim 19. Thus, similar to the invention described in claim 14, appropriate translation of the words to be translated in the original sentence (the possibility that a natural translated sentence can be obtained from the original sentence as a sentence in the target language, ) Can be obtained.
  • the invention's effect is a computer connected to a storage means for storing a plurality of natural sentences of a source language composed of a plurality of words in association with a bilingual sentence of a target language. Or the other computer connected to the storage means via a communication line, and
  • the present invention searches for a natural sentence including a phrase to be translated in a source language original sentence from a plurality of source language natural sentences stored in a storage unit,
  • the degree of coincidence between the natural sentence extracted by the search and the original sentence is obtained, and at least the translation of the target phrase in the bilingual sentence of the natural sentence selected based on the obtained degree of coincidence is determined with the translation of at least the target phrase in the original sentence. Since the judgment is made, there is an excellent effect that a natural bilingual sentence is likely to be obtained as a target language sentence from the original sentence of the source language, and an appropriate bilingual translation of the word to be translated in the original sentence can be obtained.
  • the present invention searches a plurality of natural sentences of the source language stored in the storage means for a natural sentence including the translation target phrase in the original sentence of the original language. Based on the extracted natural sentence, it recognizes frequently-used words and phrases that appear frequently in the same sentence in the source language and the target words to be translated, and includes the specific frequently-used words and target words in the original sentence.
  • the high-frequency bilingual translation of the natural language bilingual sentence that includes the word to be translated and a specific frequently-used word is recognized and the recognized Since the translation of the frequency is determined as the translation of the phrase to be translated in the original sentence, there is a high possibility that a natural translated sentence can be obtained from the original sentence of the original language as a sentence of the target language.
  • Brief description of the drawings which has an excellent effect that an appropriate translation of the words to be translated in the original text can be obtained.
  • FIG. 1 is a block diagram showing a schematic configuration of a PC according to the present embodiment.
  • FIG. 2 is a flowchart showing the contents of a translation determination process.
  • FIG. 3 is a chart showing an example of a natural sentence and a bilingual sentence including a “ru operation” registered in the bilingual DB.
  • FIG. 4 is a block diagram for explaining an embodiment in which the present invention is applied to a computer system in which a client PC and a server “computer are connected” via a network.
  • FIG. 5 is a block diagram showing an example of a schematic configuration of a machine translation device to which the present invention has been applied.
  • FIG. 1 shows a personal computer (PC) 10 that can function as the electronic dictionary device described above.
  • the PC 10 includes a CPU 10A, a ROM 10B, a RAMIOC, and an input / output port 10D, which are connected to each other via a bus 10E such as a data bus, an address bus, or a control bus.
  • the input / output port 10D has various input / output devices such as a CRT, LCD, and other displays 12, a keyboard 14 for the user to input data, a mouse 16, a hard disk drive (HDD) 18, and a CD-ROM M24.
  • a CD-ROM drive 20 for reading object data and a scanner 22 for reading paper documents are connected to each other.
  • the PC 10 has a translation determination program (corresponding to the program described in claims 18 and 19) for causing the PC 10 to function as an electronic dictionary device installed in the HDD 18.
  • a bilingual database (bilingual DB) storing data used by the bilingual determination program for the bilingual determination is also stored.
  • the bilingual DB is also stored in the HDD 18 by, for example, prerecording it in the CD-ROM 24 and configuring the setup program so that it is simultaneously written to the HDD 18 when the bilingual judgment program is installed. Can be done.
  • the bilingual DB contains a natural sentence composed of multiple words and described in the source language (any of unedited sentences, phrases, collocations, fixed expressions, collocation, etc. Or, the text data of a specific example will be described later.
  • the translated text is written in the target language (this translated text is also a natural sentence that has not been edited or processed such as word-by-word division or polysemy extraction).
  • the HDD 18 that stores the bilingual DB corresponds to the storage unit according to the present invention.
  • the bilingual DB can be recorded on a recording medium such as a CD-ROM 24 or a DVD-ROM, and can be used by directly reading out data from the recording medium.
  • the recording medium on which the DB is recorded functions as the storage unit according to the present invention.
  • the words in the source language and the translations in the target language are also registered in correspondence.
  • the bilingual DB according to the present embodiment can be created, for example, by appropriately adding a natural sentence and its bilingual sentence to an existing dictionary in which words in the source language and bilinguals in the target language are associated. .
  • a phrase (a phrase to be translated: also a word, or a phrase composed of a plurality of consecutive words in the source text) in which a translation in the target language is found in the source text described in the source language.
  • the user recognizes that there is (1), the user performs a predetermined operation to output a bilingual translation of the translation target word in the original text via the PC 10.
  • the original text is text read into the PC 10 as text data (for example, text entered by the user through the keyboard 14, text created by word processing software, text in a web page being browsed via the Internet, etc.).
  • OCR Optical Character Recognition
  • Characters obtained by optical recognition (character recognition) processing can be applied.
  • the above-mentioned predetermined operation includes, for example, selecting the word to be translated while the original text is displayed on the display 12, highlighting the word to be translated, and then right-clicking the word to be translated. By doing so, it is possible to apply an operation such as selecting an item corresponding to “translation output” in the displayed context menu.
  • the translation determination program shown in FIG. 2 is performed by executing the translation determination program by the CPU 10A of the PC 10.
  • This translation determination process is a process to which the translation determination method described in Claims 16 and 17 is applied, and by performing this process, the PC 10 can use the electronic dictionary device (described in Claims 1 and 14). Function as a parallel translation judging device).
  • step 100 the text data of a single original sentence (the original sentence to be processed) including the specified phrase to be translated is imported, and the translation in the imported original sentence to be processed is performed. Capture information that identifies the target phrase.
  • the original sentence to be processed may be a sentence containing the phrase to be translated, or may be a phrase, collocation, fixed expression, or collocation containing the phrase to be translated. If any of the collocations is used as the original text to be processed, the user can specify the phrase, collocation, fixed-form expression, and collocation as the original text to be processed, or the translation processing automatically performs the translation. Judgment is also possible.
  • step 102 using the text data of the original text to be processed fetched in step 100 as a key, a natural sentence registered in the bilingual DB that completely matches the original text to be processed is selected. While searching for sentences, the text data of the words to be translated is used as a key, and registered in the bilingual DB, the words to be translated are included in the natural sentences! /, The natural sentences (at least including the words to be translated) , Search for a part of the original sentence! Also, if the target phrase is composed of multiple words, Natural sentences containing at least one of the words that make up the phrase are also searched.
  • Step 102 corresponds to the retrieval means described in claims 1 (specifically, claims 2 and 15), claims 14, 18, and 19, and the first step described in claims 16 and 17 Steps are also supported.
  • step 104 and subsequent steps correspond to the first translation judging means described in claims 1 and 18.
  • step 104 it is determined whether or not a natural sentence that completely matches the original sentence to be processed by the search in step 102 is extracted from the bilingual DB. If this determination is affirmative, the process proceeds to step 106, where the bilingual sentence of the target language registered in the bilingual DB is read out in association with the natural sentence that completely matches the original sentence to be processed, and displayed on the display 12. Is displayed, and the process ends.
  • the bilingual translation of the phrase to be translated on the read bilingual sentence is recognized, and the bilingual translation of the recognized phrase to be translated is highlighted.
  • the user can recognize an appropriate bilingual translation of the specified phrase to be translated (highly likely to obtain a natural bilingual sentence from the original sentence as a sentence in the target language, bilingual translation). It is possible to recognize an appropriate bilingual sentence of the original text (a natural bilingual sentence as a sentence in the target language).
  • the above steps 104 and 106 correspond to the first translation judging means according to claim 2.
  • Example 1 The above processing will be further described by way of examples.
  • the source language is English and the target language is Japanese.
  • the source language and the bilingual translation are registered in units of words, so the word “safety” that constitutes the above translation target phrase is The translation “safe” is selected for ⁇ .
  • the natural sentence of the source language and the bilingual sentence of the target language are registered in the bilingual DB in association with each other. May have been registered in the translation DB. If a natural sentence that matches exactly is registered in the bilingual DB, the bilingual sentence registered in the bilingual DB in association with the natural sentence is highlighted as follows: Is output.
  • a natural bilingual sentence can be obtained as a native language.
  • a natural sentence that completely matches the original sentence to be processed is added to the sentence, and partially matches the original sentence to be processed extracted by the search in step 102! / You may also display natural texts together!
  • a plurality of natural sentences that partially match the original sentence to be processed are extracted by search, but when displaying them, the following describes each natural sentence that partially matches the original sentence to be processed. It is preferable to calculate the degree of coincidence and display the bilingual sentences of each natural sentence on the display 12 in descending order of the degree of coincidence.
  • step 104 determines whether the natural sentence that completely matches the original sentence to be processed is not extracted by the search in step 102. If the natural sentence that completely matches the original sentence to be processed is not extracted by the search in step 102, the judgment in step 104 is denied and the process proceeds to step 108.
  • the natural sentence extracted from the bilingual DB by the search of 102 (partially matched with the original sentence to be processed! /, Each natural sentence), one of the natural sentence words in the original sentence The number of words that match (the number of matching words) is counted, and the degree of matching with the original text is calculated based on the counting result of the number of matching words.
  • V in the word for example natural sentence of English to be frequent in the natural sentence of the original language, "th e", "t 0", "in” , etc.
  • the counting of the number of matching words in step 108 is performed with reference to the frequent word table, and the words registered in the frequent word table are excluded from the counting target words of the number of matching words. As a result, it is possible to eliminate the effect of frequently appearing words on the number of matching words.
  • the above processing in step 108 corresponds to the first translation judging means according to claim 6! / ,.
  • the HDD 18 when the bilingual translation determination program is installed, the HDD 18 also stores an inflection-changed word table in which words whose inflections differ due to a difference in tense or tense are registered. Then, in the counting of the number of matching words in step 108, if a word whose only the ending does not match appears, the ending change word table is referred to determine whether the ending mismatch is due to a single or multiple tense difference. Is judged and the difference of single or tense Thus, words having different endings are counted as matching words.
  • step 108 corresponds to the first translation judging means according to claim 7.
  • step 108 when counting the number of matching words in step 108, even if a word once included in the number of matching words due to matching with any word in the original sentence appears again in the natural sentence, By not counting the number of matched words, duplicate words that appear multiple times are not counted. As a result, even when the same matching word exists in a plurality of places in a natural sentence, it is possible to eliminate the influence of the matching word on the number of matching words.
  • the above processing in step 108 corresponds to the first translation judging means described in claim 8.
  • the arithmetic expression of the matching degree can be determined so that the matching degree increases as the number of matching words increases.
  • the number of matching words is normalized by the number of words constituting the translation target phrase.
  • the above step 108 corresponds to the first translation judging means described in claim 3 (specifically, claim 4).
  • step 110 by comparing the degrees of matching calculated for each natural expression, it is determined whether or not there is a plurality of natural sentences having the highest degree of matching, and whether or not there is power. If the determination is negative, the process proceeds to step 112, where the bilingual sentence of the target language registered in the bilingual DB associated with the natural sentence having the highest matching degree is read, and the translation target on the read bilingual sentence is read.
  • the bilingual translation of the word is recognized, and the read bilingual sentence is displayed on the display 12 so that the bilingual translation of the recognized translation target phrase is highlighted, and the process ends.
  • the user can recognize an appropriate bilingual translation of the specified phrase to be translated (the possibility of obtaining a natural bilingual sentence from the original text as a sentence in the target language is high).
  • step 112 among the natural sentences extracted by the search in step 102, in addition to the natural sentence with the highest matching degree, a plurality of natural sentences (in the descending order of the matching degree, A bilingual sentence of a number of natural sentences or all natural sentences having a matching degree equal to or more than a predetermined value is also read out from the bilingual DB, and is displayed on the display 12 as a list. If multiple natural sentences with the same degree of coincidence exist, the number of words that do not match the original sentence in each natural sentence is counted, and when displaying a list of translated sentences, the natural sentence with the same degree of coincidence is displayed.
  • the bilingual sentences are displayed in ascending order of the number of unmatched words in the corresponding natural sentence.
  • Example 2 The above process will be further described by way of an actual example.
  • the source language is English and the target language is Japanese.
  • the natural sentence (1)-(8) shown in Fig. 3 is a translated sentence (1) If it is registered in the bilingual DB in association with (8), except for the natural sentence (3) shown in Fig. 3, the number of words that match the original sentence is “1”, the degree of matching is 100%, The sentence (2) “operations” is also counted as a matching word as described above), and the natural sentence (3) has the number of matching words with the original sentence is “4” (the word ⁇ the ⁇ is a frequent occurrence and the number of matching words is counted) (Excluded from the target) and the matching score becomes ⁇ 00%, so it is associated with the natural sentence (3) and registered in the bilingual DB, and the translated sentence (3) is translated as follows: The translation of is highlighted and output.
  • Example 3 The source language is English and the target language is Japanese.
  • ⁇ ⁇ operation ⁇ included in the original sentence to be processed is specified, and the natural sentence (1)-(8) shown in Fig. 3 is a translated sentence (1) (1)
  • the number of words that match the original sentence S (l) is 100%, and the natural sentence (2) matches the original sentence
  • the matching score becomes ⁇ 00%, so it is correlated with the natural sentence (2) and the translation DB
  • the bilingual sentence (2) is output with the bilingual translation of the translation target phrase highlighted as follows.
  • Example 4 It is difficult to determine the unit for which a Chinese sentence is required to be translated when translating into a sentence in another language that is difficult to determine if the Chinese sentence is not familiar with Chinese. There are many things.
  • natural sentences that include the specified translation target phrase are searched for from among the natural sentences registered in the bilingual DB (when there are multiple translation target phrases).
  • the natural sentence that contains at least one of the words that make up the phrase to be translated is also searched at the same time.
  • the sentence is displayed (as well as the bilingual sentence of the natural sentence other than the natural sentence with the highest matching score). Recognize appropriate translations at the same time.
  • the words to be translated are “Departure”, “Development”, “Developing”, Regardless of which of "Developing China” and "Developing National” is specified, bilingual translations of the following natural sentences are listed in the following order based on the degree of coincidence.
  • the degree of matching when "nation” is specified is also shown, but it goes without saying that the degree of matching varies depending on the word specified as the word to be translated.
  • each natural sentence has a matching word number of "1" and a matching power of 100%.
  • the original text is It is displayed in the following order, which is different from the case of "nation".
  • step 110 If a plurality of natural sentences having the highest degree of matching exist! /, The determination in step 110 is affirmed, and the process proceeds to step 114.
  • steps 114 and 116 the translation target word and the original Natural sentences are selected based on words that appear frequently in the same sentence of a word (words with high correlation with the words to be translated: equivalent to frequent words described in claims 11, 14, 17, and 19) Perform correlation analysis.
  • step 114 for each natural sentence whose bilingual DB power is also extracted by the search in step 102, each word other than the phrase to be translated in the original sentence to be processed (however, registered in the frequent word table, By retrieving whether or not the word to be translated is included in the same sentence in the source language and the language to be translated, it is possible to search for words with high frequency (high correlation with the phrase to be translated, (Word) is included in the original sentence to be processed. In this process, for example, among words other than the words to be translated in the original text to be processed, for example, Words that appear in each natural sentence more than a predetermined number of times (either once or multiple times! ⁇ ) can be determined to be words with high correlation with the words to be translated.
  • step 114 corresponds to the recognizing means described in claims 11 and 14, and also corresponds to the second step described in claim 17.
  • step 116 the height of the correlation with the phrase to be translated and the presence or absence of the word are determined by the search in step 114. If the determination is affirmative, the process proceeds to step 118, and among the natural sentences for which the bilingual DB power was also extracted by the search in step 102, the correlation between the translation target phrase and the translation target phrase determined in step 114 is high. , A word (existing in the original sentence to be processed! / ⁇ word) is included! / ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ! Judge high frequency translations of the target phrase.
  • a high-frequency bilingual translation of a phrase to be translated specifically has a high correlation with the phrase to be translated and the phrase to be translated!
  • the translation of the translation target phrase in the natural sentence is determined to be a high-frequency translation. If a plurality of natural sentences are extracted as the above natural sentences, the translation in these natural sentences is performed. Among the bilingual translations of the target phrase, the bilingual translation with the highest frequency of occurrence can be determined as the high-frequency bilingual translation.
  • the natural sentence that includes the word to be translated, has a high correlation with the word to be translated, and includes the same word as the word to be processed as the word to be processed.
  • the natural sentence is likely to be a sentence that uses the word to be translated with the same meaning as the original sentence to be processed, but in the above natural sentence, the translation for the word to be translated is different. There may be mixed natural sentences.
  • the translation of the natural sentence is referred to by referring to the bilingual sentence of the natural sentence which has a high correlation with the word to be translated and the word to be translated. Since a high-frequency translation of the target phrase is determined, it is possible to obtain an appropriate bilingual translation of the target phrase in the original text to be processed.
  • step 119 the translation target phrase is associated with the high-frequency bilingual translation recognized in step 118 in the natural sentence including the translation target phrase and the word having a high correlation with the translation target phrase.
  • Is registered in the bilingual DB Reads the bilingual sentence in the target language and displays the read bilingual sentence on the display 12 so that the translation target word on the read bilingual sentence and the bilingual translation with high correlation with the translation target phrase are highlighted. And terminate the processing.
  • the user can recognize an appropriate bilingual translation of the specified translation target phrase (a bilingual translation that is likely to yield a natural bilingual sentence from the original sentence as the target language sentence).
  • Step 116 to step 119 described above are the first translation judging means described in claim 11, the second translation judgment means described in claims 14 and 19, and the third translation step described in claim 17. Respectively.
  • step 119 of the natural sentences extracted by the search in step 102, the words to be translated and words having a high correlation with the words to be translated are included, and the words to be translated are recognized.
  • multiple natural sentences in descending order of matching a certain number of natural sentences in descending order of matching, or all natural sentences with a matching score equal to or greater than a predetermined value
  • the bilingual sentences are also read from the bilingual DB, and are listed on the display 12 in the order according to the degree of coincidence and the number of unmatched words.
  • Example 5 The above process will be further described by way of an actual example.
  • the source language is English and the target language is Japanese.
  • ⁇ ⁇ operation ⁇ ⁇ included in the original sentence to be processed is specified, and the natural sentence (1)-(8) and other natural sentences shown in FIG. If each of the natural sentences (6) and 8) is registered in the bilingual DB with the bilingual sentence, the number of matching words in the original sentence is "2". It is difficult to choose).
  • a natural sentence containing the word “operation” to be translated using each word eg, “remove”, “rectal”, “cancer”, etc.
  • the natural sentence (6) (8) contains "cancer ⁇ ", which means that words with a high correlation with the target phrase ⁇ operation "in the original sentence to be processed Is extracted as "cancer".
  • a natural sentence containing the word to be translated “operation” and the word “cancer” having a high correlation is used by using the word to be translated “operation” in the same meaning as the original sentence to be processed.
  • Natural sentence that is likely to be a sentence that meets the above conditions registered in the bilingual DB There is a possibility that some of the words to be translated are different from the original sentence to be processed!
  • the natural sentence (8) corresponds to it.
  • the natural sentence (8) contains the word "operation” to be translated and the correlation is high and contains the word "cancer”
  • the translation of the word ⁇ operation ⁇ to be translated is "operation", so the original text to be processed It is different.
  • the bilingual sentence of the natural sentence is referenced.
  • the translation target phrase “operation” and the correlation are high, the word “cancer” is included, and the translation target phrase “operation” is associated with the translation “operation”.
  • the sentence is registered in the bilingual DB, the word "operation” and the word “cancer” are included in the word "cancer”!
  • the high-frequency bilingual translation is judged to be “surgery,” and the translation target word ⁇ operation ”, the correlation is high !, and the word“ cancer ”are included.
  • the corresponding natural sentence (6) is selected and associated with the natural sentence (6) and registered in the bilingual DB, and the translated bilingual sentence (6) is translated as shown below.
  • the bilingual word with the highest word is highlighted and output.
  • an appropriate natural sentence (a bilingual sentence) is selected using the word to be translated ⁇ operation ⁇ in the same meaning as the original sentence.
  • step 116 determines whether a word having a high correlation with the phrase to be translated is not extracted. If a word having a high correlation with the phrase to be translated is not extracted, the determination in step 116 is denied and the process proceeds to step 120. In steps 120 to 134, the original text to be processed is processed. Based on the words of interest other than the words to be translated and alternative words that can be substituted (corresponding to the alternative words described in claim 12), a scheme analysis for selecting a natural sentence is performed.
  • step 120 a word (referred to as a word of interest) that is present in the original sentence to be processed and is not present in each natural sentence extracted from the bilingual DB by the search in step 102 is determined.
  • step 122 a natural sentence containing the word of interest is searched from the natural sentences registered in the bilingual DB. Note that there may be a plurality of target words. In this case, the search in step 122 is performed for each target word.
  • step 124 only the noticed word in each natural sentence extracted by the search in step 122 is different, and the natural sentence (the natural sentence extracted by the search for the natural sentence including the noticed phrase described in claim 13)
  • the search condition is set to search for each natural sentence with the same syntax as the sentence), and based on the set search conditions, the corresponding natural sentence is searched from among the natural sentences registered in the bilingual DB. .
  • next step 126 it is determined whether or not the corresponding natural sentence has been extracted by the search in step 124. If the same natural sentence exists in the bilingual DB except that the target word is replaced with another word, and the same natural sentence exists in the bilingual DB, the another word may be a substitute word that can be used in place of the target word. Is high. For this reason, when the determination is affirmed, the process proceeds to step 128, and the natural word extracted by the search recognizes the word replacing the target word as an alternative word of the target word. Steps 120-130 described above correspond to the determination means described in claim 12 (specifically, claim 13).
  • step 130 there is a natural sentence in which the word of interest is replaced with an alternative word among a plurality of natural sentences having the maximum matching score (instead of this, the matching score is equal to or more than the predetermined value). Is determined. If there is a natural sentence that includes an alternative word in place of the target word in the original sentence to be processed among the multiple natural sentences with the highest matching score! / ⁇ , the natural sentence Is likely to be a sentence that uses the word to be translated with the same meaning as the original sentence to be processed. Therefore, if the determination is affirmative, the process proceeds to step 132, The maximum degree (instead of this, it may be “more than the predetermined value of the degree of coincidence”!
  • step 132 among the natural sentences extracted by the search in step 102, in addition to the natural sentences that have the highest matching degree and include an alternative word instead of the word of interest, descending order of matching degree
  • bilingual sentences of a plurality of natural sentences (a certain number of natural sentences in descending order of coincidence, or all natural sentences whose coincidence is equal to or more than a predetermined value) are also read from the bilingual DB, and are read in the order according to the degree of coincidence and the number of mismatched words A list is displayed along with the display 12.
  • Example 6 The above process will be further described by way of an actual example.
  • the source language is English
  • the target language is Japanese
  • ⁇ have ⁇ is specified as the target phrase for translation in the source text including “have lunch ⁇ ”.
  • the target phrase "natural sentence using the word” have "in the same meaning as the original sentence to be processed) is registered, the natural sentence containing" have lunch "is not registered, and the judgment based on the degree of coincidence ⁇ correlation If the analysis fails to identify an appropriate bilingual sentence, the words to be translated ("have") in the source text to be processed and words other than the words judged to have high correlation with the words to be translated are high.
  • Each word (e.g., "lunch”) is taken as a word of interest, and a natural sentence containing each word of interest is searched, whereby, for example, for the word of interest "lunch ⁇ ", for example, "eat lunch” or "take” Natural sentences including "a late lunch” are extracted.
  • a natural sentence in which only the focused word in each natural sentence is different is searched.
  • a natural sentence extracted as a natural sentence including the word of interest "lunch”! Is a natural sentence in which only the word of interest is different, such as "eat breakfast ⁇ " or "take a late breakfast ⁇ ".
  • the word of interest ⁇ lunch ⁇ ⁇ is replaced with the alternative word ⁇ breakfast ⁇ , and is associated with the natural sentence (natural sentence including “have breakfast ⁇ ) and registered in the bilingual DB.
  • the translation of the word to be translated ⁇ have ⁇ ("eat") is highlighted, and the translation of the alternative word "breakfast"("breakfast") is marked and output. Therefore, in this example, an appropriate natural sentence (a bilingual sentence) is selected by using the word to be translated ⁇ have ⁇ in the same meaning as the original sentence to be processed.
  • the translated text registered in the DB is highlighted, and the translated text (“Kai”) of the target phrase ⁇ have ⁇ is highlighted.
  • a translation (“dog") of the alternative word "dogs” is marked and output. Therefore, in this example, too, an appropriate natural sentence (a bilingual sentence) is selected by using the word to be translated "have ⁇ " with the same meaning as the original sentence to be processed.
  • Example 7 The source language is Japanese, the target language is English, and “Kake” is specified as the translation target phrase in the original sentence “Hot hot water” to be processed. ”(Using the word“ kake ”for translation with the same meaning as the original sentence to be processed), but“ kake hot water ”is not registered. Since other natural sentences are also registered, such as ⁇ Make a difference '', judgment based on the degree of coincidence ⁇ If it is not possible to identify an appropriate bilingual sentence even by correlation analysis, it will be in the original sentence to be processed "Hot water” is set as the word of interest, and a natural sentence containing the word of interest is searched for. This allows, for example, “soak in hot water”, “pour hot water”, “pour hot water”, “wash with hot water”, and “draw from hot water”. Natural sentences such as "Kikari” and "Hot with hot water” are extracted.
  • the word “water” has a large number of appearances, and there is also a natural sentence “sprinkle water”. Therefore, the word “water” replaces the target word “hot water” in the original text “hot water”. It can be determined that the alternative word is likely to be possible. For this reason, of the natural sentences extracted in the first search (search for natural sentences including the translation target phrase ⁇ ⁇ ⁇ ), the word of interest “hot water” is replaced with the alternative word “water”, and the natural sentence “water”
  • the translations registered in the translation DB that are associated with "Kakeru” are displayed as follows, with the translation ("pour") of the translation target phrase "Kake” highlighted and the alternative word "Water” The translation ("water”) is marked and output.
  • a word such as "3" is considered to be the word of interest, and Is likely to be a substitute for the word of interest "3", and is judged as an alternative word, so that the first search (search for natural sentences containing the target phrase "kake")
  • search for natural sentences containing the target phrase "kake” In the natural sentence extracted in step 2, the target word "3” is replaced with the alternative word "4", and the natural sentence "4 multiply” is registered in the bilingual DB,
  • the translation of the target phrase "Kake”("multiply") is highlighted, and the translation of the alternative word "4"("four") is marked and output.
  • an appropriate natural sentence (a bilingual sentence) is selected using the word to be translated “kake” with the same meaning as the original sentence to be processed.
  • step 134 all natural sentences extracted by the search in step 102, or!, Are a plurality of natural sentences in descending order of coincidence (a certain number of natural sentences, All natural sentences having a matching degree equal to or more than a predetermined value) are read in the bilingual sentences registered in the bilingual DB, and the bilingual translation of the translation target phrase on each read bilingual sentence is recognized and recognized.
  • the translated sentence of people exit the identity and the list display and the processing in descending order of the matching degree up each natural sentence matching degree in order according to the number of mismatches word on the display 12.
  • the user can recognize some suitable translation candidates for the specified phrase to be translated.
  • the degree of coincidence is calculated using only the number of matching words
  • the present invention is not limited to this.
  • the degree of coincidence increases. Is determined and the degree of match is determined so that the degree of match increases as the number of mismatched words between the natural sentence and the original sentence decreases, and the degree of match is calculated and evaluated according to the number of matched words and the number of mismatched words. You can do it.
  • This aspect corresponds to the invention described in claim 5. Initially, the degree of matching is evaluated based only on the number of matching words, and the correlation is evaluated. If it is difficult to select a single natural sentence (parallel translation) even by performing a parsing analysis or scheme analysis, the number of unmatched words is counted and the natural sentence (the bilingual sentence of ) May be selected.
  • the similarity of the order of words in the natural sentence and the original sentence, or the natural sentence existing between matching words in the original sentence is also used to evaluate the matching so that the similarity of the order of words in the natural sentence and the original sentence increases as the similarity in the original sentence increases.
  • the matching score may be evaluated so that the matching score with the original sentence increases as the number of unmatched words decreases.
  • the aspect using the similarity of the order of words in the natural sentence and the original sentence corresponds to the invention described in claim 9, and the use of the number of non-matching words existing between matching words is described in claim 10
  • the evaluation of the matching degree in consideration of the similarity of the order of the words in the natural sentence and the original sentence and the number of non-matching words in the natural sentence existing between the matching words in the original sentence is performed by, for example, the following processing. It can be realized by.
  • a first evaluation value is assigned to each word in the original sentence according to the distance (the number of words) from the word to be translated in the original sentence.
  • the first evaluation value for the word to be translated in the original sentence becomes the maximum, and the first evaluation value for each word other than the word to be translated in the original sentence is The value can be determined so that the value decreases as the distance from the phrase increases (as the number of intervening words increases).
  • the fourth word D in the original sentence is the word to be translated
  • the following first evaluation value can be assigned to each of the words A to J in the original sentence.
  • the translation DB power is also extracted by searching in step 102 For each natural sentence that contains the target phrase to be translated, a matching word that matches any one of the words in the original sentence among the words in the natural sentence is recognized, and the first evaluation given to each recognized matching word first Calculate the sum of the values. Then, the total value of the first evaluation values is used as the degree of coincidence, and the bilingual sentence of each natural sentence extracted by the search is output in descending order of the degree of coincidence (the total value of the first evaluation values) of each corresponding natural sentence. . For example, if a natural sentence 1-a natural sentence 5 of the following word sequence is extracted by a search (however, The word X is any word),
  • Natural sentence 1 (D, X, X, E, F, G)
  • Natural sentence 4 (A, B, X, C, X, D)
  • the first evaluation value is determined so that the value of each word other than the word to be translated in the original sentence increases as the distance from the word to be translated in the original sentence becomes smaller.
  • each natural sentence containing the target phrase is evaluated based on the sum of the first evaluation values, so that more words exist in the original sentence near the target phrase.
  • natural sentences that is, phrases (concatenated words) composed of words to be translated in the original sentence and words in the vicinity thereof, are likely to have high probability, and natural sentences (the similarity of the order of words in the original sentence is estimated to be high). Natural sentence) can be evaluated as a natural sentence with a higher degree of coincidence.
  • the degree of coincidence (sum of the first evaluation values) of natural sentence 1 to natural sentence 4 is the same, and thus the degree of coincidence based on the first evaluation value is the same.
  • the difference between the matching words that match any of the words in the original sentence and the words to be translated in each natural sentence (number of words)
  • the second evaluation value is assigned to each natural sentence having the same degree of matching based on the first evaluation value.
  • the second evaluation value for the translation target phrase included in each natural sentence is the largest, and the second evaluation value of the matching word other than the translation target phrase in each natural sentence is The value can be determined so that the value becomes smaller as the distance from the word to be translated becomes larger (as the number of intervening words increases).
  • the bilingual sentences are output in descending order of the total value of the second evaluation values of the corresponding natural sentences (also included in the matching degree according to the present invention).
  • the following second evaluation value is assigned to each matching word, and the total value of the following second evaluation values is obtained.
  • the second evaluation value of the word to be translated is set to 10.0, and for other matching words, the number of words existing between the word to be translated is 0,1,2,3,4
  • An example is shown in which the second evaluation value is set such that the second evaluation value decreases to 5.0, 2.0, 1.0, 0.5, 0.2, etc. as the calorie increases.
  • the natural sentence 1-the natural sentence 4 (a bilingual sentence) is output in descending order of the total value (matching degree) of the second evaluation values, that is, in the order of the natural sentences 3, 2, 4, 1.
  • the second evaluation value is determined as the distance between a matching word that matches any one of the words in the original sentence among the words in each natural sentence and the translation target phrase in each natural sentence becomes smaller.
  • the natural sentence containing more words that match the original sentence Natural sentences with as few unmatched words as possible between words, that is, phrases (consequences) consisting of words to be translated in the original sentence and words around them! A natural sentence can be evaluated as having a higher degree of coincidence.
  • the similarity evaluation in consideration of the similarity of the order of words in the natural sentence and the original sentence and the number of non-matching words in the natural sentence existing between matching words in the original sentence are performed, for example, by the following processing. It is also possible to realize this.
  • a search is made to determine whether the previously extracted front word exists within a predetermined number of words (for example, within 3 words) from the reference position to the front side (for example, up to 3 words).
  • a search is performed to determine whether or not the rear word has a reference position force also within the predetermined number of words (for example, within 3 words). Then, for the natural sentence in which the preceding word and the following word were found by the above search, a third evaluation value determined such that the value increases as the distance between the reference position and the preceding word and the following word decreases becomes smaller.
  • a front word that has not been extracted and has a minimum distance from the translation target phrase in this case, a single word (between the previous target word and the translation target phrase)
  • the previous word in which the original word exists is extracted, and the latter word that has not been extracted and has the minimum distance from the target phrase (in this case, the target word) is extracted from the latter word group in the original sentence.
  • the previously extracted preceding word is within a predetermined number of words forward from the position of the preceding word found in the previous search.
  • a third evaluation value is set so that the value increases as the distance from the position decreases.
  • the position of the front word or the back word found in the previous search is the same as the position of the front word or the back word found this time.
  • An evaluation value that is uniquely determined according to only the gap in the natural sentence may be used.However, in consideration of the gap between the word to be translated in the original sentence and the front or rear word to be searched, The effect of the side word or the back word on the third evaluation value increases as the distance between the word and the word to be translated in the original sentence becomes smaller.
  • the third evaluation value may be determined such that the third evaluation value to be given becomes smaller as the distance from the word to be translated becomes larger.
  • the value increases as the difference in the natural sentence between the position of the front word or the back word found in the previous search and the position of the front word or the back word found this time decreases.
  • the third evaluation value increases as the distance between the above-described reference position and the position of the preceding word or the succeeding word found in the natural sentence decreases. You may set a third evaluation value to make it easier.
  • word B is extracted as the front word
  • word D is extracted as the back word.
  • the original word B is extracted for each natural sentence including the translation target phrase extracted from the bilingual DB by the search. From the word within the predetermined number of words (for example, within 3 words), and whether the back word D is within the range of the specified number of words from the translation target phrase to the back (for example, within 3 words). Existence Therefore, a third evaluation value is assigned to the natural sentence in which the front word B and the back word D are found, respectively, in search of the power.
  • word A is extracted from the original sentence as the front word and word E is extracted from the original sentence as the back word, and the preceding word A is extracted from the natural sentence in which the previous word B and the back word D were found in the previous search.
  • word B is present within a predetermined number of words from the front word B to the front (for example, within three words)
  • the rear word E is within the predetermined number of words to the rear word D (For example, 3 words or less) are searched for each other, and a third evaluation value is assigned to the natural sentence in which the front word A and the back word E are found.
  • the order is as follows.
  • the word X means an arbitrary word
  • "Z" means a delimiter.
  • the similarity evaluation in consideration of the similarity of the order of words in the natural sentence and the original sentence and the number of non-matching words in the natural sentence existing between the matched words in the original sentence are performed, for example, in the following processing. Therefore, it can also be realized.
  • the front word having the smallest distance from the translation target phrase from the front word group existing before the translation target phrase in the original sentence (in this case, the front word adjacent to the translation target phrase) ) Is extracted, and for each natural sentence including the translation target phrase extracted from the bilingual DB by the search, the position where the translation target phrase exists in each natural sentence is defined as the reference position (in the natural sentence).
  • the position where any of the words to be translated exists is set as the reference position), and the front word extracted earlier moves from the reference position to the front.
  • a search is performed to determine whether or not a force exists within a predetermined number of words (for example, within three words).
  • This process counts the number of words by distance (specifically, the first number of words by distance and the second number of words by distance) as the fourth evaluation value for each natural sentence containing the phrase to be translated.
  • the distance between the reference position and the preceding word specifically, the number of unmatched words existing between the reference position and the preceding word
  • was counted was calculated.
  • the corresponding first number of words by distance is counted up.
  • a front word that has not been extracted and has a minimum distance from the translation target phrase in this case, a single word (in the previous search.
  • the previous word in which the previously extracted front word was found in the previous search was extracted. From the position in front of the word within a predetermined number of words (for example, within 3 words), and search for the natural sentence in which the previous word was found by the previous search. The distance between the position of the previous word and the previous word found this time is counted, and the distance between the previous word found in the previous search and the reference position is added to the counted distance, so that it is found by this search.
  • the distance between the previous word and the reference position is calculated. The first distance by the number of words you each counted up. This process is repeated while extracting the front words from the original text in ascending order of the distance to the word to be translated, until there are no more front words that can be extracted from the original text.
  • word C is extracted as the front word, and each word including the translation target phrase extracted from the bilingual DB is searched.
  • Each natural sentence is searched for whether the preceding word B exists within a predetermined number of words (for example, within 3 words) from the target phrase in the natural sentence, and the preceding word C is found.
  • the first number of words by distance is counted up. Table 1 below shows an example of the result of counting the number of words by distance at this point.
  • word B is extracted as the front word in the original sentence, and the natural sentence in which the front word C was found in the previous search is within a predetermined number of words from front word C to the front (for example, 3 words).
  • the search is performed to determine whether or not the front word B exists within (within) the first sentence, and the natural sentence in which the front word B is found is counted up by the first distance-based word count.
  • Table 2 An example of the result of counting the number of words at the first distance at this point is shown in Table 2 below.
  • word A is extracted as the front word, and the front word B is generated in the previous search.
  • the presence or absence of the power of the front word A within the predetermined number of words (for example, within three words) from the front word B to the front was searched, and the front word A was found.
  • a first count of the number of words for each distance is performed on a natural sentence. Table 3 below shows an example of the result of counting the first number of words by distance at this point.
  • the distance between words is counted by a method different from the above first number of words by distance, and the second distance Separate Count as the number of words.
  • the preceding word is not present in the original sentence adjacent to the target phrase in the original sentence group (the word C included in each natural sentence is not In this state, each natural sentence containing the translation target phrase extracted from the bilingual DB by extracting the front word with the minimum gap from the translation target phrase from the front word group in the original sentence in this state For each natural sentence!
  • the position where the word to be translated exists is set as a reference position, and a search is performed to determine whether or not the extracted front word exists within a predetermined number of words (for example, within 3 words) from the reference position to the front. . Then, for the natural sentence in which the preceding word was found by the above search, the distance between the reference position and the preceding word (specifically, the number of mismatched words existing between the reference position and the preceding word) was counted and counted. The distance obtained by adding “1” to the distance is defined as the distance from the reference position, and the number of words according to the second distance corresponding to the distance from the reference position is counted up.
  • a front word that has not been extracted and has the minimum distance from the phrase to be translated is extracted, and for each natural sentence in which the front word was found by the previous search, A search is performed to determine whether the extracted front word exists within a predetermined number of words (for example, within 3 words) from the position of the front word found in the previous search to the front, and the current search determines For the natural sentence where the word was found, the distance between the position of the front word found in the previous search and the previous word found this time is counted, and the counted distance is compared with the number of the previous word found in the previous search.
  • a predetermined number of words for example, within 3 words
  • the distance between the preceding word found in this search and the reference position is obtained, and the second number of words for each distance corresponding to the obtained distance is counted up. This process is repeated while extracting front words from the original text in ascending order of the distance from the phrase to be translated, until there are no more front words for which original text power can be extracted.
  • word A—word E (A, B, C, D, E)
  • the fourth word D in the original sentence is specified as the phrase to be translated.
  • the front word C adjacent to the phrase to be translated in the front word group in the original sentence does not exist in the original sentence (the word C included in each natural sentence With the original sentence words B and A extracted in order and the distance from the reference position on each natural sentence is counted, as shown in Table 4 below, for example, The result of counting is obtained.
  • each natural sentence is calculated. For each time, the counting results of the first number of words by distance and the second number of words by distance are compared, and if the inter-word distance is shorter among the first number of words by distance and the second number of words by distance, The counting result showing the result of (1) is selected as the final evaluation for the front word group.
  • the natural sentence (A, B, C, D) has a distance of 0 and a number of words of 3 in the first number of words by distance shown in Table 3, whereas the first sentence shown in Table 5 In the number of words at distance 2 of 2, the number of words at distance 0 is 0, the number of words at distance 1 is 0, and the number of words at distance 2 is 2.
  • A, B, C, D) is selected as the final evaluation for the front word group.
  • the number of words at distance 0 in the first number of words by distance and the second number of words by distance differ. However, if the number of words at distance 0 is the same, the number of words at distances 1, 2, ... are compared sequentially, and the same distance between the first number of words by distance and the second number of words by distance. The one with more words is selected as the final evaluation.
  • the second counting of the number of words according to the distance is based on the similarity of the order of words in the original sentence even in a natural sentence in which the order of some words in the original sentence is changed. This is to properly evaluate.
  • natural sentence (C, A, B, D)
  • the first number of words per distance is 0 words at distance 0, 0 words at distance 1, and 1 word at distance 2
  • the second number of words by distance the number of words is 0 at distance 0 at distance
  • the number of words is 2 at distance 1
  • the number of words is 0 at distance 2.
  • the second number of words at distance is the final evaluation of the preceding word group of the above natural sentence. Selected.
  • the result of counting the number of words by the first distance is evaluated assuming that natural sentences (C, A, B, D) are (C, X, X, D), whereas The results of counting the number of words by distance are evaluated by considering the natural sentence (C, A, B, D) as ( ⁇ , ⁇ , ⁇ word C missing), D). Can be evaluated as being included in a more aggressive state.
  • the final evaluation of the front word group is determined. Similar processing using the posterior word group that exists behind the target phrase (counting the number of first and second distance-based words, determining the final evaluation of the posterior word group) I do. Next, for each natural sentence, the final evaluation for the front word group and the final evaluation for the rear word group obtained are added and counted (the number of words by distance in each final evaluation is added for each same distance). Calculate the overall evaluation of each natural sentence. Then, based on the comprehensive evaluation of each natural sentence, the bilingual sentence of each natural sentence is output in the order of the bilingual sentence that indicates that the overall evaluation of the corresponding natural sentence indicates that the distance between words is shorter.
  • the second counting of the number of words according to distance is not essential.
  • the counting of the number of words by the second distance may be omitted, and the number of words by the first distance may be used as it is as the final evaluation.
  • Natural sentence selection or rearrangement can be used in combination with natural sentence evaluation 'selection or rearrangement by correlation analysis or scheme analysis, but it is needless to say that it can be used based on the first evaluation value and the second evaluation value or the third evaluation value.
  • the mode of evaluating the degree of coincidence between natural sentences is similar to that of evaluating the degree of coincidence using only the number of matching words between the original sentence and the natural sentence.
  • a search mode such as a phrase search mode is set in addition to the normal search mode, and this phrase search mode is selected.
  • 1st evaluation value and 2nd evaluation value or 3rd evaluation value Evaluation of the degree of coincidence based on the value ' may be performed to select or sort of a natural sentence.
  • the natural sentence is selected (judgment of a translation) by calculating the degree of coincidence. If the natural sentence can not be narrowed down by the degree of coincidence, the natural sentence is selected by correlation analysis ( In the case where appropriate natural sentences can not be narrowed down by correlation analysis, natural sentences are selected by schema analysis (translation judgment). Instead, each natural sentence including the words to be translated extracted by the search means is subjected to the calculation of the degree of coincidence, correlation analysis, and scheme analysis to evaluate each natural sentence. Based on the evaluation results, natural sentences may be selected in accordance with the priorities shown in Table 6 below.
  • step 104 it is determined whether or not a natural sentence that is completely matched with the original sentence to be processed by the search in step 102 is the extracted DB power. If the determination is affirmative (step 104), a bilingual sentence of a natural sentence that completely matches the original sentence to be processed is read out and displayed (step 106). Steps 104 and 106 described above are omitted, and the natural sentence L, which matches the original sentence to be processed by the search in step 102, regardless of the extracted power, The processing after step 108 (processing such as the calculation of the degree of coincidence) may be performed unconditionally.
  • the accuracy of the translation selection in the present invention depends on the number of natural sentences and translations registered in the translation DB, and the accuracy of the translation selection improves as the number of natural sentences and translations increases. .
  • the translated original text and the translated text are read into the bilingual determination device according to the present invention, and the read original text and the translated text are selected as they are or after being selected, and then automatically translated into the bilingual DB as a natural text and a translated text.
  • the accuracy of the translation selection in the present invention also depends on the redundancy of the contents of the natural sentence and the translated sentence registered in the bilingual DB.
  • the accuracy of the bilingual selection decreases as compared with the number of natural sentences and the parallel sentences registered in the bilingual DB (the size of the bilingual DB). For this reason, in the bilingual determination device according to the present invention, there is a natural sentence and a bilingual sentence having a high similarity in content among individual natural sentences and bilingual sentences registered in the bilingual DB! If the natural sentence pair and the translated sentence pair are found, a function to delete one natural sentence and the translated sentence from the bilingual DB may be provided.
  • the above description has been made in connection with an example in which a single translation DB is used to select a translation.
  • the present invention is not limited to this.
  • the bilingual DB may be divided for each field of the original text to be processed. In this case, it is possible to suppress an increase in the capacity of each bilingual DB, shorten the time required for searching for a natural sentence, and improve the accuracy of selecting a bilingual translation.
  • the output of the bilingual translation of the translation target phrase performed via the user power PC10 is described.
  • the power is not limited to this.
  • the Internet or LAN Local Area Network
  • the present invention is applied to a computer 'system 38 in which a client PC 32 and a server' computer 34 are respectively connected to a network 30 such as an HDD and a storage medium 36 such as an HDD for storing a bilingual DB is connected to the server 'computer 34'.
  • the server / combiner 34 may determine the translation and reply online.
  • the source language text data is transmitted to the server computer 34 via the user S client PC32.
  • This can be done by designating the source language text by notifying Sano's computer 34 of the URL of the web page containing the source language text or the text of the source language.
  • the server computer 34 judges the translation (sentence) of the specified text by executing the translation judgment processing while accessing the translation DB stored in the storage medium 36 ((2) in FIG. 4). )), And send the determined translation (text) to the client PC 32 to answer the question (see (3) in Fig. 4).
  • This configuration is effective for cost reduction particularly when the translation DB has a large capacity, since a plurality of users can share the translation determination function (and the translation DB) of the server computer 34.
  • FIG. 5 shows an example of a schematic configuration of a machine translation device 40 to which the present invention is applied.
  • an original sentence input section 42 inputs (the text data of) the original sentence to be translated to a translation target phrase selecting section 44 and a bilingual sentence assembling section 46, respectively.
  • the translation target phrase selection unit 44 selects a specific phrase in the input original text to be translated as the translation target phrase, and inquires the bilingual determination unit 48 of the selected translation target phrase as a translation target phrase. Repeat while sequentially selecting individual words in the original text to be translated.
  • Translation The judging unit 48 is a part corresponding to the bilingual judging device according to the present invention, and executes the bilingual judging process while accessing the bilingual DB stored in the storage medium 50, so that the translated phrase to be matched can be obtained. And outputs the determined bilingual translation to the bilingual sentence assembly unit 46.
  • the bilingual sentence assembling section 46 is based on the translation target phrase input from the translation target phrase selecting section 44, the bilingual translation input from the bilingual determination section 48, and the original text to be translated input from the original text inputting section 42. By assembling the translations input from the translation judging unit 48 (rearranging the order as necessary), a translation in the target language is assembled.
  • the bilingual sentence assembled by the bilingual sentence assembling unit 46 is output to the bilingual sentence output unit 52, and a bilingual sentence output process such as displaying on a display or the like, recording on a recording medium, and outputting as speech is performed.
  • the present invention since the present invention is applied to the determination of the translation of the word to be translated, there is a high possibility that a natural translation as the target language sentence can be obtained from the original text as the translation of the word to be translated. Is obtained, and the bilingual sentence output by the bilingual sentence output unit 52 becomes a natural bilingual sentence as a sentence in the target language. In addition, complicated processing such as part-of-speech determination and syntax analysis is not required, and the processing can be simplified.
  • the machine translation device shown in FIG. 5, as shown in FIG. 4 described above in response to an online query for a translated text, the translated text obtained through processing such as I'm going to answer it, not to mention it.

Abstract

 原言語の原文から目的言語の文として自然な対訳文が得られる可能性の高い、原文中の翻訳対象語句の適切な対訳を得る。  対訳DBには複数の単語から成る原言語の自然文が目的言語の対訳文と対応付けられて複数登録されており、原言語の原文中の翻訳対象語句が指定されると、対訳DBに対して翻訳対象語句を含む自然文を検索し(102)、原文と完全一致する自然文がなければ(104が否定)、抽出された各自然文と原文との一致度数を演算し、一致度数が最大の自然文の対訳文を表示する(108~112)。一致度数最大の自然文が複数有る場合(110が肯定)は、翻訳対象語句と同一の文章中に存在している可能性(コリレーション)の高い単語を判断し、高コリレーションの単語を含む自然文の対訳文を表示する(114~118)。高コリレーションの単語を含む自然文が無ければ(116が否定)、原文中の着目単語と代替可能な単語を認識し(120~128)、原文に対して着目単語が代替単語に置き換わっている自然文の対訳文を表示する。                                                                                           

Description

対訳判断装置、方法及びプログラム
技術分野
[0001] 本発明は対訳判断装置、方法及びプログラムに係り、特に、原言語の原文中の少 なくとも翻訳対象語句の対訳を判断する対訳判断装置、該対訳判断装置に適用可 能な対訳判断方法、及びコンピュータを前記対訳判断装置として機能させるための プログラムに関する。 背景技術
[0002] コンピュータを利用して、或る自然言語 (原言語)で記述された文章 (原文)を、他の 自然言語(目的言語)で記述された文章 (翻訳文)に翻訳する、所謂機械翻訳の実現 は力なり以前より期待されており、機械翻訳に関する様々な改良技術も提案されてい る。
[0003] 例えば特許文献 1には、 HD装置に用意した英和連語辞書に、連語に代表される 一まとまりの表現形態を格納しておき、統語解析処理において、等位接続詞によって 結合された単語から構成される表現形態を英文テクスト中で検索し、検索した表現形 態が英和連語辞書に格納されて ヽる場合、又は検索した表現形態を構成する単語 の接頭辞又は接尾辞が同一である場合に、検索した表現形態を一の形態素として 認識し、分離することなく構文の解析を行う技術が開示されている。
[0004] また、特許文献 2には、多義語毎に語義と特徴とを対応させた特徴テーブルを予め 記憶しておき、入力された第 1言語の原文について特徴レコードを生成し、生成した 特徴レコードと特徴テーブルとを比較し原文が有する特徴に基づいて多義語の語義 を選択 ·出力する技術が開示されている。
特許文献 1 :特開平 11— 328178号公報
特許文献 2:特開平 6- 314294号公報
発明の開示
発明が解決しょうとする課題
[0005] 原言語で記述された原文を目的言語で記述された翻訳文に翻訳する作業は、通 常、文は単語と文法によって成り立つているという認識に基づき、原言語で記述され た原文中の単語を目的言語の単語に変換し、変換した単語を目的言語の文法ルー ルに従って並び替える、という翻訳プロセスを経て行われる。この翻訳プロセスは、コ ンピュータを利用して翻訳を行う機械翻訳にも採用されており、対訳を単語単位で辞 書に登録しておき、原文力も順に単語を取り出し、取り出した単語の対訳を検索する ことを繰り返すことで、原文を単語単位で対訳に置き換えると共に、原文中の個々の 単語の品詞を判断して構文を解析し、構文の解析結果に基づき目的言語の文法ル ールに従って単語単位での対訳を並べ替えることで翻訳文 (対訳文)を得る方式が 一般的となっている。
[0006] また、機械翻訳において、原文中に定型的な連語が存在している場合にも、特許 文献 1に記載の技術を適用すれば、上記の連語の適切な対訳が得られる可能性が あり、原文中に多義語が存在している場合にも、特許文献 2に記載の技術を適用す れば、上記の多義語について特定の対訳が得られる可能性がある(但し、特許文献 2に記載の技術では、多義語を抽出し、抽出した多義語の語義及び特徴を解析して 特徴テーブルを予め作成しておぐという煩雑な作業が必要となる)。しかしながら、 機械翻訳では、得られる翻訳文に文法的な誤りがなぐ単語単位での対訳に誤りが ない場合にも、翻訳文が目的言語の文として不自然な文となってしまうことが多々生 じており、既存の機械翻訳の技術では、例え特許文献 1や特許文献 2に記載の技術 を適用したとしても、実用に耐えうる翻訳精度が得られないのが実情である。
[0007] これは、機械翻訳で採用して!/、る翻訳プロセスが、人が母語で話したり文を書!、た りするときに文を作成するプロセスと著しく相違していることが原因と推察される。すな わち、人が母語で話したり文を書いたりするときには、単語を思い浮かべ文法ルール に当てはめて文を作成する、という翻訳プロセスのようなプロセスは経ておらず、実際 には、文脈の前後との関係や語句自体に付随する背景知識も踏まえた上で、個々の 人の記憶に蓄積されて!、る膨大な数のチャンク (意味のかたまり:単語'連語 ·定型表 現 'コロケーション ·構文 ·文章)の中から、思 、浮かんだ (状況に応じて選択した)適 切な単語 '連語'文を繋げることで文を作っている。
[0008] このため、人が母語で話したり書いたりする時と同じように、前後の文脈との関係、 語句自体に付随する背景知識、人が母語で話したり書いたりするための文書を作る 時に思い浮かべる単位 (すなわちチャンク)を踏まえた上で、原文の対訳を求めるよう にすれば、目的言語の文として自然な翻訳文が得られることになるが、文脈の判断 や語句自体に付随する背景知識の判断は容易でない上に、チャンクもその区切りが 曖昧であり、機械翻訳において、チャンク単位で原文の対訳を求めて翻訳文を得るこ とは実現できて ヽな 、のが実情であった。
[0009] 本発明は上記事実を考慮して成されたもので、原言語の原文から目的言語の文と して自然な対訳文が得られる可能性の高い、原文中の翻訳対象語句の適切な対訳 を得ることができる対訳判断装置、対訳判断方法及びプログラムを得ることが目的で ある。
課題を解決するための手段
[0010] 上記目的を達成するために請求項 1記載の発明に係る対訳判断装置は、複数の 単語から成る原言語の自然文を目的言語の対訳文と対応付けて複数記憶する記憶 手段と、前記記憶手段に記憶されている原言語の複数の自然文の中から、原言語の 原文中の翻訳対象語句が含まれている自然文を検索する検索手段と、前記検索手 段による検索によって抽出された自然文と前記原文との一致度を求め、求めた一致 度に基づ 、て選択した自然文の対訳文における少なくとも前記翻訳対象語句の対 訳を、前記原文中の少なくとも前記翻訳対象語句の対訳と判断する第 1の対訳判断 手段と、を含んで構成されている。
[0011] 請求項 1記載の発明では、複数の単語から成る原言語の自然文を目的言語の対 訳文と対応付けて記憶手段に複数記憶している。なお、本発明に係る自然文は、従 来の機械翻訳における辞書のように、単語単位での分割や多義語の抽出等の編集 · 加工を行っていない文、文節、連語、定型表現、コロケーションの少なくとも何れかで あり、この自然文を目的言語の対訳文と対応付けて記憶することで、例えば単語単 位で辞書に登録する場合のように、多義語に多数の対訳を対応付ける必要が無くな る(多義語に多数の対訳を対応付けた場合、対訳を選択する必要が生じ、選択誤り が生ずる可能性がある)と共に、自然文に対応する対訳文を目的言語の文として自 然な文にすることができる。なお、本発明において、自然文以外に単語とその対訳も 記憶手段に記憶させても構わな 、。
[0012] また、請求項 1記載の発明では、記憶手段に記憶されている原言語の複数の自然 文の中から、原言語の原文 (文、文節、連語、定型表現、コロケーションの何れでもよ い)中の翻訳対象語句が含まれている自然文が検索手段によって検索される。翻訳 対象語句は原文のうち特に翻訳すべき語句であり、単語であってもよいし、複数の単 語で構成されて ヽてもよ ヽ。例えば本発明に係る対訳判断装置を人間 (翻訳者)が 翻訳する際の電子辞書として用いる場合、翻訳対象語句は翻訳者によって指定され る。また、例えば本発明に係る対訳判断装置を機械翻訳装置又は自動通訳装置の 一部として用いる場合、翻訳対象語句は、本発明に係る対訳判断装置によって判断 された対訳を利用して機械翻訳を行う機械翻訳装置又は自動通訳装置によって指 定される。また、翻訳対象語句を含む原文についても、利用者 (翻訳者等)に指定さ せるようにしてもよいし、自動的に判断する(例えば翻訳対象語句を含む文又は文節 を自動的に原文と判断する等)ようにしてもよい。検索手段は、翻訳対象語句が含ま れている自然文を検索するので、この検索により、対応する対訳文の中に翻訳対象 語句の対訳が含まれて 、る自然文が抽出されることになる。
[0013] また、請求項 1記載の発明に係る第 1の対訳判断手段は、検索手段による検索によ つて抽出された自然文と原文との一致度を求め、求めた一致度に基づいて選択した 自然文の対訳文における少なくとも翻訳対象語句の対訳を、原文中の少なくとも翻 訳対象語句の対訳と判断する。これにより、検索手段による検索によって抽出された 自然文のうち、原文に近 、自然文 (例えば原文中に存在する多義語を同じ意味で用 V、て 、る自然文等)が、高 、確率で一致度の高!ヽ自然文として選択され、選択された 自然文に対応する自然な対訳文が得られ、該対訳文における、少なくとも翻訳対象 語句の対訳が、原文中の翻訳対象語句の対訳と判断されることになる (原文との一致 度等に応じて、対訳文における翻訳対象語句以外の語句の対訳も、原文中の該語 句の対訳と判断してもよ 、ことは言うまでもな 、)。
[0014] このように、請求項 1記載の発明は、原文上のチャンクの区切りを認識することが技 術的に非常に困難であることに鑑み、原言語の自然文を目的言語の対訳文と対応 付けて複数記憶しておき、記憶して 、る自然文の中から原言語の原文との一致度の 高い自然文を選択し、選択した自然文に対応する自然な対訳文における対訳を、原 文中の少なくとも翻訳対象語句の対訳と判断するので、原文上のチャンクの区切りを 認識することなぐ結果として、おおよそチャンク単位で原文の対訳を行ったに等しい 自然な対訳を得ることができ、原文中の翻訳対象語句の適切な対訳 (原文から目的 言語の文として自然な対訳文が得られる可能性の高 、対訳)を得ることができる。
[0015] また、請求項 1記載の発明は、記憶手段に自然文と対訳文を記憶することで実現で きるので、少なくとも記憶手段へ自然文及び対訳文を記憶させるにあたり、自然文を 単語単位で分割したり、多義語を抽出したり、多義語について考え得る全ての対訳 を列挙して各々対応付ける等の煩雑な編集'加工を行う必要がなくなる。また、請求 項 1記載の発明では、検索手段による検索によって抽出された自然文と原文との一 致度を求め、求めた一致度に基づいて自然文を選択することで適切な対訳を得るこ とができるので、従来の機械翻訳における品詞判断や構文解析等の複雑な処理を 行う必要がなくなり、処理を簡略ィ匕することができる。
[0016] なお、請求項 1記載の発明では、記憶手段に自然文と対訳文を記憶するので、原 文と完全一致する自然文が記憶手段に記憶されて 、る可能性もある。これを考慮す ると、例えば請求項 2に記載したように、検索手段は、記憶手段に記憶されている原 言語の複数の自然文の中から原文と完全一致して!、る自然文も検索し、第 1の対訳 判断手段は、検索手段による検索によって原文と完全一致している自然文が抽出さ れた場合に、当該完全一致している自然文の対訳文を原文の対訳文と判断すること が好ましい。これにより、原文と完全一致する自然文が記憶手段に記憶されていた場 合に、原文の対訳文を得ることができる。
[0017] また、請求項 1記載の発明において、検索によって抽出された自然文と原文との一 致度は、例えば以下のようにして求めることができる。すなわち、請求項 3記載の発明 は、請求項 1記載の発明において、第 1の対訳判断手段は、検索手段による検索に よって抽出された自然文と原文との一致単語数を計数し、計数した一致単語数が多 くなるに従って原文との一致度が高くなるように、原文との一致度を評価することを特 徴としている。一致単語数は自然文と原文との一致度を表す重要な指標であり、一 致単語数が多くなるに従って一致度が高くなるように一致度を評価することで、該ー 致度に基づいて原文に近い自然文を精度良く選択することができる。
[0018] また、請求項 3記載の発明にお 、て、一致度としては、例えば計数した一致単語数 をそのまま用いることも可能である力 例えば請求項 4に記載したように、計数した一 致単語数を、翻訳対象語句を構成する単語数で除した値を求め、求めた値を一致 度として用いることが好ましい。これにより、本発明に係る一致度が、一致単語数を、 翻訳対象語句を構成する単語数を基準として正規化した値になるので、この一致度 を用いることで、翻訳対象語句を構成する単語数の多少に拘わらず、原文に近い自 然文をより精度良く選択することができる。なお、一致単語数の計数にあたり、一致単 語が翻訳対象語句を構成する単語かそれ以外の単語かを判別しておき、翻訳対象 語句を構成する単語の一致単語数とそれ以外の単語の一致単語数に異なる重み( 翻訳対象語句を構成する単語の方が重みが大きくなるように設定した重み)を乗じて 加算した値 (一致単語数評価値)を一致単語数として用いるようにしてもよ!ヽ。
[0019] また、請求項 3記載の発明において、第 1の対訳判断手段は、請求項 5に記載した ように、検索手段による検索によって抽出された自然文と原文との不一致単語数も計 数し、計数した不一致単語数が少なくなるに従って原文との一致度が高くなるように 、原文との一致度を評価するようにしてもよい。不一致単語数も一致単語数と並んで 自然文と原文との一致度を表す重要な指標であり、請求項 3に記載の一致単語数に 加えて上記の不一致単語も用い、不一致単語数が少なくなるに従って一致度が高く なるように一致度を評価することで、自然文と原文との一致度評価の正確性を更に向 上させることができる。
[0020] ところで、本発明では記憶手段に自然文を記憶するので、請求項 3記載の発明に おいて、例えば英文における" a","the","to","in"等のように、原言語の自然文中に頻 出する単語を一致単語と判断してしまうと、これらの頻出単語が多く含まれている原 文については、頻出単語の影響により、実際には原文に近くない自然文が一致度の 高い自然文として誤選択される可能性がある。これを考慮すると、第 1の対訳判断手 段は、例えば請求項 6に記載したように、一致単語数の計数に際し、予め定められた 頻出単語を計数対象力 除外することが好ましい。これにより、頻出単語が一致単語 数に及ぼす影響を排除することができ、一致単語数を、自然文と原文との一致度をよ り正確に反映する指標として用いることができる。
[0021] また、請求項 3又は請求項 5記載の発明において、第 1の対訳判断手段は、例えば 請求項 7に記載したように、一致単語数又は不一致単語数の計数に際し、単複又は 時制の相違に起因して語尾が相違している単語を一致単語とみなして計数すること が好ましい。単複又は時制の相違に起因して語尾が相違している単語は、例えば該 単語を別途テーブルに登録しておき、語尾のみが不一致の単語については前記テ 一ブルに登録されているカゝ否かを判断する等によって認識することができる。これに より、本来は一致単語とみなすべき、単複又は時制の相違に起因して語尾が相違し ている単語が、一致単語数や不一致単語数に及ぼす影響を排除することができ、一 致単語数や不一致単語数を、自然文と原文との一致度をより正確に反映する指標と して用いることができる。なお、英文等における単語の大文字と小文字の相違等も一 致単語とみなすことが好ま 、。
[0022] また、請求項 3記載の発明にお 、て、第 1の対訳判断手段は、例えば請求項 8に記 載したように、一致単語数の計数に際し、複数回出現した一致単語を重複計数しな いことが好ましい。これにより、複数回出現した一致単語が一致単語数に及ぼす影響 を排除することができ、一致単語数を、自然文と原文との一致度をより正確に反映す る指標として用いることができる。また、上記のように重複計数しないことに代えて、複 数回出現した一致単語を予め定めた n (n≥ 2)回以上計数しな 、ようにしてもょ 、。
[0023] 更に、請求項 3又は請求項 5記載の発明において、第 1の対訳判断手段は、例え ば請求項 9に記載したように、検索手段による検索によって抽出された自然文と原文 との単語の並び順の類似度を評価し、単語の並び順の類似度が高くなるに従って原 文との一致度が高くなるように、原文との一致度を評価することが好ましい。自然文で は単語が同一であっても並び順によつて意味 (対訳)が相違する場合があるが、上記 のように単語の並び順の類似度を評価し、単語の並び順の類似度が高くなるに従つ て一致度が高くなるように一致度を評価することで、該一致度に基づいて原文に近い 自然文を精度良く選択することができる。
[0024] また、請求項 3又は請求項 5記載の発明にお 、て、第 1の対訳判断手段は、例えば 請求項 10に記載したように、検索手段による検索によって抽出された自然文におい て、原文との一致単語の間に存在する不一致単語数を計数し、計数した一致単語の 間に存在する不一致単語数が少なくなるに従って原文との一致度が高くなるように、 原文との一致度を評価することが好ましい。これにより、一致度の正確性が向上し、 該一致度に基づいて原文に近い自然文を精度良く選択することができる。
[0025] なお、記憶手段にどのような自然文 (及び対訳文)が記憶されているかによつても相 違するが、請求項 1記載の発明においても、例えば一致度が同一の自然文が複数抽 出された等、一致度のみでは原文に近 、適切な自然文を特定 (選択)することが困 難な場合も生じ得る。これを考慮すると、請求項 1記載の発明において、例えば請求 項 11に記載したように、検索手段による検索によって抽出された自然文に基づいて
、翻訳対象語句と原言語の同一の文中に出現する頻度の高い頻出語句を認識する 認識手段を更に設け、第 1の対訳判断手段は、検索手段による検索によって抽出さ れた自然文のうち、認識手段によって認識されかつ原文中に存在する特定の頻出語 句と、翻訳対象語句が各々含まれている自然文の対訳文を参照することで、翻訳対 象語句及び特定の頻出語句が各々含まれる自然文の対訳文における翻訳対象語 句についての高頻度の対訳を認識し、認識した高頻度の対訳を、原文中の翻訳対 象語句の対訳と判断することが好まし 、。
[0026] 翻訳対象語句と原言語の同一の文中に出現する頻度 (コリレーションと 、う)の高 、 特定の頻出語句が原文中に存在している場合、翻訳対象語句の対訳は、翻訳対象 語句及び特定の頻出語句が各々含まれて 、る自然文の対訳文における翻訳対象語 句の対訳に一致している可能性が高い。但し、翻訳対象語句及び特定の頻出語句 が各々含まれている自然文の対訳文における翻訳対象語句の適切な対訳は同じで ある可能性が高いものの、記憶手段に記憶されている上記の自然文の中に、翻訳対 象語句の適切な対訳が相違している自然文が混在している可能性もある。上記に基 づき請求項 11記載の発明では、翻訳対象語句とのコリレーションの高い頻出語句を 認識し、認識した頻出語句のうち原文中に存在する特定の頻出語句と、翻訳対象語 句が各々含まれている自然文の対訳文を参照することで、翻訳対象語句及び特定 の頻出語句が各々含まれる自然文の対訳文における翻訳対象語句にっ 、ての高頻 度の対訳を認識し、認識した高頻度の対訳を、原文中の翻訳対象語句の対訳と判 断するので、一致度のみでは適切な自然文を特定 (選択)することが困難な場合にも 、頻出語句に基づいて、原文中の翻訳対象語句の適切な対訳 (原文から目的言語 の文として自然な対訳文が得られる可能性の高 、対訳)を得ることができる。
[0027] 訳文選択の際の前後の文脈の判断は、状況に応じて無数に存在し、事前に特定 することは困難であるが、請求項 11記載の発明(及び後述する請求項 14記載の発 明)では、同じ文章の中で動じに出現する確率の高い語句に着目し、その語句と翻 訳対象語句が同時に出現する自然文の対訳文を参照することで、翻訳対象語句に ついての対訳を判断するので、原文の前後の文脈を認識することなぐ結果として多 義語についても、おおよそ前後の文脈を踏まえた上での適切な対訳を得ることができ る。
[0028] なお、上記の頻出語句の認識は、例えば原言語の同一の文中に出現する頻度の 高 、語句同士をテーブルに登録しておき、該テーブルを参照することで行うことも可 能であるが、請求項 11記載の発明では、検索手段による検索によって抽出された自 然文に基づ ヽて頻出語句を認識して ヽるので、上記のテーブル作成の手間が省け ると共に、テーブルを記憶するために必要となる記憶容量を節減できる、という効果も 得られる。
[0029] また、請求項 1記載の発明において、例えば請求項 12に記載したように、原文中に 存在しかつ検索手段による検索によって抽出された自然文中に含まれていない着目 語句と代替可能な代替語句を判断する判断手段を更に設け、第 1の対訳判断手段 は、検索手段による検索によって抽出された自然文のうち、判断手段によって判断さ れた代替語句及び翻訳対象語句が各々含まれて ヽる自然文の対訳文における少な くとも翻訳対象語句の対訳を、原文中の少なくとも翻訳対象語句の対訳と判断するこ とが好ましい。
[0030] 請求項 1記載の発明において、検索手段による検索により、原文中の特定の語句 が別の語句に入れ替わった自然文が抽出されることがあるが、このとき原文の意味と 自然文の意味が類似であれば、特定の語句と別の語句は代替可能な関係にあると 考えられる。そして、検索手段による検索によって、例えば原文との一致度が同一の 自然文が複数抽出された場合にも、その中に原文に対して特定の語句が代替可能 な関係にある別の語句(代替語句)に入れ替わつている自然文が存在している場合 には、この自然文は原文と意味が類似である可能性が高いので、この自然文を選択 することが望ましい。
[0031] これに対して請求項 12記載の発明では、原文中に存在しかつ検索手段による検 索によって抽出された自然文中に含まれて!/ヽな ヽ着目語句と代替可能な代替語句 を判断手段によって判断し、第 1の対訳判断手段は、検索手段による検索によって 抽出された自然文のうち、判断手段によって判断された代替語句及び翻訳対象語句 が各々含まれている自然文の対訳文における少なくとも翻訳対象語句の対訳を、原 文中の少なくとも翻訳対象語句の対訳と判断するので、一致度のみでは適切な自然 文を特定 (選択)することが困難な場合にも、代替語句の有無に基づいて、原文中の 翻訳対象語句の適切な対訳 (原文から目的言語の文として自然な対訳文が得られる 可能性の高 、対訳)を得ることができる。
[0032] なお、請求項 12記載の発明に係る判断手段による代替語句の判断は、例えば代 替可能な関係にある語句同士をテーブルに登録しておき、このテーブルを参照する ことで行うようにしてもよいが、例えば請求項 13に記載したように、着目語句を含む自 然文を記憶手段に記憶されている複数の自然文の中から検索し、該検索によって抽 出された自然文と同一の構文の自然文を記憶手段に記憶されて!、る自然文の中か ら検索し、該検索によって抽出された自然文中で着目語句と置き換わって!/ヽる語句 を代替語句と判断するようにしてもよい。この場合も、上記のテーブル作成の手間が 省けると共に、テーブルを記憶するために必要となる記憶容量を節減することができ る。
[0033] 語句自体に付随する背景知識についても、語句によって様々な性質のものが無数 に存在するので、事前にそれらを全て洗い出し、カテゴリーに応じて分類することは 困難である。請求項 12, 13記載の発明では、同じ構文の中で置き換え可能な語句 を同じカテゴリーの語句と判断するので、あらゆる語句の背景知識を認識しカテゴリ 一に応じて分類することなぐおおよそ語句自体に付随する背景知識を踏まえた上で の適切な対訳を得ることができる。
[0034] 請求項 14記載の発明に係る対訳判断装置は、複数の単語から成る原言語の自然 文を目的言語の対訳文と対応付けて複数記憶する記憶手段と、前記記憶手段に記 憶されている原言語の複数の自然文の中から、原言語の原文中の翻訳対象語句が 含まれている自然文を検索する検索手段と、前記検索手段による検索によって抽出 された自然文に基づいて、前記翻訳対象語句と原言語の同一の文中に出現する頻 度の高い頻出語句を認識する認識手段と、前記検索手段による検索によって抽出さ れた自然文のうち、前記認識手段によって認識されかつ前記原文中に存在する特定 の頻出語句と、前記翻訳対象語句が各々含まれている自然文の対訳文を参照する ことで、前記翻訳対象語句及び前記特定の頻出語句が各々含まれる自然文の対訳 文における翻訳対象語句についての高頻度の対訳を認識し、認識した高頻度の対 訳を、前記原文中の少なくとも前記翻訳対象語句の対訳と判断する第 2の対訳判断 手段と、を含んで構成されている。
[0035] 請求項 14記載の発明では、請求項 1記載の発明と同様の記憶手段及び検索手段 が設けられており、認識手段は、検索手段による検索によって抽出された自然文に 基づいて、翻訳対象語句と原言語の同一の文中に出現する頻度の高い頻出語句を 認識し、第 2の対訳判断手段は、検索手段による検索によって抽出された自然文のう ち、認識手段によって認識されかつ原文中に存在する特定の頻出語句と、翻訳対象 語句が各々含まれている自然文の対訳文を参照することで、翻訳対象語句及び特 定の頻出語句が各々含まれる自然文の対訳文における翻訳対象語句にっ 、ての高 頻度の対訳を認識し、認識した高頻度の対訳を、原文中の翻訳対象語句の対訳と 判断する。これにより、請求項 11記載の発明と同様に、記憶手段に記憶され、かつ 翻訳対象語句及び特定の頻出語句が各々含まれて ヽる自然文の中に、翻訳対象語 句の適切な対訳が相違している自然文が混在していた場合にも、この影響を受ける ことなぐ原文中の翻訳対象語句の適切な対訳 (原文から目的言語の文として自然な 対訳文が得られる可能性の高 、対訳)を得ることができる。
[0036] また、請求項 1又は請求項 14記載の発明において、翻訳対象語句は複数の単語 力も構成されていてもよいが、翻訳対象語句を構成する単語数が多くなつてくると、 検索手段が検索を行っても翻訳対象語句が全て含まれている自然文が抽出されな い事態が生ずる可能性もある。これを考慮すると、例えば請求項 15に記載したように 、翻訳対象語句が複数の単語から成る場合、検索手段は、記憶手段に記憶されてい る原言語の複数の自然文の中から、翻訳対象語句を構成する複数の単語のうちの 少なくとも 1つが含まれている自然文を検索する (すなわち、翻訳対象語句が全て含 まれて 、る自然文及び翻訳対象語句の一部が含まれて!/、る自然文を各々検索する) ことが好ましい。これにより、翻訳対象語句として多数の単語から成る語句が指定され たことで、翻訳対象語句が全て含まれて!/、る自然文が記憶手段に記憶されて!、なか つた場合にも、検索手段による検索により、少なくとも翻訳対象語句の対訳を推定可 能な自然文 (対訳文)を得ることができる。
[0037] 請求項 16記載の発明に係る対訳判断方法は、 目的言語の対訳文と対応付けて記 憶手段に複数記憶されている、各々複数の単語から成る原言語の自然文の中から、 原言語の原文中の翻訳対象語句が含まれている自然文を検索する第 1のステップ、 及び、前記第 1のステップにおける検索によって抽出された自然文と前記原文との一 致度を求め、求めた一致度に基づいて選択した自然文の対訳文における少なくとも 前記翻訳対象語句の対訳を、原文中の前記翻訳対象語句の対訳と判断する第 2の ステップを含んでいるので、請求項 1記載の発明と同様に、原文中の翻訳対象語句 の適切な対訳 (原文から目的言語の文として自然な対訳文が得られる可能性の高 ヽ 対訳)を得ることができる。
[0038] 請求項 17記載の発明に係る対訳判断方法は、 目的言語の対訳文と対応付けて記 憶手段に複数記憶されている、各々複数の単語から成る原言語の自然文の中から、 原言語の原文中の翻訳対象語句が含まれている自然文を検索する第 1のステップ、 前記第 1のステップにおける検索によって抽出された自然文に基づいて、前記翻訳 対象語句と原言語の同一の文中に出現する頻度の高い頻出語句を認識する第 2の ステップ、前記第 1のステップにおける検索によって抽出された自然文のうち、前記第 2のステップで認識されかつ前記原文中に存在する特定の頻出語句と、前記翻訳対 象語句が各々含まれている自然文の対訳文を参照することで、前記翻訳対象語句 及び前記特定の頻出語句が各々含まれる自然文の対訳文における翻訳対象語句 についての高頻度の対訳を認識し、認識した高頻度の対訳を、原文中の前記翻訳 対象語句の対訳と判断する第 3のステップを含んで 、るので、請求項 14記載の発明 と同様に、原文中の翻訳対象語句の適切な対訳 (原文から目的言語の文として自然 な対訳文が得られる可能性の高 、対訳)を得ることができる。
[0039] 請求項 18記載の発明に係るプログラムは、複数の単語から成る原言語の自然文を 目的言語の対訳文と対応付けて複数記憶する記憶手段と接続されたコンピュータを 、前記記憶手段に記憶されている原言語の複数の自然文の中から、原言語の原文 中の翻訳対象語句が含まれている自然文を検索する検索手段、及び、前記検索手 段による検索によって抽出された自然文と前記原文との一致度を求め、求めた一致 度に基づ 、て選択した自然文の対訳文における少なくとも前記翻訳対象語句の対 訳を、前記原文中の少なくとも前記翻訳対象語句の対訳と判断する第 1の対訳判断 手段、として機能させる。
[0040] 請求項 18記載の発明に係るプログラムは、複数の単語から成る原言語の自然文を 目的言語の対訳文と対応付けて複数記憶する記憶手段と接続されたコンピュータ( 記憶手段を内蔵して 、るコンピュータであってもよ 、し、記憶手段と接続された別のコ ンピュータと通信回線を介して接続されて 、るコンピュータであってもよ ヽ)を、上記 の検索手段及び第 1の対訳判断手段として機能させるためのプログラムであるので、 上記コンピュータが請求項 18記載の発明に係るプログラムを実行することにより、コ ンピュータが請求項 1に記載の対訳判断装置として機能することになり、請求項 1記 載の発明と同様に、原文中の翻訳対象語句の適切な対訳 (原文から目的言語の文と して自然な対訳文が得られる可能性の高 、対訳)を得ることができる。
[0041] 請求項 19記載の発明に係るプログラムは、複数の単語から成る原言語の自然文を 目的言語の対訳文と対応付けて複数記憶する記憶手段と接続されたコンピュータを 、前記記憶手段に記憶されている原言語の複数の自然文の中から、原言語の原文 中の翻訳対象語句が含まれている自然文を検索する検索手段、前記検索手段によ る検索によって抽出された自然文に基づ 、て、前記翻訳対象語句と原言語の同一 の文中に出現する頻度の高い頻出語句を認識する認識手段、及び、前記検索手段 による検索によって抽出された自然文のうち、前記認識手段によって認識されかつ 前記原文中に存在する特定の頻出語句と、前記翻訳対象語句が各々含まれて!/ヽる 自然文の対訳文を参照することで、前記翻訳対象語句及び前記特定の頻出語句が 各々含まれる自然文の対訳文における翻訳対象語句につ!ヽての高頻度の対訳を認 識し、認識した高頻度の対訳を、前記原文中の前記翻訳対象語句の対訳と判断す る第 2の対訳判断手段として機能させる。
[0042] 請求項 19記載の発明に係るプログラムは、複数の単語から成る原言語の自然文を 目的言語の対訳文と対応付けて複数記憶する記憶手段と接続されたコンピュータ( 記憶手段を内蔵して 、るコンピュータであってもよ 、し、記憶手段と接続された別のコ ンピュータと通信回線を介して接続されて 、るコンピュータであってもよ ヽ)を、上記 の検索手段、認識手段及び第 2の対訳判断手段として機能させるためのプログラム であるので、上記コンピュータが請求項 19記載の発明に係るプログラムを実行するこ とにより、コンピュータが請求項 14に記載の対訳判断装置として機能することになり、 請求項 14記載の発明と同様に、原文中の翻訳対象語句の適切な対訳 (原文から目 的言語の文として自然な対訳文が得られる可能性の高 、対訳)を得ることができる。 発明の効果
[0043] 以上説明したように本発明は、記憶手段に記憶されている原言語の複数の自然文 の中から、原言語の原文中の翻訳対象語句が含まれている自然文を検索し、該検索 によって抽出された自然文と原文との一致度を求め、求めた一致度に基づいて選択 した自然文の対訳文における少なくとも翻訳対象語句の対訳を、原文中の少なくとも 翻訳対象語句の対訳と判断するので、原言語の原文から目的言語の文として自然な 対訳文が得られる可能性の高い、原文中の翻訳対象語句の適切な対訳を得ることが できる、という優れた効果を有する。
[0044] また本発明は、記憶手段に記憶されている原言語の複数の自然文の中から、原言 語の原文中の翻訳対象語句が含まれている自然文を検索し、該検索によって抽出さ れた自然文に基づいて、翻訳対象語句と原言語の同一の文中に出現する頻度の高 い頻出語句を認識し、原文中に存在する特定の頻出語句と翻訳対象語句が各々含 まれている自然文の対訳文を参照することで、翻訳対象語句及び特定の頻出語句 が各々含まれる自然文の対訳文における翻訳対象語句にっ 、ての高頻度の対訳を 認識し、認識した高頻度の対訳を、原文中の前記翻訳対象語句の対訳と判断するの で、原言語の原文から目的言語の文として自然な対訳文が得られる可能性の高 、、 原文中の翻訳対象語句の適切な対訳を得ることができる、という優れた効果を有する 図面の簡単な説明
[0045] [図 1]本実施形態に係る PCの概略構成を示すブロック図である。
[図 2]対訳判断処理の内容を示すフローチャートである。
[図 3]対訳 DBに登録されて 、る〃 operation"を含む自然文と対訳文の一例を示す図 表である。
[図 4]ネットワークを介してクライアント PCとサーバ'コンピュータが接続されたコンビュ ータ 'システムに本発明を適用した態様を説明するためのブロック図である。
[図 5]本発明を適用した機械翻訳装置の概略構成の一例を示すブロック図である。 発明を実施するための最良の形態
[0046] 以下、図面を参照して本発明の実施形態の一例を詳細に説明する。なお、以下で は、まずユーザカゝら翻訳対象語句が指定されると、指定された翻訳対象語句の対訳 をユーザに提示する電子辞書装置に本発明を適用した態様について説明する。
[0047] 図 1には、上記の電子辞書装置として機能することが可能なパーソナル'コンビユー タ(PC) 10が示されている。 PC10は CPU10A、 ROM10B、 RAMIOC及び入出力 ポート 10Dを備えており、これらがデータバス、アドレスバス、制御バス等力 成るバ ス 10Eを介して互いに接続されて構成されている。また入出力ポート 10Dには、各種 の入出力機器として、 CRTや LCD等力も成るディスプレイ 12、ユーザがデータ等を 入力するためキーボード 14、マウス 16、ハードディスクドライブ(HDD) 18、 CD— RO M24力ものデータの読み出しを行う CD— ROMドライブ 20、及び紙原稿等の読み取 りが可能なスキャナ 22が各々接続されて!ヽる。
[0048] PC10には、 PC10を電子辞書装置として機能させるための対訳判断プログラム (請 求項 18及び請求項 19に記載のプログラムに相当)が HDD18にインストールされて おり、この HDD18には、前記対訳判断プログラムが対訳判断に用いるためのデータ が記憶された対訳データベース (対訳 DB)も記憶されて 、る。対訳判断プログラムを PC10にインストール (移入)するには幾つかの方法がある力 例えば対訳判断プロ グラムをセットアッププログラムと共に CD— ROM24に記録しておき、該 CD— ROM2 4を CD— ROMドライブ 20にセットし、 CPU10Aに対して前記セットアッププログラム の実行を指示すれば、 CD— ROM24から対訳判断プログラムが順に読み出され、読 み出された対訳判断プログラムが HDD18に順に書き込まれることで、対訳判断プロ グラムのインストールが行われる。
[0049] また、対訳 DBにつ 、ても、例えば予め CD— ROM24に記録しておき、対訳判断プ ログラムのインストール時に同時に HDD18に書き込まれるようにセットアッププログラ ムを構成することで、 HDD18に記憶させることができる。対訳 DBには、複数の単語 から成り原言語で記述された自然文 (単語単位での分割や多義語の抽出等の編集 · 加工を行っていない文、文節、連語、定型表現、コロケーションの何れか、具体例は 後述する)のテキストデータが、 目的言語で記述された対訳文 (この対訳文も単語単 位での分割や多義語の抽出等の編集'加工を行っていない自然文である)のテキス トデータと対応付けられて多数登録されており、この態様において、対訳 DBを記憶 する HDD 18は本発明に係る記憶手段に対応して 、る。
[0050] なお、対訳 DBは、 CD— ROM24や DVD— ROM等の記録媒体に記録しておき、こ の記録媒体力 直接データを読み出すことで利用することも可能であり、この態様で は対訳 DBが記録されて 、る記録媒体が本発明に係る記憶手段として機能すること になる。また、本実施形態に係る対訳 DBには、原言語の単語と目的言語の対訳も対 応付けられて登録されている。本実施形態に係る対訳 DBは、例えば原言語の単語 と目的言語の対訳が対応付けられた既存の辞書に、自然文とその対訳文を適宜追 カロして 、くことで作成することができる。
[0051] 次に本実施形態の作用を説明する。本実施形態において、原言語で記述された原 文の中に目的言語での対訳を知りた 、語句 (翻訳対象語句:単語でもよ 、し、原文 中の連続する複数の単語から成る語句であってもよ ヽ)が存在して ヽることを認識し た場合、ユーザは PC10を介して原文中の翻訳対象対象語句の対訳の出力を指示 する所定の操作を行う。なお、原文としては、 PC10にテキストデータとして読み込ま れているテキスト(例えばユーザがキーボード 14を介して入力したテキスト、ワープロ' ソフトによって作成されたテキスト、インターネットを介して閲覧中のウェブページ内の テキスト、文字原稿をスキャナによって読み取り OCR (Optical Character Recognition :光学的手法による文字認識)処理を経て得られたテキスト等)を適用することができ る。
[0052] また、上記の所定の操作としては、例えばディスプレイ 12に原文が表示されている 状態で、翻訳対象語句を選択することで翻訳対象語句を反転表示させた後に、翻訳 対象語句を右クリックすることで表示されるコンテキストメ-ユー内の「対訳出力」に相 当する項目を選択する等の操作を適用することができる。また、上記のようにコンテキ ストメニューを利用することに代えて、例えばツールバー内に表示されている所定の アイコンを選択する等の操作を行うことで、翻訳対象対象語句の対訳の出力を指示 可能とすることも可能である。翻訳対象語句の対訳の出力を指示する上記のような操 作が行われると、 PC10の CPU10Aによって対訳判断プログラムが実行されることで 、図 2に示す対訳判断処理が行われる。なお、この対訳判断処理は請求項 16及び 請求項 17に記載の対訳判断方法が適用された処理であり、この処理を行うことで PC 10は電子辞書装置 (請求項 1及び請求項 14に記載の対訳判断装置)として機能す る。
[0053] 対訳判断処理では、まずステップ 100にお ヽて、指定された翻訳対象語句を含む 単一の原文 (処理対象の原文)のテキストデータを取り込むと共に、取り込んだ処理 対象の原文中の翻訳対象語句を識別する情報を取り込む。なお、処理対象の原文 は、翻訳対象語句を含む文であってもよいし、翻訳対象語句を含む文節、連語、定 型表現、コロケーションの何れであってもよいが、文節、連語、定型表現、コロケーシ ヨンの何れかを処理対象の原文とする場合、処理対象の原文としての文節、連語、定 型表現、コロケーションは、ユーザによって指定させるようにしてもよいし、対訳判断 処理で自動的に判断することも可能である。
[0054] 次のステップ 102では、ステップ 100で取り込んだ処理対象の原文のテキストデー タをキーにして、対訳 DBに登録されている自然文の中から処理対象の原文と完全 一致している自然文を検索すると共に、翻訳対象語句のテキストデータをキーにして 、対訳 DBに登録されて 、る自然文の中から翻訳対象語句が含まれて!/、る自然文( 少なくとも翻訳対象語句が含まれて!/、ることで原文と部分一致して!/、る自然文)を検 索する。また、翻訳対象語句が複数の単語から構成されている場合には、翻訳対象 語句を構成する複数の単語のうちの少なくとも 1つが含まれている自然文も同時に検 索される。なお、ステップ 102は、請求項 1 (詳しくは請求項 2及び請求項 15)、請求 項 14, 18, 19に記載の検索手段に対応しており、請求項 16, 17に記載の第 1のス テツプにも対応している。次のステップ 104以降は請求項 1, 18に記載の第 1の対訳 判断手段に対応している。
[0055] ステップ 104では、ステップ 102の検索により処理対象の原文と完全一致している 自然文が対訳 DBから抽出された力否か判定する。この判定が肯定された場合はス テツプ 106へ移行し、処理対象の原文と完全一致している自然文と対応付けられて 対訳 DBに登録されている目的言語の対訳文を読み出してディスプレイ 12に表示し 、処理を終了する。なお、この対訳文の表示に際しては、読み出した対訳文上での 翻訳対象語句の対訳が認識され、認識された翻訳対象語句の対訳が強調表示され る。この場合、ユーザは指定した翻訳対象語句の適切な対訳 (原文から目的言語の 文として自然な対訳文が得られる可能性の高 、対訳)を認識できると共に、指定した 翻訳対象語句を含む処理対象の原文の適切な対訳文(目的言語の文として自然な 対訳文)を認識することができる。なお、上記のステップ 104, 106は請求項 2に記載 の第 1の対訳判断手段に対応して!/、る。
[0056] (例 1)上記処理について、実例を挙げて更に説明する。原言語が英語、目的言語 が日本語であり、翻訳対象語句として、
For your safety, don t rush into the train.
という処理対象の原文に含まれる〃 For your safety〃が指定された場合、通常の翻訳 プロセスでは、原言語と対訳を単語単位で登録しているので、上記の翻訳対象語句 を構成する単語" safety〃に対しては対訳「安全」が選択される。しかし、本実施形態に 係る対訳判断処理では、対訳 DBに原言語の自然文と目的言語の対訳文を対応付 けて登録して 、るので、上記の原文と完全一致して 、る自然文が対訳 DBに登録さ れている可能性がある。そして、完全一致している自然文が対訳 DBに登録されてい た場合、当該自然文と対応付けられて対訳 DBに登録されている対訳文が、以下の ように翻訳対象語句の対訳が強調表示されて出力される。
「危険ですから、駆け込み乗車はおやめ下さい。」 通常の翻訳プロセスでは、単語" safety"の対訳として「危険」を選択することは困難で あり、「あなたの安全のため、その列車に駆け込まないでください。」等の不自然な対 訳文しか得られな 、が、本発明によれば母語として自然な対訳文が得られる。
[0057] なお、ステップ 106における対訳文の表示において、処理対象の原文と完全一致 している自然文にカ卩えて、ステップ 102の検索によって抽出された処理対象の原文と 部分一致して!/ヽる自然文も併せて表示するようにしてもよ!ヽ。処理対象の原文と部分 一致している自然文は検索によって通常複数抽出されるが、これらを表示する場合 には、処理対象の原文の部分一致している個々の自然文に対して次に述べる一致 度を各々演算し、各自然文の対訳文を一致度の降順にディスプレイ 12に表示するこ とが好ましい。
[0058] 一方、ステップ 102の検索により処理対象の原文と完全一致して 、る自然文が対訳 DB力も抽出されなかった場合には、ステップ 104の判定が否定されてステップ 108 へ移行し、ステップ 102の検索により対訳 DBから抽出された各自然文 (処理対象の 原文と部分一致して!/、る各自然文)につ 、て、自然文の各単語のうち原文中の何れ かの単語と一致する単語の数(一致単語数)を各々計数し、一致単語数の計数結果 に基づ!、て原文との一致度を各々演算する。
[0059] なお、本実施形態では、対訳判断プログラムのインストール時に、原言語の自然文 中に頻出する単語 (例えば英語の自然文における V,"the","t0","in"等)が登録され た頻出単語テーブルも HDD18に記憶される。そして、ステップ 108における一致単 語数の計数は頻出単語テーブルを参照しながら行われ、頻出単語テーブルに登録 されている単語は一致単語数の計数対象カゝら除外される。これにより、頻出単語が一 致単語数に及ぼす影響を排除することができる。なお、ステップ 108における上記処 理は請求項 6に記載の第 1の対訳判断手段に対応して!/、る。
[0060] また、本実施形態では、対訳判断プログラムのインストール時に、単複又は時制の 相違により語尾が相違している単語が登録された語尾変化単語テーブルも HDD18 に記憶される。そして、ステップ 108における一致単語数の計数では、語尾のみが不 一致の単語が出現した場合に、語尾変化単語テーブルが参照されることで、語尾の 不一致が単複又は時制の相違によるもの力否かが判断され、単複又は時制の相違 により語尾が相違している単語は一致単語とみなして計数される。なお、非定型の語 尾変化のみ語尾変化単語テーブルに登録し、定型の語尾変化 (例えば英単語にお ける複数形の" s〃や過去形の "ed"等)は自動的に一致単語と判断するようにしてもよ い。これにより、単複又は時制の相違により語尾が相違している単語 (本来は一致と みなすべき単語)がー致単語数に及ぼす影響も排除することができる。なお、ステツ プ 108における上記処理は請求項 7に記載の第 1の対訳判断手段に対応して 、る。
[0061] また、本実施形態では、ステップ 108における一致単語数の計数に際し、原文中の 何れかの単語と一致したことで一致単語数に一旦計上した単語は、自然文中に再度 出現したとしても一致単語数に計上しないことにより、複数回出現した一致単語を重 複計数しないようにしている。これにより、同一の一致単語が自然文中の複数箇所に 存在していた場合にも、この一致単語が一致単語数に及ぼす影響を排除することが できる。なお、ステップ 108における上記処理は請求項 8に記載の第 1の対訳判断手 段に対応している。
[0062] また、一致度の演算式は、一致単語数が多くなるに従って一致度が高くなるように 定めることができ、例えば一致単語数を、翻訳対象語句を構成する単語数で正規ィ匕 する演算式 (一致度 =一致単語数 ÷翻訳対象語句を構成する単語数)を用いること ができる。上記のステップ 108は請求項 3 (詳しくは請求項 4)に記載の第 1の対訳判 断手段に対応している。
[0063] 次のステップ 110では、各自然式につ!、て演算した一致度を比較することで、一致 度が最大の自然文が複数存在して 、る力否か判定する。判定が否定された場合に はステップ 112へ移行し、一致度最大の自然文と対応付けられて対訳 DBに登録さ れている目的言語の対訳文を読み出し、読み出した対訳文上での翻訳対象語句の 対訳を認識し、認識された翻訳対象語句の対訳が強調表示されるように、読み出し た対訳文をディスプレイ 12に表示して処理を終了する。この場合、ユーザは指定した 翻訳対象語句の適切な対訳 (原文から目的言語の文として自然な対訳文が得られる 可能性の高 、対訳)を認識することができる。
[0064] なお、ステップ 112では、ステップ 102の検索によって抽出された自然文のうち、一 致度が最大の自然文以外に、一致度の降順に複数の自然文 (一致度の降順に一定 数の自然文、或いは一致度が所定値以上の全ての自然文)の対訳文も対訳 DBから 読み出し、ディスプレイ 12に併せて一覧表示する。また、一致度が同一の自然文が 複数存在していた場合には、各自然文における原文との不一致単語数を計数し、対 訳文の一覧表示に際して、一致度が同一の自然文に対応する対訳文を、対応する 自然文における不一致単語数の昇順 (少な 、順)に表示する。
(例 2)上記処理について実例を挙げて更に説明する。原言語が英語、目的言語が 日本語であり、翻訳対象語句として、
fhe system suddenly came into operation.
と!ヽぅ処理対象の原文に含まれる〃 operation〃が指定されると共に、翻訳対象語句 "operation"を含む自然文として図 3に示す自然文 (1)一 (8)が対訳文 (1)一 (8)と対応付 けられて対訳 DBに登録されて 、た場合、図 3に示す自然文 (3)以外は原文との一致 単語数が「1」で一致度が 100%、(自然文 (2)の〃 operations"も前述のように一致単語 として計数される)、自然文 (3)は原文との一致単語数が「4」(単語〃 the〃は頻出として 一致単語数の計数対象から除外される)で一致度力 ^00%となるので、自然文 (3)と対 応付けられて対訳 DBに登録されて 、る対訳文 (3)が、以下のように翻訳対象語句の 対訳が強調表示されて出力される。
「システムが し始めた。」
(例 3)原言語が英語、目的言語が日本語であり、翻訳対象語句として、
A small business is exempt from the operation of tne new low.
と!ヽぅ処理対象の原文に含まれる〃 operation〃が指定されると共に、翻訳対象語句 "operation"を含む自然文として図 3に示す自然文 (1)一 (8)が対訳文 (1)一 (8)と共に対 訳 DBに登録されていた場合、自然文 (2)以外は原文との一致単語数力 S「l」で一致度 力 S100%、自然文 (2)は原文との一致単語数が「4」(単語 "the"は頻出単語として一致 単語数の計数対象から除外される)で一致度力 ^00%となるので、自然文 (2)と対応付 けられて対訳 DBに登録されて 、る対訳文 (2)が、以下のように翻訳対象語句の対訳 が強調表示されて出力される。
「新法の適 ffl」
英文における" operation"は多義語であり、適切な対訳の選択が困難な単語であるが 、上述した例 2及び例 3からも明らかなように、対訳 DBに自然文と対訳文を対応付け て登録しておき、一致度に基づいて自然文 (対訳文)の選択を行うことで、多義語を 原文と同じ意味で用いて 、る適切な自然文 (対訳文)を選択することができる。
[0066] (例 4)中国語の文は、中国語を熟知していないと意味の固まりが判別しにくぐ他の 言語の文への翻訳に際し、対訳を求めるべき単位を判断することが困難なことが多 い。これに対し、本実施形態に係る対訳判断処理では、対訳 DBに登録されている自 然文のうち、指定された翻訳対象語句が含まれている自然文を検索し (翻訳対象語 句が複数の単語から構成されて 、る場合は、翻訳対象語句を構成する複数の単語 のうちの少なくとも 1つが含まれている自然文も同時に検索し)、原文全体との一致度 が高い自然文の対訳文を (一致度最大の自然文以外の自然文の対訳文も)表示す るので、表示された対訳文を参照することで、ユーザが、原文上での対訳を求めるベ き単位と、その適切な対訳を同時に認識できる。
[0067] 例えば、原言語としての中国語の原文「発展中国家」を、目的言語としての日本語 に翻訳する場合を例にすると、翻訳対象語句として「発」「発展」「発展中」「発展中国 」「発展中国家」の何れが指定された場合にも、一致度に基づき以下の自然文の対 訳文が以下の順序で一覧表示される(なお、以下では翻訳対象語句として「発展中 国家」が指定された場合の一致度も併せて示すが、個々の一致度は翻訳対象語句と して指定された語句に応じて変化することは言うまでもな 、)。
1.「発展中国家」 =「発展途上国」 (一致単語数「5」、一致度 100%)
2.「発展中国」 =「中国を発展させる」 (一致単語数「4」、一致度 80%)
3.「発展中」 =「発展中の」 (一致単語数「3」、一致度 60%)
4.「発展」 =「発展する、発展させる」(一致単語数「2」、一致度 40%)
5.「発」 =「発する、出す」 (一致単語数「1」、一致度 20%)
これにより、ユーザは一覧表示された上記の対訳文を参照することで、原文上での 対訳を求めるべき単位 (この場合は「発展中国家」)と、その適切な対訳を同時に認 識することができる。
[0068] なお、原文力 ^発」で翻訳対象語句も「発」の場合、上記各自然文は一致単語数「1 」で一致度 100%になる力 不一致単語数が各々相違しているため、原文が「発展中 国家」の場合とは異なる以下の順序で表示される。
1.「発」 (不一致単語数「0」)
2.「発展」 (不一致単語数「1」)
3.「発展中」 (不一致単語数「2」)
4.「発展中国」 (不一致単語数「3」)
5.「発展中国家」(不一致単語数「4」)
同様に、原文が「発展」で翻訳対象語句が「発展」の場合にも、一致度及び不一致 単語数に基づき、原文力 ^発展中国家」や「発」の場合とは異なる以下の順序で表示 される。
1.「発展」 (一致単語数「2」、一致度 100%、不一致単語数「0」)
2.「発展中」 (一致単語数「2」、一致度 100%、不一致単語数「1」)
3.「発展中国」 (一致単語数「2」、一致度 100%、不一致単語数「2」)
4.「発展中国家」(一致単語数「2」、一致度 100%、不一致単語数「3」)
5.「発」 (一致単語数「1」、一致度 50%、不一致単語数「0」)
このように、翻訳対象語句が同一であっても原文が相違していれば原文に応じた適 切な順序で対訳文が一覧表示されるので、ユーザは対訳文の一覧表示結果を参照 することで、原文に応じた適切な対訳を認識することができる。
[0069] また、一致度が最大の自然文が複数存在して!/、た場合、ステップ 110の判定が肯 定されてステップ 114へ移行し、ステップ 114, 116において、翻訳対象語句と原言 語の同一の文中に出現する頻度の高い単語 (翻訳対象語句とのコリレーションの高 い単語:請求項 11, 14, 17, 19に記載の頻出語句に相当)に基づいて自然文を選 択するコリレーション解析を行う。
[0070] すなわち、ステップ 114では、ステップ 102の検索により対訳 DB力も抽出された各 自然文に対し、処理対象の原文中の翻訳対象語句以外の各単語 (但し、頻出単語 テーブルに登録されて 、る頻出単語は除外)が含まれて 、るか否かを検索すること で、翻訳対象語句と原言語の同一の文中に出現する頻度の高い単語 (翻訳対象語 句とのコリレーションの高 、単語)が処理対象の原文に含まれて 、るか否かを探索す る。この処理では、処理対象の原文中の翻訳対象語句以外の各単語のうち、例えば 各自然文中における出現回数が所定回( 1回でも複数回でもよ!ヽ)以上の単語を、翻 訳対象語句とのコリレーションの高い単語と判断することができる。なお、上記のステ ップ 114は請求項 11及び請求項 14, 19に記載の認識手段に対応しており、請求項 17に記載の第 2のステップにも対応して 、る。
[0071] 次のステップ 116では、ステップ 114における探索により翻訳対象語句とのコリレー シヨンの高 、単語が見つカゝつたカゝ否カゝ判定する。判定が肯定された場合はステップ 1 18へ移行し、ステップ 102の検索により対訳 DB力も抽出された各自然文のうち、翻 訳対象語句及びステップ 114で判断した翻訳対象語句とのコリレーションが高 、単 語 (処理対象の原文中に存在して!/ヽる単語)が各々含まれて!/ヽる自然文につ!/ヽて、 その対訳文を参照し、上記の自然文における翻訳対象語句についての高頻度の対 訳を判断する。なお、翻訳対象語句についての高頻度の対訳は、具体的には、翻訳 対象語句及び翻訳対象語句とのコリレーションが高!、単語が各々含まれて!/、る自然 文として単一の自然文が抽出された場合には、該自然文における翻訳対象語句の 対訳を高頻度の対訳と判断し、上記の自然文として複数の自然文が抽出された場合 には、これらの自然文における翻訳対象語句の対訳のうち最も出現頻度の高い対訳 を高頻度の対訳と判断することができる。
[0072] 上記のように、翻訳対象語句が含まれており、かつ翻訳対象語句とのコリレーション が高 、単語として処理対象の原文と同一の単語が含まれて 、る自然文が存在して ヽ る場合、当該自然文は翻訳対象語句を処理対象の原文と同じ意味で用いている文 である可能性が高いが、上記の自然文の中に、翻訳対象語句についての対訳が相 違している自然文が混在している可能性もある。これに対してステップ 118では、翻 訳対象語句及び翻訳対象語句とのコリレーションが高 、単語が各々含まれて!/、る自 然文の対訳文を参照して、上記の自然文における翻訳対象語句についての高頻度 の対訳を判断するので、処理対象の原文における翻訳対象語句の適切な対訳を得 ることがでさる。
[0073] そしてステップ 119では、翻訳対象語句及び翻訳対象語句とのコリレーションが高 い単語が各々含まれている自然文のうち、翻訳対象語句がステップ 118で認識した 高頻度の対訳と対応付けられている自然文と対応付けられて対訳 DBに登録されて いる目的言語の対訳文を読み出し、読み出した対訳文上での翻訳対象語句及び翻 訳対象語句とのコリレーションが高い単語の対訳が強調表示されるように、読み出し た対訳文をディスプレイ 12に表示して処理を終了する。この場合もユーザは指定し た翻訳対象語句の適切な対訳 (原文から目的言語の文として自然な対訳文が得られ る可能性の高い対訳)を認識することができる。なお、上記のステップ 116—ステップ 119は、請求項 11に記載の第 1の対訳判断手段、請求項 14, 19に記載の第 2の対 訳判断手段及び請求項 17に記載の第 3のステップに各々対応している。
[0074] なお、ステップ 119においても、ステップ 102の検索によって抽出された自然文のう ち、翻訳対象語句及び翻訳対象語句とのコリレーションが高い単語が各々含まれて おり、翻訳対象語句が認識した高頻度の対訳と対応付けられている自然文以外に、 一致度の降順に複数の自然文 (一致度の降順に一定数の自然文、或いは一致度が 所定値以上の全ての自然文)の対訳文も対訳 DBから読み出し、一致度及び不一致 単語数に応じた順序でディスプレイ 12に併せて一覧表示する。
[0075] (例 5)上記処理について実例を挙げて更に説明する。原言語が英語、 目的言語が 日本語であり、翻訳対象語句として、
1 haa an operation to remove a rectal cancer.
と!ヽぅ処理対象の原文に含まれる〃 operation〃が指定されると共に、翻訳対象語句 "operation"を含む自然文として図 3に示す自然文 (1)一 (8)及び他の自然文が各々対 訳文と共に対訳 DBに登録されて 、た場合、自然文 (6)ズ8)は何れも原文との一致単 語数が「2」であるので、一致度のみから最適な自然文 (対訳文)を選択することは困 難である。ここで、処理対象の原文中の翻訳対象語句〃 operation〃以外の各単語 (例 えば" remove","rectal","cancer"等)をキーにして翻訳対象語句" operation"を含む自 然文 (1)一 (8)を検索すると、自然文 (6)ズ8)に" cancer〃が含まれていることから、処理対 象の原文における翻訳対象語句〃 operation"とのコリレーションの高い単語として "cancer"が抽出される。
[0076] ここで、翻訳対象語句〃 operation"及びコリレーションが高!、単語" cancer"が含まれ て 、る自然文は翻訳対象語句〃 operation"を処理対象の原文と同じ意味で用いて ヽ る文である可能性が高いが、対訳 DBに登録されている上記の条件を満たす自然文 の中に、翻訳対象語句につ 、ての対訳が処理対象の原文と相違して!/、る自然文が 混在している可能性もある。本例では自然文 (8)がそれに該当する。自然文 (8)は翻訳 対象語句" operation"及びコリレーションが高 、単語" cancer"が含まれて 、るものの、 翻訳対象語句〃 operation〃の対訳が「操作」であるので、処理対象の原文と相違して いる。
[0077] このような自然文の影響による翻訳対象語句の対訳の誤判断を防止するために、 翻訳対象語句" operation"及びコリレーションが高!、単語" cancer"が含まれて!/、る自 然文の対訳文が参照される。そして、自然文 (6)以外にも、翻訳対象語句〃 operation" 及びコリレーションが高 、単語 "cancer〃が含まれ、翻訳対象語句" operation"が対訳「 手術」と対応付けられて ヽる自然文が対訳 DBに登録されて ヽることで、翻訳対象語 句" operation"及びコリレーションが高!、単語" cancer"が含まれて!/、る自然文におけ る翻訳対象語句〃 operation〃の高頻度の対訳は「手術」であると判断され、翻訳対象 語句〃 operation"及びコリレーションが高!、単語" cancer"が含まれており、翻訳対象語 句が判断した高頻度の対訳と対応付けられて 、る自然文 (6)が選択され、自然文 (6)と 対応付けられて対訳 DBに登録されて 、る対訳文 (6)が、以下のように翻訳対象語句 及びコリレーションの高い単語の対訳が強調表示されて出力される。
「ジョンさんの^ ffi後、彼の瘟は治った。」
従って、この例でも翻訳対象語句〃 operation"を原文と同じ意味で用いて 、る適切な 自然文 (対訳文)が選択される。
[0078] なお、図 3では説明を簡単にするために" operation"を含む自然文の数を抑制して いるが、実際にはより多くの自然文が登録されており、例えば処理対象の原文が翻 訳対象語句" operation"を「手術」の意味で用いている文である場合には、コリレーシ ヨンの高い単語として、処理対象の原文の内容に応じて" injury" (けが)、 "hospital"^ 院)等の単語が抽出され、例えば処理対象の原文が翻訳対象語句〃 operation"を「稼 働」の意味で用いている文である場合には、コリレーションの高い単語として、処理対 象の原文の内容に応じて" system" (システム)、 "computer" (コンピュータ)等の単語が 抽出され、例えば処理対象の原文が翻訳対象語句〃 operation"を「適用」の意味で用 いている文である場合には、コリレーションの高い単語として、処理対象の原文の内 容に応じて "low" (法)等の単語が抽出されることになる。
[0079] 一方、翻訳対象語句とのコリレーションの高い単語が抽出されな力つた場合には、 ステップ 116の判定が否定されてステップ 120へ移行し、ステップ 120— 134におい て、処理対象の原文中の翻訳対象語句以外の着目単語と代替可能な代替単語 (請 求項 12に記載の代替語句に相当)に基づ 、て自然文を選択するスキーム解析を行
[0080] すなわち、ステップ 120では処理対象の原文中に存在し、かつステップ 102の検索 により対訳 DBから抽出された各自然文中に存在しな 、単語 (着目単語と称する)を 判断する。ステップ 122では、対訳 DBに登録されている自然文の中から着目単語が 含まれている自然文を検索する。なお、着目単語が複数になる場合もあるが、この場 合は各着目単語についてステップ 122の検索を行う。またステップ 124では、ステツ プ 122の検索により抽出された各自然文中の着目単語のみが相違して 、る自然文( 請求項 13に記載の「着目語句を含む自然文の検索によって抽出された自然文と同 一の構文の自然文」に相当)を各々検索する検索条件を設定し、設定した検索条件 に基づき対訳 DBに登録されて 、る自然文の中から該当する自然文の検索を行う。
[0081] 次のステップ 126では、ステップ 124の検索によって該当する自然文が抽出された か否か判定する。着目単語が別の単語に入れ替わって 、る以外は同一の自然文が 対訳 DBに各々存在存在して ヽた場合、前記別の単語は着目単語に代えて使用可 能な代替単語である可能性が高い。このため、判定が肯定された場合はステップ 12 8へ移行し、検索により抽出された自然文において、着目単語と置き換わっている単 語を着目単語の代替単語と認識する。なお、上述したステップ 120— 130は請求項 1 2 (詳しくは請求項 13)に記載の判断手段に対応して 、る。
[0082] そしてステップ 130では、一致度最大 (これに代えて「一致度所定値以上」としても ょ 、)の複数の自然文の中に着目単語が代替単語に置き換わって 、る自然文が有る か否か判定する。一致度最大の複数の自然文の中に、処理対象の原文中に存在す る着目単語に代えて代替単語が含まれて ヽる自然文が存在して!/ヽた場合、当該自 然文は翻訳対象語句を処理対象の原文と同じ意味で用いている文である可能性が 高いと判断できる。このため、判定が肯定された場合はステップ 132へ移行し、一致 度最大 (これに代えて「一致度所定値以上」としてもよ!/、)でかつ着目単語に代えて 代替単語が含まれて!/ヽる自然文と対応付けられて対訳 DBに登録されて ヽる目的言 語の対訳文を読み出し、読み出した対訳文上での翻訳対象語句及び代替単語の対 訳を認識し、認識された翻訳対象語句の対訳が強調表示されると共に、代替単語の 対訳も代替単語であることが識別可能にマーキングされて表示されるように、読み出 した対訳文をディスプレイ 12に表示して処理を終了する。この場合もユーザは指定し た翻訳対象語句の適切な対訳 (原文から目的言語の文として自然な対訳文が得られ る可能性の高い対訳)を認識することができる。なお、上述したステップ 130、 132は 請求項 12に記載の第 1の対訳判断手段に対応して!/、る。
[0083] なお、ステップ 132においても、ステップ 102の検索によって抽出された自然文のう ち、一致度最大でかつ着目単語に代えて代替単語が含まれている自然文以外に、 一致度の降順に複数の自然文 (一致度の降順に一定数の自然文、或いは一致度が 所定値以上の全ての自然文)の対訳文も対訳 DBから読み出し、一致度及び不一致 単語数に応じた順序でディスプレイ 12に併せて一覧表示する。
[0084] (例 6)上記処理について実例を挙げて更に説明する。原言語が英語、目的言語が 日本語であり、 "have lunch〃を含む処理対象の原文における〃 have〃が翻訳対象語句 として指定された力 対訳 DBには "have breakfast"を含む自然文 (翻訳対象語句 "have〃を処理対象の原文と同じ意味で用いている自然文)は登録されているものの、 "have lunch〃を含む自然文は登録されておらず、一致度に基づく判定ゃコリレーショ ン解析によっても適正な対訳文を特定できな力つた場合には、処理対象の原文にお ける翻訳対象語句 ("have")や翻訳対象語句とのコリレーションが高 ヽと判断した単 語以外の各単語 (例えば "lunch"等)が着目単語とされ、各着目単語が含まれている 自然文が検索される。これにより、例えば着目単語 "lunch〃については、例えば" eat lunch"や" take a late lunch"を含む自然文が抽出される。
[0085] 次に、前記検索によって抽出された各自然文について、個々の自然文中の着目単 語のみが相違している自然文が各々検索される。これにより、例えば着目単語 "lunch"を含む自然文として抽出された自然文につ!、ては、着目単語のみが相違し ている自然文として、例えば" eat breakfast〃や" take a late breakfast〃を含む自然文 が抽出される。従って、単語〃 breakfast〃は着目単語〃 lunch〃と代替可能である可能性 の高 、代替単語であると判断できるので、最初の検索 (翻訳対象語句〃 have〃を含む 自然文の検索)で抽出された自然文のうち、着目単語〃 lunch〃が代替単語〃 breakfast" に入れ替わって 、る自然文("have breakfast〃を含む自然文)と対応付けられて対訳 DBに登録されて 、る対訳文が、翻訳対象語句〃 have〃の対訳(「食べる」 )が強調表 示されると共に、代替単語〃 breakfast〃の対訳(「朝食」)がマーキングされて出力され る。従って、この例でも翻訳対象語句〃 have"を処理対象の原文と同じ意味で用いて V、る適切な自然文 (対訳文)が選択される。
[0086] また、同様に〃 have cats〃を含む処理対象の原文における〃 have〃が翻訳対象語句と して指定された力 対訳 DBには" have dogs"を含む自然文は登録されているものの、 "have cats"を含む自然文は登録されておらず、一致度に基づく判定ゃコリレーション 解析によっても適正な対訳文を特定できな力つた場合にも、 "cats"等の単語が着目 単語とされ、上記と同様にして単語" dogs"が着目単語 "cats"と代替可能である可能 性の高 、代替単語であると判断されることで、最初の検索 (翻訳対象語句〃 have〃を含 む自然文の検索)で抽出された自然文のうち、着目単語 "cats"が代替単語 "dogs"に 入れ替わって 、る自然文("have dogs〃を含む自然文)と対応付けられて対訳 DBに 登録されて!ヽる対訳文が、翻訳対象語句〃 have〃の対訳(「飼う」)が強調表示されると 共に、代替単語" dogs"の対訳(「犬」)がマーキングされて出力されることになる。従つ て、この例でも翻訳対象語句 "have〃を処理対象の原文と同じ意味で用いて 、る適切 な自然文 (対訳文)が選択される。
[0087] (例 7)原言語が日本語、目的言語が英語であり、処理対象の原文「お湯をかける」 における「かける」が翻訳対象語句として指定された力 対訳 DBには「水をかける」と いう自然文 (翻訳対象語句「かける」を処理対象の原文と同じ意味で用いて 、る自然 文)は登録されているものの、「お湯をかける」は登録されておらず、例えば「電話をか ける」等、他の自然文も登録されているために、一致度に基づく判定ゃコリレーション 解析によっても適正な対訳文を特定できな力つた場合には、処理対象の原文におけ る「お湯」が着目単語とされ、着目単語が含まれて 、る自然文が検索される。これによ り、例えば「お湯につける」「お湯をわかす」「お湯を流す」「お湯で洗う」「お湯から引 き上げる」「お湯で温める」等の自然文が抽出される。
[0088] 次に、抽出された上記各自然文について、個々の自然文中の着目単語のみが相 違している自然文が各々検索される。そして、この検索の結果、上記各自然文につ いて、着目単語「お湯」と代替可能な代替単語として、各々以下のような単語が得ら れる。
「一につける。」 …「ソース」「しょうゆ」「水」「スーツケース」「腕」
「一わかす。」 …無し
「一を流す。」 …「電気」「水」「番組」「うわさ」
「一で洗う。」 …「シャンプー」「スポンジ」「塩水」「水」「石鹼」
「一から引き上げる。」…「水」「海底」「会議」「ゼロ」
「一で温める。」 · · ·「電子レンジ」「余熱」
上述した各単語のうち単語「水」は出現回数が多ぐまた「水をかける」という自然文 も存在しているので、処理対象の原文「お湯をかける」における着目単語「お湯」と代 替可能である可能性の高い代替単語であると判断できる。このため、最初の検索 (翻 訳対象語句〃かける〃を含む自然文の検索)で抽出された自然文のうち、着目単語「 お湯」が代替単語「水」に入れ替わって 、る自然文「水をかける」と対応付けられて対 訳 DBに登録されている対訳文が、以下のように、翻訳対象語句「かける」の対訳( "pour")が強調表示されると共に、代替単語「水」の対訳("water")がマーキングされ て出力される。
pour *water* into一
上記の対訳文において、 "は単語"…"が代替単語であることを表している。従 つて、この例でも翻訳対象語句「かける」を処理対象の原文と同じ意味で用いて 、る 適切な自然文 (対訳文)が選択される。
[0089] また、同様に処理対象の原文「3をかける」における「かける」が翻訳対象語句として 指定されたが、対訳 DBには「4をかける」という自然文 (翻訳対象語句「かける」を処 理対象の原文と同じ意味で用いて 、る自然文)は登録されて 、るものの、「3をかける 」は登録されておらず、一致度に基づく判定ゃコリレーション解析によっても適正な対 訳文を特定できな力つた場合には、「3」等の単語が着目単語とされ、上記と同様にし て単語「4」が着目単語「3」と代替可能である可能性の高!、代替単語であると判断さ れることで、最初の検索 (翻訳対象語句「かける」を含む自然文の検索)で抽出された 自然文のうち、着目単語「3」が代替単語「4」に入れ替わって 、る自然文「4をかける」 と対応付けられて対訳 DBに登録されて ヽる対訳文が、翻訳対象語句「かける」の対 訳("multiply")が強調表示されると共に、代替単語「4」の対訳("four")がマーキング されて出力されることになる。
multiply by *four*
従って、この例でも翻訳対象語句「かける」を処理対象の原文と同じ意味で用いて ヽ る適切な自然文 (対訳文)が選択される。
[0090] 一方、着目単語のみが相違している自然文の検索において該当する自然文が抽 出されなかった場合 (ステップ 126の判定が否定された場合)、又は、一致度最大の 複数の自然文の中に着目単語が代替単語に置き換わって 、る自然文が存在して ヽ な力つた場合 (ステップ 130の判定が否定された場合)には、最適な対訳文を特定す ることは困難であるため、ステップ 134へ移行し、ステップ 102の検索によって抽出さ れた全ての自然文、或!、は一致度の降順に複数の自然文 (一致度の降順に一定数 の自然文、或いは一致度が所定値以上の全ての自然文)と対応付けられて対訳 DB に登録されている対訳文を各々読み出し、読み出した個々の対訳文上での翻訳対 象語句の対訳を認識し、認識した翻訳対象語句の対訳を強調表示させた状態で、 個々の対訳文を一致度及び不一致単語数に応じた順序で一致度最大の各自然文 一致度の降順にディスプレイ 12に一覧表示して処理を終了する。この場合、ユーザ は指定した翻訳対象語句についての幾つかの適切な対訳候補を認識することがで きる。
[0091] なお、上記では一致単語数のみを用いて一致度を演算する態様を例に説明したが 、これに限定されるものではなぐ自然文と原文との一致単語数が多くなるに従って 一致度が高くなり、かつ自然文と原文との不一致単語数が少なくなるに従って一致 度が高くなるように一致度の演算式を定め、一致単語数及び不一致単語数に応じて 一致度を演算 ·評価するようにしてもょ 、。この態様は請求項 5記載の発明に対応し ている。また、当初は一致単語数のみに基づいて一致度の評価を行い、コリレーショ ン解析やスキーム解析を行っても単一の自然文 (対訳文)を選択することが困難な場 合に不一致単語数を計数し、原文との不一致単語数が最小の自然文 (の対訳文)を 選択するようにしてもよ ヽ。
[0092] また、一致度の評価に際し、上記の一致単語数や不一致単語数以外に、自然文と 原文との単語の並び順の類似度、或いは原文との一致単語の間に存在する自然文 中の不一致単語数も併用し、自然文と原文との単語の並び順の類似度が高くなるに 従って原文との一致度が高くなるように一致度を評価したり、一致単語の間に存在す る不一致単語数が少なくなるに従って原文との一致度が高くなるように一致度を評価 するようにしてもょ 、。自然文と原文との単語の並び順の類似度を用いる態様は請求 項 9記載の発明に対応しており、一致単語の間に存在する不一致単語数を用いるこ とは請求項 10記載の発明に対応して 、る。自然文と原文との単語の並び順の類似 度、及び原文との一致単語の間に存在する自然文中の不一致単語数も考慮した一 致度の評価は、具体的には、例えば以下の処理によって実現することができる。
[0093] すなわち、まず原文中の各単語に、原文上での翻訳対象語句との隔たり(単語数) に応じて第 1評価値を付与する。この第 1評価値は、原文中の翻訳対象語句に対す る第 1評価値が最大となり、原文中の翻訳対象語句以外の各単語の第 1評価値につ いては、原文上での翻訳対象語句との隔たりが大きくなるに従って(間に存在してい る単語数が多くなるに従って)値が小さくなるように定めることができる。例えば原文が 単語 A—単語 Jの 9個の単語力 成り(原文 = (A,B,C,D,E,F,G,HJ))、原文中の 4番 目の単語 Dが翻訳対象語句として指定された場合には、原文中の各単語 A—単語 J に対して各々以下のような第 1評価値を付与することができる。
A= 1.0, B = 2.0, C = 5.0, D= 10.0, E = 5.0, F = 2.0, G = 1.0, H = 0.5, J = 0.2 [0094] 次に、ステップ 102の検索により対訳 DB力も抽出された翻訳対象語句を含む各自 然文について、自然文の各単語のうち原文中の何れかの単語と一致する一致単語 を認識し、認識した各一致単語に対して先に付与した第 1評価値の合計値を演算す る。そして、この第 1評価値の合計値を一致度とし、検索により抽出された各自然文の 対訳文を、対応する各自然文の一致度 (第 1評価値の合計値)の降順に出力する。 例えば検索により以下の単語配列の自然文 1一自然文 5が抽出された場合 (但し単 語 Xは任意の単語)、
自然文 1 = (D,X,X,E,F,G)
自然文 2 = (D,X,E,F,G)
自然文 3 = (D,E,F,G)
自然文 4 = (A,B,X,C,X,D)
自然文 5 = (D,E,F,G,HJ)
各自然文の第 1評価値の合計値は、
自然文 1 : 10.0(単語 D) + 0(単語 X) + 0(単語 X) + 5.0(単語 E) + 2.0(単語 F) + 1.0(単語 G) = 18.0
自然文 2 : 10.0(単語 D) + 0(単語 X) + 5.0(単語 E) + 2.0(単語 F) + 1.0(単語 G) = 18.0 自然文 3 : 10.0(単語 D) + 5.0(単語 E) + 2.0(単語 F) + 1.0(単語 G) = 18.0
自然文 4: 1.0(単語 A) + 2.0(単語 B) + 0(単語 X) + 5.0(単語 C) + 0(単語 X) + 10.0(単語 D) = 18.0
自然文 5 : 10.0(単語 D) + 5.0(単語 E) + 2.0(単語 F) + 1.0(単語 G) + 0.5(単語 H) + 0.2( 単語 J) = 18.7
となり、第 1評価値の合計値 (一致度)は自然文 5が最大となる。
[0095] 第 1評価値は、原文中の翻訳対象語句以外の各単語に対し、原文上での翻訳対 象語句との隔たりが小さくなるに従って値が大きくなるように定めているので、上記の ように、翻訳対象語句を含む各自然文を第 1評価値の合計値に基づ!、て評価するこ とで、原文上で翻訳対象語句に近い位置に存在している単語をより多く含む自然文 、すなわち原文中の翻訳対象語句及びその近辺の単語から成るフレーズ (連語)を 含んで 、る可能性の高 、自然文 (原文との単語の並び順の類似度が高 、と推定され る自然文)を、より一致度の高 、自然文として評価することができる。
[0096] また、上記の例では自然文 1ー自然文 4の一致度 (第 1評価値の合計値)が同値と なっているが、このように第 1評価値に基づく一致度が同値の自然文が複数存在して いた場合には、 自然文の各単語のうち原文中の何れかの単語と一致する一致単語 に対し、各自然文上での翻訳対象語句との隔たり(単語数)に応じて第 2評価値を付 与することを、第 1評価値に基づく一致度が同値の各自然文について各々行う。この 第 2評価値についても、各自然文に含まれる翻訳対象語句に対する第 2評価値が最 大となり、各自然文のうち翻訳対象語句以外の一致単語の第 2評価値については、 各自然文上での翻訳対象語句との隔たりが大きくなるに従って(間に存在している単 語数が多くなるに従って)値が小さくなるように定めることができる。そして、第 1評価 値に基づく一致度が同値の各自然文について各一致単語に付与した第 2評価値の 合計値を各々演算し、第 1評価値に基づく一致度が同値の各自然文の対訳文を、対 応する各自然文の第 2評価値の合計値 (これも本発明に係る一致度に含まれる)の 降順に出力する。
[0097] 例えば前出の自然文 1一自然文 4については、各一致単語に対して以下のような 第 2評価値が付与され、以下のような第 2評価値の合計値が得られる。なお、以下で は、翻訳対象語句の第 2評価値を 10.0に設定すると共に、他の一致単語については 、翻訳対象語句との間に存在する単語数が 0,1,2,3,4· ··と増カロしていくに従って第 2 評価値が 5.0,2.0,1.0,0.5,0.2· ··と減少するように第 2評価値を設定した例を示してい る。
自然文 1: 10.0(単語 D) + 0(単語 X) + 0(単語 X) + 1.0(単語 E) + 0.5(単語 F) + 0.2(単語 G) = 11.7
自然文 2 : 10.0(単語 D) + 0(単語 X) + 2.0(単語 E) + 1.0(単語 F) + 0.5(単語 G) = 13.5 自然文 3 : 10.0(単語 D) + 5.0(単語 E) + 2.0(単語 F) + 1.0(単語 G) = 18.0
自然文 4: 0.2(単語 A) + 0.5(単語 B) + 0(単語 X) + 2.0(単語 C) + 0(単語 X) + 10.0(単語 D) = 12.7
従って、自然文 1一自然文 4 (の対訳文)は、第 2評価値の合計値 (一致度)の降順、 すなわち自然文 3,2,4,1の順に出力される。
[0098] 第 2評価値は、各自然文の各単語のうち原文中の何れかの単語と一致する一致単 語に対し、各自然文上での翻訳対象語句との隔たりが小さくなるに従って値が大きく なるように定めているので、上記のように、翻訳対象語句を含む各自然文を第 2評価 値の合計値に基づいて評価することで、原文との一致単語をより多く含みかつ一致 単語の間に存在する不一致単語がなるべく少ない自然文、すなわち原文中の翻訳 対象語句及びその近辺の単語から成るフレーズ (連語)を含んで!/ヽる可能性の高!ヽ 自然文を、より一致度の高 ヽ自然文として評価することができる。
[0099] また、自然文と原文との単語の並び順の類似度、及び原文との一致単語の間に存 在する自然文中の不一致単語数も考慮した一致度の評価は、例えば以下の処理に よって実現することも可能である。
[0100] すなわち、まず原文上で翻訳対象語句よりも前側に存在している前側単語群から 翻訳対象語句との隔たりが最小の前側単語 (このときは翻訳対象語句と隣り合つてい る前側単語)を抽出すると共に、原文上で翻訳対象語句よりも後側に存在している後 側単語群から翻訳対象語句との隔たりが最小の後側単語 (このときは翻訳対象語句 と隣り合つている後側単語)を抽出する。そして、検索により対訳 DBから抽出された 翻訳対象語句を含む各自然文に対し、各自然文にお!ヽて翻訳対象語句が存在して V、る位置を基準位置とし(自然文中の複数箇所に翻訳対象語句が各々存在して!/、る 場合は何れかの翻訳対象語句が存在している位置を基準位置とする)、先に抽出し た前側単語が基準位置から前側へ所定単語数の範囲内 (例えば 3単語以内)に存 在している力否力を探索すると共に、先に抽出した後側単語が基準位置力も後側へ 所定単語数の範囲内(例えば 3単語以内)に存在しているか否かを探索する。そして 、上記の探索によって前側単語及び後側単語が発見された自然文に対し、基準位 置と前側単語及び後側単語の隔たりが小さくなるに従って値が大きくなるように定め た第 3評価値を付与する。
[0101] 続いて、原文中の前側単語群から、未抽出でかつ翻訳対象語句との隔たりが最小 の前側単語 (このときは翻訳対象語句との間に単一の単語 (前回の探索に用いた前 側単語)が存在している前側単語)を抽出すると共に、原文中の後側単語群から、未 抽出でかつ翻訳対象語句との隔たりが最小の後側単語 (このときは翻訳対象語句と の間に単一の単語 (前回の探索に用いた後側単語)が存在している後側単語)を抽 出する。そして、前回の探索によって前側単語及び後側単語が発見された各自然文 に対し、先に抽出した前側単語が前回の探索で発見された前側単語の位置から前 側へ所定単語数の範囲内(例えば 3単語以内)に存在している力否かを探索すると 共に、先に抽出した後側単語が前回の探索で発見された後側単語の位置力 後側 へ所定単語数の範囲内(例えば 3単語以内)に存在しているか否かを探索する。そし て、今回の探索によって前側単語及び後側単語の少なくとも一方が発見された自然 文に対し、前回の探索で発見された前側単語又は後側単語の位置と今回発見され た前側単語又は後側単語の位置との隔たりが小さくなるに従って値が大きくなるよう に定めた第 3評価値を付与する。
[0102] なお、上記の第 3評価値としては、上記のように、前回の探索で発見された前側単 語又は後側単語の位置と今回発見された前側単語又は後側単語の位置との自然文 上での隔たりのみに応じて一意に定まる評価値を用いてもよいが、原文上での翻訳 対象語句と探索対象の前側単語又は後側単語との隔たりも考慮し、探索対象の前 側単語又は後側単語が、原文上での翻訳対象語句との隔たりの小さな単語である程 第 3評価値に及ぼす影響が大きくなるように (探索対象の前側単語又は後側単語が 、原文上での翻訳対象語句との隔たりが大きい単語になるに従って、付与される第 3 評価値が全体的に小さくなるように)、第 3評価値を定めてもよい。また、上記のように 、前回の探索で発見された前側単語又は後側単語の位置と今回発見された前側単 語又は後側単語の位置との自然文上での隔たりが小さくなるに従って値が大きくなる ように第 3評価値を定めることに代えて、前述の基準位置と今回発見された前側単語 又は後側単語の位置との自然文上での隔たりが小さくなるに従って第 3評価値が大 きくなるように第 3評価値を定めてもょ 、。
[0103] 以上の処理を、原文から翻訳対象語句との隔たりの昇順に前側単語及び後側単語 を抽出しながら、原文から抽出可能な前側単語及び後側単語が無くなる迄繰り返し た後に、各自然文に付与した第 3評価値の合計値を演算し、この第 3評価値の合計 値を一致度とし、検索により抽出された各自然文の対訳文を、対応する各自然文の 一致度 (第 3評価値の合計値)の降順に出力する。
[0104] 例えば原文が単語 A—単語 Eの 5個の単語から成り(原文 = (A,B,C,D,E))、原文 中の 3番目の単語 Cが翻訳対象語句として指定された場合に、まず前側単語として 単語 Bが、後側単語として単語 Dが原文力 各々抽出され、検索により対訳 DBから 抽出された翻訳対象語句を含む各自然文に対し、前側単語 Bが翻訳対象語句から 前側へ所定単語数の範囲内(例えば 3単語以内)に存在しているか否か、及び、後 側単語 Dが翻訳対象語句から後側へ所定単語数の範囲内(例えば 3単語以内)に存 在して 、る力否かが各々探索され、前側単語 B及び後側単語 Dが発見された自然文 に対して第 3評価値が付与される。続いて、前側単語として単語 Aが、後側単語とし て単語 Eが原文から各々抽出され、前回の探索で前側単語 B及び後側単語 Dが発 見された自然文に対し、前側単語 Aが前側単語 Bから前側へ所定単語数の範囲内( 例えば 3単語以内)に存在しているか否か、及び、後側単語 Eが後側単語 D力ゝら後側 へ所定単語数の範囲内(例えば 3単語以内)に存在している力否かが各々探索され 、前側単語 A及び後側単語 Eが発見された自然文に対して第 3評価値が付与される 以下に示す 10個の自然文 a—自然文 kに対して上記の処理を行って第 3評価値の 合計値の降順に並べたとすると、以下の順序となる。なお、以下の例において、単語 Xは任意の単語、「Z」は区切記号を意味している。
1. 自然文 a = = (A,B,C,D,E)
2. 自然文 b = = (A,B,C,D,/,B,C,D,E)
3. 自然文 c = = (B,C,D)
4. 自然文 d= = (A,B,C,X,D,E)
5. 自然文 e = = (A,B,C,X,D)
6. 自然文 f= (A,B,C,/,C,D,E)
7. 自然文 g = = (A,X,B,C,X,D)
8. 自然文 h= = (B,C,/,C,D)
9. 自然文 j = (B,X,C,/,C,X,D)
10. 自然文 k = (B,X,X,C,/,C,X,X,D)
翻訳対象語句を含む各自然文に対し、上記のように第 3評価値を付与し、第 3評価 値の合計値に基づいて評価することで、原文との単語の並び順の類似度が高ぐか つ原文との一致単語の間に存在する不一致単語の数がなるべく少ない自然文、す なわち原文が不一致単語をなるベく含まな 、状態 (塊度の高 、状態)で含まれて!/、る 自然文を、より一致度の高 ヽ自然文として評価することができる。
更に、自然文と原文との単語の並び順の類似度、及び原文との一致単語の間に存 在する自然文中の不一致単語数も考慮した一致度の評価は、例えば以下の処理に よって実現することもできる。
[0107] すなわち、まず原文上で翻訳対象語句よりも前側に存在している前側単語群から 翻訳対象語句との隔たりが最小の前側単語 (このときは翻訳対象語句と隣り合つてい る前側単語)を抽出し、検索により対訳 DBから抽出された翻訳対象語句を含む各自 然文に対し、各自然文にぉ ヽて翻訳対象語句が存在して!/ヽる位置を基準位置とし( 自然文中の複数箇所に翻訳対象語句が各々存在して!/ヽる場合は何れかの翻訳対 象語句が存在している位置を基準位置とする)、先に抽出した前側単語が基準位置 から前側へ所定単語数の範囲内(例えば 3単語以内)に存在している力否かを探索 する。この処理は、翻訳対象語句を含む各自然文について、第 4評価値として距離 別単語数 (詳しくは第 1の距離別単語数及び第 2の距離別単語数)を各々計数するも のであり、上記の探索によって前側単語が発見された自然文に対し、基準位置と前 側単語との距離 (詳しくは基準位置と前側単語との間に存在する不一致単語数)を 計数し、計数した距離に対応する第 1の距離別単語数を各々カウントアップする。
[0108] 続いて、原文中の前側単語群から、未抽出でかつ翻訳対象語句との隔たりが最小 の前側単語 (このときは翻訳対象語句との間に単一の単語 (前回の探索に用いた前 側単語)が存在している前側単語)を抽出し、前回の探索によって前側単語が発見さ れた各自然文に対し、先に抽出した前側単語が前回の探索で発見された前側単語 の位置から前側へ所定単語数の範囲内(例えば 3単語以内)に存在している力否か を探索し、今回の探索によって前側単語が発見された自然文に対し、前回の探索で 発見された前側単語の位置と今回発見された前側単語との距離を計数し、計数した 距離に前回の探索で発見された前側単語と基準位置との距離を加算することで、今 回の探索により発見した前側単語と基準位置との距離を求め、求めた距離に対応す る第 1の距離別単語数を各々カウントアップする。この処理を、原文から翻訳対象語 句との隔たりの昇順に前側単語を抽出しながら、原文から抽出可能な前側単語が無 くなる迄繰り返す。
[0109] 例えば原文が単語 A—単語 Eの 5個の単語から成り(原文 = (A,B,C,D,E))、原文 中の 4番目の単語 Dが翻訳対象語句として指定された場合、まず前側単語として単 語 Cが原文力 抽出され、検索により対訳 DBから抽出された翻訳対象語句を含む各 自然文に対し、前側単語 Bが翻訳対象語句から前側へ所定単語数の範囲内(例え ば 3単語以内)に存在しているか否かが各々探索され、前側単語 Cが発見された自 然文に対して第 1の距離別単語数のカウントアップが行われる。この時点での第 1の 距離別単語数の計数結果の一例を次の表 1に示す。
[0110] [表 1] く単語 Cを探索した段階での第 1の距離別単語数の計数結果の一例 ,ヽ
Figure imgf000041_0001
[0111] 続いて、前側単語として単語 Bが原文力 抽出され、前回の探索で前側単語 Cが発 見された自然文に対し、前側単語 Cから前側へ所定単語数の範囲内(例えば 3単語 以内)に前側単語 Bが存在してレ、るか否かが各々探索され、前側単語 Bが発見され た自然文に対して第 1の距離別単語数のカウントアップが行われる。この時点での第 1の距離別単語数の計数結果の一例を次の表 2に示す。
[0112] [表 2]
<単語 Bを探索した段階での第 1の距離別単語数の計数結果の一例〉
Figure imgf000041_0002
[0113] 更に、前側単語として単語 Aが原文力 抽出され、前回の探索で前側単語 Bが発 見された自然文に対し、前側単語 Bから前側へ所定単語数の範囲内(例えば 3単語 以内)に前側単語 Aが存在している力否かが各々探索され、前側単語 Aが発見され た自然文に対して第 1の距離別単語数のカウントアップが行われる。この時点での第 1の距離別単語数の計数結果の一例を次の表 3に示す。
[表 3]
<単語 Aを探索した段階での第 1の距離別単語数の計数結果の一例〉
Figure imgf000042_0001
次に、検索により対訳 DBから抽出された翻訳対象語句を含む各自然文に対し、上 述した第 1の距離別単語数とは別の方法で単語間の距離を計数し、第 2の距離別単 語数として集計する。具体的には、原文中の前側単語群のうち翻訳対象語句と隣り 合って 、る前側単語が原文中に存在してな 、ものと見なし (各自然文に含まれる単 語 Cを任意の不一致単語 Xと見なし)、この状態で、原文中の前側単語群から翻訳対 象語句との隔たりが最小の前側単語を抽出し、検索により対訳 DBから抽出された翻 訳対象語句を含む各自然文に対し、各自然文にお!ヽて翻訳対象語句が存在して ヽ る位置を基準位置とし、抽出した前側単語が基準位置から前側へ所定単語数の範 囲内(例えば 3単語以内)に存在している力否かを探索する。そして、上記の探索に よって前側単語が発見された自然文に対し、基準位置と前側単語との距離 (詳しくは 基準位置と前側単語との間に存在する不一致単語数)を計数し、計数した距離に「1 」を加えた距離を基準位置との距離とし、該基準位置との距離に対応する第 2の距離 別単語数を各々カウントアップする。
[0116] 続いて、原文中の前側単語群から、未抽出でかつ翻訳対象語句との隔たりが最小 の前側単語を抽出し、前回の探索によって前側単語が発見された各自然文に対し、 先に抽出した前側単語が前回の探索で発見された前側単語の位置から前側へ所定 単語数の範囲内(例えば 3単語以内)に存在している力否かを探索し、今回の探索に よって前側単語が発見された自然文に対し、前回の探索で発見された前側単語の 位置と今回発見された前側単語との距離を計数し、計数した距離に前回の探索で発 見された前側単語と基準位置との距離を加算することで、今回の探索により発見した 前側単語と基準位置との距離を求め、求めた距離に対応する第 2の距離別単語数を 各々カウントアップする。この処理を、原文から翻訳対象語句との隔たりの昇順に前 側単語を抽出しながら、原文力 抽出可能な前側単語が無くなる迄繰り返す。
[0117] 例えば原文が単語 A—単語 Eの 5個の単語から成り(原文 = (A,B,C,D,E))、原文 中の 4番目の単語 Dが翻訳対象語句として指定された場合には、まず原文中の前側 単語群のうち翻訳対象語句と隣り合つている前側単語 Cが原文中に存在してないも のと見なされ (各自然文に含まれる単語 Cが任意の不一致単語 Xと見なされ)た状態 で、原文力 単語 B及び単語 Aが順次抽出されて各自然文上での基準位置との距 離が計数されることで、例として次の表 4に示すような計数結果が得られる。
[0118] [表 4] <第 2の距離別単語数に係る距離計数結果の一例〉
Figure imgf000044_0001
[0119] そして、上記の計数結果に基づいて第 2の距離別単語数をカウントアップすること で、次の表 5に示すような第 2の距離別単語数の計数結果が得られる。
[0120] [表 5]
<第 2の距離別単語数の計数結果の一例 〉
Figure imgf000044_0002
上記のようにして、翻訳対象語句を含む各自然文に対し、原文中の前側単語群に 関して第 1の距離別単語数及び第 2の距離別単語数の計数が完了すると、各自然文 毎に、第 1の距離別単語数及び第 2の距離別単語数の計数結果を比較し、第 1の距 離別単語数と第2の距離別単語数のうち、単語間距離がより短いとの結果を示してい る方の計数結果を前側単語群に関する最終評価として選択する。具体的には、例え ば自然文 (A,B,C,D)は、表 3に示す第 1の距離別単語数では距離 0で単語数 3であ るのに対し、表 5に示す第 2の距離別単語数では距離 0で単語数 0、距離 1で単語数 0、距離 2で単語数 2であるので、距離 0における単語数の多い第 1の距離別単語数 が、自然文 (A,B,C,D)の前側単語群に関する最終評価として選択される。上記の例 は第 1の距離別単語数及び第 2の距離別単語数における距離 0の単語数が相違し ている場合であるが、距離 0の単語数が同一の場合は距離 1, 2,…の単語数が順次 比較され、第 1の距離別単語数及び第 2の距離別単語数のうち同一距離の単語数が より多い方が最終評価として選択される。
[0122] なお、第 2の距離別単語数の計数を行っているのは、原文に対して一部の単語の 順序が入れ替わつている自然文についても原文との単語の並び順の類似度を正当 に評価するためである。例えば自然文 = (C,A,B,D)については、第 1の距離別単語 数では距離 0で単語数 0、距離 1で単語数 0、距離 2で単語数 1となるのに対し、第 2 の距離別単語数では距離 0で単語数 0、距離 1で単語数 2、距離 2で単語数 0となり、 第 2の距離別単語数が上記の自然文の前側単語群に関する最終評価として選択さ れる。上記の例において、第 1の距離別単語数の計数結果は自然文 (C,A,B,D)を (C ,X,X,D)と見なして評価しているのに対し、第 2の距離別単語数の計数結果は自然 文 (C,A,B,D)を (Χ,Α,Βズ単語 C抜け), D)と見なして評価しており、上記の自然文を、 原文がより塊度の高 ヽ状態で含まれて ヽると評価することができる。
[0123] 検索により対訳 DBから抽出された翻訳対象語句を含む各自然文に対し、上記処 理を行うことで前側単語群に関する最終評価が定まると、上記各自然文に対し、原文 上で翻訳対象語句よりも後側に存在している後側単語群を用いて同様の処理 (第 1 の距離別単語数及び第 2の距離別単語数の計数、後側単語群に関する最終評価の 決定)を行う。次に、各自然文毎に、得られた前側単語群に関する最終評価と後側 単語群に関する最終評価を加算集計する (各最終評価における距離別単語数を同 一距離毎に加算する)ことで、各自然文に対する総合評価を求める。そして、各自然 文毎の総合評価に基づき、各自然文の対訳文を、対応する各自然文の総合評価が 単語間距離がより短いとの結果を示している対訳文力 順に出力する。
[0124] 具体的には、例えば各自然文を距離 0における単語数の降順に並べ替えた後に、 距離 0における単語数が同値の自然文を距離 1における単語数の降順に並べ替える ことを、比較する単語数に対応する距離を 1ずつインクリメントしながら繰り返すことで 、総合評価が単語間距離がより短 、との結果を示して 、る順に各自然文を並べ替え る。そして、各自然文に対応する対訳文を順に出力する。
[0125] これにより、以下に示す 9個の自然文 a—自然文 jに対して上記の処理を行い、総合 評価に基づいて並べ替えを行ったとすると、以下の順序となる。
1. 自然文 a = (A,B,C,D,E)
2. 自然文 b = (A,B,C,D,Z,B,C,D,E)
3. 自然文 c = (A,B,C,X,D)
4. 自然文 d=(B,C,D)
5. 自然文 e = (A,X,B,C,X,D)
6. 自然文 f=(B,C,X,D)
7. 自然文 g = (B,C,Z,C,D)
8. 自然文 h=(B,X,C,Z,C,X,D)
9. 自然文 j = (B,X,X,C,Z,C,X,X,D)
なお、上記処理において、第 2の距離別単語数の計数は必須ではなぐ例えば原文 に対して一部の単語の順序が入れ替わって 、る自然文を評価する必要がな 、等の 場合には、第 2の距離別単語数の計数を省略し、第 1の距離別単語数をそのまま最 終評価として用いてもよい。
[0126] また、上述した第 1評価値及び第 2評価値 Z第 3評価値 Z第 4評価値 (第 1の距離 別単語数及び第 2の距離別単語数)に基づく一致度の評価'自然文の選択又は並 ベ替えは、コリレーション解析やスキーム解析による自然文の評価'選択又は並べ替 えと併用できることは言うまでもないが、第 1評価値と第 2評価値又は第 3評価値に基 V、て自然文の一致度を評価する態様は、原文と自然文との一致単語数のみを用い て一致度を評価する態様等と比較して、原文中に存在する連語やフレーズ等、原文 全体よりも狭い範囲の語句について参考となる対訳文を検索する等の場合により適 しており、例えば通常の検索モード以外にフレーズ検索モード等の検索モードを設 け、このフレーズ検索モードが選択された場合に第 1評価値と第 2評価値又は第 3評 価値に基づく一致度の評価'自然文の選択又は並べ替えを行うようにしてもよい。
[0127] また、上記ではまず一致度を演算して自然文の選択 (対訳の判断)を行 、、一致度 では適切な自然文を絞り込めな 、場合にコリレーション解析による自然文の選択 (対 訳の判断)を行 、、コリレーション解析でも適切な自然文を絞り込めな 、場合にスキ ーム解析による自然文の選択 (対訳の判断)を行う例を説明したが、これに限定され るものではなく、検索手段による検索によって抽出された翻訳対象語句を含む個々 の自然文に対して一致度の演算、コリレーション解析及びスキーム解析を各々行うこ とで個々の自然文を評価し、評価結果に基づき、例えば次の表 6に示すような優先 順位に従って自然文の選択を行うようにしてもょレ、。
[0128] [表 6]
< 自然文選択の優先順位の一例 >
Figure imgf000047_0001
[0129] 更に、個々の自然文に対して一致度の演算、コリレーション解析及びスキーム解析 を各々行い、次式に従って総合評価点を演算し、総合評価点が最大の自然文を選 択するようにしてもよい。
総合評価点 =a X (—致度) + b X (コリレーション評価点) + c X (スキーム評価点) なお、上記式において、コリレーション評価点はコリレーション解析の結果に基づいて 個々の自然文に付与した評価点、スキーム評価点はスキーム解析の結果に基づ!/、 て個々の自然文に付与した評価点、 a, b, cは予め定めた係数である。
[0130] また、先に説明した対訳判断処理(図 2)では、ステップ 102の検索によって処理対 象の原文と完全一致して V、る自然文が対訳 DB力 抽出された力否かを判定し (ステ ップ 104)、判定が肯定された場合は、処理対象の原文と完全一致している自然文の 対訳文を読み出して表示する(ステップ 106)ようにして 、たが、これに限定されるも のではなぐ上記のステップ 104, 106を省略し、ステップ 102の検索によって処理対 象の原文と完全一致して L、る自然文が対訳 DB力 抽出された力否かに拘らず、ステ ップ 108以降の処理 (一致度の演算等の処理)を無条件に行うようにしてもよ 、。この 態様において、ステップ 102の検索によって複数の自然文が抽出された場合にも、 抽出された複数の自然文の中に原文と完全一致して!/、る自然文が含まれて 、れば、 該自然文の一致度が最大となるので、結果としてステップ 104, 106を行った場合と 同一の処理結果が得られる。
[0131] また、本発明における対訳選択の精度は対訳 DBに登録されて 、る自然文及び対 訳文の数に依存し、自然文及び対訳文の数が多くなるに従って対訳選択の精度は 向上する。このため、本発明に係る対訳判断装置に、翻訳された原文と翻訳文を読 み込み、読み込んだ原文と翻訳文をそのまま、或いは取捨選択した後に、自然文及 び対訳文として対訳 DBへ自動的に追加登録する機能を設けてもよ!ヽ。本発明によ れば、対訳 DBには自然文及び対訳文を追加登録すればよぐ自然文に対して単語 単位での分割等の編集'加工を行う必要はな!/、ので、対訳 DBへ情報(自然文及び 対訳文)を自動的に追加登録することは極めて容易に実現できる。
[0132] また、上記では対訳文の出力に際して翻訳対象語句の対訳を強調表示する態様 を例に説明したが、これに限定されるものではなぐ翻訳対象語句の対訳を強調表示 しな ヽ態様も本発明の権利範囲に含まれることは言うまでもな 、。
[0133] また、本発明における対訳選択の精度は対訳 DBに登録されて 、る自然文及び対 訳文の内容の冗長度にも依存し、対訳 DBに登録されている自然文及び対訳文の内 容の冗長度が高くなると、対訳 DBに登録されている自然文及び対訳文の数 (対訳 D Bの容量)に比して対訳選択の精度は低下する。このため、本発明に係る対訳判断 装置に、対訳 DBに登録されている個々の自然文及び対訳文の中に内容の類似度 が高い自然文及び対訳文が存在して!/、るか否かを探索し、内容の類似度が非常に 高 ヽ自然文対及び対訳文対を発見した場合には、一方の自然文及び対訳文を対訳 DBから削除する機能を設けてもよい。
[0134] 更に、上記では単一の対訳 DBを用いて対訳の選択を行う例を説明した力 これに 限定されるものではなぐ例えば特定分野のマニュアルの翻訳に用いる等、処理対 象の原文が特定の分野に限られる等の場合には、対訳 DBを処理対象の原文の分 野毎に分割するようにしてもよい。この場合、個々の対訳 DBの容量の増大を抑制で きると共に、自然文の検索に要する時間の短縮、対訳の選択精度の向上等の効果 が得られる。
[0135] また、上記ではユーザ力PC10を介して行った翻訳対象対象語句の対訳の出力を 指示する所定の操作に従い、 PCIOで対訳判断処理が実行される態様を例を説明し た力 これに限定されるものではなぐ例として図 4に示すように、インターネットや LA N(Local Area Network)等のネットワーク 30にクライアント PC32及びサーバ 'コンビュ ータ 34が各々接続され、対訳 DBを記憶する HDD等力も成る記憶媒体 36がサーバ 'コンピュータ 34に接続されたコンピュータ 'システム 38に本発明を適用し、ユーザか らクライアント PC32を介してオンラインで対訳の問い合わせがあると、サーバ.コンビ ユータ 34が対訳を判断してオンラインで回答するように構成することも可能である。
[0136] 図 4のコンピュータ.システム 38において、ユーザによる対訳の問い合わせ(図 4の (1)参照)は、例えばユーザ力 Sクライアント PC32を介して原言語のテキストのデータを サーバ ·コンピュータ 34へ送信する力、又は原言語のテキストを含むウェブページの URL(Uniform Resource Locator)をサーノ 'コンピュータ 34へ通知することで、原言 語のテキストを指定することによって行うことができる。この場合、サーバ'コンピュータ 34は、記憶媒体 36に記憶された対訳 DBにアクセスしながら対訳判断処理を実行す ることで、指定されたテキストの対訳 (文)を判断し (図 4の (2)参照)、判断した対訳 (文 )をクライアント PC32へ送信することで問 、合わせに回答する(図 4の (3)参照)ように 構成することができる。この構成は、サーバ'コンピュータ 34の対訳判断機能 (及び対 訳 DB)を複数のユーザが共有可能であるので、特に対訳 DBの容量が大きい等の場 合のコスト抑制に有効である。
[0137] また、上記では本発明を電子辞書装置に適用した態様を例に説明したが、これに 限定されるものではなぐ機械翻訳(自動翻訳)装置や自動通訳装置 (音声で入力さ れた原文を音声認識によって認識し、認識した原文の対訳文を判断し、判断した対 訳文を音声で出力することで通訳を行う装置)、語学修得装置等にも適用可能である ことは言うまでもない。図 5には本発明を適用した機械翻訳装置 40の概略構成の一 例が示されている。図 5において、原文入力部 42は翻訳対象の原文(のテキストデー タ)を翻訳対象語句選択部 44及び対訳文組立部 46に各々入力する。翻訳対象語 句選択部 44は、入力された翻訳対象の原文中の特定の語句を翻訳対象語句として 選択し、選択した翻訳対象語句の対訳を対訳判断部 48に問い合わせることを、翻訳 対象語句として翻訳対象の原文中の個々の語句を順次選択しながら繰り返す。対訳 判断部 48は本発明に係る対訳判断装置に相当する部分であり、記憶媒体 50に記 憶された対訳 DBにアクセスしながら対訳判断処理を実行することで、問 、合わせの あった翻訳対象語句の対訳を判断し、判断した対訳を対訳文組立部 46へ出力する
[0138] 対訳文組立部 46は、翻訳対象語句選択部 44から入力された翻訳対象語句と対訳 判断部 48から入力されるその対訳、及び原文入力部 42から入力される翻訳対象の 原文に基づき、対訳判断部 48から入力される対訳を繋げる (必要に応じて順序を入 れ替える)ことで、目的言語の対訳文を組み立てる。対訳文組立部 46によって組み 立てられた対訳文は対訳文出力部 52へ出力され、ディスプレイ等への表示、記録媒 体への記録、音声として出力する等の対訳文出力処理が行われる。上記構成では、 翻訳対象語句の対訳の判断に本発明を適用しているので、翻訳対象語句の対訳と して、原文から目的言語の文として自然な対訳文が得られる可能性の高 、対訳が得 られ、対訳文出力部 52によって出力される対訳文が、目的言語の文として自然な対 訳文になる。また、品詞判断や構文解析等の複雑な処理が不要となり、処理を簡略 化することができる。なお、図 5に示す機械翻訳装置においても、先に説明した図 4の ように、オンラインでの対訳文の問い合わせに対し、対訳の判断'組立等の処理を経 て得られた対訳文をオンラインで回答するようにしてもょ 、ことは言うまでもな 、。
[0139] 更に、上記では対訳 DB (記憶手段)に対応付けて登録される一対の文 (異なる言 語で記述された一対の文)に対し、便宜的に一方を自然文、他方を対訳文と称して いたが、第 1の言語から第 2の言語への翻訳 (対訳の判断)のための作成された対訳 DBを、第 2の言語から第 1の言語への翻訳 (対訳の判断)に用いることも可能である
[0140] また、上記では原言語や目的言語の一例として英語、 日本語、中国語を挙げて説 明したが、これに限定されるものではなぐ原言語や目的言語として、例えばフランス 語、ドイツ語、イタリア語、スペイン語、ポルトガル語等、任意の言語を適用可能であ ることは言うまでもない。
符号の説明
[0141] 10 PC HDD
サ一/ 'コンピュータ 記憶媒体 機械翻訳装置 対訳判断部 記憶媒体

Claims

請求の範囲
[1] 複数の単語から成る原言語の自然文を目的言語の対訳文と対応付けて複数記憶 する記憶手段と、
前記記憶手段に記憶されて 、る原言語の複数の自然文の中から、原言語の原文 中の翻訳対象語句が含まれている自然文を検索する検索手段と、
前記検索手段による検索によって抽出された自然文と前記原文との一致度を求め 、求めた一致度に基づいて選択した自然文の対訳文における少なくとも前記翻訳対 象語句の対訳を、前記原文中の少なくとも前記翻訳対象語句の対訳と判断する第 1 の対訳判断手段と、
を含む対訳判断装置。
[2] 前記検索手段は、前記記憶手段に記憶されている原言語の複数の自然文の中か ら、前記原文と完全一致している自然文も検索し、
前記第 1の対訳判断手段は、前記検索手段による検索によって前記原文と完全一 致して 、る自然文が抽出された場合に、当該完全一致して!/、る自然文の対訳文を前 記原文の対訳文と判断することを特徴とする請求項 1記載の対訳判断装置。
[3] 前記第 1の対訳判断手段は、前記検索手段による検索によって抽出された自然文 と前記原文との一致単語数を計数し、計数した一致単語数が多くなるに従って前記 原文との一致度が高くなるように、前記原文との一致度を評価することを特徴とする 請求項 1記載の対訳判断装置。
[4] 前記第 1の対訳判断手段は、前記一致度として、前記計数した一致単語数を、前 記翻訳対象語句を構成する単語数で除した値を求めることを特徴とする請求項 3記 載の対訳判断装置。
[5] 前記第 1の対訳判断手段は、前記検索手段による検索によって抽出された自然文 と前記原文との不一致単語数も計数し、計数した不一致単語数が少なくなるに従つ て前記原文との一致度が高くなるように、前記原文との一致度を評価することを特徴 とする請求項 3記載の対訳判断装置。
[6] 前記第 1の対訳判断手段は、前記一致単語数の計数に際し、予め定められた頻出 単語を計数対象カゝら除外することを特徴とする請求項 3記載の対訳判断装置。
[7] 前記第 1の対訳判断手段は、前記一致単語数又は前記不一致単語数の計数に際 し、単複又は時制の相違に起因して語尾が相違して 、る単語を一致単語とみなして 計数することを特徴とする請求項 3又は請求項 5記載の対訳判断装置。
[8] 前記第 1の対訳判断手段は、前記一致単語数の計数に際し、複数回出現した一致 単語を重複計数しないことを特徴とする請求項 3記載の対訳判断装置。
[9] 前記第 1の対訳判断手段は、前記検索手段による検索によって抽出された自然文 と前記原文との単語の並び順の類似度を評価し、単語の並び順の類似度が高くなる に従って前記原文との一致度が高くなるように、前記原文との一致度を評価すること を特徴とする請求項 3又は請求項 5記載の対訳判断装置。
[10] 前記第 1の対訳判断手段は、前記検索手段による検索によって抽出された自然文 において、前記原文との一致単語の間に存在する不一致単語数を計数し、計数した 前記一致単語の間に存在する不一致単語数が少なくなるに従って前記原文との一 致度が高くなるように、前記原文との一致度を評価することを特徴とする請求項 3又 は請求項 5記載の対訳判断装置。
[11] 前記検索手段による検索によって抽出された自然文に基づいて、前記翻訳対象語 句と原言語の同一の文中に出現する頻度の高い頻出語句を認識する認識手段を更 に備え、
前記第 1の対訳判断手段は、前記検索手段による検索によって抽出された自然文 のうち、前記認識手段によって認識されかつ前記原文中に存在する特定の頻出語 句と、前記翻訳対象語句が各々含まれている自然文の対訳文を参照することで、前 記翻訳対象語句及び前記特定の頻出語句が各々含まれる自然文の対訳文におけ る翻訳対象語句についての高頻度の対訳を認識し、認識した高頻度の対訳を、前記 原文中の前記翻訳対象語句の対訳と判断することを特徴とする請求項 1記載の対訳 判断装置。
[12] 前記原文中に存在しかつ前記検索手段による検索によって抽出された自然文中に 含まれて ヽな ヽ着目語句と代替可能な代替語句を判断する判断手段を更に備え、 前記第 1の対訳判断手段は、前記検索手段による検索によって抽出された自然文 のうち、前記判断手段によって判断された代替語句及び前記翻訳対象語句が各々 含まれている自然文の対訳文における少なくとも前記翻訳対象語句の対訳を、前記 原文中の少なくとも前記翻訳対象語句の対訳と判断することを特徴とする請求項 1記 載の対訳判断装置。
[13] 前記判断手段は、前記着目語句を含む自然文を前記記憶手段に記憶されて 、る 複数の自然文の中から検索し、該検索によって抽出された自然文と同一の構文の自 然文を前記記憶手段に記憶されている自然文の中から検索し、該検索によって抽出 された自然文中で着目語句と置き換わって!/ヽる語句を、前記代替語句と判断するこ とを特徴とする請求項 12記載の対訳判断装置。
[14] 複数の単語から成る原言語の自然文を目的言語の対訳文と対応付けて複数記憶 する記憶手段と、
前記記憶手段に記憶されて 、る原言語の複数の自然文の中から、原言語の原文 中の翻訳対象語句が含まれている自然文を検索する検索手段と、
前記検索手段による検索によって抽出された自然文に基づ 、て、前記翻訳対象語 句と原言語の同一の文中に出現する頻度の高い頻出語句を認識する認識手段と、 前記検索手段による検索によって抽出された自然文のうち、前記認識手段によって 認識されかつ前記原文中に存在する特定の頻出語句と、前記翻訳対象語句が各々 含まれて!/ヽる自然文の対訳文を参照することで、前記翻訳対象語句及び前記特定 の頻出語句が各々含まれる自然文の対訳文における翻訳対象語句にっ 、ての高頻 度の対訳を認識し、認識した高頻度の対訳を、前記原文中の前記翻訳対象語句の 対訳と判断する第 2の対訳判断手段と、
を含む対訳判断装置。
[15] 前記翻訳対象語句が複数の単語から成る場合、前記検索手段は、前記記憶手段 に記憶されて 、る原言語の複数の自然文の中から、前記翻訳対象語句を構成する 複数の単語のうちの少なくとも 1つが含まれている自然文を検索することを特徴とする 請求項 1又は請求項 14記載の対訳判断装置。
[16] 目的言語の対訳文と対応付けて記憶手段に複数記憶されている、各々複数の単 語から成る原言語の自然文の中から、原言語の原文中の翻訳対象語句が含まれて いる自然文を検索する第 1のステップ、 及び、前記第 1のステップにおける検索によって抽出された自然文と前記原文との 一致度を求め、求めた一致度に基づいて選択した自然文の対訳文における少なくと も前記翻訳対象語句の対訳を、前記原文中の少なくとも前記翻訳対象語句の対訳と 判断する第 2のステップ
を含む対訳判断方法。
[17] 目的言語の対訳文と対応付けて記憶手段に複数記憶されている、各々複数の単 語から成る原言語の自然文の中から、原言語の原文中の翻訳対象語句が含まれて いる自然文を検索する第 1のステップ、
前記第 1のステップにおける検索によって抽出された自然文に基づ!/、て、前記翻訳 対象語句と原言語の同一の文中に出現する頻度の高い頻出語句を認識する第 2の ステップ、
前記第 1のステップにおける検索によって抽出された自然文のうち、前記第 2のステ ップで認識されかつ前記原文中に存在する特定の頻出語句と、前記翻訳対象語句 が各々含まれている自然文の対訳文を参照することで、前記翻訳対象語句及び前 記特定の頻出語句が各々含まれる自然文の対訳文における翻訳対象語句について の高頻度の対訳を認識し、認識した高頻度の対訳を、前記原文中の前記翻訳対象 語句の対訳と判断する第 3のステップ
を含む対訳判断方法。
[18] 複数の単語から成る原言語の自然文を目的言語の対訳文と対応付けて複数記憶 する記憶手段と接続されたコンピュータを、
前記記憶手段に記憶されて 、る原言語の複数の自然文の中から、原言語の原文 中の翻訳対象語句が含まれている自然文を検索する検索手段、
及び、前記検索手段による検索によって抽出された自然文と前記原文との一致度 を求め、求めた一致度に基づいて選択した自然文の対訳文における少なくとも前記 翻訳対象語句の対訳を、前記原文中の少なくとも前記翻訳対象語句の対訳と判断 する第 1の対訳判断手段
として機能させるプログラム。
[19] 複数の単語から成る原言語の自然文を目的言語の対訳文と対応付けて複数記憶 する記憶手段と接続されたコンピュータを、
前記記憶手段に記憶されて 、る原言語の複数の自然文の中から、原言語の原文 中の翻訳対象語句が含まれている自然文を検索する検索手段、
前記検索手段による検索によって抽出された自然文に基づ 、て、前記翻訳対象語 句と原言語の同一の文中に出現する頻度の高い頻出語句を認識する認識手段、 及び、前記検索手段による検索によって抽出された自然文のうち、前記認識手段 によって認識されかつ前記原文中に存在する特定の頻出語句と、前記翻訳対象語 句が各々含まれている自然文の対訳文を参照することで、前記翻訳対象語句及び 前記特定の頻出語句が各々含まれる自然文の対訳文における翻訳対象語句につ いての高頻度の対訳を認識し、認識した高頻度の対訳を、前記原文中の前記翻訳 対象語句の対訳と判断する第 2の対訳判断手段
として機能させるプログラム。
PCT/JP2004/015263 2003-12-15 2004-10-15 対訳判断装置、方法及びプログラム WO2005059771A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CA002549769A CA2549769A1 (en) 2003-12-15 2004-10-15 System, method, and program for identifying the corresponding translation
US10/582,932 US20070112553A1 (en) 2003-12-15 2004-10-15 System, method, and program for identifying the corresponding translation
EP04792480A EP1703419A1 (en) 2003-12-15 2004-10-15 Translation judgment device, method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003-416778 2003-12-15
JP2003416778 2003-12-15

Publications (1)

Publication Number Publication Date
WO2005059771A1 true WO2005059771A1 (ja) 2005-06-30

Family

ID=34697002

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/015263 WO2005059771A1 (ja) 2003-12-15 2004-10-15 対訳判断装置、方法及びプログラム

Country Status (6)

Country Link
US (1) US20070112553A1 (ja)
EP (1) EP1703419A1 (ja)
KR (1) KR20060124632A (ja)
CN (1) CN1894688A (ja)
CA (1) CA2549769A1 (ja)
WO (1) WO2005059771A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8077974B2 (en) 2006-07-28 2011-12-13 Hewlett-Packard Development Company, L.P. Compact stylus-based input technique for indic scripts
JP2016071439A (ja) * 2014-09-26 2016-05-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 翻訳方法及び翻訳システム

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
WO2004001623A2 (en) 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US8566081B2 (en) * 2004-03-25 2013-10-22 Stanley F. Schoenbach Method and system providing interpreting and other services from a remote location
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
JP5452868B2 (ja) 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
JP2006252049A (ja) * 2005-03-09 2006-09-21 Fuji Xerox Co Ltd 翻訳システム、翻訳方法およびプログラム
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
JP4671898B2 (ja) * 2006-03-30 2011-04-20 富士通株式会社 音声認識装置、音声認識方法、音声認識プログラム
US8943080B2 (en) * 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7372851B2 (en) * 2006-06-28 2008-05-13 International Business Machines Corporation Method and system for automatic language negotiation on voice (over IP) calls
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8249855B2 (en) * 2006-08-07 2012-08-21 Microsoft Corporation Identifying parallel bilingual data over a network
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
WO2008080190A1 (en) * 2007-01-04 2008-07-10 Thinking Solutions Pty Ltd Linguistic analysis
US8468149B1 (en) * 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
JP5299011B2 (ja) * 2009-03-25 2013-09-25 セイコーエプソン株式会社 テープ印刷装置、テープ印刷装置の制御方法及びプログラム
US20120065957A1 (en) * 2009-05-08 2012-03-15 Werner Jungblut Interpersonal communications device and method
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8855997B2 (en) * 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
JP5915326B2 (ja) * 2012-03-29 2016-05-11 富士通株式会社 機械翻訳装置、機械翻訳方法及び機械翻訳プログラム
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
JP6417649B2 (ja) * 2013-08-22 2018-11-07 株式会社リコー 文章処理装置、文章表示システム、プログラム
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US9734820B2 (en) * 2013-11-14 2017-08-15 Nuance Communications, Inc. System and method for translating real-time speech using segmentation based on conjunction locations
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
KR101709693B1 (ko) * 2015-07-13 2017-02-27 주식회사 에버트란 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US11049190B2 (en) 2016-07-15 2021-06-29 Intuit Inc. System and method for automatically generating calculations for fields in compliance forms
US10579721B2 (en) 2016-07-15 2020-03-03 Intuit Inc. Lean parsing: a natural language processing system and method for parsing domain-specific languages
JP7117629B2 (ja) * 2017-04-27 2022-08-15 パナソニックIpマネジメント株式会社 翻訳装置
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
US10831999B2 (en) * 2019-02-26 2020-11-10 International Business Machines Corporation Translation of ticket for resolution
US11163956B1 (en) 2019-05-23 2021-11-02 Intuit Inc. System and method for recognizing domain specific named entities using domain specific word embeddings
US11783128B2 (en) 2020-02-19 2023-10-10 Intuit Inc. Financial document text conversion to computer readable operations

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04160473A (ja) * 1990-10-24 1992-06-03 Hitachi Ltd 事例再利用型翻訳方法および装置
JP2000020524A (ja) * 1998-07-02 2000-01-21 Fuji Xerox Co Ltd 対訳文検索装置
JP2003263434A (ja) * 2002-03-11 2003-09-19 Advanced Telecommunication Research Institute International 翻訳システムの自動選択をコンピュータに実行させるためのプログラム、およびそのプログラムを記録したコンピュータ読取り可能な記録媒体

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE68928231T2 (de) * 1988-10-28 1998-01-08 Toshiba Kawasaki Kk Verfahren und Vorrichtung zur Maschinenübersetzung
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
US5983169A (en) * 1995-11-13 1999-11-09 Japan Science And Technology Corporation Method for automated translation of conjunctive phrases in natural languages
US6415250B1 (en) * 1997-06-18 2002-07-02 Novell, Inc. System and method for identifying language using morphologically-based techniques
US6192332B1 (en) * 1998-04-06 2001-02-20 Mitsubishi Electric Research Laboratories, Inc. Adaptive electronic phrase book
US6345244B1 (en) * 1998-05-27 2002-02-05 Lionbridge Technologies, Inc. System, method, and product for dynamically aligning translations in a translation-memory system
JP3879321B2 (ja) * 1998-12-17 2007-02-14 富士ゼロックス株式会社 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体
JP3822990B2 (ja) * 1999-01-07 2006-09-20 株式会社日立製作所 翻訳装置、記録媒体
US6243669B1 (en) * 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6438524B1 (en) * 1999-11-23 2002-08-20 Qualcomm, Incorporated Method and apparatus for a voice controlled foreign language translation device
US6473729B1 (en) * 1999-12-20 2002-10-29 Xerox Corporation Word phrase translation using a phrase index
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
US7346487B2 (en) * 2003-07-23 2008-03-18 Microsoft Corporation Method and apparatus for identifying translations
GB2415518A (en) * 2004-06-24 2005-12-28 Sharp Kk Method and apparatus for translation based on a repository of existing translations
US7672830B2 (en) * 2005-02-22 2010-03-02 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04160473A (ja) * 1990-10-24 1992-06-03 Hitachi Ltd 事例再利用型翻訳方法および装置
JP2000020524A (ja) * 1998-07-02 2000-01-21 Fuji Xerox Co Ltd 対訳文検索装置
JP2003263434A (ja) * 2002-03-11 2003-09-19 Advanced Telecommunication Research Institute International 翻訳システムの自動選択をコンピュータに実行させるためのプログラム、およびそのプログラムを記録したコンピュータ読取り可能な記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8077974B2 (en) 2006-07-28 2011-12-13 Hewlett-Packard Development Company, L.P. Compact stylus-based input technique for indic scripts
JP2016071439A (ja) * 2014-09-26 2016-05-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 翻訳方法及び翻訳システム

Also Published As

Publication number Publication date
CA2549769A1 (en) 2005-06-30
US20070112553A1 (en) 2007-05-17
CN1894688A (zh) 2007-01-10
KR20060124632A (ko) 2006-12-05
EP1703419A1 (en) 2006-09-20

Similar Documents

Publication Publication Date Title
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP5235344B2 (ja) 機械翻訳を行う装置、方法およびプログラム
US20060241934A1 (en) Apparatus and method for translating Japanese into Chinese, and computer program product therefor
US8812296B2 (en) Method and system for natural language dictionary generation
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
JP2010157178A (ja) テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2006252382A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
Yalcin et al. An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
JPWO2010061733A1 (ja) 誤訳の検出を支援する装置及び方法
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
JP4640593B2 (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
JP4401269B2 (ja) 対訳判断装置及びプログラム
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法
US10572592B2 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
Ullah et al. Opinion summarization of bangla texts using cosine simillarity based graph ranking and relevance based approach
Nghiem et al. Using MathML parallel markup corpora for semantic enrichment of mathematical expressions
JP2003323425A (ja) 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
JP2005326952A (ja) 概念辞書への単語登録方法、装置、およびプログラム
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2000250914A (ja) 機械翻訳方法、装置、および機械翻訳プログラムを記録した記録媒体
JP3419748B2 (ja) 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体
Bhowmik et al. Development of A Word Based Spell Checker for Bangla Language
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200480037458.9

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2007112553

Country of ref document: US

Ref document number: 1020067011763

Country of ref document: KR

Ref document number: 10582932

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2549769

Country of ref document: CA

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Ref document number: DE

WWE Wipo information: entry into national phase

Ref document number: 2004792480

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2004792480

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1020067011763

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 10582932

Country of ref document: US