WO2002095614A1 - Method for identifying language/character code system - Google Patents

Method for identifying language/character code system Download PDF

Info

Publication number
WO2002095614A1
WO2002095614A1 PCT/JP2001/004350 JP0104350W WO02095614A1 WO 2002095614 A1 WO2002095614 A1 WO 2002095614A1 JP 0104350 W JP0104350 W JP 0104350W WO 02095614 A1 WO02095614 A1 WO 02095614A1
Authority
WO
WIPO (PCT)
Prior art keywords
language
character code
code system
list
character
Prior art date
Application number
PCT/JP2001/004350
Other languages
French (fr)
Japanese (ja)
Inventor
Izumi Suzuki
Original Assignee
Izumi Suzuki
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Izumi Suzuki filed Critical Izumi Suzuki
Priority to JP2002592007A priority Critical patent/JPWO2002095614A1/en
Priority to PCT/JP2001/004350 priority patent/WO2002095614A1/en
Publication of WO2002095614A1 publication Critical patent/WO2002095614A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification

Definitions

  • the present invention relates to a multilingual processing technique in a computer, and more particularly to a machine processing method for creating a language and a character code system of a text document encoded by the computer.
  • the difference in the character code system means not only the difference in character fonts, but also the display of a text document coded in the Bunko code system using a different Bunko code B character font (that is, the character code). This means that text that is completely meaningless will be displayed when decryption is performed by one-way system B).
  • Identification methods that meet the above requirements can be powerful information processing tools in relatively large multilingual processing systems, such as searching, classifying, and statistically retrieving documents on the network; ⁇ ft.
  • searching, classifying, and statistically retrieving documents on the network ⁇ ft.
  • the survey systematically accesses pages on the Internet around the world using mouth-bot search techniques, and automatically identifies and tabulates the language and character encoding used on the pages. .
  • the text document that is input to the device and is to be identified is called the “target text document.”
  • the text used on a certain page is written in a language / character code system that is not registered in the gfi device. If so, the page is checked manually and new languages / character sets are registered if necessary. (The registered language / character code system is called “target language / character code system.”)
  • Both ⁇ output the most likely language / character code system in the target language / character code system ⁇ ⁇ ⁇ as the identification result. It is difficult to make a clear determination of the power of the power.
  • method (2) it is difficult to check for unregistered languages / character codes if they are mixed.
  • Japanese / SMft-JIS is used as a target.
  • Malay / iso8859-l is not registered, recognizes text documents containing Japanese / Shift-JIS and Malay / iso8859-l.
  • method (2) will output the main language / Sfeift-tHS as a result, and it will be overlooked that the unregistered language / bunko code system is included.
  • the information units used for identification are based on the knowledge of each language and character code system. Is not a word or character in the language that is extracted from the text document, but it is a rate unless it is the method shown in (3) of the problem to be solved. Disclosure of the invention
  • the unit of information used in SiJ is the partial byte sequence of all the specified bytes and numbers contained in the text document (that is: byte sequence), which is ⁇ .
  • byte sequence the specified bytes and numbers contained in the text document
  • the byte sequence
  • a list of predefined length ⁇ f strings that may be expressed in a text document created in advance using the relevant language / character code system ( LBSL / C). If most of the specified length byte sequence that can appear in a text document in a certain language / character code system is complete, the text document in which byte sequences that do not correspond to them frequently appear will be written in this language's character code system. The fact that it is not a thing is supported.
  • the list LBSL / G in each language / character code system can be easily obtained from the text document in the language / character use system. A list that can obtain good identification results.
  • the standard of the number of text documents required to obtain LBSL / C is: 1 KB 20 KB for character code, 2 Japanese, etc. It is a pite.
  • FIG. 1 is a diagram schematically showing a system according to the present invention.
  • FIG. 2 is a flowchart of a series of general-purpose steps of a process executed by the system shown in FIG.
  • FIG. 3 is a flow chart of the fine steps executed in step 204 shown in FIG. 2 for calculating the learned bit rate in the target text document for each language / character code. .
  • Fig. 4 is executed in step 206 shown in Fig. 2 to delete the lower language / character code system when there is more than one language / character code system whose appearance rate exceeds the upper limit UB.
  • 3 is a flowchart of the detailed steps.
  • Fig. 5 shows the three-pight string!? That could appear when the language / bunko code system is "Japanese ZShift-JIS". Strike Part of LBSL / C.
  • Fig. 6 shows an example in which there is no language / character code system in which the learned byte appearance rate takes the lower limit (LB) and the upper limit (UB> ⁇ ).
  • FIG. 7 is an example of a list in which the relationship described in claim 2 is 153 $ in “Example of target language / character code system” (A to H) described on page 6].
  • the parentheses mean that the TO / character code system X is higher than the TO / character code system.
  • FIG. 8 is an example of execution of the process described in step 206 of FIG.
  • the language / character code system is the same as the example described in FIG. 6, and the relationship is the same as the example described in FIG. Figure & shows the number of LBSL / G items used in the experiment shown in “Possibility for Industrial Use” and the amount of text documents referred to fc to create it.
  • Fig. 1 shows the ffi-force results of step 2 and 4 shown in Fig. 2 in the experiment shown in "Possibility of Industrial Use”.
  • the computer coded text: ⁇ (text of interest: iC ») is entered, and first in step 202, it is checked whether it is a long or short document. Eck.
  • step 203 all specified length pite strings included in the target text document are read and stored in the list: LBS &.
  • the default pitch length is generally 3 pite. 1 byte and 2 bytes do not provide the desired discrimination performance. On the other hand, as the default value increases, the discrimination performance improves.
  • each rule of LBSS is searched for whether or not the S-pipe sequence does fe, and the appearance rate of the learned byte sequence is calculated for each language / character code system (step 204).
  • Fig. 5 shows an example (part) of the table LBSL / C
  • Fig. 3 shows the detailed steps of step 204.
  • step 205 it is checked whether or not the language code code system in which the learned pate appearance rate takes a value between the predetermined lower limit value and the upper limit value (UB>). If the language / character code system which takes a value between s limit value LB and the upper limit value UB is present it has one or more at ⁇ present stearyl 'flop 205 illustrating an example of a in FIG. 6 If not, then "The system automatically outputs the unrecognizable J and terminates the study process. If there is no J, the target text document contains multiple language character code systems. The processing is performed next, and the values of LB and UB are determined in advance depending on the implementation case .. The lower the lower limit LB and the lower the upper limit UB, the lower the LB of the trained pate If there is a language / character code system that takes a value between Gyora possibility is high.
  • step 20 & above the relevant language Z character code system is output as an identification result.
  • the present invention can be a powerful multilingual information processing means not only in the statistical survey on the Internet described in the background, but also in the search and classification of * on the network for the same reason.
  • Below ⁇ which is possible, two additional features of the present invention
  • Hiragana is almost always used in Japanese documents, and Shimo is very frequently used.
  • hiragana is often used as a character with a high frequency of appearance in the conventional technology (), and the first byte of the first name is often used as a character code specifically used in the conventional technology (2).
  • the target text document 1 language / character code system A, 2) different from A, language Z registered as envelope Z character code system B, and 3> A
  • the appearance rate is likely to exceed the upper limit value UB if the item of LBSL G is sufficient, but is likely to be lower than ⁇ due to insufficient items.
  • it is not the key to boosting the appearance rate of learned pite in other languages / character codes, and consequently returns indistinguishable.
  • the appearance rate of existing bytes for the target text document is smaller than the lower limit: even if the LB ⁇ C items of A are sufficient. If A's LBSL / C entry is inadequate, this figure will be less than or equal to that of LBSL C's entry, and will not be a factor in returning incorrect results.
  • Japan the world's largest funder, Japan is implementing effective and efficient economic cooperation based on the Official Development Assistance Charter in order to help developing countries become self-sustaining.
  • ⁇ ⁇ language ⁇ character code system and ⁇ and :: a text document in which Japanese fe / Shift-JIS and English are mixed (language / character code system A, B, G, F, G and H are all about 70 pounds, and about 130 pounds for a mixture of three languages and English) are input to the identification device described in claim 1 respectively.
  • Figure 1G shows the appearance rate of trained pite strings for each language / character code system in.
  • step 206 In the language / letter-code language Indonesian language that the list LBSL C did comparative experiments in insufficient, the input text of Indonesian language is indistinguishable. About other input text As a result, the correct knowledge was obtained by performing step 206 in step 2 of the claim. For example, in the case of text input in English / 3L, the learning rate of the learned byte string in the bilingual character code system of "English only” and "D. Japanese / S, English / L, or mixed” Exceeded UB. By performing the processing of step 206 on the above character code system, it is possible to obtain a monolingual Z character code system ": B. English / L only" as shown in example 1 of FIG. . (Character code system Shift-JIS is abbreviated to &, and iso8859-I is abbreviated to L.

Abstract

A method for mechanically identifying the language and character code system of a text document encoded by a computer. In the list LBSL/C of byte string of specified length previously formed for each objective language/character code system, byte strings of a specified number of bytes possibly occurring in a text document of a relevant language/character code system are stored. For each language/character code string, an “occurrence rate of learnt byte string” , i.e. the rate of the number of byte strings of specified length already existing in the list LBSL/C and contained in an objective text document, is calculated and only when only one language/character code system having an “occurrence rate of learnt byte” close to 1 exists, the language/character code system is outputted as the result.

Description

明 細書  Specification
言語 * ^コ一ド系識別処理方法 賺分野 Language * ^ code system identification processing method
本発明は、 コンピュータにおけるマルチリンガル処理技術に関し、 特に、 コンピュータに よゥてコ一ド化されたテキスト文書の言語および文字コード系を するための機械処理方 法に関する。 ' 背景技術  The present invention relates to a multilingual processing technique in a computer, and more particularly to a machine processing method for creating a language and a character code system of a text document encoded by the computer. '' Background technology
近年、 コンピュータ 'ネットヮータ上などにおけるマルチ μンガル処 ffigfri力 S重要さを增 している Q 世界には、 言語人口が TOO万人を超える TOだけでも: 100種類以上あり、 それら. の表記に用いられる文字体系でも 2G種類力 S数えられる。 また、 rSO IEG 106 の検討ダル ープが 1999年末時点で検討対象としている文字体系は約 140種類に上る。 世界的にィン,タ ーネットの普及が進むにつれ、 インタ一ネット上でこうし fc現地語によってコミュ-ケーシ ヨンを図るュ一ザ一が增加している。 ところが、 アジアを中心とする諸言語では、 それをコ ンピュータで扱うための文字 ード系が 乱立していること力少なくない。 例えばヒンズ —語においては、 よく知られた文字コード系だけでも 7種類がィンターネットのページ上で 実際に使甩されている。 文字コー 系の違いとは、 単なる文字フォントの違いを意味するだ けでなく、文宇コード系 でコ一ド化されだテキスト文書をそれと異なる文宇コード系 B 文字ブオントで表示 (つまり文字コ一ド系 Bで復号) した場合に全く意味のないテキストが 表示されることを意味する。 In recent years, in the Q world, where the importance of multi-μngal processing ffigfriability S on computers and network data is important, there are more than 100 types of TOs with a language population of more than TOO: more than 100 types. 2G kinds of power S can be counted in the character system that is used. Also, as of the end of 1999, about 140 alphabets were reviewed by the rSO IEG 106 review group. With the spread of internet and internet globally, more and more users who are trying to communicate on the Internet using fc local languages are increasing. However, in many languages centered on Asia, it is not surprising that the character systems for handling them on computers are overwhelming. For example, in Hindi, seven well-known character sets are actually used on Internet pages. The difference in the character code system means not only the difference in character fonts, but also the display of a text document coded in the Bunko code system using a different Bunko code B character font (that is, the character code). This means that text that is completely meaningless will be displayed when decryption is performed by one-way system B).
こラレたことから、 非常に多種多様な と文字コード系を対象としたマルチリンガル処 理技術の一漦として、 現在、 次の要件を満たす言語および文字コード系の識 手法が求めら れている。 '  Because of this, as one of the multilingual processing technologies for the very wide variety of character code systems, a language and character code system knowledge method that satisfies the following requirements is currently required. . '
(解決しょうとする課 (Department to be solved
言語およぴ文宇ユード系の機械識別手法において、 In the machine identification method of language and
( 1〉 識別の対象となるテキスト文書力 登録されている対象言語/文字コード系のいずれに も該当しない場合に、対象言語/文字コード系の中で最も可能性の高い言語/文字コード系を誤 つて割り当ててしまうことを回避する。 つまり、 正しい識別結果か 「識別不能」 のいずれか を出力することとする-。 ( 2 ) 複数の言語および文字コード系カ S混在している場合の対応力 ^容易であること。 (1) Text document ability to be identified If the document does not fall under any of the registered target languages / character code systems, the language / character code system most likely to be the target language / character code system is used. Avoid erroneous assignment, that is, output either a correct identification result or “unidentifiable”. (2) Capability when multiple languages and character codes are mixed.
( 3 ) 識別に必要な情報は、 言語/文字コード系にかかわりなく同一の機械処理方法によって テキスト文 から得ることが出来る、 言語/文宇コード系にかかわりなく同一のデータ構造 で表現された、.言語/文字コード系ごとの情報のみを用いる。  (3) Information necessary for identification can be obtained from text sentences by the same machine processing method regardless of the language / character code system, and expressed in the same data structure regardless of the language / character code system. Use only information for each language / character code system.
上記の要件を満たす識別手法は、 ネットワーク上に; ^ ftに存在する文書の検索、 分類、 統 計的調査といった、 比較的規模の大きいマルチリンガル処理システムにおいて強力な情報処 理手段となり-得る。 次に、 インターネット上の統計調査という点に焦点を絞り、 上記の要伴 を満たす手法が要求される技術的 «を詳述する。  Identification methods that meet the above requirements can be powerful information processing tools in relatively large multilingual processing systems, such as searching, classifying, and statistically retrieving documents on the network; ^ ft. Next, we focus on the statistical survey on the Internet and describe in detail the technical requirements for a method that satisfies the above requirements.
先に述べたネットワークを取り卷く状況から、. インターネット上にはどのような言語、 文 字コード系のページがどの程度の割合で しているか、 その実態を詳細に ·把握する ことが現在求 られている。 調査には、 口ボット検索の手法を利用して世界中のィンターネ ット上のページへ系統的にアクセスし、 そのページで使用されている言語と文字コード系を 自動的に識別し、集計する。 ( ii装置に入力され、識別め対象となるテキスト文書を 「対象 テキスト文書」 と呼ぶ。) あるページで使用されているテキストが本識 gfi装置に登録されてい ない言語/文字コード系で書かれている可能性がある場合は、 そのページは人手によってチェ ックカ行われ、 必要とあらば新たな言語/文字コード系を登録する。 (登録された言語/文字ュ 一 系を 「対象言語/文字コード系.」. と呼ぶ。)  From the situation surrounding the network described earlier, it is now required to understand in detail what kind of language and character code pages are on the Internet and to what extent. Have been. The survey systematically accesses pages on the Internet around the world using mouth-bot search techniques, and automatically identifies and tabulates the language and character encoding used on the pages. . (Ii) The text document that is input to the device and is to be identified is called the “target text document.” The text used on a certain page is written in a language / character code system that is not registered in the gfi device. If so, the page is checked manually and new languages / character sets are registered if necessary. (The registered language / character code system is called “target language / character code system.”)
(従来の技術) コンピュータによ てコード化されたテキスト文書の言語、 文字コード系、 ジャンル等を機械で謎 11する としては、 従来より次の 3 去が知られている。  (Prior Art) The following three methods have been known to use a machine to mystery the language, character code system, genre, etc. of a text document encoded by a computer.
(1) 対象となる値々の TO/文字コ—ド系あるいはジャンルにおける »で主に使甩される 単語あるいば文字の出現頻度テーブルをあらかじめ作成し、 それと、 識別の ¾ ^となるテキ スト文書で使用されている単語あるいは文字の出現頻度を比 »る方法(特開 2000-148754) (1) Create a table of the frequency of words or characters that are mainly used in »in the TO / character code system or genre of the target value in advance, and use the text as the identification ^ ^ For comparing the frequency of occurrence of words or characters used in text documents (JP-A-2000-148754)
( 2) 個々の言語/文宇コード系/ジャンルごとに、 その他の ¾ ^言語/文字コード系/ジャンル に対して特異的に出現する複数の単語あるいは文字をあらかじめリストし、 それらの単語、 文字が对象となるテキスト文書で t¾現する かをチェックすることによる方法 (2) For each language / text code / genre, list in advance a plurality of words or characters that appear specifically for other ¾ ^ language / character code / genre, and list those words and characters. By checking if the text is represented in the target text document
( 3) 上 IB (1)、 ( 2) 两方の特質を備えた方法 (特開平 7-262188)  (3) Upper IB (1), (2) Method with the characteristics of (1) (JP-A-7-262188)
しかしながら、 上記のインターネッ fにおける銃計調査という目的に関しては、 これらの手 法には次に挙げる 2点で困難を伴う.。 However, for the purpose of gun gauge survey on the Internet f, these methods have difficulties in the following two points.
I. いずれの; ^も、対象言語/文字コード系內で最も可能性の高い言語/文字コード系を識別 結果として出力するが、 となるテキスト文書 各言語/文字コード系によるものであ る力 かを明確に判 H"ることは困難である。 I. Both ^ output the most likely language / character code system in the target language / character code system と し て as the identification result. It is difficult to make a clear determination of the power of the power.
2.複数の言語/文宇コード系が混 る文書への对応、力 s、方法 ft)では困 i ^ある。 また、方 法 (2》においても、 未登録の言語/文字コード系が混在している場合に、 それをチェックす ること力 S難しい。 例えば、. 日本語/ SMft-JISが対象として «され、 マレー語/ iso8859-l が未登録の条件下で、 日本語/ Shift-JISとマレ一語/ iso8859-lの两方を含むテキスト文書 を認識する.場合、 日本語の割合が余程低くない限り 方法 (2>においては 本語 /Sfeift-tHS を結果として出力し、 未登録の言語/文宇コ一ド系が含まれていることは見逃されるであ ろう。  2. Adaptation to documents with multiple language / bundle code systems, power s, and method ft) are difficult. Also, in method (2), it is difficult to check for unregistered languages / character codes if they are mixed. For example, Japanese / SMft-JIS is used as a target. , Under conditions where Malay / iso8859-l is not registered, recognizes text documents containing Japanese / Shift-JIS and Malay / iso8859-l. Unless otherwise, method (2) will output the main language / Sfeift-tHS as a result, and it will be overlooked that the unregistered language / bunko code system is included.
解決しょ とする課題の 'ひ):、 (2): が満足されな ^ ^, 上記のィンターネットにおける 統計調查を行う場合に、 単にその結果が不正猿なものとなるばかり な'く、 対象として未登 録の言語/文字コード系を見逃す可能性がある。事前に出来る限り多種の言語/文宇コード系を 登録し調査を開始するが、 調査の課程で未登録の言語/文字コード系に遭遇する可能性は依然 として残る。 むしろ、 調査を通じて未 *mの TO/文宇コ一ド系を収集することが本調査の目 的の 1つとも言える。. こうした未登録の言語/文字コード系によるテキストを一部 (少なくと もおおむね 2割以上) または全部に含むテキスト文書を、 識別の過程で確実に発見できる手 法が求められるのである。  The problem we are trying to solve is (ii) :, (2): is not satisfied ^ ^, when performing the above statistical analysis on the Internet, the result is not just a monkey. There is a possibility that unregistered language / character code systems may be missed. As many languages / bunko code systems as possible are registered in advance and a survey is started, but the possibility of encountering an unregistered language / character code system during the course of the survey remains. Rather, it can be said that one of the objectives of this survey is to collect un * m TO / Bunyu code systems through the survey. There is a need for a method that can reliably detect text documents that include some (at least about 20% or more) or all of these unregistered language / character codes in the identification process.
また、 多種多様な言語/文字コ一ド系を扱うことを特徴とする上記のィンターネグトにおけ る統計調査においては、 識別に用いられる情報 単位を、 個々の言語と文字コード系独自の 知識 '情報によってテキスト文書から抽出される当該言語の単語、文字とするのではなく、解 決しようとする課題の (3) に示すような 法でなければ 率である。 発明の開示  In addition, in the above-mentioned statistical survey in Internet Connect, which features a wide variety of language / character code systems, the information units used for identification are based on the knowledge of each language and character code system. Is not a word or character in the language that is extracted from the text document, but it is a rate unless it is the method shown in (3) of the problem to be solved. Disclosure of the invention
識 SiJに用いられる情報の単位は、 ^とするテキスト文書 (つまり:バイト列) に含まれる 規定バイト,数の全ての部分パイト列とする。 次に、 言語/文字コード系毎の情報としては、 あ らかじめ作成された、 当該言語/文字コード系によるテキスト文書内で岀現する可能性のあ る規定長 ^ f ト列のリスト (LBSL/C と呼ぶ) を麵する。 ある言語/文字コー 系による テキスト文書内で出現する可能性のある規定長バイト列のほとんどが揃っていれば、 それら に該当しないバイト列が頻繁に出現するテキスト文書は、 当言語 文字コード系によるもの ではない事が裏付けられるのである。 その上、 複数の言語/文字コード系におけるリスト LBSL/Gの'単純な和集合;^、 「これら 2言語ノ文字コード系の混在またはいずれか 1つ」 を意 味する新たな言語/文字コード系に関する スト: LBSI Gとなり、複数の:言語/文字コ一ド系 が混在する^♦の認識の扱!/ が容易に可能となる。 The unit of information used in SiJ is the partial byte sequence of all the specified bytes and numbers contained in the text document (that is: byte sequence), which is ^. Next, as information for each language / character code system, a list of predefined length ^ f strings that may be expressed in a text document created in advance using the relevant language / character code system ( LBSL / C). If most of the specified length byte sequence that can appear in a text document in a certain language / character code system is complete, the text document in which byte sequences that do not correspond to them frequently appear will be written in this language's character code system. The fact that it is not a thing is supported. In addition, 'simple union of lists LBSL / G in multiple language / character code systems; ^, meaning' mixture or one of these two language character code systems' A new language / character code system to be tasted: LBSI G, and a recognition of ^ ♦ with multiple: language / character code systems! / Is easily possible.
なお、 各言語/文字コード系におけるリスト LBSL/Gは、 当該言語/文字ユード系〖こよる テキスト文書から容易に得ることができる。 良好な識別結果を得ること,ができるリスト LBSL/Cを得るために必要なテキスト文書の数量の目安は、 1パイトコ一ドの文字体系で 20K バイト、 日本語など 2ノ^ トコ一ドでは 100 パイトである。  The list LBSL / G in each language / character code system can be easily obtained from the text document in the language / character use system. A list that can obtain good identification results. The standard of the number of text documents required to obtain LBSL / C is: 1 KB 20 KB for character code, 2 Japanese, etc. It is a pite.
図面の簡単な説明 BRIEF DESCRIPTION OF THE FIGURES
第 1図は本発明によるシステムの概略を示す図である。 第 2図は第 ί図に示すシステムに よって実行される処理の一連の汎用ステップの ¾¾れ図である。 第 3図は、, 各言語/文字コード. 系ごとに対象テキスト文書における既習パイト Κ現率を計算するための、 第 2図記載のステ ップ 204で実行される静細ステップの流れ図である。  FIG. 1 is a diagram schematically showing a system according to the present invention. FIG. 2 is a flowchart of a series of general-purpose steps of a process executed by the system shown in FIG. FIG. 3 is a flow chart of the fine steps executed in step 204 shown in FIG. 2 for calculating the learned bit rate in the target text document for each language / character code. .
第 4図は既習パイト出現率が上限値 UBを上回る言語/文字コード系力 S複数ある場合に、 下 位の言語/文字コード系を削除するための、第 2図記載のステグプ 206で実行される詳細ステ ップの流れ図である。 第 5図は言語/文宇コード系が. 「日本語 ZShift-JIS」 の場合の、 現す る可能性のある 3パイト列の!?スト LBSL/Cの一部分である。 第 6図は、 既習バイト出現率 が既定の下限値 (LB) と上限値 (UB> の閬の値を取る言語/文字コード系が存在しない場合の 例を図示したものである。  Fig. 4 is executed in step 206 shown in Fig. 2 to delete the lower language / character code system when there is more than one language / character code system whose appearance rate exceeds the upper limit UB. 3 is a flowchart of the detailed steps. Fig. 5 shows the three-pight string!? That could appear when the language / bunko code system is "Japanese ZShift-JIS". Strike Part of LBSL / C. Fig. 6 shows an example in which there is no language / character code system in which the learned byte appearance rate takes the lower limit (LB) and the upper limit (UB> 閬).
第 7図は、 第 6面に記載の対象言語/文字コード系の一例' (Aから H) における、 請求の範 囲第 2項に記載の関係を 153$した] 7ストの一例である。第 7図においては、( )によって、 TO/文字コ一ド系 Xは TO/文字コード系 より'上位であることを意味する。 第 8図は、 第 2 図のステツプ 206に記載の処理の実行例である。 言語/文字コ一ド系ほ第 6図に記載の例 と、 また関係は第 7図に記載の例と同一である。 第 &図は Γ産業上の利用の可能性」 に示す 実験で用いた LBSL/Gの項目数と、それを作成する fcめに参照したテキスト文書の量である。 第 1ひ図は 「産業上の利用の可能性」 に示す実験における、 第 2図に記載のステップ 2ひ 4の ffi力結果である。 発明を実施するするための最良の形態  FIG. 7 is an example of a list in which the relationship described in claim 2 is 153 $ in “Example of target language / character code system” (A to H) described on page 6]. In FIG. 7, the parentheses mean that the TO / character code system X is higher than the TO / character code system. FIG. 8 is an example of execution of the process described in step 206 of FIG. The language / character code system is the same as the example described in FIG. 6, and the relationship is the same as the example described in FIG. Figure & shows the number of LBSL / G items used in the experiment shown in “Possibility for Industrial Use” and the amount of text documents referred to fc to create it. Fig. 1 shows the ffi-force results of step 2 and 4 shown in Fig. 2 in the experiment shown in "Possibility of Industrial Use". BEST MODE FOR CARRYING OUT THE INVENTION
本発明をより詳細に説旨るために、 添付の図面に従ってこれを説明する。  The present invention will be described in more detail with reference to the accompanying drawings.
コンピュータによってコード化されたテキスト:^ (対象となるテキスト: iC») の入力を 受け、 先ずステップ 202において、 それが に長い、 または短い文書ではないか否かがチ エックされる。 次に、 ステップ 203において対象となるテキスト文書に含まれるすべての規 定長パイト列を読み取り、 リスト: LBS&に格納される。 パイト列長の既定嬉は 3パイトがー 般に使用される。 1バイトおよび 2パイトでは所望の識別性能が得られず、 一方、 既定値が 大きくなるにつれ識別性能は向上するが、. 処理に要する時間と、 "W/文字コ一ド系ごとの リスト LBSL/Cに必要な項目数が增加する。- 次に、'対象言語/文字コード系ごとにあらかじめ作成された、 当 語/文字コード系に よるテキスト文書内で 現する可能性のある規定長パイト列のリスト LBSL/C内に、 LBSS 內の各々の規定; Sパイト列が feするか否かが検索され、 言語/文字コード系ごとに既習バ イト列出現率が計算される (ステップ 204)。 テーブル LBSL/Cの一例 (部分) を第 5図に、 またステツプ 204の詳細ステツプを第 3図にそれぞれ示す。 . The computer coded text: ^ (text of interest: iC ») is entered, and first in step 202, it is checked whether it is a long or short document. Eck. Next, in step 203, all specified length pite strings included in the target text document are read and stored in the list: LBS &. The default pitch length is generally 3 pite. 1 byte and 2 bytes do not provide the desired discrimination performance. On the other hand, as the default value increases, the discrimination performance improves. However, the processing time and the "W / list per character code system LBSL / The required number of items is added to C.-Next, 'the specified-length string of strings that may appear in the text document of the language / character code system created in advance for each target language / character code system In the list LBSL / C, each rule of LBSS; is searched for whether or not the S-pipe sequence does fe, and the appearance rate of the learned byte sequence is calculated for each language / character code system (step 204). Fig. 5 shows an example (part) of the table LBSL / C, and Fig. 3 shows the detailed steps of step 204.
次にステップ 205で、 既習パイト出現率が既定の下限値 と上限値 (UB> の間の値を取 る言語戊字コ一ド系が #¾するかがチヱックされる。 既習バイト出現率; s 限値 LBと上限 値 UBの間の値を取る言語/文字コード系が存在しない場合の例を第 6図に示す α 本ステ ' プ 205においてそれが 1つ以上存在する場合は、 次に 「自動識別不能 J を出力し勉理プロセス を終了する。 また存在しない場合は、 対象テキスト文書内に複数の言語ノ文字コード系が混 在する場合に对応した請求の範囲第 2項記載の処理が次に行われる。なお、 LBおよぴ UBの 値は実施事例に依存してあらかじめ決決定される。. 下限値 LBが大きく、 上限値 UBが小さ いほど、 既習パイト出現率が LBと UBの間の値を取る言語/文字コード系が存在する場合の 数は少なくなるが、 誤つた識別を行ラ可能性は高くなる。 Next, in step 205, it is checked whether or not the language code code system in which the learned pate appearance rate takes a value between the predetermined lower limit value and the upper limit value (UB>). If the language / character code system which takes a value between s limit value LB and the upper limit value UB is present it has one or more at α present stearyl 'flop 205 illustrating an example of a in FIG. 6 If not, then "The system automatically outputs the unrecognizable J and terminates the study process. If there is no J, the target text document contains multiple language character code systems. The processing is performed next, and the values of LB and UB are determined in advance depending on the implementation case .. The lower the lower limit LB and the lower the upper limit UB, the lower the LB of the trained pate If there is a language / character code system that takes a value between Gyora possibility is high.
一個の言薪 Z文字コード系 (A) における上記のリスト LBSL/C力 その項目に関して、一 値の言語/文字コ一ド系(B) における同 Uストに包含される (このとき Aは Bより上位の 関係と呼ぶ) ことによって定義される 2 TO/文字コード系間の関係を、 言語/文字コード 系を特定する記号の組として記述する (図 7にその一例を示す)。 あらかじめ作成された、 ¾f 象言語/文字 ード系における上記の関係を受け、 既習バイト出現率が上限値 UBを上回る 言語/文字コード系が複数ある場合に、 それらの中に関係を構成する 2言語/文字 ード系 が有る場合に下位の言語 Z文字コード系を除外する (ステップ 206)。 ステップ 206の実施手 順の詳細は第 4 ¾の流れ囫に示す。 またステップ 206の実行例を第 8図に示す。  One word firewood Z The above list in the character code system (A) LBSL / C capability For that item, it is included in the same U list in the one-value language / character code system (B) (where A is B The relationship between the 2TO / character code systems defined by the upper-level relationship is described as a set of symbols that specify the language / character code system (an example is shown in Figure 7). Given the above relationship in the f target language / character code system created in advance, if there are multiple languages / character code systems whose learned byte appearance rate exceeds the upper limit UB, configure the relationship among them. If there is a language / character code system, the lower language Z character code system is excluded (step 206). The details of the procedure for implementing Step 206 are shown in Flowchart IV. Fig. 8 shows an execution example of step 206.
最後に、 上記のステップ 20&で除外されずに残った言語/文字コード系が単数である場合 に、 当該言語 Z文字コード系を識另結果として出力し、 それ以外の場合は 「自動識別不能 J を 力し、 処理プロセスを終了する 産業上の科用の可能性 、 Finally, if there is only one language / character code system left unremoved in step 20 & above, the relevant language Z character code system is output as an identification result. To end the process Potential for industrial subjects,
「背景 』 で述べたインターネット上の統計調査はもとよ 、 これと同様の理由でネッ トワーク上に *に する文齊の検索や分類等においても本発明は強力なマルチリンガル 情報処理手段となり得る可能性が有る α 以下、 本発明の特長をさらに 2点と、 本努明の有効The present invention can be a powerful multilingual information processing means not only in the statistical survey on the Internet described in the background, but also in the search and classification of * on the network for the same reason. Below α , which is possible, two additional features of the present invention
¾を確認する実験とその結果を示す。 An experiment to confirm ¾ and the result are shown.
(特長 I :識別可能なテキスト文書の多様性)  (Feature I: Diversity of identifiable text documents)
従来の技術においては、 特定の種類の字句のみを多用するテキスト文書における識別は難 かしい場合がある。. 例えぽ、 平仮名は日本語の文書では必ずといってよいぼど使用され、 し 'かも使用頻度は非常に高い。 このため従来の技術 ( における出現頻度の高い文字として平仮 名を、 また従来の技術 (2)における特異的に使用される文字コードとしては«名の第 1バイ トを利用することが多い。 特に従来の技術 (2)においては、 日本語の文字コード系 SMft-JIS と EUCのいずれかを識別するために、 EUCでは使用されない、 Shift- JISの 名の第 1 パイトで使用されている文字コードの有無をチェグクするのである。 しかしこの場合、 イン ターネット上のページで実際に存在する 「都道府県別大学一覽 (東京都) 青山学院大学,亜 細亜大学, 上野学園大学, 桜美林大学, 大妻女子大学, といった文書の齢、 仮名文字 を全く使用しないため適正な識掰が実行されることは期待できない。  In the related art, it may be difficult to identify a text document in which only specific types of lexicals are frequently used. For example, Hiragana is almost always used in Japanese documents, and Shimo is very frequently used. For this reason, hiragana is often used as a character with a high frequency of appearance in the conventional technology (), and the first byte of the first name is often used as a character code specifically used in the conventional technology (2). In particular, in the conventional technology (2), in order to identify either the Japanese character code system SMft-JIS or EUC, the character used in the first byte of the Shift-JIS name that is not used in EUC However, in this case, we check for the presence or absence of the code, but in this case, there is a page on the Internet that actually exists “Ichiban Prefectural Universities (Tokyo)” Aoyama Gakuin University, Asia University, Ueno Gakuen University, Sakurarin University, Since the age of documents such as Otsuma Women's University and Kana characters are not used at all, proper knowledge cannot be expected to be executed.
—方、 本発明:の手法によれば、 各対象言語/文字コード系毎に当該言語 Z文字コード系に よるテキスト文書で使用される可能性のある規定長バイト列の-リストを用いるため、 上記の テキスト文例の識別に何ら支障は生じない。 ただし、 多数の言語 Z文字コード系で使用され る数字、空白(スペース)、記号などを 常に多く含む: ^は、識別不能となることがあるが、 この場合でも誤った識別結果を返すことはない。  On the other hand, according to the method of the present invention, since a list of specified-length byte strings that may be used in a text document by the language Z character code system is used for each target language / character code system, There is no problem in identifying the above text examples. However, it always contains many numbers, blanks (spaces), symbols, etc. used in many languages Z character code system: ^ may be indistinguishable, but even in this case it is possible to return incorrect identification results Absent.
(特長 2 r情報が不足している場合の信頼性)  (Feature 2 r Reliability when information is insufficient)
さらに本発明では、 ^言語 /"文字コード系ごとにあらかじめ作成されるべき、 当該言語 文字ユード系によるテキスト文書內で ffi現する可能性のある規定長パイト列のリスト LBSL/Cの項目が不十分である場合も、 それが原因となり誤った識別結果を返すことはない。 この場合も正し 、結果力、 不能のいずれか す。 その理由を次に説明する。  Further, according to the present invention, there is no item in the list LBSL / C of the list of specified length pite strings which may be expressed in the text document に よ る in the language / character / uide system to be created in advance for each ^ language / "character code system. If it is sufficient, it will not return an incorrect identification result, which is again correct, consequential, or impossible, for the following reasons.
Aなる言語/文字コ一ド系のリスト LBSL/Gの項 が不十分であると仮定する。このとき、 対象となるテキスト文書 1>言語/文字コード系 Aによる場合と、 2) Aとほ異なる、 封象 として登録済みの言語 Z文字コード系 Bによる 、およぴ 3> Aとは る、未登録の TO ノ文字コード系 Cによるものである場合の、 3通りが考えられる。 1>の場合、 对象テキスト 文鲁の Aに闋する既習バイト.出現率が、 LBSL Gの項目が十分であれば上限値 UBを上回る ぺきところを、項目が不十分であるために ϋΒを下回る可能性が高い。しかしその^^でも、 その他の 言語/文字コード系の既習パイト出現率を押し上げる要面とはならず、 結果的 に識別不能を返す。 Assume that the language / character code list LBSL / G is incomplete. At this time, the target text document 1> language / character code system A, 2) different from A, language Z registered as envelope Z character code system B, and 3> A There are three cases in which it is based on the unregistered TO character code system C. If 1>, target text Learned bytes indicated in A of the document. The appearance rate is likely to exceed the upper limit value UB if the item of LBSL G is sufficient, but is likely to be lower than ϋΒ due to insufficient items. However, even with ^^, it is not the key to boosting the appearance rate of learned pite in other languages / character codes, and consequently returns indistinguishable.
2)の場合、 对象テキスト文書め Αに関する既晋バイト出現率は Aの LB^C の項目が十 分であっても下限値: よりも小さい喾である。 Aの LBSL/Cの項目が不十分であればこの 数値は LBSL Cの項目が十分である場合と比べて同等かそれ以下であり、 誤った結果を返す 要因とはならない。  In the case of 2), the appearance rate of existing bytes for the target text document is smaller than the lower limit: even if the LB ^ C items of A are sufficient. If A's LBSL / C entry is inadequate, this figure will be less than or equal to that of LBSL C's entry, and will not be a factor in returning incorrect results.
¾の場合は、 いずれの対象言語/文字コード系に関-しても、 もとより既習パイト出現 *が UB値を上回ることほ無く、 Aの LBSL Cの項目が不十分であれば、 Aに関する既習バイト 出現率がより小さい値を取るだけである。 したがって裙果は識 不能と出力される。  In the case of ¾, regardless of the target language / character code system, the appearance of the previously learned pite is unlikely to exceed the UB value. The byte occurrence rate only takes on a smaller value. Therefore, the skirt fruit is output as incomprehensible.
なお、 その言語/文字コード系が明らかであるテキスト文書を本装置にかけ、 当該言語/ 文字コード系に歸する既習パイト出現率を算岀することによって、 当該言語/文字コード'系 のリスト LBSL Cの項目が十分力 かを検定することも可能である。  Note that a text document whose language / character code system is clear is sent to this device, and by calculating the appearance rate of learned pite returning to the language / character code system, the list of the language / character code 'system LBSL C It is also possible to test whether or not the item is powerful enough.
c )  c)
本発明の有効性を検証するために実施された実験の詳細を&下に記す。  Details of experiments performed to verify the effectiveness of the present invention are described below.
第 6図に示す 8言語/文字コ一ド系 (Aから H) を対象とし、各言語 z文字コード系にお けるリスト LBSIJCの項目をそれぞれ第 図に示す儸数だけ収集した。 ただし、 2言語/文 字コ一ド系 D Eにつ 、ては、それぞれ、言語 Z文字コ一ド系 B 言語/文字コ一 B, Cにおけるリスト UBSL/Cの項目に面して和集合を取った スト,を使用した。'また、 ン ドネシァ語 Ziso885S-lについては,、 その スト LBSI Gの項巨数を意図的に少なく設定し た。いずれのリスト LBSL/Cの項目も、ィンターネット上のページからランダムに収集され、 人手によってその言語 Z文字コード系が確認され fcテキスト文書から抽 ffiされた。 リスト LBSL/Cの項 gを抽出するために参照した各言語/文字コード系によるテキスト文書の数量 を第 9図に併せて記す。 また、 本 象言語ノ文字コード系に努現される請隶の範囲第 2項に 記載の誰係は、 第 7図に記載された記述と同一のものとする。 実験において識別の ¾象とさ れたテキスト文書のうち、 A (日本語/ Shift-JIS)、 および B (英語/ iso8859-l)によるものを それぞれ以下に示す。 * A (日本語/ SMft-JIS) For the eight language / character code systems (A to H) shown in Fig. 6, the items in the list LBSIJC for each language z character code system were collected in a small number as shown in Fig. 6. However, for the two-language / letter-code system DE, the union is set to the items of the list UBSL / C in the language Z-letter code system B language / letter-code B and C, respectively. The shot that was taken was used. 'In addition, for the Indonesian language Ziso885S-l, the term gibber of the strike LBS G was intentionally reduced. The items of both lists LBSL / C were randomly collected from pages on the Internet, and their language Z character code system was manually checked and extracted from fc text documents. The number of text documents in each language / character code system referred to to extract item g of list LBSL / C is also shown in Fig. 9. In addition, the persons described in the second section of the scope of slaves working on the character code system of the target language shall be the same as those described in FIG. Among the text documents identified in the experiment, the ones using A (Japanese / Shift-JIS) and B (English / iso8859-l) are shown below. * A (Japanese / SMft-JIS)
経済のグローバル化が急速に進展する中で、新しい国際経済秩序の構築に向けた動きは、 W T O (世界貿易機歸) の說立、 A P E C (アジア太平洋経済齒カ) の発展と本格化してお ます。 As the globalization of the economy progresses rapidly, the movement to build a new international economic order is in full swing with the establishment of the World Trade Return (WTO) and the development of the APEC (Asia-Pacific Economic Partnership). You.
経済産業省では請力れた経済システムを発展させて、 S本経済、 さらには世界経済の安定的 な楽展を するため、 世界各国と協議を行い、 様々な場においてリーダーシップを発揮し て "ます。 The Ministry of Economy, Trade and Industry (METI) has conducted consultations with countries around the world and has exerted leadership in various places to develop a contracted economic system and to achieve a stable and comfortable exhibition of the S economy and the world economy. You.
世界第一位の 予算を拠出している我が国としては、 発展途上国の自立的発展を す るため、'政府開発援助大綱に基づいた効果的 *効率的な経済協力を実施しています。 As Japan, the world's largest funder, Japan is implementing effective and efficient economic cooperation based on the Official Development Assistance Charter in order to help developing countries become self-sustaining.
また、経済直業省では、 我が,の国益に資する経済協力が重要であるとの認識の下、 援助と 貿易》投資の有機的逢携を確保した総合的綏済協力を推進しています。 In addition, the Ministry of Economy, Trade and Industry recognizes that economic cooperation that contributes to the national interest is important, and is promoting comprehensive Sui-zai cooperation that secures organic cooperation between aid and trade. .
B (英語/ iso8859"l> B (English / iso8859 "l>
Framing ever tMng" of course, are ner trademar cum. "We all have the hair says argulies of her two older sisters and their divorced parents^ Paul, an advertising copywriter, and Franceses, a dance teacher. MarguBes began her career as a hair ittodel for a perm company.  "Framing ever tMng" of course, are ner trademar cum. "We all have the hair says argulies of her two older sisters and their divorced parents ^ Paul, an advertising copywriter, and Franceses, a dance teacher.MarguBes began her career as a hair ittodel for a perm company.
'T(i out on a runway, and they'd say, This is owr permt Look how natural ad beawtiful it is "' says the actress, lio haa never had a perm at all. lb maintain Ber corkscrews^ she shampoos daily, conditions every six weeks with Sebastian Potion 9 and deep-conditions twiee a year. "My hair will do pretty much what I want it to do," she says. "It's like Play-Doh."  'T (i out on a runway, and they'd say, This is owr permt Look how natural ad beawtiful it is "' says the actress, lio haa never had a perm at all.lb maintain Ber corkscrews ^ she shampoos daily, conditions every six weeks with Sebastian Potion 9 and deep-conditions twiee a year. "My hair will do pretty much what I want it to do," she says. "It's like Play-Doh."
Photo by: Daniela Federici 以上の条件下で、 Α ¾¾Ηの言語 Ζ文字コード系、 および、 Α と : Βつまり日本 fe/ Shift- JIS と英語が混在したテキスト文書 (言語/文字コード系 A,B,G,F,G,Hはいずれも約 70ひパイト、 3本語と英語混在は約 1 30ひパイト) をそれぞれ請求の範囲第 1項に記載の識 別装置に入力した場合の、 ステップ 204における各言語/文字コード系毎の既習パイト列出 現率を第 1 G図に示す。  Photo by: Daniela Federici Under the above conditions, 言語 言語 language Ζ character code system, and Α and :: a text document in which Japanese fe / Shift-JIS and English are mixed (language / character code system A, B, G, F, G and H are all about 70 pounds, and about 130 pounds for a mixture of three languages and English) are input to the identification device described in claim 1 respectively. Figure 1G shows the appearance rate of trained pite strings for each language / character code system in.
そのリスト LBSL Cが不充分な状況で比較実験した言語/文字コ一ド系ィンドネシァ語に おいて、 イン ネシァ語の入力テキストが識別不能である。 その他の入力テキストについて は、 請求の範隨第 2項に のステップ 206の を行うことにより正しい識 結果が得ら れた。例えば、英語/ 3Lによるテキストの入力に対して .英靜 のみ』 と 「D. 日本語/ S, 英語/ Lのいずれか、 または混在」 の 2言語ノ文字コード系において既習バイト列出現率が UBを上回った。 上記の 文字コード系に対してステップ 206の処理を行 ことによ つて、 第 8図の例 1に見られるように 1言語 Z文字コード系 「: B.英語/ Lのみ」 を得ること ができる。 (文字コード系 Shift-JISを &、 iso8859-I を L とそれぞれ略 |Bした) In the language / letter-code language Indonesian language that the list LBSL C did comparative experiments in insufficient, the input text of Indonesian language is indistinguishable. About other input text As a result, the correct knowledge was obtained by performing step 206 in step 2 of the claim. For example, in the case of text input in English / 3L, the learning rate of the learned byte string in the bilingual character code system of "English only" and "D. Japanese / S, English / L, or mixed" Exceeded UB. By performing the processing of step 206 on the above character code system, it is possible to obtain a monolingual Z character code system ": B. English / L only" as shown in example 1 of FIG. . (Character code system Shift-JIS is abbreviated to &, and iso8859-I is abbreviated to L. | B)
「背景」 で述べたインタ一ネット上の調査を実施する場合、 封象として登録される言語/ 文字コード系は数百のオーダーであると思われる。 本 例で封象としたのは 8言語/文字 コード系のみであるが、 識別能力が問題となるのは、 フランス語/ Lと英語/ Lといった、 同一 の文字コ一ド系で近縁 係にある言語閬の識 にお! \て如何に識別不能を出力せず〖こ適正な 識別を行 かである。 したがって、 数百の言語 Z文字コード系を対象として実験を行わなく とも、 近縁関係にある言語ノ文字コード系を ¾ ^に実験を行うことで、 本発明の有効性は確 認することができる。  When conducting a survey on the Internet as described in the "Background" section, it is likely that the number of languages / character codes registered as seals will be on the order of hundreds. In this example, only the eight languages / character codes were sealed.However, the discrimination ability is a problem in the same character code systems such as French / L and English / L, which are closely related. In a knowledge of a language! That is, the proper identification is performed without outputting the indistinguishability. Therefore, it is possible to confirm the effectiveness of the present invention by conducting experiments on the closely related language character code system ¾ ^ without conducting experiments on several hundred language Z character code systems. it can.

Claims

請求 の範囲 The scope of the claims
1- コンピュータによってコード化されたテキスト文書 ( となるテキスト文書と呼ぶ) か ら、 その TOおよぴ文宇コード系を するための機械処理方法において、 1- From a text document coded by a computer (referred to as a text document), the machine processing method for performing TO and
封象となるテキスト文書に含まれるすべての規定長バイト列を読み取り'、 それらをリストReads all the specified length bytes contained in the enclosed text document 'and lists them
(LBSSと呼ぶ)として格納する手段 (ステップ 203)と、 Means (called as LBSS) (step 203),
登録された言語 Ζ文字コード系 (対象言語/文字コード系と呼ぶ) の备々についてあらかじ め作成された、 当該言語/文字コード系によるテキスト文書内で 現する可能性のある規定 長パイト列のリスト (LBSL/Cと呼ぶ)を格 »Tる手段と、 Registered language 規定 Character code system (referred to as target language / character code system) Created in advance, rules that may appear in text documents of the relevant language / character code system Long pile strings Means to list the list (called LBSL / C)
各々の!;スト LBSL/C内に、 LBSS內の各々の規定長パイト列が存在するか否かを検索する ステツプ (ステップ 302から 306)と、 A step (steps 302 to 306) for searching whether each! Length string sequence of LBSS 內 exists in each LBSL / C;
上記ステップの結果を受けて、 各々の言語/文字コード系每に、 リスト LBSL Cに既に存在 する規定長パイト列がリスト LBSS に含まれる値数の割合 (J¾¾パイト列出現率と呼ぶ〉を算 出してそれらを格納する手段 (ステツプ を有し、 Based on the results of the above steps, for each language / character code system, the ratio of the number of values in the list LBSS where the specified length pite string already exists in the list LBSL C (called the J¾¾pite string appearance rate) is calculated. Means to take them out and store them (having steps,
ただ 1つの言語 Z文字コード系における既習パイト列出現率の値が 1に近いと判断され、 且 つその他の言語/文字コード系における既晋バイト列 現率が皆、 1 より力なり小さいと判 断される場合に前者の言語/文字コード系を出力し、 それ以外の場合に識別不能を出力する ことを特微とする処理方法。 It is judged that the value of the learned pite string appearance rate in only one language Z character code system is close to 1, and that the existing byte string occurrence rates in other languages / character code systems are all slightly lower than 1. A processing method characterized by outputting the former language / character code system when rejected, and outputting unrecognizable otherwise.
2.一値の言語 Z文宇コード系(Aとする) における請求の範囲第 1項記載の! スト LBSL C が、その項 Sに関して、一個の " l Z'文 コ一ド系 (Bとする > における同リストに包含され る (このとき Aは Bより上位の関係であると呼ぶ) ことによって定義される 2言語/文字コ ード系間の関係を記述する情報を、 対象の言語 Z文字コード系をあらわす記号の組として任 意個数格納:する手段 (第 7 HD と、  2. The LBSL C described in claim 1 in the one-valued language Z sentence code system (assumed to be A) has a single "l Z 'sentence code system (B and The information describing the relationship between the two-language / character code systems defined by being included in the same list in (where A is a higher-level relationship than B) is described in the target language Z Means for storing an arbitrary number as a set of symbols representing the character code system (7th HD,
対象言語/文字コード系における、 あらかじめ与えられた上記記載の任意値数の関係を記述 した情報と、 複数の言語 文字コード系とを受け、 受け付けた複数の言語 Z文字コード系內' に関係を'構成する 2言語/文字ユード系が有る場合に下位の言語/文字コード系を受け付け た複数の言語 Z文字コード系から削除することによって得られる単数または複数の言語 Z文 字コード系を出力するステップ (ステップ 20&)とをさらに含むことを特徴とする、請求の範囲 第 1項記載のコンビユータによってコード化されたテキスト; から.、 その TOおよび;^ コード系を識別:するための機械処理方法。. Receives information describing the relationship between the given number of arbitrary values given above in the target language / character code system, and multiple language character code systems. 'If there is a two-language / character use system to configure, output one or more languages Z character code systems obtained by deleting lower language / character code systems from multiple languages that accept lower language / character code systems A machine processing method for identifying: the text coded by the computer according to claim 1, further comprising a step (step 20 &); . .
PCT/JP2001/004350 2001-05-24 2001-05-24 Method for identifying language/character code system WO2002095614A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002592007A JPWO2002095614A1 (en) 2001-05-24 2001-05-24 Language / character code system identification processing method
PCT/JP2001/004350 WO2002095614A1 (en) 2001-05-24 2001-05-24 Method for identifying language/character code system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2001/004350 WO2002095614A1 (en) 2001-05-24 2001-05-24 Method for identifying language/character code system

Publications (1)

Publication Number Publication Date
WO2002095614A1 true WO2002095614A1 (en) 2002-11-28

Family

ID=11737343

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/004350 WO2002095614A1 (en) 2001-05-24 2001-05-24 Method for identifying language/character code system

Country Status (2)

Country Link
JP (1) JPWO2002095614A1 (en)
WO (1) WO2002095614A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008515107A (en) * 2004-09-30 2008-05-08 グーグル・インコーポレーテッド Method and system for selecting a language for text segmentation
US8849852B2 (en) 2004-09-30 2014-09-30 Google Inc. Text segmentation
JP2015118625A (en) * 2013-12-19 2015-06-25 株式会社Ji2 Determination device, determination method, and program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194696A (en) * 1998-12-23 2000-07-14 Xerox Corp Automatic identification method for key language of sample text

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194696A (en) * 1998-12-23 2000-07-14 Xerox Corp Automatic identification method for key language of sample text

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008515107A (en) * 2004-09-30 2008-05-08 グーグル・インコーポレーテッド Method and system for selecting a language for text segmentation
US8306808B2 (en) 2004-09-30 2012-11-06 Google Inc. Methods and systems for selecting a language for text segmentation
US8849852B2 (en) 2004-09-30 2014-09-30 Google Inc. Text segmentation
JP2015118625A (en) * 2013-12-19 2015-06-25 株式会社Ji2 Determination device, determination method, and program

Also Published As

Publication number Publication date
JPWO2002095614A1 (en) 2004-11-25

Similar Documents

Publication Publication Date Title
TW310400B (en)
US10409911B2 (en) Systems and methods for text analytics processor
US5164899A (en) Method and apparatus for computer understanding and manipulation of minimally formatted text documents
US7756871B2 (en) Article extraction
US9489371B2 (en) Detection of data in a sequence of characters
US20100023318A1 (en) Method and device for retrieving data and transforming same into qualitative data of a text-based document
Gesmundo et al. Lemmatisation as a tagging task
US20120290288A1 (en) Parsing of text using linguistic and non-linguistic list properties
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
CA2836220A1 (en) Methods and systems for matching records and normalizing names
US11314922B1 (en) System and method for generating regulatory content requirement descriptions
Xu et al. Using SVM to extract acronyms from text
CN114386100A (en) Public cloud user sensitive data management method
CN111539383B (en) Formula knowledge point identification method and device
JPH06314297A (en) Device and method for processing of document and device and method for retrieving data base
CN107273354A (en) A kind of semantic character labeling method for merging predicate prior information
CN115983202A (en) Data processing method, device, equipment and storage medium
WO2002095614A1 (en) Method for identifying language/character code system
US20230419110A1 (en) System and method for generating regulatory content requirement descriptions
JP2000148754A (en) Multilingual system, multilingual processing method, and medium storing program for multilingual processing
Ifeanyi-Reuben et al. Comparative Analysis of N-gram Text Representation on Igbo Text Document Similarity
Sawalha et al. Linguistically informed and corpus informed morphological analysis of Arabic
US20110320493A1 (en) Method and device for retrieving data and transforming same into qualitative data of a text-based document
JPH08115330A (en) Method for retrieving similar document and device therefor
JPS61248160A (en) Document information registering system

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CR CU CZ DE DK DM DZ EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2002592007

Country of ref document: JP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

122 Ep: pct application non-entry in european phase