CN1331449A

CN1331449A - 用于将粘着法构成的文本或文档分段成词的字符串划分或区分的方法及相关系统

Info

Publication number: CN1331449A
Application number: CN00131092A
Authority: CN
Inventors: 飯塚泰樹
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-12-28
Filing date: 2000-12-28
Publication date: 2002-01-16
Also published as: US20010009009A1; JP2001249922A

Abstract

统计计算在给出的日语文档数据库中出现的两个相邻字符的连接概率。计算出的连接概率存储在表中。根据计算出的连接概率,将目标日语句子分段成多个词,使得目标日语句子的每个划分位置位于具有较小连接概率的两个相邻字符之间。

Description

用于将粘着法构成的文本或文档分段成词的字符串划分或区分的方法及相关系统

本发明涉及一种字符串划分或分段方法及其相关装置，用来有效地将目标字符串(例如，句子、复合字等)划分或分段成多个词，最好是可以用于自然语言处理系统的预处理和/或分析，该系统执行文本或文档数据的计算机化处理，以便达到文档搜索、翻译等的完全计算机化的目的。

一个词是一个字符串，即，几个字符的排列或组合，其具有自身的含义。在这方面，一个词可以看成是能够表示含义的最小字符单元。一个句子包括多个词。在这方面，一个句子是具有更大规模的字符串。一个文档是多个句子的组合。

通常，将日本语、中国汉语、和一些亚洲语言划分为一组粘着法构成的语言，它们不明确地区分字符来表示词的界限。对于一个不了解该语言的人来说，日语(或汉语)是长长的字符串，据此每个相邻词之间的界限不清楚。这就是粘着法构成的语言与例如英语或其他欧洲语言等非粘着法构成的语言之间的特有的区别。

在计算机翻译、自动摘要或类似领域中使用自然语言处理系统。为了操作该自然语言处理系统，不可避免地需要的预处理是每个句子的分析。当处理日文文本(或文档)时，将一个句子划分或分段成几个词是预先要作的最初分析。

例如，文档搜索系统可以用于日语字符串“今月の東京都議会(这个月的东京首都集会)”，根据它，对于词“東京都”的搜索将一方面找到有关“東京(东京)”的词，另一方面找到有关“京都(京都)”的词，在这种情况下并没有给出该词的含义。在这种情况中，不需要有关“京都”的词并且作为搜索干扰处理。

作为可以在粘着法构成的语言中使用的传统词划分技术，美国专利No.6,098,035公开了一种形态音位学分析方法和装置，根据该专利，N个字符列的部分连接概率存储在字符表中。参考该部分连接概率确定一个句子的划分位置。为了学习的目的，该系统需要准备预先划分或分段成词的句子(或文档)。

注意到N个字符列，由日本信息处理协会(Information Processing Society ofJapan)，自然语言处理工作组，在NL-113-3，1996出版了文章“Estimation ofmorphological boundary based on normalized frequency”。

作为类似的现有技术，未审查的日本专利No.10-254874公开了一种词素分析器，其需要预先在划分成词的文档数据上的学习操作。

另外，未审查的日本专利No.9-138801公开了一种利用N个字符列的字符串摘录方法及其系统。

本发明的目的在于提供一种字符串划分方法及其相关装置，用来有效地将粘着法构成的语言的目标字符串划分或分段成多个词。

为了实现这个以及其他相关目的，本发明提供第一种字符串划分系统，用来将字符串分段成多个词。提供输入部分装置，用于接收文档。提供文档数据存储装置，作为文档数据库，用于存储接收到的文档。提供字符连接概率计算装置，用来计算文档数据库中出现的两个相邻字符之间的连接概率。提供概率表存储装置，用来存储计算出的连接概率的表。提供字符串划分装置，用来根据计算出的连接概率的表，将目标字符串分段成多个词。以及提供输出装置，用来输出目标字符串的划分结果。

本发明提供第一种字符串划分方法，用来将字符串分段成多个词。该第一种方法包括：统计计算步骤，计算在给出的文档数据库中出现的两个相邻字符之间的连接概率；还有分段步骤，根据计算出的连接概率，将目标字符串分段成多个词，使得目标字符串的每个划分位置出现在具有较小连接概率的两个相邻字符之间。

根据第一种字符串划分方法，最好是，在连接概率与阈值(δ)之间比较的基础上，确定目标字符串的划分位置，以及根据得到的词的平均词长度确定该阈值。

根据第一种字符串划分方法，最好是，将字符类型的改变位置看作是目标字符的预期划分位置。

根据第一种字符串划分方法，最好是，将逗号、圆括号和相当的符号看作是目标字符的划分位置。

本发明提供第二种字符串划分方法，用来将字符串分段成多个词。该第二种方法包括：统计计算步骤，计算在给出的文档数据库中出现的两个相邻字符(C_i－1、C_i)之间的连接概率。计算连接概率P(C_i|C_i－N＋1…C_i－1)，作为指定的字符串(C_i－N＋1…C_i－1)在指定的字符(C_i)的前面直接出现的出现概率。该指定的字符串包括两个相邻字符中的前一个(C_i－1)作为它们的结尾，并且指定的字符是两个相邻字符中的后一个(C_i)。另外，该第二种方法包括分段步骤，根据计算出的连接概率，将目标字符串分段成多个词，使得目标字符串的每个划分位置出现在具有较小的连接概率的两个相邻字符之间。

本发明提供第三种字符串划分方法，用来将字符串分段成多个词。该第三种方法包括：统计计算步骤，计算在给出的文档数据库中出现的两个相邻字符(C_i－1、C_i)之间的连接概率。计算连接概率P(C_i|C_i－n…C_i－1)xP(C_i－1|C_i…C_i＋m－1)，作为第一个字符串(C_i－n…C_i－1)在第二个字符串(C_i…C_i＋m－1)的前面直接出现的出现概率。第一个字符串包括两个相邻字符中的前一个(C_i－1)作为它们的结尾，而第二个字符串包括两个相邻字符中的后一个(C_i)作为它的开头。另外，该第三种方法包括分段步骤，根据计算出的连接概率，将目标字符串分段成多个词，使得目标字符串的每个划分位置出现在具有较小连接概率的两个相邻字符之间。

根据第三种字符串划分方法，最好是，在第一个字符串在两个相邻字符中的后一个的前面直接出现的第一概率(Count(C_i－n…C_i)/Count(C_i－n…C_i－1))的基础上，以及在第二个字符串在两个相邻字符中的前一个的后面直接出现的第二概率(Count(C_i－1…C_i＋m－1)/Count(C_i…C_i＋m－1))的基础上，计算两个相邻字符的连接概率。

本发明提供第四种字符串划分方法，用来将字符串分段成多个词。该第四种方法包括：统计计算步骤，为了学习目的，计算在给出的文档数据库中出现的两个相邻字符之间的连接概率；以及分段步骤，根据计算出的连接概率，将目标字符串分段成多个词，使得目标字符串的每个划分位置出现在具有较小连接概率的两个相邻字符之间。根据该第四种方法，当目标字符串包括一排没有包含在文档数据库中的字符时，在为存储在文档数据库中的相邻字符计算的连接概率的基础上，估算在数据库中没有出现的任何两个相邻字符的连接概率。

本发明提供第二种字符串划分系统，用来将字符串分段成多个词。提供输入装置，用于接收文档。提供文档数据存储装置，作为文档数据库，用于存储接收到的文档。提供字符连接概率计算装置，用来计算文档数据库中出现的两个相邻字符之间的连接概率。提供概率表存储装置，用来存储计算出的连接概率表。提供字典存储装置，用来存储预先准备或形成的字典。提供划分模式产生装置，用来根据字典的信息产生一个目标字符串的划分模式的多个候选。提供正确模式选择装置，用来根据字符连接概率表，从多个候选中选择正确的划分模式。以及，提供输出装置，用来输出所选择的正确划分模式，作为目标字符串的划分结果。

本发明提供第五种字符串划分方法，用来将字符串分段成多个词。该第五种方法包括：统计计算步骤，计算在给出的文档数据库中出现的两个相邻字符之间的连接概率；存储步骤，存储计算出的连接概率；以及分段步骤，根据字典将目标字符串分段成多个词。当目标字符串的划分模式存在多个候选时，根据计算出的连接概率，从多个候选中选择正确的划分模式，使得目标字符串的每个划分位置出现在具有较小连接概率的两个相邻字符之间。

根据第五种字符串划分方法，最好是，当目标字符串的划分模式存在多个候选时，计算每个候选的分数。该分数是目标字符串依照每个候选的划分模式，在相应的划分位置的连接概率的总和或乘积。以及，选择具有最小分数的候选作为正确的划分模式。

另外，最好是，将计算出的连接概率指定给该候选的每个划分位置。将一个常数指定给位于两个不分开的字符之间的每个位置。在由此指定的连接概率和常数的总和或乘积的基础上，计算每个候选的分数。以及，选择具有最小分数的候选作为正确的划分模式。

本发明提供第三种字符串划分系统，用来将字符串分段成多个词。提供输入装置，用于接收文档。提供文档数据存储装置，作为文档数据库，用于存储接收到的文档。提供字符连接概率计算装置，用来计算文档数据库中出现的两个相邻字符之间的连接概率。提供概率表存储装置，用来存储计算出的连接概率表。提供字典存储装置，用来存储预先准备或形成的字典。提供未知词估算装置，用来估算没有记录在该字典中的未知词。提供划分模式产生装置，用来根据字典和估算出的未知词的信息产生一个目标字符串的划分模式的多个候选。提供正确模式选择装置，用来根据字符连接概率表，从多个候选中选择正确的划分模式。以及，提供输出装置，用来输出所选择的正确划分模式，作为目标字符串的划分结果。

本发明提供第六种字符串划分方法，用来将字符串分段成多个词。该第六种方法包括：统计计算步骤，计算在给出的文档数据库中出现的两个相邻字符之间的连接概率；存储步骤，存储计算出的连接概率；和分段步骤，根据字典和估算出的未知词，将目标字符串分段成多个词。当目标字符串的划分模式存在多个候选时，根据计算出的连接概率，从多个候选中选择正确的划分模式，使得目标字符串的每个划分位置出现在具有较小连接概率的两个相邻字符之间。

根据第六种字符串划分方法，最好是，检查当前一个词在字符位置(i－1)结束时，是否有词从特定的字符位置(i)开始，并且当没有字典中的词从字符位置(i)开始时，将适当的字符串添加作为从字符位置(i)开始的未知词，在此添加的字符串具有不小于n并且不大于m的字符长度，其中n和m是正整数。

另外，最好是，指定给未知词的常数(V)大于指定给字典词的常数(U)。除了计算出的相应划分位置的连接概率的总和或乘积之外，在赋给未知词和字典词的常数的总和或乘积的基础上，计算每个候选的分数。以及选择具有最小分数的候选作为正确的划分模式。

从下面结合所附附图给出的详细说明中，可以更清楚本发明的上述和其他目的、特征和优点，其中：

图1是流程图，表示根据本发明的第一个实施例的字符串划分或分段程序；

图2是方框图，表示根据本发明的第一个实施例的字符串划分系统的设计；

图3是流程图，表示根据本发明的第一个实施例的字符连接概率的计算程序；

图4A表示根据本发明的第一个实施例，具有位于其开头的特定符号的一个目标字符串；

图4B是表示包含在图4A中所示的目标字符串中的2个字符列的出现频率的表；

图4C是表示包含在图4A中所示的目标字符串中的3个字符列的出现频率的表；

图4D表示计算出的包含在图4A中所示的目标字符串中的3个相应字符列的字符连接概率；

图4E表示一个指定的3个字符列的指示器位置和连接概率；

图4F表示计算出的连接概率与包含在图4A中所示的目标字符串中相应的3个字符列之间的关系；

图5是流程图，表示根据本发明的第一个实施例的字符串划分处理的计算程序；

图6A表示根据本发明的第一个实施例，具有位于其开头的特定符号的另一个目标字符串；

图6B是包含在图6A中所示的目标字符串中的2个字符列的出现频率表；

图6C是包含在图6A中所示的目标字符串中的3个字符列的出现频率表；

图6D表示计算出的包含在图6A中所示的目标字符串中的3个相应字符列的字符连接概率；

图6E表示计算出的连接概率与包含在图6A中所示的目标字符串中相应的3个字符列之间的关系；

图7表示根据本发明的第一个实施例，从包括通常在报纸中使用的一千万个日语字符的许多日语文档中得到的字符连接概率的实际例子；

图8表示在图7中所示的连接概率数据的基础上得到的给定句子的划分模式；

图9是流程图，表示根据本发明的第二个实施例，在n≠m的情况下字符连接概率的计算程序；

图10是流程图，表示根据本发明的第二个实施例，在n＝m的情况中的字符连接概率的计算程序；

图11是流程图，表示根据本发明的第二个实施例用于字符串划分的计算程序；

图12A表示根据本发明的第二个实施例，具有位于其开头和结尾的特定符号的一个目标字符串；

图12B是表示包含在图12A中所示的目标字符串中的2个字符列的出现频率表；

图12C是表示包含在图12A中所示的目标字符串中的3个字符列的出现频率表；

图12D表示计算出的包含在图12A中所示的目标字符串中的3个相应字符列的字符连接概率；

图12E表示一个指定的3个字符列的第一和第二因数的指示器位置和连接概率；

图12F表示计算出的连接概率与包含在图12A所示的目标字符串中相应的3个字符列之间的关系；

图13概念性地表示根据本发明的第二个实施例的阈值与平均词长度之间关系；

图14表示根据本发明的第二个实施例的第一和第二因数与相应的字符串；

图15是方框图，表示根据本发明的第三个实施例的字符串划分系统的设计；

图16是流程图，表示根据本发明的第三个实施例的字符串划分或分段程序；

图17A表示根据本发明的第三个实施例的一个给定字符串的划分候选；

图17B表示计算出来的图17A中所示的字符串的字符连接概率；

图18A表示根据本发明的第三个实施例的另一个给定字符串的划分候选；

图18B表示计算出来的图18A中所示的字符串的字符连接概率；

图18C表示计算出来的图18A中所示的划分候选的分数；

图19是流程图，表示根据本发明的第三个实施例，从多个候选中选择一个目标字符串的正确划分模式；

图20表示根据本发明的第三个实施例的给定字符串与字典词之间的关系；

图21是方框图，表示根据本发明的第四个实施例的字符串划分系统的设计；

图22是流程图，表示根据本发明的第四个实施例的字符串划分或分段程序；

图23是流程图，表示根据本发明的第四个实施例，从多个候选中选择一个目标字符串的正确划分模式；

图24表示根据本发明的第四个实施例的字典存储部分中记录的词；

图25A表示根据本发明的第四个实施例的给定字符串与字典词之间的关系；

图25B表示根据本发明的第四个实施例的字符串与字典词与未知词之间的关系；

图26表示根据本发明的第四个实施例的给定字符串的划分程序；

图27表示图26中所示字符串的划分候选；

图28A表示根据本发明的第五个实施例，计算出来的一个给定字符串的划分候选分数；

图28B表示计算出来的图28A中所示的字符串的字符连接概率；以及

图28C表示根据本发明的第五个实施例的正确划分模式的选择。

优选实施例的详细说明

字符串划分的原理

首先，根据每个字符出现的概率解释语言的属性。构成一个词的字符的顺序不能随意地改变。换句话说，每个字符出现的概率不是始终不变的。例如，待处理的文本或文档的语言中包括总共K个字符。如果K个字符全部统一地用来构成词，则由M个字符构成的词的可查证性可以由K^M表示。但是，在一个字典中实际使用或记录的词的数量没有这么大。

例如，已知日语是典型的粘着法构成的语言。经常在文本或文档中使用的日语字符的数量达到接近6,000。如果全部的日语字符统一地或任意地用来构成词，则得到的由2个字符构成的日语词的总数量将达到(6,000)²＝36,000,000。类似地，可以构成对应于3个、4个、5个……字符的巨大数量的词。但是，实际使用的日语词的总数量是几十万(例如，根据日语字典“Kojien”是200,000～300,000)。

后面紧接着另一个字符“b”的字符“a”的概率由字符类型的倒数表示(即，1/K)，如果全部字符统一使用的话。

例如，字符串“衆議院”是日语词。字符“議”紧接在字符“衆”后面的连接概率由P(議|衆)表示。根据全部日语词，连接概率P(議|衆)大于1/K＝1/6,000。由于两个字符“衆議”的出现的给出作为条件，因此连接概率P(院|衆議)应当是更高的值。另一方面，字符串“衆ぴ”不作为日语词识别或记录。因此，连接概率P(ぴ|衆)应当接近于0。

另一方面，允许相对的自由组合来构成一个句子。字符串“これは数字の本だ(这是一本数学书)”是日语句子。包含在该句子中的词“数字(数学)”可以自由地变成其它词。例如，该句子可以改写为“これは音樂の本だ(这是一本音乐书)”。

连接概率P(数|これは)是“数”在字符串“これは”后面出现的出现概率。根据上面的例子，该连接概率P(数|これは)非常低。两个相邻字符串在一个给出的文本(或文档)数据中出现的连接概率称作为字符连接概率。换句话说，字符连接概率表示两个相邻字符之间耦合的程度(或倾向)。因此，本发明利用字符连接概率来将粘着法构成的语言中的字符串(例如，句子)划分或分段成多个词。

考虑到字符连接概率的计算，可以通过收集或预备足够大的数据库，来增强它的准确度。可以在文档数据库的基础上统计地计算字符连接概率。

至此以后，将参照所附附图解释本发明的优选实施例。

第一个实施例

图1是流程图，表示根据本发明的第一个实施例的字符串划分或分段程序。图2是方框图，表示根据本发明的第一个实施例的字符串划分系统的设计。

文档输入部分201输入待处理的目标文档(或文本)的电子数据。文档数据存储部分202，用来作为文档数据的数据库，存储从文档输入部分201接收到的文档数据。字符连接概率计算部分203，与文档数据存储部分202连接，以存储在文档数据存储部分202中的文档数据为基础，计算任何两个字符的字符连接概率。也就是，在存储在数据库中的文档数据的基础上，计算两个字符作为相邻字符存在的概率。概率表存储部分204，与字符连接概率计算部分203连接，存储由字符连接概率计算部分203计算出来的字符连接概率表。字符串划分部分205接收来自文档数据存储部分202的文档，并根据存储在概率表存储部分204中的字符连接概率，将接收到的文档划分成几个词。文档输出部分206，与字符串划分部分205连接，输出处理后的文档结果。

将参照图1中的流程图，解释上面所述字符串划分系统的处理程序。

步骤101：从文档输入部分201输入文档数据并存储在文档数据存储部分202中。

步骤102：字符连接概率计算部分203计算包含在文档数据中的两个相邻字符之间的字符连接概率。计算结果存储在概率表存储部分204中。后面将详细解释计算方法。

步骤103：从文档数据存储部分202中读取文档数据，并根据存储在概率表存储部分204中的字符连接概率，将该文档划分或分段成几个词。更具体地，根据表中的数据检查两个相邻字符的字符连接概率。然后，在字符连接概率低的位置划分该文档。

步骤104：从文档输出部分206输出划分后的文档。

如上所述，本发明的第一个实施例的字符串划分系统计算包含在待处理的文档中的两个相邻字符的字符连接概率。利用由此计算出来的字符连接概率，来确定将目标字符串划分或分段成几个词的划分位置。

接下来，详细解释步骤102中的处理程序。根据本发明的第一个实施例，字符C_i－1与字符C_i之间的字符连接概率表示为如下所示的条件概率：

P(C_i|C₁C₂……C_i－1)……………………………………(1)

其中“i”是正整数，而字符C_i紧随字符串C₁C₂……C_i－1。

由公式(1)表示的连接概率的计算需要数量很大的存储空间。由公式(1)表示的字符(或词)串的条件概率接近N个字符的排列，后者通常称作为N个字符列(N＝1，2，3，4…)。使用N个字符列的条件概率定义为在字符串C_i－N＋1…C_i－1后面出现的字符C_i的出现概率。字符串C_i－N＋1…C_i－1是按照该顺序排列的全部(N－1)个字符的排列。更具体地，使用N个字符列的条件概率是第N个字符在由N个字符列的第1个至第(N－1)个字符构成的字符串后面出现的出现概率。其由下面的公式(2)表示：

P(C_i|C_i－N＋1…C_i－1)………………………………(2)

N个字符列的概率的计算如下(参考由Yuji Matsumoto等人编写的“Wordand Dictionary，由Iwanami Shoten，Publishers于1997年出版)

P(C_i|C_i－N＋1…C_i－1)＝Count(C_i－N＋1…C_i)/Count(C_i－N＋1…C_i－1)……(3)

其中，Count(C₁C₂…C_m)表示字符串C₁C₂…C_m在待检查的数据中出现的出现概率(即，出现的次数)。

在N个字符列的计算中，在待计算的字符串(即，句子)之前和之后添加总共(N－1)个特定的符号。通常，在包含该特定符号的N个字符列的基础上，计算一个句子的开头字符或结尾字符的概率。例如，现在假定给出一个日语句子“これは本だ(这是一本书)”作为样本(N＝3)。特定符号##添加在给出的字符串之前和之后，来构成字符串“##これは本だ##”，由此可以得到以下总共7个3个字符列：

“##こ”，“#これ”，“これは”，“れは本”，“は本だ”，“本だ#”，“だ##”

另一方面，根据本发明的第一个实施例，以下面的方式执行N个字符列的计算。

在待计算的字符串的前面添加总共(N－2)个特定的符号。并且在待计算的字符串的后面不添加特定的符号。在这种情况中，N－2是不小于0(即，N－2≥0，因此当N＝1时将N－2看作为0)。在待计算的字符串的后面不添加特定的符号的原因在于，一个句子的最后一个字符永远是一个词的结尾。换句话说，可以省略获得句子的最后一个字符与特定符号之间的连接概率的计算。与此同时，考虑到句子前面的部分，很明显句子的开头是一个词的开始。因此，可以减少在句子的前面添加的特定符号的总数量。为了计算开头字符与句子的下一个字符之间的连接概率，需要构成一个总共包括(N－2)个特定符号的N个字符列。这就是为什么该实施例在待计算的字符串的前面添加总共(N－2)个特定符号的原因。

再回到3个字符列的例子“これは本だ”中，很明显该句子的开头是一个词的开始。因此，它不需要计算在从目标句子“##これは本だ##”中得到的7个派生的3个字符列的第一个3个字符列“##こ”中的“##”与“こ”之间的连接概率。但是，需要计算位于得到的7个派生的3个字符列的第二个3个字符列“#これ”中的“#こ”与“れ”之间的连接概率。因此，结论为(N－2)是添加在待计算的字符串前面的特定符号的适当的数量。考虑到该句子的结尾部分，不需要计算位于第6个3个字符列“本だ#”中的“本だ”与“#”之间的连接概率，以及位于第7个3个字符列“だ##”中的“だ”与“##”之间的连接概率。因此，不需要在待计算的字符串的后面添加特定的符号。

图1中所示的步骤102相当于计算公式(3)，然后将计算出的结果与相应的N个字符的排列(即，相应的N个字符列)一起存储在概率表存储部分204中。图4D表示存储在概率表存储部分204中的字符连接概率，其中每个N个字符列与它的所计算出来的概率存储为一对。这种存储的优点在于，可以通过利用字符的排列来执行该搜索并且所需要的存储能力相对小。

图3是表示步骤102的计算程序的流程图。

步骤301：在目标文档的每个句子的开头的前面添加总共(N－2)个特定的符号。

步骤302：得到(N－1)个字符列的统计表。更具体地，产生一个关于在目标文档中出现的(N－1)个字符的全部排列的表。该表描述(N－1)个字符的每个排列的出现概率(即，出现的次数)。出现频率表示(N－1)个字符的每个排列如何经常在目标文档中出现。通常，如在由Iwanami Shoten，Publishers于1998年出版的，Shin Nagao等人撰写的“Language Information Processing”中说明的，通过预备能够表示K^N的表(其中K表示字符种类的数量并且N是正整数)，可简单地实现得到N个字符列的统计表。通过利用该表可计算每个N个字符列的出现频率。或者，通过将包含在目标文档中的N个字符列的全部排列分类，计算每个N个字符列的出现频率。

步骤303：得到N个字符列的统计表。也就是，产生一个关于在目标文档中出现的N个字符的全部排列的表。该表描述N个字符的每个排列的出现概率(即，出现的次数)，即关于N个字符的每个排列如何经常在目标文档中出现。在这方面，步骤303与步骤302类似。

步骤304：假定X表示由N个字符构成的每个字符串的出现频率，用来作为N个字符列统计表中的一个。接下来，对于由每个N个字符列的第1个至第(N－1)个字符构成的字符串，在步骤302中得到的(N－1)个字符列统计表的基础上，检查该出现频率。Y表示由此得到的由每个N个字符列的第1个至第(N－1)个字符构成的字符串的出现频率。X/Y是公式(3)的值。因此，值X/Y存储在概率表存储部分204中。

可以以不同的方式得到公式(3)的值。例如，因为可以在包含(N－1)个字符列中的字符串的N个字符列的基础上，容易地进行(N－1)个字符列的出现概率的计算，可以省略(N－1)个字符列的公式。

至此以后，将解释用于得到字符连接概率的计算的例子。

为了简化，现在假定字符串“abaaba”是作为例子给出的全部文档。现在在3个字符列(即，N＝3的N个字符列)的基础上计算字符连接概率。

首先，根据步骤301，在给出的句子(即，字符串“abaaba”)的开头之前添加总共(N－2)个特定的符号。在这种情况中，N－2＝3－2＝1。因此，在给出的句子的开头的前面只添加一个特定的符号(例如，#)，如图4A中所示。特定的符号(#)是从不包含在给出的句子(即，字符串“abaaba”)中的字符中选出的一个。

接下来，根据步骤302，得到2个字符列的统计表。也就是，检查由包含在给出的句子中的2个字符构成的每个字符串的出现概率。图4B表示得到的由2个字符构成的每个字符串的出现概率。

接下来，根据步骤303，得到3个字符列的统计表，来检查由包含在给出的句子中的3个字符构成的每个字符串的出现概率。图4C表示得到的由3个字符构成的每个字符串的出现概率。

然后，根据步骤304，在图4B和4C的数据的基础上，计算每个3个字符列(即，3个字符的排列)的公式(3)的值。图4D表示由此得到的相应3个字符列的字符连接概率。上面所述的程序是在图1所示的步骤102中执行的处理过程。

至此以后，将详细解释图1中所示的步骤103。步骤103是用来检查构成目标句子的任何两个字符之间的连接概率的处理过程。然后，参照得到的连接概率，步骤103确定应当划分该句子的合适的一个或几个位置。

图5是流程图，表示步骤103的详细程序。根据本发明的第一个实施例，δ表示预先确定的阈值。

步骤501：从给出的文档中选择任意句子。

步骤502：在所选择的句子的开头的前面添加总共(N－1)个特定符号。

步骤503：指示器移动到在该句子的开头的前面添加的第一个特定符号上。

步骤504：对于从指示器位置开始的由N个字符构成的字符串，检查在步骤102中计算出的字符连接概率。

步骤505：如果在步骤504中得到的字符连接概率小于阈值δ，可以假定在这种情况(即，当指示器位于第一个特定符号上时)中，在第(N－1)个字符与第N个字符之间存在适当的划分位置。因此，将该句子划分或分段成以第N－1个字符结尾的第一部分和从第N个字符开始的第二部分。如果在步骤504中得到的字符连接概率不小于阈值δ，结论是在第(N－1)个字符与第N个字符之间不存在适当的划分位置。因此，对该句子不进行划分。

步骤506：指示器向前移动一个字符。

步骤507：当从指示器位置开始计算的第N个字符超出该句子的末尾时，认为完成了全部目标句子的处理。然后，计算处理进行到步骤508。否则，计算程序跳到(返回)步骤504。

步骤508：从给出的文档中选择下一个句子。

步骤509：如果不再有剩余的句子，该控制程序终止。否则，计算程序返回到步骤502。

通过上面所述的程序，确定给出的句子的划分位置。至此以后将解释一个计算的例子。

返回到图4A中所示的字符串“abaaba”(N＝3)的例子，现在假定已经如图4D中所示计算了相应3个字符列(即，每个由3个字符构成的字符串)的连接概率。

在这种情况中，根据步骤501，由于没有其它句子存在，选择字符串“abaaba”。

接下来，根据步骤502，如图4A所示，在句子“abaaba”的前面添加特定符号(#)。

接下来，根据步骤503，指示器移动到如图4E中所示在句子的开头的前面添加的第一个特定符号上。然后，根据图4D中所示的表，检查第一个3个字符列(即，#ab)的概率。#ab的概率是1.0。根据该实施例，阈值δ是0.7。因此，#ab的概率大于阈值δ(＝0.7)。因此结论为不在字符“#a”与“b”之间划分该句子。

类似地，以同样的方式对每个剩余的3个字符列重复从步骤504至步骤507的程序。如图4F中所示，字符串“aba”，“baa”和“aab”的概率分别是1.0，0.5和1.0。根据该结果，“ba”与“a”之间的连接概率是0.5，小于阈值δ(＝0.7)。因此，结论为在“ba”与“a”之间存在适当的划分位置，据此，句子“abaaba”划分或分段成两部分“aba”和“aba”。

接下来，将解释日语句子的一个例子。给出的句子是字符串“にわにわにわ(庭には二羽＝两只鸟在花园里)”。图6A至6E表示该日语句子的详细计算程序。图6A表示在给出的日语句子的开头的前面添加了特定的符号的目标句子。图6B和6C表示包含在目标句子中的相应的2个字符列和3个字符列的出现概率的计算结果。图6D表示为包含在目标句子中的全部3个字符列计算的连接概率。图6E表示相应的3个字符列与它们的概率之间的关系。当阈值是0.7(即，δ＝0.7)时，作为参照图6D中所示的字符连接概率的计算结果，句子划分或分段成3个部分“にわ”，“にわ”和“にわ”。

上面所述的例子是包含相对较小数量的字符的简单句。但是，实际的句子包含许多字符。特别是，日语句子通常包含日本汉字(汉语字符)、平假名和片假名字符。因此，为了处理包括多种日语字符的日语句子，需要预备许多句子用于学习目的。

图7表示从许多日语文档中得到的字符连接概率的一个实际例子，这种文档包含通常在报纸中使用的一千万个日语字符。

图8表示在图7中所示的连接概率数据的基础上，给出的句子“利用者の减少と反比例するように上がつてきた(它的增加是使用者的数量减少的反比例)”的计算结果。在这种情况中，将确定每个划分位置的阈值设为0.07(即，δ＝0.07)。作为每个连接概率和阈值之间的比较，如图8中所示给出的句子划分或分段成几个部分。

如上所述，上面所示的本发明的第一个实施例计算包含在目标文档中的任意两个相邻字符之间的字符连接概率。计算出来的概率用来确定目标文档应当被划分的划分位置。该方法对于在目标文档中出现的字符的任何组合的全部概率是有用的。

本发明不限于计算只来自目标文档的任何两个相邻字符之间的字符连接概率的系统。例如，它能够在预先的一批文档的基础上计算字符连接概率。得到的字符连接概率可以用来划分另一个文档。该方法可以有效地应用到其体积或大小逐渐增大的文档数据库中。在这种情况中，在用来获得(学习)字符连接概率的文档数据中可能找不到在目标文档中出现的字符的组合。已知这是在N个字符列的流畅中引起的问题。但是，这样的问题可以通过在参考文献(由YujiMatsumoto等人编写的“Word andDictionary，由Iwanami Shoten，Publishers于1997年出版)中描述的方法解决。

例如，最好是在已经计算出来的存储在文档数据库中的相邻字符的连接概率的基础上，估算没有在数据库中出现的任何两个相邻字符的连接概率。

如上所述，本发明的第一个实施例输入一个目标文档，计算在目标文档中出现的任何两个字符之间的字符连接概率，参照计算出的字符连接概率，将目标文档划分或分段成几个部分(词)，并且输出划分后的文档的划分结果。

因此，本发明的第一个实施例提供了一种字符串划分系统，用来将字符串分段成多个词，其包括：输入部分装置(201)，用于接收文档；文档数据存储装置(202)，作为文档数据库，用于存储接收到的文档；字符连接概率计算装置(203)，用来计算文档数据库中出现的两个相邻字符之间的连接概率；概率表存储装置(204)，用来存储计算出的连接概率表；字符串划分装置(205)，用来根据计算出的连接概率表，将目标字符串分段成多个词；和输出装置(206)，用来输出目标字符串的划分结果。

另外，本发明的第一个实施例还提供了一种字符串划分方法，用来将字符串分段成多个词，其包括：统计计算步骤(102)，计算在给出的文档数据库中出现的两个相邻字符之间的连接概率；和分段步骤(103)，根据计算出的连接概率，将目标字符串分段成多个词，使得目标字符串的每个划分位置出现在具有较小连接概率的两个相邻字符之间。

另外，本发明的第一个实施例提供了一种字符串划分方法，用来将字符串分段成多个词，其包括：统计计算步骤(102)，计算在给出的文档数据库中出现的两个相邻字符(C_i－1C_i)之间的连接概率，计算连接概率P(C_i|C_i－N＋1…C_i－1)＝Count(C_i－N＋1…C)/Count(C_i－N＋1…C_i－1)，作为特定的字符串(C_i－N＋1…C_i－1)直接在特定的字符C_i的前面出现的出现概率，该特定的字符串包括两个相邻字符的前一个(C_i－1)作为它的结尾，而特定的字符是两个相邻字符中的后一个(C_i)；和分段步骤(103)，根据计算出的连接概率，将目标字符串分段成多个词，使得目标字符串的每个划分位置出现在具有较小连接概率的两个相邻字符之间。

另外，本发明的第一个实施例提供了一种字符串划分方法，用来将字符串分段成多个词，其包括：统计计算步骤(102)，计算在为学习目的而预备的给出的文档数据库中出现的两个相邻字符之间的连接概率；和分段步骤(103)，根据计算出的连接概率，将目标字符串分段成多个词，使得目标字符串的每个划分位置出现在具有较小连接概率的两个相邻字符之间，其中当目标字符串包含文档数据库中没有出现的字符排列时，在已经计算出来的存储在文档数据库中的相邻字符的连接概率的基础上，估算没有在数据库中出现的任何两个相邻字符的连接概率。

通过该方式，本发明的第一个实施例提供了一种优秀的字符串划分方法，而没有使用任何字典，带来很大的实际价值。

第二个实施例

图2中所示的系统设计用作根据本发明的第二个实施例的字符划分系统。第二个实施例的字符划分系统利用不同的计算方法与第一个实施例的操作不同。更具体地，图1中的步骤102和103在本发明的第二个实施例中基本上进行了改进。

根据本发明的第一个实施例，在N个字符列的基础上进行字符连接概率的计算。使用的概率是字符C_i在字符串C_i－N＋1…C_i－1的后面出现的出现概率(参见公式(2))。例如，为了计算给出的句子“abcdef”的字符串“abc”和“def”之间的连接概率，使用字符“d”在字符串“abc”后面出现的概率。该方法基本上是对作为通常众所周知的技术的N个字符列方法的改进。N个字符列方法通常用来计算两个词或两个字符的连接属性，以及考虑整个句子的含义用来判断计算结果的适应性。另外，利用N个字符列方法根据已经出现的词串或字符串预计下一个要来的词或字符。

因此，通常使用下面的概率公式。

但是，上面所述的第一个实施例将上面的公式改进为以下公式：

在第一个实施例中使用的公式(2)等于乘积符号П的里面的部分。

从该假定出发，第一个实施例得到在字符串C_i－N＋1…C_i－1后面出现的字符C_i的出现概率。条件部分是由多个字符C_i－N＋1…C_i－1构成的字符串。因此，第一个实施例得到在给出的条件(即，给出的字符串)后面出现的特定字符的出现概率。

但是，本发明利用该字符连接概率判断位于一个词中的两个字符之间的连接概率或两个词之间的连接概率。因此，本发明的第二个实施例通过在特定字符串已经出现的条件下，该特定字符串的出现概率，而不是通过在特定字符已经出现的条件下，该特定字符的出现概率来表示字符C_i－1和字符C_i的连接概率。

更具体地，现在假定由n个字符G_i－N…C_i－1构成的字符串已经出现。第二个实施例在由n个字符C_i－N…C_i－1构成的字符串已经出现的条件下，计算由m个字符C_i…C_i＋m－1构成的字符串的出现概率。

与在第一个实施例中使用的公式(2)类似，通过下面的公式(4)表示该概率。

例如，为了计算在文档中出现的句子“abcdef”中的字符串“abc”与字符串“def”之间的字符连接概率，是指当字符串“abc”已经出现时，字符串“def”的出现概率。这是一个n＝3和m＝3的例子。当m＝1时，公式(4)基本上等于在第一个实施例中使用的公式(2)。

第一个实施例被认为是向前(即，前→后)方向的概率计算。例如，第一个概率是位于句子的开头的第一个字符串与下一个字符串之间的连接概率。公式(4)的n＝1和m＞1的条件接近于概率的相反(即，后→前)方向的计算。

例如，为了计算在文档中出现的句子“abcdef”中的字符串“abc”与字符串“def”之间的字符连接概率，得到的概率是在n＝1和m＝3的情况下，字符串“def”在字符“c”后面出现的出现概率。它接近于字符“c”在字符串“def”前面出现的概率。这对应于字符连接概率的相反方向的计算。但是，为了执行公式(4)的计算，需要得到(n＋m)个字符列的统计表。当n2和m 2时，得到4(或更大数量)个字符列的统计表是明确需要的。这需要非常大的存储空间。

以前面的观点，本发明的第二个实施例建议使用接近于上述公式(4)的下面的公式(5)。

P(Ci|Ci－n-----Ci－1)×P(Ci－1|Ci-----Ci＋m－1)-----------(5)

公式(5)是第一因数和第二因数的乘积。第一因数表示特定的字符在由n个字符构成的字符串后面出现的向前方向的概率。第二因数表示特定的字符在由m个字符构成的字符串前面出现的相反方向的概率。

图14表示每个因数与相应的字符串之间的关系。例如，在计算文档中出现的句子“abcdef”中的字符串“abc”与字符串“def”之间的连接概率的情况中，这意味着计算字符串“abc”在字符“d”后面出现的出现概率作为第一因数(即，向前方向的那一个)，和计算字符“c”在字符串“def”前面出现的出现概率作为第二因数(即，相反方向的那一个)。然后，得到第一和第二因数的乘积。

通过利用下面的公式，得到第一因数的(n＋1)个字符列和第二因数的(m＋1)个字符列，可以计算由公式(5)限定的概率。

公式(6)的计算结果与(n＋1)个字符的排列和(m＋1)个字符的排列一起存储在概率表存储部分204中。该程序是根据第二个实施例对图1中的步骤102的改进。因此，概率表存储部分204拥有(n＋1)个字符的排列表和另一个(n＋1)个字符的排列表。当n≠m时，根据图9中所示的程序可以实现上述计算。

步骤901：在目标文档的每个句子的开头的前面添加总共(n－2)个特定符号，以及在该句子的结尾的后面添加总共(m－2)个特定符号。根据本发明的第二个实施例，同时在向前和相反的方向中计算连接概率。这就是为什么在句子的结尾的后面添加总共(m－2)个特定符号。

步骤902：得到n个字符列的统计表。也就是，产生一个关于在目标文档中出现的n个字符的全部排列的表。该表描述n个字符的每个排列的出现概率(即，出现的次数)。出现频率表示n个字符的每个排列如何经常在目标文档中出现。

步骤903：得到(n＋1)个字符列的统计表。也就是，产生一个关于在目标文档中出现的(n＋1)个字符的全部排列的表。该表描述(n＋1)个字符的每个排列的出现概率(即，出现的次数)，关于(n＋1)个字符的每个排列如何经常在目标文档中出现。

步骤904：假定X表示由(n＋1)个字符构成的每个字符串的出现频率，用来作为(n＋1)个字符列统计表中的一个。接下来，对于由每个(n＋1)个字符列的第1个至第n个字符构成的字符串，在步骤902中得到的n个字符列统计表的基础上，检查该出现频率。Y表示由此得到的由每个(n＋1)个字符列的第1个至第n个字符构成的字符串的出现频率。X/Y是公式(6)的第一因数的值。因此，值X/Y存储在概率表存储部分204的第一因数(即，(n＋1)个字符的排列)的表中。

步骤905：得到m个字符列的统计表。也就是，产生一个关于在目标文档中出现的m个字符的全部排列的表。该表描述m个字符的每个排列的出现概率(即，出现的次数)，表示m个字符的每个排列如何经常在目标文档中出现。

步骤906：得到(n＋1)个字符列的统计表。也就是，产生一个关于在目标文档中出现的(n＋1)个字符的全部排列的表。该表描述(n＋1)个字符的每个排列的出现概率(即，出现的次数)，关于(m＋1)个字符的每个排列如何经常在目标文档中出现。

步骤907：假定X表示由(m＋1)个字符构成的每个字符串的出现频率，用来作为(m＋1)个字符列统计表中的一个。接下来，对于由每个(m＋1)个字符列的第2个至第(m＋1)个字符构成的字符串，在步骤905中得到的m个字符列统计表的基础上，检查该出现频率。Y表示由此得到的由每个(m＋1)个字符列的第2个至第(m＋1)个字符构成的字符串的出现频率。X/Y是公式(6)的第二因数的值。因此，值X/Y存储在概率表存储部分204的第二因数(即，(m＋1)个字符的排列)的表中。

当n＝m时，概率表存储部分204只拥有一个n个字符的排列表。图12D表示(n＋1)个字符的排列表的详细结构，其中n个字符的每个排列与第一和第二因数的概率成一对。当n＝m时，上述计算程序可以简化为如图10中所示。

步骤1001：在目标文档的每个句子的开头的前面添加总共(n－2)个特定符号。同样地，在该句子的结尾的后面添加总共(n－2)个特定符号。

步骤1002：得到n个字符列的统计表。也就是，产生一个关于在目标文档中出现的n个字符的全部排列的表。该表描述n个字符的每个排列的出现概率(即，出现的次数)。出现频率表示n个字符的每个排列如何经常在目标文档中出现。

步骤1003：得到(n＋1)个字符列的统计表。也就是，产生一个关于在目标文档中出现的(n＋1)个字符的全部排列的表。该表描述(n＋1)个字符的每个排列的出现概率(即，出现的次数)，关于(n＋1)个字符的每个排列如何经常在目标文档中出现。

步骤1004：假定X表示由(n＋1)个字符构成的每个字符串的出现频率，用来作为(n＋1)个字符列统计表中的一个。接下来，对于由每个(n＋1)个字符列的第1个至第n个字符构成的字符串，在步骤1002中得到的n个字符列统计表的基础上，检查该出现频率。Y表示由此得到的由每个(n＋1)个字符列的第1个至第n个字符构成的字符串的出现频率。X/Y是公式(6)的第一因数的值。因此，值X/Y存储在概率表存储部分204的第一因数的概率表中。

步骤1005：假定X表示由(n＋1)个字符构成的每个字符串的出现颇率，用来作为(n＋1)个字符列统计表中的一个。接下来，对于由每个(n＋1)个字符列的第2个至第(n＋1)个字符构成的字符串，在步骤1002中得到的n个字符列统计表的基础上，检查该出现频率。Y表示由此得到的由每个(n＋1)个字符列的第2个至第(n＋1)个字符构成的字符串的出现频率。X/Y是公式(6)的第二因数的值。因此，值X/Y存储在概率表存储部分204的第二因数的概率表中。

通过上面的计算程序，完成了为最终得到公式(6)的值而做的准备。根据下面的划分处理计算公式(6)的实际值。

本发明的第二个实施例以下面的方式改进图1中的步骤103。

图1中的步骤103所表示的程序是用来检查构成句子的任何两个字符之间的连接概率的处理，然后，参照根据步骤102中计算出的字符连接概率在合适的位置划分该句子。当n≠m时，根据图11中的流程图执行步骤103的处理。

步骤1101：从给出的文档中选择任意句子。

步骤1102：与图10中的步骤1001类似，在所选择的句子的开头的前面添加总共(n－2)个特定符号，以及在该句子的结尾的后面添加总共(m－2)个特定符号。

步骤1103：指示器移动到在该句子的开头的前面添加的第一个特定符号上。

步骤1104：对于从指示器位置开始的由(n＋1)个字符构成的字符串，检查存储在概率表存储部分204中的第一因数的字符连接概率。存储所得到的值，作为在指示器位于添加在该句子的开头的前面的第一特定符号的条件下，第n个字符与第(n＋1)个字符之间的连接概率(第一因数)。在这种情况中，假定特定符号与句子之间的连接概率是0。

步骤1105：对于从指示器位置开始的由(m＋1)个字符构成的字符串，检查存储在概率表存储部分204中的第二因数的字符连接概率。存储所得到的值，作为在指示器位于添加在该句子的开头的前面的第一特定符号的条件下，第1个字符与第2个字符之间的连接概率(第二因数)。在这种情况中，假定特定符号与句子之间的连接概率是0。

步骤1106：指示器向前移动一个字符。

步骤1107：对于任何两个相邻字符，通过取得第一因数的概率和第二因数的概率的乘积，计算公式(6)的值。如果计算出的公式(6)的值小于预先确定的阈值δ，可以假定存在适当的划分位置。因此，将该句子在公式(6)的值小于预先确定的阈值δ的位置处划分。当公式(6)的值不小于预先确定的阈值δ时，对该句子不进行划分。

步骤1108：当指示器指示句子的末尾时，认为完成了全部目标句子的处理。然后，计算处理进行到步骤1109。否则，计算程序跳到(返回)步骤1104。

步骤1109：从给出的文档中选择下一个句子。

步骤1110：如果不再有剩余的句子，该控制程序终止。否则，计算程序返回到步骤1102。

通过上面所述的程序，确定给出的句子的划分位置。当n＝m时，以同样的方式进行处理。

现在将解释一个实际的例子。只给出一个字符串“仕事は仕事”作为整个文档。在该例子的基础上，计算(n＋1)个字符列在n＝m＝2，即，3个字符列的情况下的字符连接概率。

首先，根据步骤1001，如图12A所示，在给出的句子(即，给出的字符串)的前面和后面只添加一个(即，n－2(＞0)＝1)特定符号。尽管第二个实施例使用#作为特定的符号，应当从在给出的句子中没出现的字符中选择该特定符号。

接下来，根据步骤1002，得到2个字符列的统计表。也就是，如图12B中所示检查由两个字符构成的全部排列的出现概率(即，出现的次数)。

类似地，根据步骤1003，得到3个字符列的统计表。也就是，如图12C中所示检查由三个字符构成的全部排列的出现概率(即，出现的次数)。

接下来，根据步骤1004，对于得到的每个3个字符列，根据图12B和12C中所示的数据，计算公式(6)的第一因数的值。计算出的结果表示在图12D的表的第一因数部分中。

接下来，根据步骤1005，对于得到的每个3个字符列，根据图12B和12C中所示的数据，计算公式(6)的第二因数的值。计算出的结果表示在图12D的表的第二因数部分中。

考虑图12D中的表，应当注意为相同的3个字符列的不同部分得到第一因数的概率和第二因数的概率。例如，字符串“仕事は”是从给出的句子中得到的字符串的列中的第二个3个字符列。在这种情况中，第一因数的概率是“仕事”与“は”之间的连接概率，而第二因数的概率是“仕”与“事は”之间的连接概率。

得到上述概率表之后，计算程序进行到图11中所示的程序。

根据步骤1101，选择句子“仕事は仕事”。然后，根据步骤1102，特定的符号(#)添加到该句子的前面和后面，如图12A中所示。然后，根据步骤1103至1105，得到如图12E中所示的第一和第二因数的概率。在这种情况中，因为特定符号“#”与字符串“仕事”之间的字符连接概率是0，因此第二因数的概率是0。然后，根据步骤1106，指示器向前移动一个字符。以这种方式，通过重复执行步骤1104和1105，同时将指示器位置从目标句子的开始向结尾一步一步地移动，得到第一和第二因数的概率。

与此同时，在步骤1107中，通过取得第一和第二因数的相应概率的乘积，计算包含在目标句子中的任何两个相邻字符的公式(6)的值。图12F表示由此得到的第一和第二因数的概率以及计算出来的公式(6)的值。当任何两个相邻字符的公式(6)的值小于阈值δ(例如，δ＝0.6)时，在该位置划分句子。图12F表示从步骤1107的程序中得到的划分后的字符串“#仕事/は/仕事#”。

考虑阈值δ，它的值是预先确定的固定值。但是，能够根据得到的概率值灵活地确定阈值δ的值。在这种情况中，应当为阈值δ确定一个合适的值，使得得到的词的平均词长度基本上与期望的值一致。更具体地，如图13中所示，当阈值δ大时，得到的词的平均词长度变短。当阈值δ小时，得到的词的平均词长度变大。因此，考虑期望的平均词长度将得到阈值δ的合适的值。

上面所述的实施例使用一个阈值。但是，在合适的标准的基础上，能够使用多个阈值。例如，日语句子包括不同类型的字符，即，除了日语汉字(汉语)字符外还有平假名和片假名。通常，平假名(或片假名)词的平均词长度大于日语汉字(汉语)字符的。因此，希望为在日语句子中出现的不同类型的字符设定多个阈值。

另外，在许多日语句子的情况中，合适的划分位置出现在字符类型以日语汉字平假名、日语汉字片假名和平假名片假名的方式改变的位置。考虑到该事实，最好相对于其它阈值水平减小这些字符类型改变位置的阈值水平。

除了每个句子的开头和结尾，逗号、圆括号和其它同等的符号可以看作是划分句子的确定划分位置。因此能够忽略划分位置的这些预期候选的概率计算。

例如，在上面解释第二个实施例中使用的字符串“仕事は仕事”可以具有另一种形式“仕事は、仕事”。在这种情况中，是两个字符串“仕事は”和“仕事”。因此，可以为两个目标字符串的每一个“#仕事は#”和“#仕事#”执行第二个实施例的计算。

另外，除了计算第一和第二因数的乘积，可以改进公式(5)来得到第一和第二因数的总和或加权平均。

如上所述，第二个实施例介绍近似的公式(6)，来计算紧随有m个字符的排列的n个字符的排列概率。

因此，本发明的第二个实施例提供一种字符串划分方法，用来将字符串分段成多个词，其包括：统计计算步骤(102)，计算在给出的文档数据库中出现的两个相邻字符(C_i－1C_i)之间的连接概率，计算连接概率P(C_i|C_i－n…C_i－1)×P(C_i－1|C_i…C_i＋m－1)，作为第一个字符串(C_i－n…C_i－1)直接在第二个字符串(C_i…C_i＋m－1)的前面出现的出现概率，第一个字符串包括两个相邻字符的前一个(C_i－1)作为它的结尾，而第二个字符串包括两个相邻字符中的后一个(C_i)作为它的开头；和分段步骤(103)，根据计算出的连接概率，将目标字符串分段成多个词，使得目标字符串的每个划分位置出现在具有较小的连接概率的两个相邻字符之间。

最好是，根据第一个字符串在两个相邻字符的后一个的前面直接出现的第一概率Count(C_i－n…C_i)/Count(C_i－n…C_i－1)，以及根据第二个字符串在两个相邻字符的前一个的后面直接出现的第二概率Count(C_i－1…C_i＋m－1)/Count(C_i…C_i＋m－1)，计算两个相邻字符的连接概率。

另外最好是，在连接概率与阈值(δ)之间比较的基础上，确定目标字符串的划分位置，和根据得到的词的平均词长度确定该阈值。

另外最好是，将字符类型的改变位置看作是目标字符的预期划分位置。

另外最好是，将逗号、圆括号和相当的符号看作是目标字符的划分位置。

因此，本发明的第二个实施例提供了一种准确和优秀的字符串划分方法，而没有使用任何字典，带来很大的实际价值。

第三个实施例

本发明的第三个实施例提供了一种字符串划分系统，其包括预先准备或形成的字典，并且根据该字典将字符串划分或分段成几个词。在划分字符串的处理中利用在第一个和第二个实施例中使用的字符连接概率。

首先，将解释原理。

给出字符串“小田中学校”作为待划分的目标字符串。现在假定四个独立的词“学校”、“小田”、“小田中”和“中学校”全部在字典中出现。在这种情况中，如图17A所示，相信划分候选是下面的两种方式。

“小田/中学校”和“小田中/学校”

但是，从字典给出的信息中，很难判断上面的两个候选那一个是正确答案。

因此，由于具有更小的连接概率，本发明从多个划分候选中选择预期的划分位置。现在假定，在图17A所示的例子中，如图173所示已经计算出两个相邻字符之间的连接概率。“田”与“中”之间的字符连接概率P2小于“中”与“学”之间的字符连接概率P3。因此，选择第一种划分模式“小田/中学校”作为正确答案。

该原理还可以应用到长的字符串中。例如，给出字符串“大阪市立山田中学校”作为待划分的字符串。九个独立的词“学校”、“山田”、“市立”、“大阪”、“大阪市”“中学”、“中学校”“田中”和“立山”全部在字典中出现。在这种情况中，如图18A所示，相信划分候选是下面的两种方式。

“大阪/市立/山田/中学校”和“大阪市/立山/田中/学校”

但是，从字典给出的信息中，很难判断上面的两个候选那一个是正确答案。因此，由于具有更小的连接概率，本发明从多个划分候选中选择预期的划分位置。

当目标字符串长时，多个预期的划分位置以唯一的划分模式存在。对于每个划分模式，在概率总和(或乘积)的基础上得到这些预期划分位置的分数。然后，在比较所得到的分数的基础上，选择正确的划分位置。

现在假定，在图18A中所示的例子中，如图18B中所示已经计算出两个相邻字符之间的连接概率。然后计算字符连接概率的总和作为每个划分模式的分数。如图18C所示，第一种划分模式“大阪/市立/山田/中学校”的分数是P2＋P4＋P6＝0.141＋0.006＋0.006＝0.153。第一种划分模式“大反/市立/山田/中学校”的分数小于第二种划分模式“大阪市/立山/田中/学校”的分数。因此，选择第一种划分模式“大阪/市立/山田/中学校”作为正确答案。

根据上面所述的原理，执行本发明的第三个实施例的处理。至此以后，将参照附图解释第三个实施例的计算程序。

图15是表示根据本发明的第三个实施例的字符串划分系统的设计的方块图。

文档输入部分1201输入待处理的目标文档(或文本)的电子数据。文档数据存储部分1202，用来作为文档数据的数据库，存储从文档输入部分1201接收到的文档数据。字符连接概率计算部分1203，与文档数据存储部分1202连接，以存储在文档数据存储部分1202中的文档数据为基础，计算任何两个字符的字符连接概率。也就是，在存储在数据库中的文档数据的基础上，计算两个字符以相邻字符存在的概率。概率表存储部分1204与字符连接概率计算部分1203连接，存储由字符连接概率计算部分1203计算出来的字符连接概率表。字典存储部分1207存储预先准备或形成的字典。划分模式形成部分1208，与文档数据存储部分1202和字典存储部分1207连接，根据字典存储部分1207的信息，形成目标字符串的多个划分模式。正确模式选择部分1209，与划分模式形成部分1208连接，根据存储在概率表存储部分1204中的字符连接概率，从由划分模式形成部分1208形成的多个候选中选择正确的划分模式。以及，文档输出部分1206，与正确模式选择部分1209连接，输出处理后的文档的结果。

将参照图16的流程图，解释上面所述字符串划分系统的处理程序。

步骤1601：从文档输入部分1201输入文档数据并存储在文档数据存储部分1202中。

步骤1602：字符连接概率计算部分1203计算包含在文档数据中的两个相邻字符之间的字符连接概率。计算结果存储在概率表存储部分1204中。关于计算方法的详细内容，应当参考上面所述的第一个和第二个实施例。

步骤1603：划分模式形成部分1208从文档数据存储部分1202中读取文档数据。划分模式形成部分1208根据字典存储部分1207中的信息，形成来自读出文档数据的多个划分模式。正确模式选择部分1209根据存储在概率表存储部分1204中的字符连接概率，从由划分模式形成部分1208形成的多个候选中选择正确的划分模式。根据所选择的划分模式将目标字符串分段成几个词(将在后面详细解释处理过程)。

步骤1604：从文档输出部分1206输出处理后的文档的划分结果。

如上所述，本发明的第三个实施例的字符串划分系统计算包含在待处理的文档中的两个相邻字符的字符连接概率。利用由此计算出来的字符连接概率和字典的信息，来确定将目标字符串划分成几个词的划分位置。

接下来，参照图19中的流程图，详细解释图16的步骤1603中的处理程序。

步骤1901：从开头至结尾检查待处理的字符串是否包含存储在字典存储部分1207中的任何词。例如，返回到“大阪市立山田中学校”的例子，如图20所示，该字符串包括总共8个存储在字典中的独立词。

步骤1902：如果这些词的排列与目标字符串的一致，将一组词识别为形成划分模式。然后，计算每个划分模式的分数。分数是在相应的划分位置处的字符连接概率的总和。根据该字符串“大阪市立山田中学校”，检测出第一和第二划分模式(如图18A中所示)。在该字符串中出现的任何两个相邻字符的字符连接概率如图18B所示。第一和第二划分模式的分数如图18C所示。

步骤1903：选择具有最小分数的划分模式作为正确的划分模式。第一划分模式的分数(＝0.153)小于第二划分模式的分数(＝0.373)。因此，选择第一划分模式。

通过上面所述的程序，完成字符串划分处理。每个字符连接概率不小于0。步骤1902计算字符连接概率的总和。因此，当将一个特定的字符串认定为单一的词或者进一步划分为两部分时，总是选择具有较小数的划分位置的划分模式。例如，字符串“中学校”可以进一步划分成“中”和“学校”。在这种情况下，由于具有较小数的划分位置而选择“中学校”。

根据步骤1902，每个划分模式的分数的计算是字符连接概率的总和。选择具有最小分数的划分模式作为正确的划分模式。通过下面的公式(7)表示。

\arg \min_{s} \underset{iϵs}{Σ} Pi - - - - - - - - (7)

根据本发明的分数的计算不限于字符连接概率的总和。例如，可以通过计算字符连接概率的乘积得到该分数。通过下面的公式(8)表示。

\arg \min_{S} \underset{i &Element; s}{Π} Pi - - - - - - - (8)

另外，引入对数的计算将带来与计算字符连接概率的乘积同样的效果。通过对数的总和可以替换乘积的计算，如下面的公式(9)和(10)所示。

\arg \min_{S} \log (\underset{i &Element; S}{Π} Pi) - - - - - - - (9)

= \arg \min_{S} \underset{i &Element; S}{Σ} \log Pi - - - - - - - (10)

但是，本发明的第三个实施例不准备限制计算划分模式分数的方法。例如，在步骤1902中计算分数，其最好可以引入动态编程的运算法则。

如上所述，本发明的第三个实施例得到在目标文档中出现的任何两个相邻字符的字符连接概率，利用字典识别目标字符串的多个划分模式，以及选择相对于位于预期划分位置的字符连接概率具有最小分数的正确划分模式。

如上所述，本发明的第三个实施例提供了一种字符串划分系统，用来将字符串分段成多个词，其包括：输入装置(1201)，用于接收文档；文档数据存储装置(1202)，作为文档数据库，用于存储接收到的文档；字符连接概率计算装置(1203)，用于计算在文档数据库中出现的两个相邻字符的连接概率；概率表存储装置(1204)，用于存储计算出来的连接概率表；字典存储装置(1207)，用于存储预先准备或形成的字典；划分模式形成装置(1208)，用于根据字典的信息，形成目标字符串的划分模式的多个候选；正确模式选择装置(1209)，用于根据字符连接概率表，从多个候选中选择正确的划分模式；以及，输出装置(1206)，用于输出所选择的正确划分模式作为目标字符串的划分结果。

另外，本发明的第三个实施例提供了一种字符串划分方法，用来将字符串分段成多个词，其包括：步骤(1602)，统计计算在给出的文档数据库中出现的两个相邻字符的连接概率，和存储计算出的连接概率；步骤(1603)，根据字典将目标字符串分段成多个词，其中当存在目标字符串的划分模式的多个候选时，根据计算出的连接概率，从多个候选中选择正确的划分模式，使得目标字符串的每个划分位置出现在具有较小连接概率的两个相邻字符之间。

最好是，当存在目标字符串的划分模式的多个候选时，计算每个候选的分数。该分数是依照每个候选的划分模式，目标字符串的相应划分位置处的连接概率的总和。以及，选择具有最小分数的候选作为正确的划分模式(参见公式(7))。

另外最好是，当存在目标字符串的划分模式的多个候选时，计算每个候选的分数。该分数是依照每个候选的划分模式，目标字符串的相应划分位置处的连接概率的乘积。以及，选择具有最小分数的候选作为正确的划分模式(参见公式(8))。

根据第三个实施例，不需要准备预先由人工构成的大量的正确划分模式的样本。这导致成本的降低。当给出一个文档时，自动地进行学习，来得到在给出的文档中出现的任何两个字符之间的连接概率。因此，变得能够执行适合于给出文档的领域的有效的学习操作，带来巨大的实际效益。

第四个实施例

至此以后，将参照附图解释本发明的第四个实施例。

图21是表示根据本发明的第四个实施例的字符串划分系统的设计的方块图。文档输入部分2201输入待处理的目标文档(或文本)的电子数据。文档数据存储部分2202，用来作为文档数据的数据库，存储从文档输入部分2201接收到的文档数据。字符连接概率计算部分2203，与文档数据存储部分2202连接，以存储在文档数据存储部分2202中的文档数据为基础，计算任何两个字符的字符连接概率。也就是，在存储在数据库中的文档数据的基础上，计算两个字符以相邻字符存在的概率。概率表存储部分2204，与字符连接概率计算部分2203连接，存储由字符连接概率计算部分2203计算出来的字符连接概率表。字典存储部分2207，存储预先准备或形成的字典。未知词估算部分2210，估算未知词的候选。划分模式形成部分2208，与文档数据存储部分2202、字典存储部分2207和未知词估算部分2210分别连接。划分模式形成部分2208根据字典存储部分2207的信息以及由未知词估算部分2210估算出的未知词，形成从文档数据存储部分2202中读出的目标字符串的多个划分模式。正确模式选择部分2209，与划分模式形成部分2208连接，根据存储在概率表存储部分2204中的字符连接概率，从由划分模式形成部分2208形成的多个候选中选择正确的划分模式。以及，文档输出部分2206，与正确模式选择部分2209连接，输出处理后文档的结果。

图22是流程图，表示上面所述的根据本发明的第四个实施例的字符串划分系统的处理程序。

步骤2201：从文档输入部分2201输入文档数据并存储在文档数据存储部分2202中。

步骤2202：字符连接概率计算部分2203计算包含在文档数据中的两个相邻字符之间的字符连接概率。计算结果存储在概率表存储部分2204中。关于计算方法的详细内容，应当参考上面所述的第一和第二实施例。

步骤2203：划分模式形成部分2208从文档数据存储部分2202中读取文档数据。划分模式形成部分2208根据字典存储部分2207的信息以及由未知词估算部分2210估算出的未知词的候选，形成来自读出文档数据的多个划分模式。正确模式选择部分2209根据存储在概率表存储部分2204中的字符连接概率，从由划分模式形成部分2208形成的多个候选中选择正确的划分模式。根据所选择的划分模式将目标字符串分段成几个词。

步骤2204：文档输出部分2206输出处理后的文档的划分结果。

如上所述，本发明的第四个实施例的字符串划分系统计算包含在待处理的文档中的两个相邻字符的字符连接概率。利用由此计算出来的字符连接概率和字典的信息以及未知词的候选，来确定将目标字符串划分成几个词的划分位置。

接下来，参照图23中的流程图，详细解释图22的步骤2203中的处理程序。

给出“大阪市立山田中学校”作为待划分的字符串的例子。如图24所示，假定独立的词“学校”、“市立”、“大阪”、“大阪市”“中学”、“中学校”“田中”和“立山”存储在字典存储部分2207中，而词“山田”没有记录在字典存储部分2207中。

步骤2301：从开头至结尾检查目标字符串是否包含存储在字典存储部分2207中的任何词。图25A表示从“大阪市立山田中学校”的例子中总共检测到7个词，在这种情况中没有检测到词“山田”。

步骤2302：检查当前一个词在字符位置(i－1)结束时，是否有词从特定的字符位置i开始。当没有词从字符位置i开始时，添加适当的字符串作为从字符位置i开始的未知词。添加的字符串具有不小于n并且不大于m的字符长度，其中n和m是正整数。根据“大阪市立山田中学校”的例子，词“市立”直接在第五个字符“山”前面结束。但是，没有从“山”开始的词。例如，在n＝2和m＝3的情况中，可以添加“山田”和“山田中”作为图25B中所示的已知词。

步骤2303：如果这些词的排列与目标字符串一致，则将一组词识别为形成划分模式。图26表示从目标字符串中识别出来的划分模式的候选。图27表示由此得到的第一、第二和第三划分模式。然后，计算每个划分模式的分数。分数是在相应的划分位置处的字符连接概率的总和。在该字符串中出现的任何两个相邻字符的字符连接概率如图18B所示。第一至第三划分模式的分数如图27所示。

步骤2304：选择具有最小分数的划分模式作为正确的划分模式。第一划分模式的分数(＝0.153)小于第二和第三划分模式(＝0.235和0.373)的分数。因此，选择第一划分模式。

通过上面所述的处理，完成字符串划分处理。分数的计算不限于上面所述的一种。通过公式(8)，(9)和(10)中的任何一个代替计算公式(7)。

如上所述，本发明的第四实施例提供了一种字符串划分方法，用来将字符串分段成多个词，其包括：步骤(2202)，统计计算在给出的文档数据库中出现的两个相邻字符的连接概率，和存储计算出的连接概率；和步骤(2203)，根据字典和估算出的未知词，将目标字符串分段成多个词，其中当存在目标字符串的划分模式的多个候选时，根据计算出的连接概率，从多个候选中选择正确的划分模式，使得目标字符串的每个划分位置出现在具有较小连接概率的两个相邻字符之间。

最好是，检查当前一个词在字符位置(i－1)结束时，是否有词从特定的字符位置i开始和当没有字典词从字符位置i开始时，添加适当的字符串作为从字符位置(i)开始的未知词，在此添加的字符串具有不小于n并且不大于m的字符长度，其中n和m是正整数。

第五个实施例

根据上面所述的实施例，仅仅在划分位置的连接概率的基础上计算分数。本发明的第五个实施例与上面所述实施例的不同在于，通过考虑没有划分的位置的特征，计算划分模式的分数。

在每个划分模式中，计算每个划分位置的字符连接概率，与此同时向除了划分位置的字符的每个连接位置指定一个常数。通过利用计算出的字符连接概率和指定的常数，计算每个划分模式的分数。

更具体地，现在假定N表示全部字符位置的集合而S表示对应于划分位置(SN)的字符位置的集合。以下面的方式确定一个字符位置i的值Qi。

为包含在集合S中的字符位置i计算字符连接概率Pi，与此同时为没有包含在集合S中的字符位置i指定一个常数Th(参见公式(2))。

对于每个划分模式，通过对字符连接概率与指定相应的字符位置的指定的常数求和(或相乘)计算分数。然后，选择具有最小分数的划分模式作为正确的划分模式。

\arg \min_{S &SubsetEqual; N} \underset{i &Element; N}{Σ} Qi - - - - - - - (11)

Qi = {_{Th, i &NotElement; S}^{Pi, i &Element; S} - - - - - - - (12)

\arg \min_{S &SubsetEqual; N} (\underset{i &Element; S}{Σ} Pi + \underset{i &NotElement; S}{Σ} Th) - - - - - - - (13)

作为一个例子，给出字符串“新宿泊棟(新住宅建筑)”。

如图28A所示，该字符串的划分模式的候选如下：

“新/缩泊/棟”和“新宿/泊棟”

包含在第二个候选中的词“泊棟”是估算出的未知词。图28B表示在该字符串中出现的两个字符之间的字符连接概率。

根据该例子，通过利用公式(7)计算出的第一划分模式的分数是0.044和第二划分模式的分数是0.040。在这种情况下，选择第二个划分模式。但是，第二个划分模式是不正确的。

另一方面，当使用公式(11)时，以下面的方式计算分数。

例如，假定给出Th＝0.03。根据第一个划分模式，在词“宿泊”的字符“宿”与“泊”之间指定常数Th。因此，第一划分模式的分数是P1＋Th＋P3＝0.074。根据第二个划分模式，常数Th指定在词“新宿”的“新”与“宿”之间以及词“泊棟”的“泊”与“棟”之间。第二划分模式的分数是Th＋P2＋Th＝0.100。由于计算出的分数的比较结果，选择第一划分模式作为正确的一个。

如从前面明显得出的，利用公式(11)计算分数使得能够得到正确的划分模式，即使目标字符串的划分模式非常精确。利用公式(7)的分数计算最好应用到粗略划分的目标字符串中。例如，复合词“衆議院議具”可能包括在字典中。该复合词“衆議院議員”可以进一步划分成两部分“衆議院”和“議員”。通常，应当考虑使用字符串划分系统的目的确定了划分模式的精确程度。但是，利用Th的常数参数使得能够自动地控制划分模式的精确程度。

公式(11)看作是将对应于阈值的数值引入到公式(7)的计算中，后者在概率的总和的基础上计算分数。类似地，为了充分地控制划分模式的精确程度，可以将阈值引入到在概率的乘积的基础上计算分数的公式(8)的计算中。

上面所述的第五个实施例可以以下面的方式进一步改进。

向每个词指定一个根据其起源而变化的区别性常数。例如，向存储在字典存储部分2207中的每个词指定一个常数U，以及向存储在未知词估算部分2210中的每个词指定另一个常数V。

更具体地，现在W假定表示包含在一个候选中的全部词的集合，和D表示存储在字典存储部分2207中的词的集合。

通过扩展公式(11)得到的分数的描述如下。

\arg \min_{S &SubsetEqual; N, W} (\underset{i &Element; N}{Σ} Qi + \underset{j &Element; W}{Σ} Rj) - - - - - - - (14)

Qi = {_{Th, i &NotElement; S}^{Pi, i &Element; S} - - - - - - - (15)

Rj = {_{V, j &Element; D}^{U, j &Element; D} - - - - - - - (16)

U＜V--------------------------------(17)

在这种情况中，条件U＜V是指定包含在字典中的词优于未知词的优先权。换句话说，选择包含更少数量的未知词的划分模式。

不需要说明可以在计算出的概率与给出的常数的乘积的基础上计算分数。在这种情况中，上面的公式(14)可以改写成适合于乘积计算的形式。

未知词估算部分2210的引入、常数Th的引入和指定给每个词的分数的引入，使得能够实现一种精确的字符串划分方法，根据它估算未知的和确切地判断每个未知词的选择。

在图23的步骤2303中，未知词估算部分2210提供每个具有n～m个字符的字符串作为未知词的候选。根据它的字符连接概率选择适当的未知词。因此，作用给未知词部分的划分相当于以第一或第二实施例中的字符连接概率为基础的划分。因此，变得能够将以字典的信息为基础的字符串划分与以字符连接概率为基础的字符串划分相结合。

根据传统技术，未知词的估算取决于实验知识，例如日语汉字与平假名之间的分界是预期的划分位置。

根据本发明，图23中的步骤2302将满足给定条件的全部字符串看作是未知词。但是，通过计算字符连接概率可以确切地选择正确的未知词。换句话说，本发明使得能够估算由不同类型字符构成的未知词，例如，日语汉字与平假名的组合。

根据本发明的第五实施例，计算出的连接概率给予候选的每个划分位置。常数值指定给没有划分的两个字符之间的位置。在由此指定的连接概率和常数值的总和或乘积的基础上，计算每个候选的分数。以及选择具有最小分数的候选作为正确的划分模式(参见公式(13))。

另外，根据本发明的第五实施例，指定给未知词的常数值(V)大于指定给字典词的常数(U)。除了位于相应划分位置的计算出的连接概率的总和外，在指定给未知词和字典词的常数的总和(或乘积)的基础上，计算每个候选的分数。以及选择具有最小分数的候选作为正确的划分模式(参见公式(14))。

如上所述，本发明的第四和第五实施例在预先划分的目标文档的数据基础上，计算两个相邻字符的字符连接概率。使用字典的信息和未知词的估算来形成目标字符串的划分模式的候选。当存在多个候选时，选择具有最小字符连接概率的划分模式作为正确的模式。考虑到没有包含在字典中的词，将它们看成是未知词。在概率(或计算出的分数)的基础上确定未知词的选择。因此，在概率值的基础上划分包含未知词的部分。因此，不需要学习用来选择正确的划分模式的知识，或者不需要为预先人工地形成的划分模式预备大量的正确答案。这导致成本的降低。当给出文档时，自动地进行学习来得到字符连接概率作为用来选择正确划分模式的知识。因此，变得能够执行适合于给出文档的领域的有效学习操作，带来巨大的实际效益。另外，能够区分不包括在字典中的未知词的概率值。

如上所述，本发明计算出现在文档中的两个相邻字符之间的连接概率，并根据由此计算出的概率找到合适的划分位置。

在没有脱离其实质特征的精神的情况下，可以以几种形式实施本发明。因此，目前描述的这些实施例仅仅是解释性的而非限定性的，因为本发明的范围通过附属的权利要求书而不是前面的说明书所限定。因此准备通过来概括落入到权利要求书的边界和范围之内、或相当于这些边界和范围的全部变化。

Claims

1.一种字符串划分系统，用来将字符串分段成多个词，包括：

输入装置，用于接收文档；

文档数据存储装置，作为文档数据库，用于存储接收到的文档；

字符连接概率计算装置，用来计算在所述文档数据库中出现的两个相邻字符之间的连接概率；

概率表存储装置，用来存储计算出的连接概率表；

字符串划分装置，用来根据所述计算出的连接概率表，将目标字符串分段成多个词；和

输出装置，用来输出所述目标字符串的划分结果。

2.一种字符串划分方法，用来将字符串分段成多个词，所述方法包括以下步骤：

统计计算步骤，计算在给出的文档数据库中出现的两个相邻字符之间的连接概率；和

分段步骤，根据计算出的连接概率，将目标字符串分段成多个词，使得所述目标字符串的每个划分位置出现在具有较小连接概率的两个相邻字符之间。

3.一种字符串划分方法，用来将字符串分段成多个词，所述方法包括以下步骤：

统计计算步骤，计算在给出的文档数据库中出现的两个相邻字符之间的连接概率，所述计算的连接概率作为指定的字符串在指定字符的前面直接出现的出现概率，所述指定的字符串包括所述两个相邻字符中的前一个作为它们的结尾，并且所述指定字符是所述两个相邻字符中的后一个；和

4.一种字符串划分方法，用来将字符串分段成多个词，所述方法包括以下步骤：

统计计算步骤，计算在给出的文档数据库中出现的两个相邻字符之间的连接概率，所述计算的连接概率作为第一个字符串在第二个字符串的前面直接出现的出现概率，所述第一个字符串包括所述两个相邻字符中的前一个作为它们的结尾，而所述第二个字符串包括所述两个相邻字符中的后一个作为它的开头；和

5.根据权利要求4所述的字符串划分方法，其中在所述第一个字符串在所述两个相邻字符中的所述后一个的前面直接出现的第一概率的基础上，以及在所述第二个字符串在所述两个相邻字符中的所述前一个的后面直接出现的第二概率的基础上，计算两个相邻字符的所述连接概率。

6.一种字符串划分方法，用来将字符串分段成多个词，所述方法包括以下步骤：

统计计算步骤，为了学习目的计算在给出的文档数据库中出现的两个相邻字符之间的连接概率；和

分段步骤，根据计算出的连接概率，将目标字符串分段成多个词，使得所述目标字符串的每个划分位置出现在具有较小连接概率的两个相邻字符之间，

其中，当所述目标字符串包括没有包含在所述文档数据库中的字符的排列时，在为存储在所述文档数据库中的相邻字符的所述计算的连接概率的基础上，估算在所述数据库中没有出现的任何两个相邻字符的连接概率。

7.根据权利要求2所述的字符串划分方法，其中在连接概率与阈值(δ)之间比较的基础上，确定所述目标字符串的所述划分位置，和根据得到的词的平均词长度确定所述阈值。

8.根据权利要求2所述的字符串划分方法，其中将字符类型的改变位置看作是所述目标字符的预期划分位置。

9.根据权利要求2所述的字符串划分方法，其中将逗号、圆括号和相当的符号看作是所述目标字符的划分位置。

10.一种字符串划分系统，用来将字符串分段成多个词，包括：

输入装置，用于接收文档；

概率表存储装置，用来存储计算出的连接概率表；

字典存储装置，用来存储预先准备或形成的字典；

划分模式产生装置，用来根据所述字典的信息产生一个目标字符串的划分模式的多个候选；

正确模式选择装置，用来根据所述字符连接概率表，从所述多个候选中选择正确的划分模式；和

输出装置，用来输出所选择的所述正确划分模式作为所述目标字符串的划分结果。

11.一种字符串划分方法，用来将字符串分段成多个词，所述方法包括：

统计计算步骤，计算在给出的文档数据库中出现的两个相邻字符之间的连接概率；

存储步骤，存储计算出的连接概率；和

分段步骤，根据字典将目标字符串分段成多个词，

其中，当所述目标字符串的划分模式存在多个候选时，根据计算出的连接概率，从所述多个候选中选择正确的划分模式，使得所述目标字符串的每个划分位置出现在具有较小连接概率的两个相邻字符之间。

12.根据权利要求11所述的字符串划分方法，其中

当所述目标字符串的划分模式存在多个候选时，计算每个候选的分数，

所述分数是所述目标字符串依照所述每个候选的一个划分模式，在相应的划分位置的连接概率的总和，和

选择具有最小分数的候选作为所述正确的划分模式。

13.根据权利要求11所述的字符串划分方法，其中

所述分数是所述目标字符串依照所述每个候选的一个划分模式，在相应的划分位置的连接概率的乘积，和

选择具有最小分数的候选作为所述正确的划分模式。

14.根据权利要求11所述的字符串划分方法，其中

计算出的连接概率指定给所述候选的每个划分位置；

将一个常数指定给位于两个不分开的字符之间的每个位置；

在由此指定的所述连接概率和所述常数的总和的基础上，计算每个候选的分数，和

选择具有最小分数的候选作为所述正确的划分模式。

15.根据权利要求11所述的字符串划分方法，其中

计算出的连接概率指定给所述候选的每个划分位置；

将一个常数指定给位于两个不分开的字符之间的每个位置；

在由此指定的所述连接概率和所述常数的乘积的基础上，计算每个候选的分数；和

选择具有最小分数的候选作为所述正确的划分模式。

16.一种字符串划分系统，用来将字符串分段成多个词，包括：

输入装置，用于接收文档；

概率表存储装置，用来存储计算出的连接概率表；

字典存储装置，用来存储预先准备或形成的字典；

未知词估算装置，用来估算没有记录在所述字典中的未知词；

划分模式产生装置，用来根据所述字典和所述估算出的未知词的信息，产生一个目标字符串的划分模式的多个候选；

17.一种字符串划分方法，用来将字符串分段成多个词，所述方法包括：

存储步骤，存储计算出的连接概率；和

分段步骤，根据字典和估算出的未知词，将目标字符串分段成多个词，

18.根据权利要求17所述的字符串划分方法，其中检查当前一个词在字符位置(i－1)结束时，是否有词从特定的字符位置(i)开始，并且当没有字典中的词从所述字符位置(i)开始时，将适当的字符串添加作为从所述字符位置(i)开始的未知词，在此添加的字符串具有不小于n并且不大于m的字符长度，其中n和m是正整数。

19.根据权利要求17所述的字符串划分方法，其中

指定给所述未知词的常数大于指定给所述字典词的常数，

除了计算出的相应划分位置的连接概率的总和或乘积外，在赋给所述未知词和所述字典词的所述常数的总和的基础上，计算每个候选的分数，和

选择具有最小分数的候选作为所述正确的划分模式。

20.根据权利要求17所述的字符串划分方法，其中

指定给所述未知词的常数大于指定给所述字典词的常数，

除了计算出的相应划分位置的连接概率的总和或乘积外，在赋给所述未知词和所述字典词的所述常数的乘积的基础上，计算每个候选的分数，和

选择具有最小分数的候选作为所述正确的划分模式。