CN1173684A - 用于通过推理识别输入字符串的装置 - Google Patents

用于通过推理识别输入字符串的装置 Download PDF

Info

Publication number
CN1173684A
CN1173684A CN97113595A CN97113595A CN1173684A CN 1173684 A CN1173684 A CN 1173684A CN 97113595 A CN97113595 A CN 97113595A CN 97113595 A CN97113595 A CN 97113595A CN 1173684 A CN1173684 A CN 1173684A
Authority
CN
China
Prior art keywords
character
word
input
retrieval
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN97113595A
Other languages
English (en)
Other versions
CN1143240C (zh
Inventor
郡司圭子
桂晃洋
葛贯壮四郎
三浦雅树
横田登志美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP12536096A external-priority patent/JP3275704B2/ja
Priority claimed from JP22480896A external-priority patent/JPH1063750A/ja
Priority claimed from JP26193696A external-priority patent/JP3205516B2/ja
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN1173684A publication Critical patent/CN1173684A/zh
Application granted granted Critical
Publication of CN1143240C publication Critical patent/CN1143240C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Abstract

本发明提供一种由用户输入的手写关键字唯一地推断整个字符串并作为候选字符串显示推断结果的装置。它包括:字库a6,用于存储字识别信息和等级结构信息,所述等级结构信息用来把许多字按等级分层并用来识别等级内的每一个字;字母转移概率表a4,用于存储从一个字母到另一个字母的转移概率和相应于由转移所得的字母组合的字识别信息的那些片;以及优化单元,用于使用字母转移概率表a4优化由识别单元获得的候选字符串。

Description

用于通过推理识别输入字符串的装置
本发明涉及一种用于识别输入图形并显示识别结果的图形识别装置,尤其涉及对其输入手写的预定字符串例如地址和固定的词组的图形识别装置。
由所谓“pen PC”(pen-input comprters)对于便条、发票和其它形式的处理主要涉及对这些装置输入地址和固定的词组。已经提出了输入预定字符串例如地址和固定词组的三种代表性的方法:(1)从呈菜单形式的候选物当中选择;(2)以菜单和字符识别组合格式输入ZIP码,从而产生候选地址的菜单显示,以便从中选择;(3)用手写要被识别的字符,使得利用字典对其候选物优化。
上述的方法(1)在文章“Recognition of Handwritten Addresses in Unframed SetupAllowing for Character Position Displacements”(Periodical D-2 of the Institute ofElectronics,Information and Communication Engineers of Japan,Jan.,1994)中说明了。该方法一般涉及给定分级结构的数据例如地址,从分级结构的顶层到底层连续地选择候选数据。例如,“茨城县(Ibaraki-ken(日本的一个县))的后面可以是“日立市(Hitachi-shi(城市)),其后又可以是“大みか町(Domika-cho(城镇))”。这个方法的缺点在于,如果用户不能确定Hitachi-shi是否位于例如Tochigi-ken或Ibaraki-ken中(即最高级别的县),用户则难于直观地选择Hitachi-shi。
利用上述的方法(2),用户仅需要输入ZIP码,系统则给出代码引起的地址的菜单显示,以便从中选择。只要用户记住全部的ZIP码,则该过程是相当简单的;但除去用户自己的ZIP码之外,他们可能难于记住其它的ZIP。
上述的方法(3)可以识别手写字符并且通过使用字库使其候选物优化。参看下面一些附图可以得知该方法的概况。图3是一种常规的字符识别装置的示意方块图。在图3中,通过小平板a1输入的手写图形在字符识别处理a3中和识别字典a2进行图形匹配。这样获得的候选字符在字相关处理b7中和和字库a6按字匹配。然后,在LCDa8上显示合适的字。
图4是表示如何使用常规的字符识别装置输入地址的示意的流程图。例如,要输入“茨城县(Ibaraki-ken(县))”、“日立市(Hitachi-shi(市)”、“大みか町(Oomika-cho(镇)”,用户在输入区b1的预定的地址中用手写入这些字符。然后在处理a3中识别手写的字符。从识别处理获得的候选字符按字和字库a6匹配,从最高等级的层开始(即县级)。这样,对候选字符优化,并作为候选字符输出结果。
一般说来,等级结构的数据例如地址是从最高级的层向下进行访问的。这是因为在等级结构中的层越高,所存储的数据量越小,从而使得一旦确定最高层的候选物,便可以从中容易地推断较低的候选物。但是,假定常规系统接收通过字库进行检索的字“大みか町(Domika-cho(镇))”。在这种情况下,因为输入字的层是未知的,系统除去检索1.5MB之大的整个字典之外别无选择。在例如需要快速响应的联机字符识别的应用中,这种方案是不实际的。
在日本,一部典型的用于存储地址的字库的结构如下:
县名:
大约50个名字×每个名字大约3个字符×每个字符大约2个字节=大约300B的容量
市和镇:
大约4000个名字×每个名字大约3个字符×每字符2字节=大约2.5KB的容量
下级市:
大约160,000个名字×每个名字大约4个字符×每字符大约2字节=大约1.3MB的容量
这种典型的字库的数据总容量大约为1.5MB。
上述常规方法的一个缺点是用户必须忍受必须手写全部所需地址的麻烦,这些地址可能很长,例如“茨城县(Ibaraki-ken),日立市(Hitachi-shi),大みか町(Oomika-cho)”。
上述的方法(1)到(3)三种方法的一个共同问题是,在字符识别应用中,用户必须经受手写全部字符串例如地址和固定的句子的麻烦。另一个共同的问题是,通过字库检索不在等级结构中的最高层的字可能需要很长时间。还有一个问题在于,在例如由地址构成的等级数据结构的菜单驱动环境中,较低层的项除非已知其上面的项否则不能选择。
因此,本发明的目的在于,提供一种图形识别装置,用来只接受手写的关键字母(例如“大みか(Oomika)”或“~みか町(Mika-cho)”以便推断出其余的字符串(例如“茨城具(Ibaraki-ken),日立市(Hitachi-shi)”,借以输出被识别的整个字符串(例如“茨城县(Ibaraki-ken),日立市(Hitachi-shi),大みか町(Oomika-cho)”)。
在实现本发明时,按照其一个方面,提供一种字符识别装置,它具有用于识别输入的字符串的识别装置和用于显示识别结果的显示装置,所述字符识别装置包括:存储字识别信息和等级结构信息的字库,用于把许多字按等级分层并识别在等级结构中的每个字;字母转移概率表,用于至少存储从一个字母转移到另一个字母的概率和相应于由这些转移而得到的字母的组合的那些字识别信息片;优化装置,用于使用字母转移概率表优化由识别装置获得的候选字符串;以及检索装置,用于通过字库检索由相应于优化的候选字符串的字识别信息的那些片限定的字,借以检索由等级信息的可应用的片识别的并尚待输入的检索字。
当下级的字符例如“Oomika-cho”单独被输入时,上述的本发明的字符识别装置首先提取“Oomika-cho”作为被优化装置优化的候选字符串。然后根据相应于优化的字符串的字识别信息检索字库寻找较高级的字。这一检索产生比输入的“Oomika-cho”的等级较高的尚待输入的字“Ibaraki-ken,Hitachi-shi.”。识别的结果是“Ibaraki-ken,Hitachi-shi,Oomika-cho”,整个字符串由输入的和未被输入的字构成。
按照本发明的另一个方面,提供一种具有用于识别输入的字符串的识别装置和用来显示识别结果的显示装置的字符识别装置,所述装置包括:具有预先在特定地址中存储的许多字符串的字库;字母转移概率表,至少存储从一个字母转移到另一个字母的概率,所述概率被存储在和包括在转移时涉及的组合字母的字符串的地址相应的地址中;以及优化装置,使用字母转移概率表优化由识别装置获得的候选字符串;其中字库被访问相应于优化候选字符串的字符串的地址,并且在字库的这些地址中的字符串作为识别结果被显示。
图1是使用本发明的手写输入地址识别装置的功能方块图;
图2是说明使用本发明的手写输入地地址识别装置如何工作的示意流程图;
图3是现有的字符识别装置的示意方块图;
图4是表示现有的字符识别装置如何用于输入地址的流程图;
图5是使用本发明的手写输入地址识别装置的硬件方块图;
图6是用于产生字母转移概率表的步骤的示意的流程图;
图7是典型的字库的示意图;
图8是典型的字母出现计数表的示意图;
图9是典型的字母转移计数表的示意图;
图10是典型的字母出现概率表的示意图;
图11是典型的字母转移概率表的示意图;
图12是利用转移概率表进行字符识别的后处理的示意流程图;
图13是说明根据后处理的结果如何推断字符串的示意流程图;
图14是说明根据后处理的结果如何推断字符串的另一个示意流程图;
图15是说明根据后处理的结果如何推断字符串的另一个示意流程图;
图16是说明根据后处理的结果如何推断字符串的另一个示意流程图;
图17是显示推断的字符串的一种典型格式的示意图;
图18是显示推断的字符串的另一种典型格式示意图;
图19是显示推断的字符串的另一种典型格式示意图;
图20是表示推断的字符串的另一种典型格式示意图;
图21是说明如何根据后处理的结果推断字符串的另一个示意流程图;
图22是说明如何根据后处理的结果推断字符串的另一个示意流程图;
图23是表示使用本发明的手写输入医疗保健检索装置的功能方块图;
图24是用于说明使用本发明的手写输入医药检索装置的操作的图;
图25是说明每种药的处方、注意事项、副作用以及服用其它药时的注意事项的表;
图26是说明根据使用本发明的步骤的病人名字检索装置的操作的例图;
图27是图书馆检索系统的结构方框图;
图28是表示书架布置引导处理的显示输出的例图;
图29是图书收集登记的结构图;
图30(a)、(b)和(c)分别是图书收集表、作者姓名表和出版商表的图;
图31表示图书名称字符对字符转移概率表的结构;
图32是图书名称字符对字符转移概率表的另一种结构;
图33是图书馆检索处理的流程图;
图34表示在图书馆检索处理中显示输入检索关键字的例图;
图35是由图书检索处理产生的检索结果的显示的例图;
图36表示可以由本发明提供的实施例实现的模糊输入的多项数据库检索系统的结构;
图37(a)到37(i)表示在图36所示的实施例中使用的表;
图38表示允许模糊输入的检索处理的流程图;
图39(a)至39(d)表示在检索包括非文本数据例如图画的多项数据库中使用的表;
图40表示检索索引产生工具的结构;
图41(a)到41(c)表示字符对字符转移索引表的例子;
图42表示用于检索包括非文本数据例如图画的多项数据库的检索系统的结构;
图43表示检索关键字输入托板的例子;
图44表示检索结果显示托板的例子;
图45表示通过应用从检索系统收到的检索结果得到并显示的屏幕的例子;
图46表示由识别结果优化和数据推断单元执行的处理的示意流程图;以及
图47(a)到47(b)是表示允许使用含有索引和索引的相似程度的表的模糊输入的简图,所述每个索引把字母对字母的转移和字连系起来。
下面参照附图说明本发明的最佳实施例,本实施例允许手写地址的字符识别。
图2是表示使用本发明的手写输入地址识别装置如何工作的示意流程图。例如用户在地址输入区b1用笔a9写入关键字“Oomika”。手写的笔划在字符识别处理a3中被识别。识别处理根据该关键字产生第一候选字符串“大みか(Oomika)”和第二候选的“大るか(Inuruka)。已知候选字符串,对于在该字符串中字符对字符转移的概率(例如从字母A到字母B的转移概率)参照转移概率表a4。然后对于涉及的字母出现的概率参照字母出现概率表a8。候选字符的顺序被优化,使得该字符串出现的几率最大。对于候选字号,再参考字符转移概率表,借以获得包括在该候选字符串中的字母对字母转移的字的指针。在2图的例子中,当候选字符组合成“大みか(Oomika)”时字出现的概率最大,因而从字符转移概率表中获得指针No.All,它指向包括“大(Oo)”到“み(mi)”转移和“み(Mi)”到“か(ka)”转移的字。利用本方法,当在字符转移概率表中提供字库中的字的指针用于字符识别的后处理时,目标字会很快地被访问。一旦在字库中找到合适的字,关于字库中的那个字的层信息便使得可应用的较高的一层或几层唯一地被识别。在图2的例子中,上层字被唯一地得到,它们是“茨城县(Ibaraki-ken),日立市(Hitachi-shi)”。即简单地手写“大みか(Oomika)”便使得目标地址”茨城县(Ibraki-ken),日立市(Hitachi-shi),大みか町(Oomika-cho)”作为可能的候选被显示并象被输入一样。
图1是使用本发明的手写输入地址识别装置的功能框图。下面参照图1说明本实施例如何工作。在小平板a1上使笔a9滑动从而输入手写字符图形。这样输入的手写字符图形在字符识别处理a3中和保持在识别字库a2中的字符图形匹配、识别处理产生候选字符,其顺序通过参考预先通过学习产生的两个表被优化。一个表是转移概率表a4,它包含字母对字母转移的概率和包括这种转移的字库中的这些候选字的指针。参考的另一个表是字母出现几率表a8,其中包含字母出现的几率。在优化时,候选字符被最优地排序,使得作为字符串出现的字母的几率最大。同时,指向字库中可被应用于优化的字符串的这些字的指针被确定(处理a5)。上述从字库中获得的字和候选字符串进行匹配,从字库中的层信息中获得关于每个可应用的字和关于前面和后面的字的信息(步a7)。获得的结果在LCD a8上显示。
在实施本发明时有4个主要方面要被讨论:(1)如何产生转移概率表a4;(2)如何优化候选字符的顺序,使得作为字符串出现的字母的概率最大,并且如何找到指向包括在优化的字符串中的字母对字母转移的字的指针;(3)如何被用检测的字的指针推断包括手写输入字(即关键字)的字符串;以及(4)如何显示推断的字符串。这些方面在下面详细讨论。
图5是使用本发明的手写输入地址识别装置的硬件框图。该装置包括以下功能:使输入图形和字库图形匹配;优化从图形匹配获得的候选字符并找出包括候选字符的字的指针;以及使候选字符和这些字匹配,从而检索关于这些字的每个字前后字的信息。这些功能例如都被执行从ROMc5中检索的相应程序的CPUc3实现。下面参照相应的附图详细说明这些功能。[1]如何产生转移概率表a4
图6是产生转移概率表a4的示意流程图。在步d1,读字库6以便进行学习。利用从字库中检索的任一个字,在该字中每个构成该字的字母出现的次数被计数(步d2)。字母出现计数被写入字母出现计数表d3中。然后对字中的字母对字母的转移计数(步d4)。转移计数被写入字母转移计数表d6。包含该字母对字母转移的原始字的字号(即字指针)被写入字符转移计数表d6(步d5)。例如,在日本字“大みか町(Oomika)”的情况下,日本字母“大(Oo)”,“み(mi)”和“か(ka)”出现一次,因而计数一次。同样,在该字中“大(Oo)”到“み(mi)”和“み(mi)”到“か(ka)”的转移也各计数一次。字“大みか(Oomika)”的字号被写为“大(Oo)”到“み(mi)”转移的候选字号和“み(mi)”到“か(ka)转移的候选字号。对字库a6中的所有的字重复步d1到d6。此后,这样产生的字母出现计数表d3和字母转移计数表d6被参考,以便制备转移概率表a4,其中含有字母对字母的转移概率和包括这种转移的候选字的字号的信息(步d9)。如果需要,再次参考字母出现计数表d3,从而产生说明涉及的每个字母的出现概率的字母出现概率表d8(步d7)。下面参照相应的附图说明这些表的构成。
图7是典型的字库的示意图。其中所示是由日本的县、市、镇和下属机构的名字构成的等级结构的地址字库a6。构成该字库的各项包括字号(即字位置信息),较高级的字号和字(字符串)。每个字利用其字数进行访问。每个字的等级关系由其较高级的字号识别。
图8是一种典型的字母出现计数表的示意图。字母出现计数表d3存储每个字母在用于学习的字库中出现的次数。例如,表d3被用于计数在被学习的字中每个字母出现的次数。
图9是一种典型的字母转移计数表的示意图。其中存储在用于学习的字库中每个字母对字母的转移出现的次数和包括这种转移的字数(即候选字母符数)。
图10是一种典型的字母出现概率表的示意图。例如,日本字母“hi”的出现概率以字母“hi”出现的次数除以字母的总数给出。这样,字母出现概率表d8通过首先参考字母出现计数表d3以找出所涉及的每个字符的出现计数被产生。这样获得的出现计数被写于字母出现概率表d8中。
图11是一种典型的字母转移概率表的示意图。例如,“日(hi)”到“立(tachi)”转移的概率表示为“日(hi)”到“立(tachi)”转移发生的次数除以“日(hi)”出现的次数。这样,字转移概率表a4通过首先参考字母出现计数表d3和字母转移计数表d6从而求出每个字母的转移几率被产生。这样获得的几率被写入字母转移概率表a4中。
执行上述处理产生具有字库中的字的指针的转移概率表a4。虽然上述实施例使用字数作为识别字库中的每个字的字识别信息,但是这不限制本发明。另外,可以使用代码信息作为字识别信息。此外,虽然上述实施例使用较高级的字号作为代表字库中的字之间的等级关系的等级信息,但这不限制制本发明。另外,其它类型的信息例如代码信息可用于说明字之间的等级关系。[2]根据转移概率的后处理(即如何优化候选字符和如何确定候选字的指针)
图12是利用转移概率表进行字符识别的后处理的流程图。如图12所示,假定输入图形“大みか町(Oomika)”具有第一候选字符串“犬みか(Inuraka)”和第二候选字符串“犬みか(Kenmika)”。即与图2的例子相反,这里假定输入字符串“大みか(Oomika)”被不正确地识别。在这种情况下,如下所述,仍然可以通过根据转移概率优化候选字符来避免字符识别的错误结果。如1图2所示,有8个可能的候选字符组合。对于这些字符串中的每一个,参考字母转移概率表,从而找到涉及的字符串的出现概率并获得字库中候选字符的指针。成为具有最高出现概率的字符串的候选字符组合是最佳的候选字符组合。该字符组合和候选字数一道被认为是根据转移概率处理的后处理的结果。
字符串的出现要率被计算如下:一般地说,字符串S1,S2,...,Sn的出现概率利用下式近似计算:
出现概率(S1,S2,...,Sn)
=出现概率(S1)×转移概率(S1→S2)×转移概率(Sn-1→Sn)   ...(1)
例如,图12中的字符组合No.3“大みか(Oomika)”的出现概率计算:
出现概率(“大みか(Oomika)”)
=出现概率(“大(Oo)”×转移概率
(“大(Oo)”→“み(mi)”)×转移概率(“み(mi)”→“か(ka)”)
更具体地说,通过参考转移概率表a4和出现概率表a8获得所需的概率如下:
出现概率(“大みか(Oomika)”)
=(18/89,274)×(1/18)×(2/15)×(2/198)
=14940×108-8%                                       ...(2)
下面说明如何获得候选字数(即如何求得字库中字候选的指针0)。例如,对于字符串S1,S2,...,Sn的候选字数使用下式获得:
候选字号(S1,S2,...,Sn)
=候选字号(S1→S2)∩...∩候选字号(Sn-1→Sn)            ...(3)
图12中的字符串“大みか(Oomika)”通过参考字符转移概率表a4并使用下式得到候选字号:
候选字号(“大みか(Oomika)”)
=∩候选字号(“(Oo)”→“(mi)”)∩候选字号(“mi”→“ka”)=(A11)∩(A11,A12)=A11                                                  ...(4)
在上例中,候选字号相“与”(∩),从而使候选字符减少到“大みか町(Oomika-cho)”(A11)。另外,候选字号可以相“或”(∪),从而使得可以选择“大みか町(Oomika-cho)”和“みかの原町(Mikanohara-cho)”作为候选字符。在这另一种情况下,根据字符计数可以选字“大みか町(Oomika-cho)”作为第一候选字符。
用所述方式,从字符识别处理得到的候选字符被优化成具有足够高的出现概率的字符串。然后获得优化的候选字符串的候选字符号(即该字的指针)。利用上述方法,只输入字“大みか町(Oomika-cho)”的一部分(例如“みか(mika)”)仍然涉及两个候选字:“大みか町(Oomika-cho)”和“みかの原町(Mikanohara-cho)”。[3]如何推断包括手写输入字(即关键字)的字符串
下面参照有关附图说明如何推断包括优化的候选字符串(即手写输入关键字)的整个字符串。
图13是说明如何根据后处理的结果推断字符串的示意流程图。在图13的例子中,根据转移概率的后处理产生关键字“大みか(Oomika)”(候选字符)和候选字号A11。如图所示只有一个字“大みか(Oomika)”作为关键字存在于字库中。因为字“大みか(Oomika)”在等级结构中的最低层,所以上一级的字符串“茨城县日立市(Ibaraki-ken,Hitachi-shi)”便被唯一地确定。作为根据手写字符“大みか(Oomika)”推断的最后结果,候选字符串“茨城县日立市大みか町(Ibararaki-ken,Hitachi-shi,Oomika-cho)”便被显示。
图22所示的情况除去对于手写字符“大みか(Oomika)”具有两个候选字符串之外和图13的例子相同。一个候选字是从字符串推断得到的“茨城县日立市大みか町(Ibaraki-ken,Hitachi-shi,Oomika-cho)”,另一个候选字是从未经推断处理的字符识别得到的“大みか町(Oomika-cho)”,因而用户可以选择两者之一。其优点在于用户可以在由关键字推断的字符串和不加推断的单独的关键字之间进行选择。
图14是表示如何根据后处理结果推断字符串的另一个示意流程图。在图14的例子中,根据转移概率的后处理从字库中产生一个中间等级字“日立市(Hitachi)”(候选字号A1)。如图所示,只有一个字“日立(Hitachi)”作为关键字存在于字库中,因此上一级的字符串“茨城县(Ibaraki-ken)”便被唯一地确定。在这种情况下,关键字“日立(Hitachi)”具有几个和其相关的较低级别的字。它们(例如“茨城县日立市大みか町(Ibaraki-ken,Hitachi-shi,Oomika-cho)”、“茨城县日立市みかの原町(Ibaraki-ken,Hitachi-shi, Mikanohara-cho)”等)被显示,由用户从中选择一个。
图15的例子与图14的相同之处在于,通过根据转移概率的后处理从字库中检索中间级的字“日立(Hitachi)”(候选字号A1),由于该字具有几个与其相关的较低级的候选字。在所述的例子中,字库含有关于各个市镇的人口统计的信息,使得几个候选的低级的字按人口顺序被显示。用户可以容易地根据显示按照人口顺序排列的市镇进行选择。
图16所示情况和图15类似,其区别在于在图16中字库含有字对字转移概率而不包含人口统计信息。即几个候选的低级字按转移概率的顺序显示。用户也可以根据基于概率的字指示容易地进行选择。所述字对字的转移概率例如可以从含有若干地理名称的文本中学习来得到。在简单的结构中,转移概率可以根据有关市镇的知名度确定。
在图21的例子中,和图14一样,通过根据转移概率的后处理从字库中检索中间级的关键字“日立(Hitachi)”(候选字号A1),并且仍然必须确定和该关键字相关的低级候选字。图21的例子和图14的区别在于,只显示唯一确定的字符串“茨城县日立市(Ibaraki-ken,Hitachi-shi)”。较低级别的下属地区由于不能唯一地被确定,必须再由用户输入。
如上所述,比关键字等级较高的字按照本发明被唯一地自动推断。当有几个对关键字而言是下级的低级候选字时,便不能被唯一地确定。在这种情况下,用户被提供给一个菜单,可以从中选择或要求用户进行所需的附加输入。[4]如何显示推断的字符串
下面说明如何显示以上述方式获得的字符串的候选物。图17到20表示如何显示推断的字符串。在每个例子中,字“大みか(Oomika)”被输入并且推断出字符串“茨城县日立市大みか町(Ibaraki-ken,Hitachi-shi,Oomika-cho)”并进行相就地显示。所述例子之间的差别是在显示装置上字符串的位置不同。
在图17的例子中,在候选字符串“茨城县日立市大みか町(Ibaraki-ken,Hitachi-shi,Oomika-cho)”部分“大みか町(Oomika-cho)”的显示位置靠近手写字符“大みか(Oomika)”。这种类型显示的优点是,用户可以容易地对手写字符和其附近的识别候选字符进行比较。
在图18的例子中,候选字符串“茨城县日立市大みか町(Ibaraki-ken,Hitachi-shi,Oomika-cho”从手写字符“大みか(Oomika)”的开始位置附近被显示。这种显示使手写字符和候选字符串的左边对齐,清楚地表明识别结果在显示器上的开始位置。
在图19的例子中,显示的候选字符串“茨城县日立市大みか町(Inaraki-ken,Hitachi-shi,Oomika-cho)”在手写字符“大みか(Oomika)”的位置上居中。这种显示的优点是手写字符串和候选字符串互相靠近,因而用户不必太多移动其视线。
在图20的例子中,手写字符串“Oomika”和候选字符串“茨城县日立市大みか町(Ibaraki-ken,Hitachi-shi,Oomika-cho)”的最后一个字符处于同一列。这种显示尤其对右手的用户有利,使得候选字符串不被藏在拿着笔的右手的下方。
系统或用户可以按照其喜好选择图17到图20所示的任一种显示格式。
在图17到图20的例子中,在候选字符串中的关键字“大みか(Oomika)”以反视频(reverse video)显示以便强调。此外,关键字可利用不同的字体或用任何其它合适的方法加亮。另外一种方法是完全省去加亮的显示部分。
如上所述,按照本发明的字符识别装置只根据用户输入的手写关键字例如地址或固定句子从等级数据结构内推断整个字符串,并作为候选字符串显示推断的结果。本发明的装置可以快速访问内部字库进行字匹配。其中字库和以上实施例中一样是分层的,对构成字库的任何一层的访问可以高速地进行,而与层的高低无关。
按照本发明,用户只需要手写关键字;其余的字符串由本发明的装置推断出来,从而作为识别结果输出整个字符串。本发明的这些和其它的特点大大增强了字符识别处理的可操作性。
下面说明一种医疗保健检索装置,它能够在其它的事项当中容易地找到药方的用途,和服药注意事项,这时只需输入药厂名字、药名或药的一部分代码,或通过输入病人名字的一部分便通过检索找到病历或病人的医疗保健情况。在检索操作中,使用字符识别装置用来识别输入的字符图形并通过参考等级结构的字库和字母对字母的转移概率表推断未被输入的字。
图23是使用本发明的手写输入医疗保健检索装置的功能框图。
首先,用笔a209在小板a201上写字符图形、每个输入字符图形和预先在识别字库a202中编目的字符图形比较以找到和输入的字符匹配的编目的字符图形。对于每个输入字符图形,输出包括候选字符的识别字符。通过参考字母对字母转移概率表a204和字母出现概率表a208,求得最佳的排序,其中按顺序列出候选字符以便形成字符串。和以前的字母对字母转移概率相似,这个字母对字母转移概率表a204也被用于预先存储每个字母对字母转移的概率以及包括这种转移的在字库中编目的字的指针。详细地说,在优化过程中,识别的和候选的字符被排序,从而产生优化的字符串,其中作为字符串出现的字母的概率之和为最大。然后,在步a205,使用优化的字符串根据字母对字母转移概率表a204求出字库a206中一个字的指针。该指针指的字是优化的字符串。然后,在字对照和字符串推断单元a207中,通过使用这一技术找到的字库a206中的字和候选字符串比较,并求出关于该字以及其前后的字的信息。
标号a210是医药表,其中说明例如每种药的用途,服用的注意事项、副作用和服用其它药时的注意事项。标号a211是病人表,其中含有包括病历和每个病人的医疗保健的信息,标号a212是雇员登记表,用于存储关于医院雇员的信息,例如医生、护士、药剂师和医疗器械技师。
由上述的手写输入医疗保健检索装置进行操作的结果在LCDa208上显示。
下面参照图23、24和25说明用于检索每种药方的用途、服用注意、副作用和服用其它药时注意事项的一个实施例,由对该手写输入医疗保健检索装置输入医药代码的部分进行检索。
图24是使用本发明的手写输入医药检索装置的操作说明图。
如图所示,医药代码TRN用笔a209输入医药输入区a201。字符识别单元a203利用手写笔画检索识别字库a202。作为检索结果,字符识别单元a203输出其它候选字当中的第一候选字TRN和第二候选字TKM。通过参考字母对字母转移概率表a204和字母出现概率表a208求得优化顺序,其中候选字符T,R,N,K和M按顺序排列,从而形成字符串。使用字母对字母转移概率表a204存储医药代码的这些候选字符的字母对字母的转移概率和指向在字库a206中预先编目的医药的指针。就当注意,图24没有示出字母出现概率表a208。因为输入到医药输入区a201的从字母T到R再到字母N的转移概率被发现为最高,所以确定字符串TRN作为代表医药代码的候选字符的最佳顺序,并发现字符串TRN和字母对字母转移概率表a204中的指针X4相关。指针X4指向字库a206中的叫作“トゥカリン(tokarin)”的药和名字叫作“茨城制药(Ibaraki Seiyaku)”的制药厂,在字库a206中预先编目医药名和药厂以及药代码。因此,可以容易地识别药名及其制造厂。
一旦药名及基制造厂被识别出,如图25所示的关于医药处方的用途、服用注意事项、副作用和服用其它药时的注意事项可通过参考表a210得到。由图25可见,药“トウカリン(tokarin)”的效果增强叫作锂的药的效果而被叫作aspirin的药减弱。
假设使用记录笔a209向病人姓名输入区a201输入病人的姓名“一朗(Ichiro)”。手写笔划由字符识别单元a203用来检索识别字库a202。根据检索结果,字符识别单元a203在其它候选字符当中输出第一候选字符“一朗(Ichiro)”和第二候选字符“一朗(Ichiro)”。通过参考字母对字母转移概率表a204和字母出现概率表a208求出候选的日本字母“一(ichi)”,“一(ichi)”和“朗(ro)”被排序而形成字符串的最佳顺序。字母对字母转移概率表a204被用于存储病人姓名的这些候选日本字母的每个字母对字母转移的概率以及包括在字库a206中预先被编目的转移的病人姓名的指针。应当说明,图26中未示出字母出现概率表a208。因为求得的从日本字母“一(ichi)”到向病人姓名输入区a201输入的日本字母“朗(ro)”转移的概率最高,所以字符串“一朗(Ichiro)”被确定为代表病人姓名的候选日本字符的最佳顺序,并且发现字符串“一朗(Ichiro)”和字母对字母转移概率表a204中的指针C2相关。指针C2在预先编目病人名字的字库a206中指向病人的名字“山形一朗(Ichiro Yamagata)”。因此,病人姓名可以容易地被识别。
然后,医生或护士可以更新在病人表a211中的例如病历与医病处理的信息。
在上述实施例中,说明了处理病人信息的操作。应当说明,所述处理可以用于处理在大医院工作的顾员的状态和工作情况,例如医生、护士以及医疗设备技师。在这种情况下,需要预先生成用于存储雇员记录和雇用关系的字库。
本实施例不仅可用于大医院的雇用记录,而且可用于一般公司的雇用记录。
如上所述,只通过输入药名、病人名或雇员名的手写部分,则可以容易地检索出医药的用途、服用注意事项或病人的医药治疗的记录等信息,从而加强了手写输入的医疗检索装置的可操作性。
下面说明用于图书检索系统的情况。
图27是图书检索系统的结构的方块图。
图中所示的标号a301和a302分别是小平板和LCD(液晶显示)。标号a303代表字符识别单元,标号a304代表字符识别字库。标号a305和a306分别代表主处理单元和用户管理单元。标号a307是用户分户账,标号a308代表借出书的数据。标号a309和a310分别是书借出处理单元和图书检索处理单元。标号a311代表书名检索单元,标号a312是书名字母对字母转移率表。标号a313和a314分别代表作为姓名检索单元和作者姓名字母对字母转移率表。标号a315是书架布局处理单元标号a316代表书架布局数据。标号a317和a318分别是新到图书处理单元和检索表产生单元。标号a319是书收集表,标号a320是作者姓名表。标号a321和a322是出版者表和图书收集总账。标号a323是出版者检索处理单元,标号a324是出版者名字字母对字母转移率表。标号a325和a326分别是关键字检索处理单元和关键字字母对字母转移概率表。标号a327是关键字表1,标号a328是卡片阅读器。
下面说明图书馆检索系统的操作。
在图书馆检索系统被激活时,主程序单元a305就在LCD a302上显示一个菜单。图书馆检索系统提供了供用户使用的菜单,诸如图书出租,图书检索,以及书架布局引导,并且为图书馆管理人员提供了例如用户管理和新书登记入册的菜单。
如果用户选择了图书出租菜单,主程序单元a305就请求图书出租程序单元a309执行图书出租程序。用户使用图书出租菜单借书,并且用来预定借书。图书出租程序单元a309通过主程序单元a305在LCD a302上显示适当的信息,要求用户执行一种操作。响应这一信息,用户通常需要将预先发放的用户卡插入读卡机a328,以便从用户卡上读出信息。读卡机a328从用户卡获得用户号码,把用户号码送到用户管理单元a306。用户管理单元a306从用户总帐a307中检索该号码,查出该号码是否已被列入用户总帐a307的目录中,从而指示出用户是有效用户,也就是查出是否能把书借给该用户。此时,用户的信息从用户总帐a307中被读出,并且送到图书出租程序单元a309。送到图书出租程序单元a309的信息包括图书出租的目前状态以及预定借书的状态。另外,用户总帐a307还包括每个用户的信息,例如姓名,地址以及用户的联系方式。
如果图书出租程序单元a309没有从用户管理单元a306获得用户的证实,就在LCD a302上显示一个信息,请用户与图书馆管理人员联系。这时,程序就结束了。在LCD a302上也可以显示要求用户按照出租期限还书的信息或是用于解释预定借书条件的信息。另一方面,如果图书出租程序单元a309从用户管理单元a306获得了用户的证实,图书出租程序单元a309就采用交互的方式接受用户的借书或是预定借书目录。借书或是预定借书的情况被记录在图书出租数据a308中,用于编制每本书的图书出租状态。
如果选择了书架布局引导菜单,主程序单元a305就请求书架布局程序单元a315执行书架布局引导程序。书架布局引导程序为用户提供向导,指示出在图书馆的某一具体位置可以找到需要的书。如果用户指定了需要的书,书架布局程序单元a315就从书架布局数据a316中读出每本书的位置信息。然后,主程序单元a305随着表示所需图书的图书出租状态的直接引导把表示所需图书位置的书架布局显示在LCD a302上,这种出租状态是对图书出租程序单元a309进行适当查询的结果,如图28中的窗口W4所示。另外,在必要时还可以显示详细的内容。
如果选择了用户管理菜单,主程序单元a305就请求用户管理单元a306执行用户管理程序,其中包括登记尚未登记的新用户。
在用户管理程序中,用户管理单元a306请求图书馆管理人员输入管理人员的登记号和用来证实管理人员的口令。如果管理人员得不到证实,就显示与图书馆管理人员联系的信息,并且结束程序。另一方面,如果管理人员得到证实,就接受由管理人员输入的新登记用户的私人数据,例如姓名,地址,并且给用户分配一个用户号码。然后把私人数据和用户号码登记在用户总帐a307中。在此时也可以向用户发放一个用户卡。
如果选择了新书登记入册的菜单,主程序单元a305就请求新书登记入册程序单元a317执行新书登记入册程序。
在新书登记入册程序中,把一本没有登记的新书包括在图书集内。
当新书登记入册程序单元a317接收到图书馆管理人员输入的图书数据时,这种图书数据就被传送到检索表产生单元a318。这种图书数据包括需要登记的新书的信息,例如书名,作者和出版商的名称,以及管理人员为这本书分配的关键字。检索表产生单元a318把图书数据登记在图书收集总帐a322中,并且随后或是在以后的适当时间使用图书收集总帐a322中新登记的图书数据来更新书名字符到字符转换概率表a312,作者名字符到字符转换概率表a314,出版商字符到字符转换概率表a324,关键字字符到字符转换概率表a326,图书收集表a319,作者名称表a320,出版商表a321,以及关键字表a327的内容。
图29是表示图书收集总帐a322结构的示意图。
如图中所示,图书收集总帐a322中已经为图书收集号码输入了各种登记数据,例如书名,作者和出版商的名称,以及关键字,图书收集号码被用作书的参考号码。
图30(a),(b)和(c)分别是表示图书收集表a319,作者名称表a320和出版商表a321的示意图。
图书收集表a319包含的内容与图书收集总帐a322相同,其区别仅是图书收集表a319中的信息是按照可以执行检索操作的格式来登记的。在图书收集表a319中为每个图书收集号码登记了书名,作者号码,出版商号码,以及关键字号码。
在作者名称表a320中为每个作者名称分配一个作者号码。对每个作者号码登记分配了作者号码的作者名称,还有用图书收集号码代表的图书收集量。另一方面,在出版商表a321中为每个出版商名称分配一个出版商号码。对每个出版商号码登记分配了出版商号码的出版商名称,还有用图书收集号码代表的图书收集量。
在图中没有表示出关键字表a327的结构。然而,在关键字表a327中为每个关键字分配了一个关键字号码。随着用图书收集号码代表的并且具有分配的相同关键字的图书收集量为每个关键字号码登记与关键字号码相关的关键字。
值得注意的是,图书收集号码是按照逐个的顺序与书名相联系的。在图书收集表a319中,书名是直接描述图书的唯一的数据项。为了使登记在图书收集表a319中的数据项一致,只要用书名号码为相关的每个书名产生一个独立的表,就可以在图书收集表a319中的书名位置上登记一个书名号码。
图31是表示书名字符到字符转换概率表a312结构的示意图。作者名字符到字符转换概率表a314,出版商字符到字符转换概率表a324,以及关键字字符到字符转换概率表a326与图中所示的书名字符到字符转换概率表a312具有相同的结构。
如图中所示,在书名字符到字符转换概率表a312中为包括在图书收集量中的每个书名中的每个字符登记了字符出现的次数,字符到字符的转换次数,以及图书的图书收集号码。
在图中最左侧一栏中所示的标号101至105表示在收集的图书名称中各个字符出现的次数。如图中所示,日语字符"シ(shi)"出现27次,字符"ス(su)"出现108次,而字符"タ(ta)"出现250次。用一个字符出现的次数除以所有字符出现的总次数,所获的结果就是该字符的出现概率。
在图中左侧第二栏中所示的标号110至117各自表示字符到字符的转换次数。例如标号101与标号110相连接,表示由字符"シ(shi)"101及随后的字符"ン(ng)"构成的一对顺序的字符在书名中出现的次数是10。尽管标号101是通过标号110与标号111相连接的,象标号101和110直接连接的情况一样,这种间接连接表示由字符"シ(shi)"101及随后的字符"ス(su)"构成的一对顺序的字符在书名中出现的次数是17。按照这种方式,字符到字符的转换次数代表了一对字符在书名中出现的次数。用字符到字符的转换次数除以第一个字符的出现次数,所获的结果就是这对顺序字符的字符到字符转换概率。
在图中第三栏中所示的标号121至135各自表示一个图书收集号。例如,标号121到123各自表示一本书的图书收集号,这本书的书名包括由标号110表示的一对字符"シン(shing)",尽管标号121被直接连接到标号110,而标号122是通过标号121间接地连接到标号110,并且标号123是通过标号122和121间接地连接到标号110的。这样,标号121到123就分别代表了图书收集号为Bi,Bi+1和Bj的书,其各自的书名中包括一对字符"シン(shing)"。在图中所示的字"Null"表示连接的结束。
另外,书名的字符到字符转换概率表a312也可以重新布置成图32所示的结构。
图32中所示的结构适合这样一种用途,其中的书名是按照日文kana-letters或拼音字符来登记的。也就是说,图中所示的结构适合采用例如日文katakana字符进行登记的书名,为了在图38所示的那种图书馆检索系统中能够实施,字符数量通常不能超过70,以便高效率地登记字符出现的次数,字符到字符的转换次数,以及图书收集号。
图32所示的结构包括字符出现计数表a312-1,用于登记每个字符在书名中出现的次数,一个字符到字符转换计数表a312-2,用于登记在书名中每个字符后面有另一个字符的次数,以及一个字符转换/图书收集号码表a312-3,其各个入口被用于登记字符到字符的转换和书名中包括这种转换的那些图书的图书收集号码。
以下要说明在选择了图书馆检索菜单时执行的图书馆检索程序。
如果在图27所示的图书馆检索系统中选择了图书馆检索菜单,就请求图书馆检索程序单元a310执行图书馆检索程序。
图33是一个流程示意图,表示图书馆检索程序的流程。
如图中所示,图书馆检索程序从用于识别用户的子程序p1开始。用户是通过与前述的图书出租程序单元a309所执行的用户证实相同的程序来识别的。如果用户得不到证实,就在LCD a302上显示一个信息,要求用户与图书馆管理人员联系,然后结束程序。即使用户得不到证实,程序仍可以进行到后面的子程序p2,用于接待作为客人的用户。另一方面,如果用户得到证实,程序自然会进行到子程序p2。
在子程序p2中,用户要输入检索关键字和每个检索关键字的加权。为了详细解释,把图34中所示的窗口W1显示在LCD a302上。然后由用户在窗口W1上为每个检索项输入一个字符串。在按下窗口W1的检索按钮时,各个字符串就被接纳为各个检索项的检索关键字。对每个检索项可以采用多个字符串。在这种情况下,用户要在两个顺序的字符串之间输入一个作为分隔符的空格。应该注意到,在本实施例中采用了手写输入接口。具体地说,如图34所示,用户在手写输入板a301上用手写的字符串出现在LCD a302上显示的窗口W2上。识别这种字符串,并且将识别结果显示在窗口W1的各个检索项方框内的光标位置上。
作为一个检索项的加权,在把字符串输入到检索项方框内的同时显示一个检索项的字符串的加权输入窗口W4。用户在加权输入窗口W4上的输入被接纳为检索关键字的加权。如果用户没有在加权输入窗口W4上输入,就假设加权为1。在用户从加权输入窗口W4上输入加权之后,也就是在开始输入另一个字符串时,为这一字符串输入的加权就被显示在一个圆括号()内。应该注意到,在加权的位置上可以对准备用作检索关键字的每个字符串分配一个优先权顺序号码。
为准备用作检索关键字的字符串分配的上述加权可以让用户区分出一个字符串,例如,用户可能是根据模糊的记忆把一个字符串确定为输入的检索关键字的。例如,如果用户清楚地记住了被检索的书名中的一个可以作为关键字的字,用户就将该关键字的加权设定成较大的值。另一方面,如果用户只能模糊地记住被检索的书名中的一个可以作为关键字的字,就可以将这一检索关键字的加权设定成较小的值。另外,可以预先为每个检索项分配缺省的加权或是缺省的优先权顺序号。在这种情况下,如果用户没有输入一个检索项的加权或是优先权顺序号,就使用分配给该检索项的缺省值。只有数据库的设计人员或是图书馆管理人员才能设定这种缺省值。
在图34所示的实例中,加权2和加权1分别被分配给书名检索项中的字符串"インタ-フエ-ス(接口)"和字符串"设计(sekkei)",而作者名称检索项的字符串"横田(yokota)"的加权被设定为1。
如图33所示,程序流程在此后进到子程序p3到p6。在子程序p3到p6中,图书馆检索程序单元a310请求检索程序单元对作为各个检索项的检索关键字而输入的字符串表示的检索项执行检索程序。这种检索程序单元包括书名检索单元a311,作者名称检索单元a313,出版商名称检索单元a323,以及关键字检索单元a325。值得注意的是图中仅仅表示了书名检索单元a311和作者名称检索单元a313。例如,假设在子程序p2中输入了书名检索项的字符串。在这种情况下,就请求书名检索单元a311检索由输入的字符串表示的书名。值得注意的是,如果在子程序p2中为一个没有在窗口W1中限定的检索项输入一个字符串,就要求书名检索单元a311,作者名称检索单元a313,出版商检索单元a323,以及关键字检索单元a325等等所有检索程序单元对输入的字符串所代表的检索项进行检索。
由书名检索单元a311,作者名称检索单元a313,出版商检索单元a323,以及关键字检索单元a325等等各个检索程序单元执行的检索程序在以下以书名检索单元a311所执行的操作为例来说明。
程序从子程序p3开始,在此时输入用户为书名检索项输入的检索关键字。如果用户输入了一个关键字,程序流程就进到子程序p4,书名检索单元a311在此时执行检索程序,按照下述方式找出由作为书名检索项关键字而输入的字符串所代表的书名。
指定图书的书名是这样查找的,即根据书名的字符到字符转换概率表a312找到图书的图书收集号码,该书的书名中包含部分或全部输入的字符串。然后在找到的书中选择具有最高转换匹配度的书。应该注意到,书的转换匹配度通常被限定为书名中的字符到字符的转换与输入的字符串中的字符到字符的转换相匹配的次数。作为另外一种方式,把所有具有非零转换匹配度的书,也就是书名中包含部分或全部输入字符串的书找出来。
通过以下的例子可以进一步解释一本书的转换匹配度。在上述的例子中输入的字符串是"インタ-フエ-ス(接口)"。采用书名字符到字符转换概率表a312检索的结果是书名为"マンマシンインタ-フヱ-スの设计技术(人-机接口设计技术)"和"マリ-とボンタ-フエ-ス(Marry and ponterface)"的书。对于第一本书的情况,在其书名中的一个词"インタ-フエ-ス(接口)"中,从日语字符"イ(i)"到"ン(ng)",从"ン(ng)"到"タ(ta)"等等的转换与输入字符串"インタ-フエ-ス(接口)"中的转换相匹配的次数是7。这样,第一本书的转换匹配度就是7。另一方面,对于第二本书的情况,在其书名中的词"ボンタ-フエ-ス(ponterface)"中,从日语字符"タ(ta)"到"-(ah)",从"-(ah)"到"フ(fu)"等等的转换与输入字符串"インタ-フエ-ス(接口)"中的转换相匹配的次数是5。这样,第二本书的转换匹配度就是5。顺便说说,书名为"お庭の设计(庭院设计)"的书的转换匹配度是0。这样,如果找到了所有具有非零转换匹配度的书,采用书名的字符到字符转换概率表a312检索的结果就是上述书名为"マンマシンインタ-フヱ-スの设计技术(人-机接口设计技术)"和"マリ-とボンタ-フエ-ス(Marry andponterface)"的书的图书收集号码。
具体地说,在图31中所示的书名的字符到字符转换概率表a312中进行检索,从而获得与作为检索关键字输入的字符串中从一个字符到下一个字符的任何转换有联系的图书收集号码。在这种情况下,在检索期间,图书收集号码在字符到字符转换次数的位置上出现的次数被用作转换匹配度,并且找到具有最高转换匹配度的书。作为另外一种方式,可以按上述办法列出所有具有非零转换匹配度的书。例如,假设作为检索关键字输入的字符串是"シスの(shisuno)"。对于字符串中从日语字符"シ(shi)"到"ス(su)"的转换来说,从图中分别可以找到用标号124和125表示的图书收集号码Bk和Bk+1。另一方面,对于字符串中从日语字符"ス(su)"到"の(no)"的转换来说,从图中分别可以找到用标号126和127表示的图书收集号码Bk和Bk+1。对于所有的图书收集号码BC,Bk,Bk+1来说,书名中字符到字符的转换与输入字符串中的字符到字符的转换相匹配的次数是1。然而,如果把图书收集号码在检索期间出现的次数作为转换匹配度,图书收集号码BC的转换匹配度就是2,而其他图书收集号码Bk和Bk+1的转换匹配度为1。
在按照上述方式选择了图书收集号码之后,书名检索程序单元a311就把根据作为书名检索关键字输入的每个字符串找到的图书收集号码的清单及其转换匹配度一起送给图书馆检索程序单元a310。程序随后进到子程序p5和p6,请求作者名称检索程序单元a313根据用户输入的作者名称检索项关键字的字符串来执行程序。如上所述,作者名称检索程序单元a313,出版商检索程序单元a323和关键字检索程序单元a325执行的程序与书名检索程序单元a311执行的程序相同。
如图33所示,程序随后进到子程序p7,由图书馆检索程序单元a310重新排列根据从书名检索程序单元a311,作者名称检索程序单元a313,出版商检索程序单元a323以及关键字检索程序单元a325接受到的作为关键字输入的每个字符串找到的图书收集号码清单中包括的图书收集号码,按照这些图书收集号码的转换匹配度和用户随字符串一起输入的加权将这些图书收集号码按预定顺序排列。然后从图书收集表a319中,作者名称表a320中,出版商表a321中,以及关键字表a327中读出这些图书收集号码的图书馆数据,并且由主程序单元a305按照重新排列的图书收集号码顺序将数据显示在LCD a302上,如图35所示。重新排列通常是按以下方式进行的。
例如,如果即没有设定加权也没有设定优先权顺序号,并且对于一个检索项仅仅输入了作为检索关键字的一个字符串,图书收集号码就按照获得的转换匹配度的递减顺序排列。如果即没有设定加权也没有设定优先权顺序号,并且对于一个检索项输入了作为检索关键字的N个字符串,图书收集号码就按照具体计算数值的递减顺序排列。这一数值可以是每本书的N个转换匹配度的总和或是其乘积。按照另一种方式,这一数值是用某种函数对N个转换匹配度进行变换的结果。如果即没有设定加权也没有设定优先权顺序号,并且对于每k个检索项输入了作为检索关键字的M个字符串,图书收集号码就按照具体计算数值的递减顺序排列。这种数值可以是每本书的k×M转换匹配度的总和,乘积或是另外的函数变换结果。在按照总和或是根据函数的变换结果计算各个数值时,将各个转换匹配度与根据用于转换匹配度的字符串长度确定的加权相乘。然后按照所得数值的递减顺序来排列图书收集号码。
如果把字符串设定为书名和作者名称检索项的检索关键字,给予书名检索项的字符串高于作者名称检索项的优先权顺序号,图书收集号码就按照用书名检索程序单元a311找到的转换匹配度的递减顺序排列。如果用书名检索程序单元a311找到的两个以上图书收集号码具有相等的转换匹配度,图书收集号码就按照用作者名称检索程序单元a312找到的转换匹配度的递减顺序排列。
用书名检索程序单元a311找到的具有相等转换匹配度两个以上图书收集号码在使用作者名称检索程序单元a312时可能找不到转换匹配度。在这种情况下,就把这种图书收集号码当作由作者名称检索程序单元a312找到的转换匹配度为零的图书收集号码来处理。另外,在为每个检索项设定了多个字符串的情况下,图书收集号码的排列方式与采用转换匹配度和优先权顺序号时相同。
举例来说,可以将设定成书名检索项检索关键字的字符串"インタ-フエ-ス(接口)"的加权设置为2,将设定成书名检索项检索关键字的字符串"设计"的加权设置为1,而将设定成作者名称检索项检索关键字的字符串"横田(Yokota)"的加权设置为1。在这种情况下找出加权的转换匹配度,并且采用下文所述的方式按照找到的加权的转换匹配度的递减顺序来排列图书收集号码。
以下的段落i到v是各本书的数据,包括按顺序排列的书名,书作者的名称,以及书的出版商,这些例子可以解释如何找到一本书的转换匹配度。
i 书名:"マンマシンインタ-フヱ-スの设计技术"
    (人-机接口设计技术)
  作者:"横田他(Yokota等人)"
  出版商:"YHG社(YHG公司)"
计算关键字的加权的转换匹配度:
1.关键字"インタ-フヱ-ス(接口)"的转换匹配度:
从日语字符"イ(i)"到"ス(ng)",从"ス(ng)"到"タ(ta)"等等的转换次数是7。
2.关键字"设计(sekkei)"的转换匹配度:
从日语字符"设(setsu)"到"计(kei)"的转换次数是1。
3.关键字"横田(Yokota)"的转换匹配度:
从日语字符"横(yoko)"到"田(ta)"的转换次数是1。这样,关键字的转换匹配度就是7*2+1*1+1*1=16。
ii.书名"日立は今インタ-フヱ-ス(Hitachi wa Ima interface)
作者:"横田他(Yokota等人)"
出版商:"きりん堂(kirindoh公司)"
计算关键字的加权的转换匹配度:
1.关键字"インタ-フヱ-ス(接口)"的转换匹配度:
从日语字符"イ(i)"到"ン(ng)",从"ン(ng)"到"タ(ta)"等等的转换次数是7。
2.关键字"设计(sekkei)"的转换匹配度:
由于此时在关键字的转换中没有转换匹配,从"设(setsu)"到"计(kei)"的转换次数是0。
3.关键字"横田(Yokota)"的转换匹配度:
从日语字符"横(yoko)"到"田(ta)"的转换次数是1。
因此,关键字的转换匹配度就是7*2+0*1+1*1=15。
iii.书名:"マンマシンインタ-フヱ-スの最佳设计"(人-机接口的最佳设计)
作者:"山田他(Yamada等人)"
出版商:"日本馆(Nihon-kan公司)"
计算关键字的加权的转换匹配度:
1.关键字"インタ-フヱ-ス(接口)"的转换匹配度:
从日语字符"イ(i)"到"ン(ng)",从"ン(ng)"到"タ(ta)"等等的转换次数是7。
2.关键字"设计(sekkei)"的转换匹配度:
从日语字符"设(setsu)"到"计(kei)"的转换次数是1。
3.关键字"横田(Yokota)"的转换匹配度:
由于此时在关键字的转换中没有转换匹配,从"横(yoko)"到"田(ta)"的转换次数是0。
因此,关键字的转换匹配度就是7*2+1*1+0*1=15。
iv.书名:"マリ-とボンタ-フエ-ス(Marry and ponterface)"
作者"ルタ-著(Ruter)"
出版商:"よい子の童话社(Yoi Ko No Dowa Company)"
计算关键字的加权的转换匹配度:
1.关键字"インタ-フヱ-ス(接口)"的转换匹配度:
从日语字符"タ(ta)"到"-(ah)",从"-(ah)"到"ス(su)"等等的转换次数是5。
2.关键字"设计(sekkei)"的转换匹配度:
由于此时在关键字的转换中没有转换匹配,从"设(setsu)"到"计(kei)"的转换次数是0。
3.关键字"横田(Yokota)"的转换匹配度:
由于此时在关键字的转换中没有转换匹配,从"横(yoko)"到"田(ta)"的转换次数是0。因此,关键字的转换匹配度就是5*2+0*1+0*1=10。v.书名:"ぉ庭の设计(庭院设计)"
作者:"横田太朗(Taro Yokota)"
出版商:"大邸宅社(Daiteitaku Company)"
计算关键字的加权的转换匹配度:
1.关键字"インタ-フヱ-ス(接口)"的转换匹配度:
由于在关键字的转换中没有转换匹配,从"イ(i)"到"ン(ng)",从"ン(ng)"到"タ(ta)"等等的转换次数是0。
2.关键字"设计(sekkei)"的转换匹配度:
从日语字符"设(setsu)"到"计(kei)"的转换次数是1。
3.关键字"横田(Yokota)"的转换匹配度:
从"横(yoko)"到"田(ta)"的转换次数是1。因此,关键字的转换匹配度就是0*2+1*1+1*1=2。
与此相应,用户通过输入作为检索关键词的字符串"インタ-フヱ-ス(接口)","设计(sekkei)",和"横田(Yokota)"进行的检索操作结果可以按照按上述方式计算的加权转换匹配度的递减顺序显示出来。
另外,在图33所示的图书馆检索程序中,不仅可以在LCD a312上显示检索操作的结果,用户还可以从显示的检索操作结果中间选择一本书,并且利用选定图书的书架布局引导程序和图书出租程序。
具体地说,在找到已经重新排列和显示的图书之后,程序流程就进到子程序p8,找出从显示的图书清单中是否选择了某一本书。如果从显示的图书清单中选择了一本具体的书,程序流程就进到子程序p9,此时请求书架布局引导单元a315执行针对选定图书的书架布局引导程序。响应这一请求,书架布局引导程序单元a315为选定的图书执行书架布局引导程序。然后,程序进到子程序p10,查看是否有预定借阅选定图书的请求。如果找到了用户输入的预定借阅选定图书的请求,程序流程就进到子程序p11,请求图书出租程序单元a309对选定图书执行图书出租程序。图书出租程序单元a309接收到这一请求,执行图书出租程序。在对选定图书执行了图书出租程序之后,程序流程就进到子程序p12,使控制程序返回图书馆检索程序单元a310。应该注意到,如果在子程序p8中没有从显示的图书清单中选择某一本书,程序流程仍会进到子程序p12。在子程序p12中,图书馆检索程序单元a310接收来自用户的一个指令,以便停止或是继续检索程序。图书馆检索程序单元a310接收这一指令,从而结束程序,或是返回重复执行程序的子程序p12,以便继续执行程序。
到此为止已经描述了图书馆检索系统的一个实施例。
在上述的实施例中为每个准备检索的项目提供了检索程序单元和字符到字符的转换概率表,这些检索项目是书名,作者名称,出版商,以及关键词。还需要强调的一点是,尽管本发明是参照上述实施例来解释的,但是这种解释并不会构成对本发明的限制。也就是说,本发明所概括的主题并不仅限于这一实施例。本领域的技术人员根据上述说明显然还可以实现各种修改和变更。例如,一个检索程序单元和一个字符到字符的转换概率表可以用于两个以上的检索项目。具体地说,作为一个检索项的检索关键字输入的kada-letters字符串可以用于检索两个以上检索项目的共用的字符到字符转换概率表。这样做的结果可以缩小存储这种表的存储器容量。
特别是在采用关键字的检索操作中,如果不知道需要检索的项目,就可以采用以下两种技术之一:(1)为需要检索的所有项目提供公用的检索程序单元和字符到字符转换概率表。用检索程序单元对表进行检索,按用户指定的关键字的指示找到数据。(2)为需要检索的每个项目提供一个检索程序单元和一个字符到字符转换概率表。用与这些表相关的单元检索每个表,按照用户指定的关键字的指示找到数据。
无论上述哪种情况,检索操作的结果是按照转换匹配度和加权的递减顺序或是优先权号码重新排列。
另外,每个字符到字符转换概率表可以按下述方式构成,这些表包括书名的字符到字符转换概率表,作者名称的字符到字符转换概率表,出版商的字符到字符转换概率表,以及关键词的字符到字符转换概率表。
如果图书数据是用西文例如英文撰写的,在两个顺序的词之间需要使用一个分界符。此时最好采用以下的结构。
具体地说,按照与图30所示的作者名称表a320或是其他表类似的结构产生一个包含许多入口的词汇表,用每个入口表示词汇编号,词汇,以及与该词汇相关的一本书的图书收集号码之间的关系。另一方面,按照与图32所示的书名的字符到字符转换概率表a312类似的结构产生一个包含许多入口的词汇的字符到字符转换概率表,用每个入口表示字符到字符的转换与词汇编号之间的关系。另外还设有一个词汇处理单元,它利用作为关键字的一个字符串中从一个字符到另一字符的转换从词汇的字符到字符转换概率表中找出词汇编号和转换匹配度。找到的词汇编号进一步被用于从词汇表中找到图书收集号码和转换匹配度。
按照另一种方式,可以按下述的结构产生各个字符到字符转换概率表,也就是书名的字符到字符转换概率表,作者名称的字符到字符转换概率表,出版商的字符到字符转换概率表,以及关键词的字符到字符转换概率表。
具体地说,书名的字符到字符转换概率表a312是这样构成的,它包括一个包含许多入口的书名表,每个入口表示一个词汇的字符到字符转换与书名中包括这种转换的一本书的图书收集号码,还有一个词汇的字符到字符转换概率表,它包含许多入口,每个入口表示一个字符到字符的转换与一个词汇编号之间的关系。参照词汇的字符到字符转换概率表请求书名检索程序单元a311从作为关键字的字符串中找出一个词汇编号和从字符到字符的转换的转换匹配度,并且参照书名表找出一个图书收集号码以及从字符到字符的转换的转换匹配度。这种结构也可以用于其他检索项目的字符到字符转换概率表。应该注意到,可以为所有检索项目提供公用的词汇表,或是为各个检索项目提供单独的词汇表。
按照上述的内容,在书名的字符到字符转换概率表,作者名称的字符到字符转换概率表,出版商的字符到字符转换概率表,以及关键词的字符到字符转换概率表等各个字符到字符的转换概率表中,图书收集号码是直接分类。然而应该注意到从各个字符到字符转换概率表中可以省略图书收集号码。例如,如果在作者名称中包括一个字符到字符的转换,可以在作者名称的字符到字符转换概率表a314中按照作者的作者编号来编目,用于代替该作者撰写的那本书的图书收集号码。在这种情况下,可以从作者名称表a320中找到该书的图书收集号码。
另外,按照上文所述,在书名的字符到字符转换概率表,作者名称的字符到字符转换概率表,出版商的字符到字符转换概率表,以及关键词的字符到字符转换概率表等各个字符到字符的转换概率表中分类的字符出现次数和字符到字符的转换次数没有被用于计算转换匹配度。也就是说,在上述的这种计算中没有明确表示字符出现次数和字符到字符转换次数的作用。然而,应该注意到,可以按照下述方式使用字符到字符的转换次数。假设一本书的书名与作为关键字的特定字符串之间具有低概率的字符到字符转换匹配。也就是说,书名中的字符到字符转换在书名的字符到字符转换概率表中的分类具有较低次数的字符到字符转换。在这种情况下,可以象对待高转换匹配度的书那样来处理。这是因为低概率的字符到字符转换表明了字符到字符的转换很少,从而显示出该书名与具有高概率的字符到字符转换相比较的具体特征,也就是共同的字符到字符转换特征。
另外,在本实施例中,从显示内容中可以省去具有低加权转换匹配度的图书数据。此外,还可以从具有最高加权转换匹配度的图书数据开始仅仅显示出预定数量的图书数据。
如上所述,按照本实施例提供的图书馆检索系统,检索操作的结果可以按照为多个检索关键字设定的加权和优先权顺序号重新排列,并且按重新排列的顺序显示。这样,用户就能获得检索操作的结果,这种结果是按照更适合检索需求的格式来显示的。
如上所述,本发明可以提供一种图书馆检索系统,它可以执行检索操作,并且用更适合用户检索需求的格式来显示检索结果。
以下要解释的技术适用于执行一种允许模糊输入的检索方式,在下文中还要详细说明,用户仅仅需要在各个检索项目的方法中增加检索项目的属性和简单的信息,就能够在多项目数据库中通用。具体地说,对于多项目数据中的每个检索项目,由用户指定:(1)是否要执行检索操作;(2)检索项目中的优先权顺序;以及(3)各个检索项目的属性。
然后,由通用检索系统产生一个字符到字符的转换索引表,以便在允许模糊输入的检索中使用,这种检索方式允许在输入字符串中有一些误差或是含意模糊的属性。例如,含糊的"蓝"色可以代表"浅蓝"或是"深蓝",而含糊的词オしンジ(橙色)可以表示"ネ-ブしオしンジ(脐橙色)"或是"みガん(橘红色)"。本发明提供了用于执行下述三种允许模糊输入检索的实施例:
[1]采用类似表的允许模糊输入的检索,例如采用词典
[2]对多项目数据的允许模糊输入的检索,数据中包括例如图片等非文本数据(不需要检索)
[3]采用索引表的允许模糊输入的检索,每个索引与一个词汇中的字符到字符的转换相联系
[1]采用词典的允许模糊输入的检索
在本实施例中可以执行这样的检索操作,在其中为每个数据属性使用一个类似表,以便允许使用模糊的属性。如上所述,例如,含糊的"蓝"色可以代表"浅蓝"或是"深蓝",而含糊的词"オしンジ(橙色)"可以表示"ネ-ブルオしンジ(脐橙色)"或是"みガん(橘红色)"。
图36是一个示意图,表示本发明的实施例所提供的一个允许模糊输入的多项目数据库检索系统的结构。以下要简要地说明本实施例的操作方式。首先,如图中所示,通过一个小板S001输入手写的笔画。然后,用字符识别单元S002将这些笔画与字符识别库S003相比较,从而识别手写的笔画。通过比较产生候选的字符串。然后用识别结果优化和数据推断单元S004分解候选的字符串,也就是把多个候选字符串拆成两个一对的连续字符或是字符到字符的转换。每个字符到字符的转换与预先产生的字符到字符转换索引表S005相比较,这一索引表是通过字符到字符转换索引工具来产生的。如果找到了按照字符到字符转换索引表S005分类的字符到字符的转换,就将这种字符到字符的转换当作候选字符串的一部分来处理。在多项目数据库S006中,包括某一候选的字符到字符的转换的数据地址也是按字符到字符的转换索引表S005来分类的,以便能访问包含候选字符串的多项目数据库S006。在上述的程序中,候选字符串被分解成字符到字符的转换,并且在字符到字符转换单元中参照字符到字符的转换索引表S005来产生候选字符串,这种候选字符串是在多项目数据库S006中预先分类的。这样,即使在通过小板S001输入的字符串中或是字符识别单元S002的输出结果中存在局部误差,仍可以检索多项目数据库S006。
为了找到意思与输入数据接近的数据,多项目数据库S006中的命中数据被传送到类似数据推断单元S007。将命中数据中的每个检索项与为检索项目属性准备的一个类似表相比较。在一个属性限定表中,为检索项目属性准备的一个类似表的名称被分类。在类似表中找到的与命中数据类似的数据被传送到识别结果优化和数据推断单元S004。按照这种方式,很容易从包括类似数据的多项目数据库S006中获得数据。
如上所述,可以从多项目数据库S006中检索出数据,这种数据中包括利用小板S001输入的字符串和意思接近命中数据的类似数据。接着按照数据库优先权限定单元S011提供的定义为找到的每个数据片段确定其优先权。然后从具有最高优先权的数据片段开始一个接一个地在LCD a013上仅显示出找到的部分数据片段。找到的数据片段中被显示的部分是按照检索结果显示范围限定表S012提供的定义来确定的。在允许模糊输入的检索操作中,在检索操作中命中的数据片段数量很大。然而,由于从具有最高优先权的数据片段开始一个接一个地在LCD a013上仅显示了找到的一部分数据片段,用户很容易从检索结果中选择需要的数据。
在上文中解释了一个允许含意模糊的通用检索系统的结构,并且用包含例如词典等类似数据的类似表概括了这种系统的操作方式。
图37(a)至(i)表示了在图36的通用检索系统结构中使用的所有的表。以下要解释表中的内容。
首先,图37(a)中所示的标号S003是一个字符识别词典。字符识别表S003通常被用于存储字符图形及其字符代码。
标号S005是用于对输入分类的字符到字符转换索引表,每个输入表示一个字符到字符的转换(也就是两个一对的连续字符)和多项目数据库S006中的一个地址,在数据库中对包括字符到字符的转换的字符串预先进行了分类。在从多项目数据库S006中检索字符串时,字符到字符转换索引表S005的各个输入被用作在多项目数据库S006中分类的字符串的索引。应该注意到,字符到字符转换索引表S005是通过检索索引产生工具自动产生的,即利用这种工具把在多项目数据库S006中分类的多项目数据分解成字符到字符的转换或是两个一对的连续字符。
标号S006是多项目数据库的一个例子。如图中所示,每个数据片段具有三个检索项:即分别代表物品名称,尺寸和价格的检索项目编号1至3。
标号S014是一个检索对象指示表。检索对象指示表S014被用于对作为检索对象的多项目数据库S006的检索项目进行分类。采用检索对象指示表S014的原因是多项目数据库S006可能还包含图片和音乐数据等等难以根据允许模糊输入的字符串进行检索的对象。采用检索对象指示表S014可以清楚地鉴别检索项目和非检索项目。在本实施例中,分别代表物品名称,尺寸和价格的检索项目编号1至3都被作为可以检索的对象。
标号S015是一个用于表示属性的属性定义表,也就是表示多项目数据库S006中的每个检索项所具有的数据性质。在允许模糊输入的检索中要参考一个检索项目的类似表,用属性定义表S015中分类的属性来表示检索项目,以便找到意思接近(也就是类似于)检索项目的数据。
标号S008是一例类似表。在这一类似表S008中表示了类似的尺寸检索项。具体地说,在类似表S008的每个入口中对尺寸检索项的值及其参考值进行了分类。与参考值差别较小的尺寸被认为是类似的尺寸。
标号S009也是一例类似表。在类似表S009中模拟了由物品名称检索项目表示的一般货物。在本例中的类似表S009是一种词典,它是用于表示类似的一般物品的一个样品表。如图中所示,词典中的每一栏表示一种物品以及与其有关的物品清单。物品按上,下等级的层次分类。等级层次是依次堆积的,表示了等级层次越是接近,层中的物品就越是类似。
如上所述,表S008是一个尺寸类似表,表示类似的尺寸检索项目,而表S009是一个物品类似表,利用词典来表示与物品名称检索项目类似的物品。其他类似表包括表示所有属性的类似表,例如颜色,明/暗,和精度等等。在以下的实施例中要解释颜色的类似表。
属性的类似显然是以属性为依据的。例如,数字属性显然是类似的。在这种情况下没有必要为数字的属性提供类似表。也就是说,这种类似不需要类似表。
标号S011是一个数据库优先权定义表。检索操作的结果不一定能符合输入的需要。例如,一个数据片段具有匹配的物品名称,而另一片段具有匹配的尺寸。通过限定表示顺序的优先权来表示应该首先显示的具有匹配的物品名称和匹配尺寸的数据片段,就可以在显示中从其他数据前面取得与用户需要的信息接近的数据。
根据允许模糊输入的检索结果,通常可以获得几个候选数据。如果同时显示所有候选结果,在通过检索产生的所有候选者中间就很难选择准确的候选者边界范围。为了解决这一问题,按照优先权顺序依次显示检索结果,从最高优先权开始逐步显示较低的优先权。
标号S012是一例检索结果显示范围定义表。在本实施例中,检索结果显示范围定义表S012的每个入口包含显示步骤和代表该步显示的数据的匹配度数据。数据的匹配度是一个指示器,表示数据与输入匹配的程度。在本例中,显示步骤是按照匹配度来分类的。应该注意到,显示步骤也可以根据检索结果计数或是偏差度来分类。
以上参照图37(a)至(i)说明了在允许模糊输入的检索中使用的表。总地来说,由用户来限定多项目数据库S006,检索对象指示表S014,数据库优先权定义表S011以及属性定义表S015。另一方面,由检索系统预先提供了类似表S008和S009。在此处使用的词典可以在检索系统中通用。
以下要参照图38来说明允许模糊输入的检索程序流程。
如图中所示,首先通过小板S001输入手写的字符"オしンジ(橙色)"。然后由字符识别单元S002识别手写字符,输出用标号S021表示的字符识别结果,即第一候选字符串"オしンジ(sairenji)"和第二候选字符串"オしンチ(oshirenji)"。然后,程序流程进到步S022,把候选字符串分解成连续的字符对,形成从一个候选字符到另一候选字符的转换。然后,程序流程进到步S023,将候选字符到候选字符的每个转换与字符到字符转换索引表S005相比较。如果在字符到字符转换索引表S005的编目中找到了一个候选字符到候选字符的转换,就获得了与编目的字符到字符转换相关的一个地址。该地址是多项目数据库S006中的一个位置,包含这种字符到字符转换的数据在这一位置上编目。在本例中,从候选字符"オ(o)"到候选字符"し(re)"的转换和从"し(re)"到"ン(ng)"的转换度是字符到字符转换索引表S005中的编目,而相关的地址都是003.1。与"オ(o)"到"し(re)"和"し(re)"到"ン(ng)"的转换相关的同一地址003.1被用作多项目数据库S006中的地址003的一个索引,在该地址中分配了由夹在中间的字符"し(re)"联系的概率比较大的候选字符串。然后,程序流程进到步S024,在其中参照多项目数据库S006的地址003就可以获得数据"オしンジ(橙色),L,180圆"。这样就获得了接近手写输入字符"オしンジ(橙色)"的数据"オしンジ(橙色),L,180圆"。应该注意到,还可以进一步找到意思接近手写输入字符串"オしンジ(橙色)"的其他数据。从属性定义表s015中可以清楚地看到分配给物品名称检索项的词典类似表S009。因此,在地址003.1上命中的物品名称"オしンジ(橙色)"就获得了词典类似表S009。另外,物品名称"オしンジ(橙色)"在词典类似表S009中是作为一个检索项来编目的。按照等级层次高于物品名称"オしンジ(橙色)"的概念对"みガん类(橘红色类)"进行编目。然后在词典S009中对检索项"みガん类(橘红色类)"进行检索,按照等级层次比"みガん类(橘红色类)"低的概念,在"オしンジ(橙色)"之外找到"みガん(橘红色)"。此处将"みガん(橘红色)"作为另一个候选字符串。利用与步S022到S024相同的方法在包括候选字符串"みガん(橘红色)"的多项目数据库S006中的地址001上获得数据"みガん(橘红色),M,160圆"。
然后,程序流程进到步S025,在其中对检索结果的每个数据片段计算手写输入字符的匹配度。匹配度是根据数据中命中的字符数及其与输入字符串意思的接近程度来计算的。在本例中,地址003处的物品名称数据"オしンジ(橙色),L,180圆"具有三个与输入字符串匹配的字符。从数据库优先权定义表S011中可以清楚地看出,物品名称检索项具有最高的优先权。因此,给予数据"オしンジ(橙色),L,180圆"的点数是3*1000=3000点。另一方面,在地址001处找到的类似于输入字符串的物品名称数据"みガん(橘红色),M,160圆"获得500点。
然后,程序进到步S013,显示出通过检索找到的数据。
按照检索结果显示范围定义表S012,第一显示步被限定为用于显示匹配度大于或等于1000点的数据,而第二显示步被限定为用于显示匹配度等于或大于500点的数据。因此,在步S013中,在第一步中仅仅显示分类在地址003处的数据"オしンジ(橙色),L,180圆"。如果用户需要显示后面的数据,用户就请求继续显示。在这种情况下,就在第二步显示分类在地址001处的数据"みガん(橘红色),M,160圆"。
检索结果的显示可以使本实施例的程序流程结束。
[2]包括图象等等(不需要检索的)非文本数据的允许模糊输入的检索。
在下文中说明了一种允许模糊输入的检索系统,用于在除了根据字符串的检索之外还包括图形数据的多项目数据库中进行检索。
图39(a)是多项目数据库S006的一例示意图,其中包括图象一类的非文本数据。总地来说,包括图像一类非文本数据的多项目数据库S006被划分成文本数据库部分S006-1和非文本数据库部分S006-2。文本数据库部分S006-1和非文本数据库部分S006-2是通过图像数据的指针来联系的。
对于多项目数据库S006来说,采用检索对象指示表S014在多项目数据库S006中分类的数据片段中间清楚地指示出需要检索的目标。例如在汽车的信息片段中间把汽车名称,汽车颜色,型号年代等检索项目作为检索对象,同时把检索项目图像指针作为非检索项目来对待。按照这种方式清楚地表示出检索对象,即使数据库S006中包含不适合检索的项目,仍可以仅仅检索适合根据字符串进行检索的检索项目。
与上述情况相似,标号S015是一个属性定义表。在属性定义表S015中把汽车名称检索项作为主要字符串来对待。颜色属性和型号属性被分别分配给汽车颜色和型号年代检索项。
标号S088是一个颜色类似表。类似的颜色是不能用一维表达方式来体现的。在这种情况下,采用二维以上的表达方式来表示这种类似。在本例中,颜色是用矢量坐标来表示的,而颜色类似(或是区别程度)是用矢量的差别来表示的。
图40是一个检索索引产生工具的结构示意图,其工作原理如下。首先用一个检索屏幕自动发生单元S031检查检索对象指示表S014,以便从多项目数据库S006的文本数据部分S006-1中分类的检索项目中间识别出需要检索的对象。然后,检索屏幕自动发生单元S031参照属性定义表S015识别出检索对象的属性。按照属性对被检索项目的数据进行分析,以便产生检索(字符到字符的转换)索引表S005。如图中所示,可以分别为每个检索项目产生字符到字符的转换索引表S005-1,S005-2,或是S005-3。或是也可以提供所有检索项目公用的一个字符到字符的转换索引表S005。
图41(a)至(c)是表示字符到字符的转换索引表S005-1,S005-2,和S005-3的示意图。在本例中,汽车名称和汽车颜色检索项目的数据被分解成两个一对的顺序字符,或是分解成所谓字符到字符的转换。字符到字符的转换和多项目数据库S006中包括这种转换的字符串地址分别构成了字符到字符的转换索引表S005-1和S005-2的一个入口,分别用于汽车名称和汽车颜色。由于型号年代检索项目的属性是一种数字,用于项目型号年代检索项目的字符到字符的转换索引表S005-3是用数字部分来产生的,将这种数字作为索引。
图42是一个检索系统的结构示意图,该系统被用于检索包括图像等等非文本数据的多项目数据库。在此仅仅解释该检索系统与图36的区别。在本实施例的情况下,即使用户没有产生检索屏幕,检索屏幕自动发生单元S031仍会自动地显示一个检索平台。另外,为上述的各个检索项目提供了多个字符到字符转换索引表。由于为各个检索项目分别提供了一个字符到字符转换索引表,识别结果优化和数据推断单元S004也被分解成一个具体项目的识别结果优化和数据推断单元S004-1和通用的识别结果优化和数据推断单元S004-2。另外,由于多项目数据库S006被分解成了文本数据库部分S006-1和用于存储图像一类非文本数据的非文本数据库部分S006-2,提供了一个非文本数据合成单元S032,用于在文本数据库部分S006-1的检索完成之后把非文本数据库部分S006-2中的图像一类的非文本数据与显示的文本数据合并。
图43是由检索屏幕自动发生单元S031产生的一例检索关键词输入平台S041的示意图。如图中所示,检索关键词输入平台S041把作为检索对象的多项目数据库S006中检索项目的关键词输入框显示在屏幕上,让用户使用这个输入框指定一个检索项。另外还显示了一个自由关键词输入框。这个自由关键词输入框被用于指定一个没有被定义成检索项的输入。如果在自由关键词输入框中输入了一个字符串,就用一个综合检索单元将输入的字符串与所有的字符到字符转换索引表相比较。值得注意的是应该在关键词输入框中输入一个字符串,并且其字符数不能超过与这一关键词输入框相关的检索项的数据长度。如果屏幕的框中不能容纳这个关健词,可以使用滚动条。
图44是由检索屏幕自动发生单元S031产生的一例检索结果显示平台S043的示意图。检索的结果可以包括一种不是检索对象的检索项,例如是一种图像。另外一种方式是显示一种数字-字符格式的图像数据指针,用于代替图像数据本身。
图45是按照应用程序显示的一例屏幕。该屏幕是通过从检索系统接收的检索结果而获得的。在本例的应用中执行了包含图像的程序。也就是说,检索系统可以对最终的程序进行局部的管理,即仅仅处理文本数据库部分S006-1。
图46是一个示意图,表示综合识别结果优化和数据推断单元S004-2执行的程序流程。以下简要说明这一程序。如果在检索关键词输入平台S041的自由关键词输入框中输入一个关键词,就参照所有检索项目公用的一个字符到字符索引表执行检索操作,从中找到由关键词指示的数据片段。另外,如果在具体检索项目的关键词输入框中也输入了关键词,具体项目识别结果优化和数据推断单元S004-1就检索由关键词指示的数据片段,并且输出由找到的数据片段组合(执行OR操作)而成的信息,这些数据片段是由输入到自由检索项目输入框的关键词和输入到具体检索项目输入框的关键词来指定的。另一方面,如果仅仅在具体检索项目的关键词输入框中输入了关键词,而没有在自由关键词输入框中输入关键词,只有具体项目识别结果优化和数据推断单元S004-1对关键词指示的数据片段进行检索,并且输出检索操作的结果。
在上文中说明了一种允许模糊输入的检索系统,除了根据字符串进行检索之外,还可用于检索包括图像一类非文本数据的多项目数据库。
[3]使用索引表进行的允许模糊输入的检索,每个索引涉及到一个词的字符到字符转换
图47(a)至(c)是一种允许模糊输入的检索方式的总体示意图,这种检索方式使用的表中包含许多索引,它们各自对应一个词的字符到字符的转换,以及这种索引的类似程度。如图中所示,这种表的特征是,对在其中分类的信息进行索引,各自用于把一种字符到字符的转换与一个由数据(或是词)构成的输入相联系,这种数据中包含上述的字符到字符转换,数据的类似估算值,包含分类在多项目数据库中的数据(或词)的多项目数据量,或是多项目数据在多项目数据库中的地址。在实现允许模糊输入的检索系统的本实施例情况下,按照这种方式,由于每个索引包括一种字符到字符的转换,就可以在执行检索时忽略小的错误,例如日语字符串"カ-テガン"(意思是羊毛衫)"和另一个字符串"カ-テイガン′(意思也是羊毛衫)"之间的差别。值得注意的是,这两个字符串之间在日语中的拼写差别是由于在试图用日语字母写出英语词′cardigan'时的模糊而造成的结果。当然,这种系统也可以克服由用户的局部输入错误造成的问题。上述的表是由各个索引构成的,每个索引中包含多项目数据库中分类的一个词,并且按照词中间的类似关系对索引进行分类,也就是按照类似估算值的递增顺序进行分类。这样就能比较容易地找到包含某个词的数据,这个词类似于在检索操作中检测的词。
在本例中,在检索关键词输入平台中指定的检索数据是"カ-テイガン"(羊毛衫),9号,(红色),5000圆"。作为一种接近用户需要的检索操作结果,可以获得以下的第一数据:"カ-テイガン"(羊毛衫),9号,(红色),4900圆"。作为与第一数据类似的数据,还可以进一步获得以下的第二数据:"カ-テイガン"(羊毛衫),ワイン(紫红色),9号,4700圆"。同时还可以类似地获得与第一数据类似的第三数据:"カ-テイガン"(羊毛衫),ビンケ(粉红色),9号,5400圆"。
以上概括地说明了允许模糊输入的检索方式,在这种方式中采用了包含索引的表,每个索引与一个词中的字符到字符的转换以及与该索引的类似程度相联系。
如上所述,在检索多项目数据库时,可以克服由用户的输入错误和多项目数据库本身的局部缺陷所造成的问题。另外,还可以执行一种允许模糊输入的检索方式,从而获得意思接近于输入的数据。

Claims (30)

1、一种具有用于识别输入字符串的识别装置和用于显示识别结果的显示装置的字符识别装置,所述字符识别装置包括:
字库,用于存储字识别信息和等级结构信息,所述等级结构信息用于把许多字分成等级并识别所述等级结构内的每个所述的字;
字符转移概率表,用来至少存储从任何一个字符到另一个字符转移的概率和相应于从所述转移得到的字符的组合的所述字识别信息的那些信息片;
优化装置,用于使用所述字符转移概率表优化由所述识别装置获得的候选字符串;以及
检索装置,用于通过所述字库检索由所述字识别信息的那些片限定的字,所述字识别信息相应于优化的候选字符串,借以检索由所述等级信息的可用的片识别的并尚待必须被输入的被检索的字。
2、如权利要求1所述的字符识别装置,其特征在于所述等级结构信息由在级别上比在所述字库中的每个字的级别高的字的有关字识别信息构成。
3、如权利要求2所述的字符识别装置,其特征在于所述检索装置从所述字库中检索在级别上比所述优化的字符串的字高的字作为尚待输入的字。
4、一种具有用于识别输入字符串的识别装置和用于显示识别结果的显示装置的字符识别装置,所述字符识别装置包括:
具有在特定地址预先存储的许多字符串的每个字符串的字库;
字符转移概率表,用于至少存储从任何一个字符到另一个字符的转移概率,所述概率相应于包括在所述转移中涉及的组合字符的所述字符串的地址被存储;以及
优化装置,用于使用所述字母转移概率表优化由所述识别装置获得的候选字符串;
其中所述字库对于相应于优化的候选字符串的字符串的地址被访问,并且其中在所述字库中的所述地址的字符作为识别结果被显示。
5、如权利要求1或4的字符识别装置,其特征在于所述识别装置从由所述识别装置得到的许多候选字符串当中选择从一个字符到另一个字符的转移概率比其它候选字符串高的候选字符串,借以确定优化的候选字符串。
6、如权利要求1或4所述的字符识别装置,其特征在于所述字符串是手写输入的。
7、如权利要求1或4所述的字符识别装置,其特征在于所述字符串是声音输入的。
8、一种具有用于输入字符图形的输入装置、用于识别输入的字符图形的识别装置和用于显示识别结果的显示装置的图形识别装置,所述图形识别装置包括:
具有许多预先存储的字的字库;
字符转移概率表,其中具有预先学习的从任何一个字符到另一个字符的转移概率以及在所述字库中指向包括所述转移的那些字的指针;
指针确定装置,用于根据所述转移的所述概率优化识别的候选字符串,并检测指向所述字库中包括所述识别的候选字符串的字符对字符转移的那些字的指针;以及
推断装置,用于匹配优化的候选字符串和所述字库中被相应的指针定位的那些字,并用于推断有关从所述字库内定位的字的信息。
9、如权利要求8所述的图形识别装置,其特征在于在所述字库中的字由等级结构的数据构成。
10、如权利要求8所述的图形识别装置,其特征在于所述字符图形是手写输入的,并且其中由所述推断装置推断的候选字符串在手写输入的字符图形附近被显示。
11、如权利要求10所述的图形识别装置,其特征在于候选字符中相应于所述手写输入字符图形的那些被反相显示或者以不同的字体显示。
12、一种用于识别输入的字符图形并显示识别结果的图形识别方法,所述图形识别方法包括下述步骤:
从被识别的输入字符图形中提取候选字符串;
利用字符转移表优化提取的候选字符串,所述字母转移表描述预先学习的从任一字符向另一字符转移的概率,所述概率相应于包括所述转移的字库中的那些字的指针被存储;
检测包括优化的候选字符串的字符对字符转移的所述字库中的那些字的指针;
使所述优化的候选字符串和在所述字库中存储的所述许多字当中的由检测的指针指向的那些字进行匹配;以及
从所述字库中推断和有关的字相关的信息以便作为候选字符串显示推断的结果。
13、如权利要求12所述的图形识别方法,其特征在于所述字库中的字由等级结构的数据构成。
14、如权利要求12所述的图形识别方法,其特征在于所述字符图形是手写输入的,并且其中推断的字符串在手写输入字符图形附近被显示。
15、如权利要求14所述的图形识别方法,其特征在于候选字符串中的相应于所述手写输入字符图形的那些被反相显示或以不同字体显示。
16、一种医疗检索装置,包括:
用于识别输入的字符串的识别装置;
用于显示识别结果的显示装置;
字库,用于按等级结构编排许多字、用于识别每个所述字的字识别信息以及关于所述等级的信息;
字符对字符转移概率表,其中包括用于存储字符串中从一个字符向下一个字母转移的概率以及包含所述转移的字的字识别信息的项;
优化装置,用于使用所述字符对字符转移概率表优化由所述识别装置输出的候选字符串,从而产生输入字符的最佳候选字符串;以及
检索装置,用于检索所述字库,找出由和所述输入字符的最佳候选字符串相关的所述字识别信息指示的特定等级中的字以及不包括在高于与/或低于由关于所述等级信息指示的所述特定等级中的输入字符的所述最佳候选字符串的字,
其中在所述字库中编目的字是制药公司的名称,所述医药名称和医药代码,所述字库包括具有许多项的表,每个项用于存储关于每种药的信息、所述信息包括所述药的用途、服用时的注意事项、副作用和与其它药一起服用时的注意事项。
17、如权利要求16所述的医疗检索装置,其特征在于还包括用于记录每个病人的病历和医疗治疗的表。
18、如权利要求16所述的医疗检索装置,其特征在于还包括存储在医院工作的雇员的记录的表。
19、一种用于检索数据库查找由作为检索关键字的许多字符串指示的信息,所述系统包括:
输入装置,用于输入由用户输入的所述字符串和由所述用户对每个所述字符串输入的加权或优先权顺序号;
检索装置,用于检索所述数据库,查找由每个作为检索关键字的所述字符串代表的信息;以及
候选顺序确定装置,用于确定由检索装置产生的结果按照在检索所述信息时作为关键字输入的每个所述字符串的加权或所述优选权顺序号要作为候选物输出的顺序。
20、如权利要求19所述的检索系统,其特征在于:
所述检索装置按照转移匹配的程度检索所述数据库,所述转移匹配的程度是代表被包括在所述输入字符串中的从一个字符到下一个字符有多少次转移和被包括在被检索的信息中的从一个字符到下一个字符的转移相匹配;以及
所述候选顺序确定装置按照减少的转移匹配的加权程度的顺序重排所述的候选物,所述每个转移匹配的加权程度是通过使在检索所述信息中作为检索关键字使用的每个输入的字符串的转移匹配程度乘以所述字符串的加权或所述优先顺序数而被计算的。
21、如权利要求19或20的检索系统,其特征在于还包括输出装置,用于输出由所述检索装置按照由所述候选顺序确定装置对所述候选物确定的所述顺序产生的信息片的输出装置。
22、如权利要求19或20所述的检索系统,其特征在于:
在所述数据库中存储的每个信息片包括一组检索项;
所述输入装置输入由用户对每个检索项输入的一个或几个字符串和由所述用户输入的每个所述字符串的加权或优先权顺序数;以及
所述检索装置检索所述数据库,通过使用对于所述字符串输入的一个检索项目作为关键字输入的所述字符串检索信息。
23、如权利要求22所述的检索系统,其特征在于所述输入装置接收由用户输入的加权或优先权顺序数和检索项的输入的字符串,用于检索项的所述字符串被输入,或使用由所述数据库预先设置的预定的加权或预定的优先权顺序数。
24、一种检索系统,包括:
一个属性规定(确定)表,用于规定要被检索的每个检测项的数据属性的指针,以及
一个模拟表,用来根据所述属性编排所述数据当中的模拟关系,
其中模拟输入关键字的数据即使所述数据和所述输入关键字不十分匹配时也作为检索结果而被产生。
25、一种检索系统,具有检索结果显示范围确定表,其中的每一项用于记录检索结果的若干显示步骤,和用于指示所述检索结果必须在多大程度上和关键字匹配或在所述检索结果可以被显示之前在所述检索结果中匹配的检索项的最小数量的指示项,其中所述检索结果按照由对每个显示步骤记录的所述指示项确定的优先权顺序逐步地被显示。
26、一种检索系统,具有优先权顺序确定表,用于确定多项数据的检索项的优先权顺序,其中检索结果按照由所述优先权顺序确定表确定的所述优先权顺序确定的优先权的顺序被显示。
27、一种用于检索多项数据库的检索系统,所述系统包括:
所述的多项数据库;
用于规定作为检索对象的项目的检索对象说明表;
用于规定作为检索对象的所述每个规定的项目的数据的属性的指针的属性规定表;
用于基于所述属性编排所述数据当中的模拟关系的模拟表;
用于参考检索对象的数据的检索索引表;
用于规定检索项目的优先权顺序的优先权顺序规定表;以及
检索结果显示范围规定表,其中的每一项用于记录检索结果的若干显示步骤和指示,所述指示表示所述检索结果和关键字匹配的程度,或在所述检索结果可被显示之前在所述检索结果中匹配检索项的最小数量,
其中类似于输入关键字的数据片或意义接近所述关键字的数据片,即使所述数据不完全匹配所述输入关键字时,也按照用于所需的优先权顺序从最接近所述输入关键字的数据片开始,作为检索结果被逐步地显示。
28、一种用于检索多项数据库的检索系统,其中检索索引表被自动地产生,并且当用户只规定以下项时,便显示接近输入关键字的数据:
所述多项数据库;
用于规定作为检索对象的项的检索对象规定表;
用于规定作为检索对象的所述每个规定的项的数据的属性的指针的属性规定表;
用于规定检索项的优先权顺序的优先权顺序规定表;以及
检索结果显示范围规定表,其中的每一项用于记录检索结果的若干显示步骤和指示,所述指示表示所述检索结果和关键字匹配的程度,或在所述检索结果可被显示之前在所述检索结果中匹配检索项的数量。
29、如权利要求27所述的用于检索多项数据库的检索系统,其特征在于使用所述模拟表存储数据当中例如颜色、物品/货物以及亮度/暗度当中的模拟关系。
30、如权利要求27所述的用于检索多项数据库的检索系统,其特征在于所述的模拟表通过汇编(thesaurus)实现。
CNB971135959A 1996-05-21 1997-05-21 用于通过推理识别输入字符串的装置 Expired - Lifetime CN1143240C (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
JP125360/96 1996-05-21
JP125360/1996 1996-05-21
JP12536096A JP3275704B2 (ja) 1996-05-21 1996-05-21 入力文字列推測認識装置
JP224808/1996 1996-08-27
JP224808/96 1996-08-27
JP22480896A JPH1063750A (ja) 1996-08-27 1996-08-27 医療検索装置
JP261936/1996 1996-10-02
JP261936/96 1996-10-02
JP26193696A JP3205516B2 (ja) 1996-10-02 1996-10-02 検索システム

Publications (2)

Publication Number Publication Date
CN1173684A true CN1173684A (zh) 1998-02-18
CN1143240C CN1143240C (zh) 2004-03-24

Family

ID=27315109

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB971135959A Expired - Lifetime CN1143240C (zh) 1996-05-21 1997-05-21 用于通过推理识别输入字符串的装置

Country Status (6)

Country Link
US (2) US6097841A (zh)
EP (1) EP0841630B1 (zh)
KR (1) KR100475266B1 (zh)
CN (1) CN1143240C (zh)
DE (1) DE69724910T2 (zh)
TW (2) TW421764B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100444160C (zh) * 2003-08-18 2008-12-17 微软公司 用于验证分层组织的消息的系统和方法
CN101894160A (zh) * 2010-07-21 2010-11-24 同方知网(北京)技术有限公司 一种智能检索方法
CN102354350A (zh) * 2011-11-03 2012-02-15 厦门市智业软件工程有限公司 实现快速录入电子病历信息的方法
CN101398902B (zh) * 2008-09-27 2012-07-04 宁波新然电子信息科技发展有限公司 一种自然手写阿拉伯字母联机识别方法
CN106528605A (zh) * 2016-09-27 2017-03-22 武汉工程大学 一种基于规则的中文地址解析方法
CN107247724A (zh) * 2017-04-27 2017-10-13 腾讯科技(深圳)有限公司 转移概率矩阵更新、信息识别方法及装置、计算机设备
CN107430601A (zh) * 2014-11-14 2017-12-01 大众汽车(中国)投资有限公司 用于导航系统的控制方法和控制装置
CN113590895A (zh) * 2021-07-28 2021-11-02 西华大学 一种字符串检索方法

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100318573B1 (ko) * 1996-10-16 2001-12-28 마찌다 가쯔히꼬 문자 입력 장치 및 문자 입력 프로그램을 기억한 기록 매체
US6572660B1 (en) * 1998-08-20 2003-06-03 Russell I. Okamoto Method and system for creating hyperlinks and hyperlinked documents from the direct manipulation of information (“Drag and link” operation)
US8938688B2 (en) 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US7679534B2 (en) * 1998-12-04 2010-03-16 Tegic Communications, Inc. Contextual prediction of user words and user actions
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7720682B2 (en) 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US7712053B2 (en) * 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
JP3599180B2 (ja) * 1998-12-15 2004-12-08 松下電器産業株式会社 検索方法、検索装置および記録媒体
JP3958902B2 (ja) * 1999-03-03 2007-08-15 富士通株式会社 文字列入力装置及び方法
ES2202070T3 (es) 1999-03-18 2004-04-01 602531 British Columbia Ltd. Entrada de datos para dispositivos informaticos personales.
US7293231B1 (en) * 1999-03-18 2007-11-06 British Columbia Ltd. Data entry for personal computing devices
JP4280355B2 (ja) * 1999-05-06 2009-06-17 富士通株式会社 文字認識装置
US7143350B2 (en) * 1999-06-30 2006-11-28 Microsoft Corporation Method and system for character sequence checking according to a selected language
JP3480404B2 (ja) * 1999-12-22 2003-12-22 日本電気株式会社 単語大分類装置及びその単語大分類方法並びにその制御プログラムを記録した記録媒体
MXPA02007011A (es) * 2000-01-17 2003-09-25 Min-Kyum Kim Aparato y metodo para introducir caracteres del alfabeto sobre teclado.
US6847734B2 (en) * 2000-01-28 2005-01-25 Kabushiki Kaisha Toshiba Word recognition method and storage medium that stores word recognition program
US6944344B2 (en) * 2000-06-06 2005-09-13 Matsushita Electric Industrial Co., Ltd. Document search and retrieval apparatus, recording medium and program
US7024042B2 (en) * 2000-10-04 2006-04-04 Fujitsu Limited Word recognition device, word recognition method, and storage medium
CA2323856A1 (en) * 2000-10-18 2002-04-18 602531 British Columbia Ltd. Method, system and media for entering data in a personal computing device
GB0115830D0 (en) * 2001-06-28 2001-08-22 Coredata Ltd Data management
JP3907161B2 (ja) * 2001-06-29 2007-04-18 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワード検索方法、キーワード検索端末、コンピュータプログラム
US7158678B2 (en) * 2001-07-19 2007-01-02 Motorola, Inc. Text input method for personal digital assistants and the like
JP3997459B2 (ja) * 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
AUPR824601A0 (en) 2001-10-15 2001-11-08 Silverbrook Research Pty. Ltd. Methods and system (npw004)
US20030138144A1 (en) * 2001-12-18 2003-07-24 Stefan Lynggaard Address matching
US7130470B1 (en) * 2002-03-15 2006-10-31 Oracle International Corporation System and method of context-based sorting of character strings for use in data base applications
US8583440B2 (en) * 2002-06-20 2013-11-12 Tegic Communications, Inc. Apparatus and method for providing visual indication of character ambiguity during text entry
JP4145603B2 (ja) 2002-08-05 2008-09-03 富士通株式会社 文字列入力装置及び方法
US7490296B2 (en) * 2003-01-31 2009-02-10 Microsoft Corporation Utility object for specialized data entry
AU2003900865A0 (en) 2003-02-26 2003-03-13 Silverbrook Research Pty Ltd Methods, systems and apparatus (NPW010)
CN1303564C (zh) * 2003-06-12 2007-03-07 摩托罗拉公司 改进的电子设备中字符输入的识别方法
US7567239B2 (en) * 2003-06-26 2009-07-28 Motorola, Inc. Method and system for message and note composition on small screen devices
US7508984B2 (en) * 2003-07-31 2009-03-24 Ricoh Company, Ltd. Language recognition method, system and software
US8095364B2 (en) * 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US8552984B2 (en) * 2005-01-13 2013-10-08 602531 British Columbia Ltd. Method, system, apparatus and computer-readable media for directing input associated with keyboard-type device
US7461059B2 (en) 2005-02-23 2008-12-02 Microsoft Corporation Dynamically updated search results based upon continuously-evolving search query that is based at least in part upon phrase suggestion, search engine uses previous result sets performing additional search tasks
US20060271552A1 (en) * 2005-05-26 2006-11-30 Venture Capital & Consulting Group, Llc. Targeted delivery of content
DE102005031656A1 (de) * 2005-07-06 2007-01-11 Siemens Ag Verfahren zur Auswahl einer Bezeichung
EP2028598A4 (en) * 2006-05-26 2011-06-15 Nec Corp DEVICE, METHOD AND CLASSIFICATION OF INFORMATION PROGRAM
JP4893167B2 (ja) * 2006-08-30 2012-03-07 富士通株式会社 認証方法
WO2008104621A1 (es) * 2007-02-28 2008-09-04 Classe Qsl, S.L. Sistema para la recuperación de unidades de información
CA2581824A1 (en) * 2007-03-14 2008-09-14 602531 British Columbia Ltd. System, apparatus and method for data entry using multi-function keys
US7650445B2 (en) * 2007-09-12 2010-01-19 Motorola, Inc. System and method for enabling a mobile device as a portable character input peripheral device
JP2009157482A (ja) * 2007-12-25 2009-07-16 Kyocera Corp 文書編集装置及び文書編集方法
TWI374391B (en) 2008-05-27 2012-10-11 Ind Tech Res Inst Method for recognizing writing motion and trajectory and apparatus for writing and recognizing system
US8645417B2 (en) * 2008-06-18 2014-02-04 Microsoft Corporation Name search using a ranking function
US20100153405A1 (en) * 2008-10-14 2010-06-17 Johnson Brian M Systems and methods to search a data source based on a compatability via a specification
US8914359B2 (en) * 2008-12-30 2014-12-16 Microsoft Corporation Ranking documents with social tags
JP4735726B2 (ja) * 2009-02-18 2011-07-27 ソニー株式会社 情報処理装置および方法、並びにプログラム
US20110060985A1 (en) * 2009-09-08 2011-03-10 ABJK Newco, Inc. System and Method for Collecting a Signature Using a Smart Device
KR101301534B1 (ko) * 2009-12-14 2013-09-04 한국전자통신연구원 이형태 자동 구축 방법 및 장치
US8463731B2 (en) * 2010-02-17 2013-06-11 Google Inc. Translating user interaction with a touch screen into text
JP5699570B2 (ja) * 2010-11-30 2015-04-15 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP5807342B2 (ja) * 2011-02-21 2015-11-10 富士ゼロックス株式会社 文字認識装置及びプログラム
US9594539B1 (en) * 2011-02-23 2017-03-14 Amazon Technologies, Inc. Using applications of items in item searches
CN103164388B (zh) * 2011-12-09 2016-07-06 北大方正集团有限公司 一种版式文件中结构化信息获取的方法及装置
KR101222486B1 (ko) 2012-04-13 2013-01-16 주식회사 페타바이 비결정적 유한 오토마타의 비결정성을 선택적으로 제거하기 위한 방법, 서버, 단말 장치 및 컴퓨터 판독 가능한 기록 매체
JP5832980B2 (ja) * 2012-09-25 2015-12-16 株式会社東芝 手書き入力支援装置、方法およびプログラム
US9015195B1 (en) 2013-01-25 2015-04-21 Google Inc. Processing multi-geo intent keywords
US10228819B2 (en) 2013-02-04 2019-03-12 602531 British Cilumbia Ltd. Method, system, and apparatus for executing an action related to user selection
DE112013006764T5 (de) * 2013-03-04 2015-11-19 Mitsubishi Electric Corporation Suchvorrichtung
KR102073102B1 (ko) * 2013-03-21 2020-02-04 삼성전자 주식회사 언어인식을 위한 언어모델 db, 언어인식장치와 언어인식방법, 및 언어인식시스템
JP6131765B2 (ja) * 2013-08-06 2017-05-24 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN104571821B (zh) * 2014-12-30 2018-09-04 北京奇虎科技有限公司 一种长句定位方法和装置
CN105468743B (zh) * 2015-11-25 2018-12-28 钟岑 一种智能诊断手术编码检索方法
JP6526608B2 (ja) * 2016-09-06 2019-06-05 株式会社東芝 辞書更新装置およびプログラム
CN106408798A (zh) * 2016-09-22 2017-02-15 上海寰果信息科技有限公司 Pos 机打印方法及打印系统
JP2019139592A (ja) * 2018-02-13 2019-08-22 シャープ株式会社 文字認識装置、文字認識方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4654875A (en) * 1983-05-23 1987-03-31 The Research Foundation Of State University Of New York System to achieve automatic recognition of linguistic strings
US5067165A (en) * 1989-04-19 1991-11-19 Ricoh Company, Ltd. Character recognition method
JPH02308384A (ja) * 1989-05-24 1990-12-21 Toshiba Corp 住所認識装置
US5020019A (en) * 1989-05-29 1991-05-28 Ricoh Company, Ltd. Document retrieval system
JPH03122770A (ja) * 1989-10-05 1991-05-24 Ricoh Co Ltd キーワード連想文書検索方法
US5321833A (en) * 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
US5377281A (en) * 1992-03-18 1994-12-27 At&T Corp. Knowledge-based character recognition
JPH0684006A (ja) * 1992-04-09 1994-03-25 Internatl Business Mach Corp <Ibm> オンライン手書き文字認識方法
JPH0793467A (ja) * 1993-09-22 1995-04-07 Toshiba Corp 住所読取システム
US5826260A (en) * 1995-12-11 1998-10-20 International Business Machines Corporation Information retrieval system and method for displaying and ordering information based on query element contribution
JP3113814B2 (ja) * 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
US5909510A (en) * 1997-05-19 1999-06-01 Xerox Corporation Method and apparatus for document classification from degraded images

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100444160C (zh) * 2003-08-18 2008-12-17 微软公司 用于验证分层组织的消息的系统和方法
CN101398902B (zh) * 2008-09-27 2012-07-04 宁波新然电子信息科技发展有限公司 一种自然手写阿拉伯字母联机识别方法
CN101894160A (zh) * 2010-07-21 2010-11-24 同方知网(北京)技术有限公司 一种智能检索方法
CN101894160B (zh) * 2010-07-21 2012-02-08 同方知网(北京)技术有限公司 一种智能检索方法
CN102354350A (zh) * 2011-11-03 2012-02-15 厦门市智业软件工程有限公司 实现快速录入电子病历信息的方法
CN107430601B (zh) * 2014-11-14 2021-11-09 大众汽车(中国)投资有限公司 用于导航系统的控制方法和控制装置
CN107430601A (zh) * 2014-11-14 2017-12-01 大众汽车(中国)投资有限公司 用于导航系统的控制方法和控制装置
CN107430601B8 (zh) * 2014-11-14 2022-03-22 大众汽车(中国)投资有限公司 用于导航系统的控制方法和控制装置
CN106528605A (zh) * 2016-09-27 2017-03-22 武汉工程大学 一种基于规则的中文地址解析方法
CN107247724A (zh) * 2017-04-27 2017-10-13 腾讯科技(深圳)有限公司 转移概率矩阵更新、信息识别方法及装置、计算机设备
CN107247724B (zh) * 2017-04-27 2018-07-20 腾讯科技(深圳)有限公司 转移概率矩阵更新、信息识别方法及装置、计算机设备
CN113590895A (zh) * 2021-07-28 2021-11-02 西华大学 一种字符串检索方法
CN113590895B (zh) * 2021-07-28 2023-04-25 西华大学 一种字符串检索方法

Also Published As

Publication number Publication date
EP0841630B1 (en) 2003-09-17
US6751605B2 (en) 2004-06-15
TW490643B (en) 2002-06-11
US6097841A (en) 2000-08-01
DE69724910D1 (de) 2003-10-23
DE69724910T2 (de) 2004-07-15
KR970076347A (ko) 1997-12-12
EP0841630A3 (en) 1999-09-01
US20010028742A1 (en) 2001-10-11
CN1143240C (zh) 2004-03-24
EP0841630A2 (en) 1998-05-13
TW421764B (en) 2001-02-11
KR100475266B1 (ko) 2005-07-11

Similar Documents

Publication Publication Date Title
CN1143240C (zh) 用于通过推理识别输入字符串的装置
Issel-Tarver et al. Saccharomyces genome database
CN1171162C (zh) 基于字符分类检索字符串的装置和方法
CN1101032C (zh) 相关词抽取设备和方法
CN1161687C (zh) 手写体匹配技术
CN1578954A (zh) 机器翻译
CN1678975A (zh) 仿效qwerty型布局和键入的缩减键盘系统
CN1535433A (zh) 基于分类的可扩展交互式文档检索系统
CN1823334A (zh) 搜索引擎方法及装置
CN1728140A (zh) 信息检索系统中基于短语的索引编制
CN1573744A (zh) 进行非结构化信息管理和自动文本分析的系统和方法
CN1083952A (zh) 文件写作与翻译综合系统
CN1728142A (zh) 信息检索系统中的短语识别
CN1091906C (zh) 模式识别方法和系统以及模式数据处理系统
CN1478237A (zh) 通过互联计算机网络的多语种电子数据源的在线智能信息比较代理器
CN1728143A (zh) 基于短语产生文献说明
CN1608259A (zh) 机器翻译
CN1728141A (zh) 信息检索系统中基于短语的搜索
CN1759593A (zh) 字母字符输入装置和方法
CN1212578C (zh) 用于在计算机系统中创建信息数据库的方法
CN1862529A (zh) 语言分析系统及方法
CN1869989A (zh) 用于从非结构化描述生成结构化表示的系统和方法
CN1586066A (zh) 在按键上输入字母字符的装置和方法
CN1777890A (zh) 支持使用关键字的数据注册/搜索的设备、以及报告预备支持设备和程序
CN1266633C (zh) 语音查询中的辨音方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20040324

CX01 Expiry of patent term