CN105573990A - 外语句子制作支援装置以及方法 - Google Patents

外语句子制作支援装置以及方法 Download PDF

Info

Publication number
CN105573990A
CN105573990A CN201510726952.6A CN201510726952A CN105573990A CN 105573990 A CN105573990 A CN 105573990A CN 201510726952 A CN201510726952 A CN 201510726952A CN 105573990 A CN105573990 A CN 105573990A
Authority
CN
China
Prior art keywords
sentence
mentioned
retrieval
inquisition
foreign language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510726952.6A
Other languages
English (en)
Other versions
CN105573990B (zh
Inventor
祖国威
加纳敏行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Publication of CN105573990A publication Critical patent/CN105573990A/zh
Application granted granted Critical
Publication of CN105573990B publication Critical patent/CN105573990B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供能够减轻制作外语的句子时的负担的外语句子制作支援装置及方法。保存机构保存例句语料库,例句语料库包括包含例句的组的例句集和索引,例句的组包括外语的例句及与其对应的母语的例句,索引对应母语的例句。输入机构受理与第一句子对应的母语的第二句子即输入句的输入。语言解析实施机构对于受理了输入的输入句,实施包含词素解析以及句法解析的语言解析。语法特征提取机构基于所实施的语言解析的结果,提取输入句的语法特征。检索查询命令生成机构基于提取的语法特征,生成检索查询命令。输出机构基于生成的检索查询命令来检索索引,将包含与检索查询命令相符合的索引对应的母语的例句以及与该母语的例句对应的外语的例句在内的例句的组输出。

Description

外语句子制作支援装置以及方法
技术领域
本发明的实施方式涉及外语句子制作支援装置以及方法。
背景技术
在海外开发等的开发现场,经常要求制作外语句子。外语的语法知识不充足的笔者制作外语句子的情况,大致有两种状况。第一种是制作笔者的母语句子且以其为依据制作所期望的外语句子的状况,第二种是笔者制作语法上不完善的外语句子并以其为依据制作所期望的外语句子的状况。在任一种状况下,为了减轻笔者的负担、有效地制作外语句子,都需要支援外语句子的制作的方法。
作为这种外语句子制作支援方法,已知有使用了例如机械翻译、单词本,互译例句数据库或类似度的手法。
这里,对于使用了机械翻译的手法而言,将以笔者的母语输入后的母语句子通过机械翻译翻译为外语,从而能够生成外语句子。
对于使用了单词本的手法而言,在不知道外语单词的情况下,检索母语的单词本而输出译语,从而能够得到外语单词。
对于使用了互译例句数据库的手法而言,若输入母语的单词则检索使用了互译词典以及类似语词典的互译例句数据库,能够输出对应的译语以及包含译语的例句。
对于使用了类似度的手法而言,比较输入句和检索对象的例句之间的单词间的类似度,能够输出类似度高的例句。
发明要解决的课题
但是,以往的外语句子制作支援方法的任一种手法都存在笔者的负担大这样的不方便。
例如,对于使用了机械翻译的手法而言,机械翻译结果未必限于笔者意图(日语:意図)的文章,因此可能在制作所期望的外语句子之前需要较多的修正操作。
对于使用了单词本的手法而言,可能从所得到的外语单词不能制作外语句子或用于制作外语句子的负担大。
对于使用了互译例句数据库的手法而言,连使用了非意图的语法表现的例句也被检索,锁定使用了意图的语法表现的例句时有负担。此外,对于使用了互译例句数据库的手法而言,不能够适用于将语法上不完善的外语句子作为输入而制作完善的外语句子的情况。
对于使用了类似度的手法而言,由于通过单词间的类似度来检索例句,因此有可能包含非意图的例句,锁定意图的例句时有负担。
即,在以往的外语句子制作支援方法中,制作笔者意图的外语句子时的负担较大。
发明内容
本发明要解决的课题是提供一种能够减轻制作外语的句子时的负担的外语句子制作支援装置以及方法。
用于解决课题的手段
实施方式的外语句子制作支援装置对由至少包括独立词在内的多个句节构成的句子即外语的第一句子的制作进行支援。
上述外语句子制作支援装置具备保存机构、输入机构、语言解析实施机构、语法特征提取机构、检索查询命令制作机构和输出机构。
上述保存机构保存例句语料库,上述例句语料库包括例句集和索引,上述例句集包含例句的组,上述例句的组包括上述外语的例句以及与上述外语的例句相对应的母语的例句,上述索引与上述母语的例句相对应。
上述输入机构受理输入句的输入,上述输入句是与上述第一句子相对应的母语的第二句子。
上述语言解析实施机构对于受理了输入的上述输入句,实施包含词素解析以及句法解析在内的语言解析。
上述语法特征提取机构基于所实施的上述语言解析的结果,提取上述输入句的语法特征。
上述检索查询命令生成机构基于所提取的上述语法特征,生成检索查询命令。
上述输出机构基于所生成的上述检索查询命令来检索上述索引,将包含与上述检索查询命令相符合的索引所对应的母语的例句以及与该母语的例句相对应的外语的例句在内的例句的组输出。
根据上述构成的外语句子制作支援装置,能够减轻制作外语的句子时的负担。
附图说明
图1是表示涉及第一实施方式的外语句子制作支援装置的硬件构成的框图。
图2是表示涉及该实施方式中的外语句子制作支援装置的构成例的框图。
图3是表示该实施方式中的语法特征信息的一例的示意图。
图4是表示该实施方式中的语法特征信息的一例的示意图。
图5是表示该实施方式中的例句语料库(Corpus)的一例的示意图。
图6是用于说明该实施方式中的动作的流程图。
图7A和图7B是表示该实施方式中的词素解析结果的一例的示意图。
图8是表示该实施方式中的句法解析结果的一例的示意图。
图9是表示该实施方式中的语法特征的一例的示意图。
图10是表示该实施方式中的检索查询命令的一例的示意图。
图11是表示该实施方式中的输出句的一例的示意图。
图12A和图12B是表示该实施方式中的词素解析结果的一例的示意图。
图13是表示该实施方式中的语法特征的一例的示意图。
图14是表示该实施方式中的检索查询命令的一例的示意图。
图15是表示该实施方式中的输出句的一例的示意图。
图16是表示涉及第二实施方式的外语句子制作支援装置的构成例的示意图。
图17是表示该实施方式中的意思属性信息的一例的示意图。
图18是表示该实施方式中的例句语料库的一例的示意图。
图19是用于说明该实施方式中的动作的流程图。
图20A和图20B是表示该实施方式中的词素解析结果的一例的示意图。
图21是表示该实施方式中的语法特征的一例的示意图。
图22是表示该实施方式中的检索查询命令的一例的示意图。
图23是表示该实施方式中的检索查询命令的一例的示意图。
图24是表示该实施方式中的输出句的一例的示意图。
具体实施方式
以下,参照附图对几个实施方式进行说明。另外,各实施方式的外语句子制作支援装置可以作为独立系统(standalone)的用户终端而实施,也可以作为客户机服务器系统中的服务器装置而实施。此外,各实施方式的外语句子制作支援装置在个人云或公共云等的云计算系统中,可以作为低负荷时被选择的多台处理执行装置的各台处理执行装置而实施。
(第一实施方式)
图1是表示涉及第一实施方式的外语句子制作支援装置的硬件构成的一例的示意图。该外语句子制作支援装置1具备计算机10和外部保存装置20。计算机10与例如硬件设备驱动器(HDD:HardDiskDrive)那样的外部保存装置20连接。外部保存装置20保存通过计算机10执行的程序21。
涉及第一实施方式的外语句子制作支援装置1具有对由至少包含独立词在内的多个句节构成的句子即外语的第一句子的制作进行支援的功能。另外,作为各实施方式的外语句子制作支援装置1的用户,将达不到不使用例句而制作语法上完善的外语句子的作文能力、但是具有能够选择适当的例句来制作语法上完善的外语句子的作文能力者假想为主要的用户。但是,各实施方式的外语句子制作支援装置1不限定于该主要的用户,对于具有能够制作不完善的外语句子的程度的作文能力的任意的用户也能够适用。
具体地如图2所示,外语句子制作支援装置1具备语法特征信息保存部31、例句语料库保存部32、输入部33、语言解析部34、语法特征提取部35、检索查询命令生成部36、例句检索部37和输出部38。假设各部31~38通过计算机10执行保存在外部保存装置20中的程序(外语句子制作支援程序)21而得到实现。程序21能够以事先保存在计算机可读取的保存介质中的形态来发布。此外,程序21也可以经由例如网络而下载到计算机10。此外,语法特征信息保存部31以及例句语料库保存部32被安装在例如外部保存装置20内,但也可以写入安装到计算机10的存储器(未图示)内。
语法特征信息保存部31是能够读出/写入的存储器,如图3以及图4所示那样,事先保存了对于词条(日语:見出し単語,英语:entryword)而将包含词类、语法属性、语法模式、同义词以及自他动词对等的语法特征建立了关联的语法特征信息31a、31b。语法特征信息31a是对于中文的语法特征信息的一例,语法特征信息31b是对于日语的语法特征信息的一例。另外,语法特征信息保存部31不限定于中文和日语,可以保存有对于任意的语种的语法特征信息。此外,语法特征信息保存部31根据从语法特征提取部35以及检索查询命令生成部36的读出,将被指定后的语种的语法特征信息31a、31b向语法特征提取部35以及检索查询命令生成部36发送。
这里,词条是包含动词或形容词等的用言和助词或助动词等的功能词在内的单词的总称。词类是表示词条的词类的信息。语法属性是表示词条的语法用法的信息,例如,在词条的词类是动词的情况下,表示自动词或他动词。此外,在词条的词类是功能词的情况下,语法属性表示使用了该功能词的句型(使役型、被动型或假定形等)。语法模式是表示词条实现语法用途的情况下的典型的语法的格式的信息。此外,同义词是表示具有与词条的意思相同或类似的意思的单词的信息。自他动词对是在词条的语法属性是自动词或他动词的情况下表示与词条的动词成对的他动词或自动词的信息。
例如,如图4所示,在词条是“増える”的情况下,词类中保存“动词”,语法属性中保存“自动词”,语法模式中作为典型地使用了“増える”的用法而保存“名词-が-増える”这样的信息。此外,在同义词中保存具有与“増える”类似的意思的“増加する”,在自他动词对中作为与“増える”对应的他动词而保存“増やす”。
另外,语法特征信息31a、31b可以包含被保存的语种特有的项目。例如,在着眼于中文和日语的情况下,包含于语法特征信息31b的自他动词对的项目是日语所特有的项目。
例句语料库保存部32是能够读出/写入的存储器,如图5所示,保存有例句语料库32a。例句语料库32a包括例句集和索引,所述例句集包括中文的例句以及与该例句相对应的日语的例句,所述索引对应于该中文以及日语的例句。例句语料库32a也可以包括包含与任意的数量的语种相对应的互译例句的组在内的例句集、和分别对应于该例句的组的语种的索引。作为索引,例如能够使用表示例句的语法模式的信息。作为表示例句的语法模式的信息,能够使用将例如例句的对象单词、例句的助词、例句的对象单词以及助词以外的单词的语法用语(词类、语法作用等)组合来表示例句的构成的信息。
作为该种的索引,在对象单词是动词的情况下,能够使用基于例如例句的词素解析结果、将例句所包含的体言置换为词类后的信息。若进行补充则作为该置换后的信息,能够代替例句的具体的体言(具体的名词、代词等)而使用记述了该体言的词类(名词、名词句节或代词等)的信息。另外,对于基于例句的词素解析结果的信息,可以将例句内的名词句节所汇总的部分表示为1个名词句节。
此外,作为索引,在对象单词是动词的情况下,能够使用基于例如例句的句法解析结果、将例句所包含的体言置换为语法作用后的信息。若进行补充则作为该置换后的信息,能够代替例句的具体的体言(具体来说是名词、代词等)而使用记述了该体言的语法作用(宾语(targetword)、对象语等)的信息。另外,对于基于例句的句法解析结果的信息,可以将例句内的名词句节所汇总的部分表示为1个语法作用。
例句语料库保存部32根据从例句检索部37的读出,将例句语料库32a向例句检索部37发送。
输入部33根据对于例如键盘或鼠标(未图示)等的用户的操作,受理来自该用户的指示或句子的输入。例如,输入部33具有受理作为与第一句子相对应的母语的第二句子的输入句的输入、或作为外语的第三句子的输入句的输入的功能。另外,外语的第三句子是成为例如用户指定的评价对象的句子。另外,外语的第三句子可以是语法上完善的句子,也可以是语法上不完善的句子。此外,输入部33对于受理输入后的输入句,进一步受理用于指定从输出部38输出的句子(以下称为输出句)的语种的输入。输入部33将输入句和输出句的语种向语言解析部34发送。此外,输入部33将输出句的语种向例句检索部37发送。
这里,输入句由至少包含独立词(例如名词、动词等)在内的多个句节构成。另外,在构成该输入句的句节中除了独立词以外还可以包含附属词(例如助词、助动词等)。此外,输入句的语种既可以是对用户来说的母语,也可以是外语。另外,在以下的说明中,举对用户来说的母语被事先设定在例如外语句子制作支援装置1中的情况为例来叙述。但是,该母语的语种的设定也能够任意地变更。
语言解析部34具有对于通过输入部33受理了输入的输入句实施包含词素解析以及句法解析在内的语言解析的语言解析实施功能。具体来说,例如,语言解析部34从输入部33接收输入句和输出句的语种,并判断该输入句的语种。语言解析部34基于判断出的输入句的语种,对该输入句实施语言解析。语言解析部34在判断出的输入句的语种是母语的情况下,对输入句实施包含词素解析以及句法解析在内的语言解析,在判断出的输入句的语种是外语的情况下,对输入句实施包含词素解析在内的语言解析。语言解析部34将语言解析结果向语法特征提取部35发送。
另外,语言解析部34也可以在语种的判断时解析输入句所使用的文字种类。作为基于文字种类的语种的判断方法的例子,可以举出将主要含英文字的字母的句子的语种判断为英语的方法、或将包含片假名和/或平假名的句子的语种判断为日语的方法等。此外,举出将全部由汉字构成的句子的语种判断为中文的方法。另外,语种的判断方法不限定于上述的方法,能够采用任意的判断方法,这些判断方法可以被事先设定与语言解析部34。
另外,语言解析部34在实施了词素解析的情况下得到词素解析结果。具体来说,语言解析部34将输入句按照每个单词划分,通过将与各单词相对应的词类进行附注,得到输入句中的具体的句子的组合方法。
此外,语言解析部34在实施了句法解析的情况下得到句法解析结果。具体来说,语言解析部34得到表示出将输入句构成的句节间的依存关系后的句子的构造。句法解析结果所包含的句节间的依存关系中包括:例如作为主语、宾语等的语法作用而将什么语相当于主格以及宾格等的格等的信息、以及作为功能词的作用而将什么语与什么语关联等的信息。另外,句法解析结果可以利用将句子的构造通过节点以及弧构成的树构造(句法树)来表示。这里,节点表示构成句子的各句节,句法树中可以用椭圆形来表现。节点被附注通过该节点表示的句节的表层字符串、和该句节的独立词或词干的词类。此外,弧表示将句构成的各句节间的依存关系,可以通过将节点间连结的箭头来表现。弧被附注通过该弧表示的句节间的依存关系的种类。
另外,以下的说明中,弧的起点侧的节点可以另外称作“母节点”或“依存源的节点”,弧的终点侧的节点可以另外称作“子节点”或“依存目的地的节点”。
语法特征提取部35基于通过语言解析部34实施后的语言解析的结果而提取输入句的语法特征的语法特征提取功能。具体来说例如,语法特征提取部35从语言解析部34接收语言解析结果,从语法特征信息保存部31读出语法特征信息31a、31b。语法特征提取部35基于该语言解析的结果,一边参照所读出的语法特征信息31a、31b一边提取输入句的语法特征。语法特征提取部35将提取出的输入句的语法特征向检索查询命令生成部36发送。
另外,所提取的输入句的语法特征包括语种、主动词、句型、功能词、句构成等的信息。句构成包含作为词素解析结果的具体的句子的组合方式、以及作为句法解析结果的句节间的依存关系。另外,在接收到的语言解析结果不包含句法解析结果的情况下,句节间的依存关系不包含在句构成中。
检索查询命令生成部36具有基于通过语法特征提取部35提取出的语法特征来生成检索查询命令(日文原文:検索クエリ)的检索查询命令生成功能。具体来说,例如,检索查询命令生成部36从语法特征提取部35接收输入句的语法特征,从语法特征信息保存部31读出语法特征信息31a、31b。检索查询命令生成部36基于该输入句的语法特征,一边参照所读出的语法特征信息31a、31b一边生成输入句的检索查询命令。检索查询命令生成部36可以将输入句的语法特征所包含的句构成作为检索查询命令。检索查询命令生成部36将所生成的检索查询命令向例句检索部37发送。
此外,检索查询命令生成部36可以基于语法特征制作检索查询命令、将制作出的检索查询命令扩展从而最终生成检索查询命令。(可以扩展检索查询命令的检索范围。)扩展该检索查询命令的意思可以包含对于该检索查询命令采用体言抽象化、同义词扩展、助词扩展、或自他动词扩展中的至少某一种的意思。
这里,所谓体言抽象化是,对于检索查询命令内的体言、代替使用所输入的具体的语言而使用词类(名词、代词等)或语法作用(宾语、对象语等)这样的抽象的概念。此外,检索查询命令生成部36还能够将检索查询命令内的名词句节所汇总的部分作为1个名词句节来处理。由此,检索查询命令生成部36能够将检索查询命令内的具体的体言扩展为以上位概念抽象化后的样子。
此外,所谓同义词扩展是,对于检索查询命令内的主动词以及功能词等,以对具有相同或类似的意思的同义词也同时检索的方式将该同义词包含在检索查询命令内。由此,检索查询命令生成部36能够将检索查询命令内的具体的语句扩展为包含同义词的一组语句。
此外,助词扩展是对于检索查询命令内的助词,以对其他的助词也同时检索的方式将该其他的助词包含在检索查询命令内。由此,检索查询命令生成部36能够将检索查询命令内的助词扩展为包含其他的助词的一组助词。
此外,自他动词扩展对于检索查询命令内的自动词或他动词,以对于对应的他动词或自动词也同时检索的方式将该对应的他动词或自动词包含在检索查询命令内。由此,检索查询命令生成部36能够将检索查询命令内的自动词或他动词扩展为包含该动词的成对的他动词或自动词的一组动词。
另外,检索查询命令生成部36可以对应于输入句的语种来选择是否适用这些扩展项目的某一扩展项目。例如,在作为外语句子而输入了日文的情况下,有可能该日语的输入句是自动词以及他动词被误用了的或助词被误用了的日文。从而,对于该日语的输入句,检索查询命令生成部36作为生成出的检索查询命令的检索范围的扩展项目,尤其可以适用自他动词扩展以及助词扩展。另外,对于中文的输入,检索查询命令生成部36可以不适用自他动词扩展以及助词扩展。
例句检索部37从检索查询命令生成部36接收生成出的检索查询命令,从输入部33接收输出句的输出语种,从例句语料库保存部32读出例句语料库32a。例句检索部37基于该检索查询命令以及输出语种来检索例句语料库32a内的索引,提取对应于与检索查询命令相符合的索引的例句、和对应于该例句的输出语种的例句的组,向输出部38发送。另外,在输入句的语种和输出句的语种相同的情况下,所提取的例句可以仅是单语言。
此外,例句检索部37可以除了该例句的组以外还提取与该例句的组相对应的索引并向输出部38发送。此外,例句检索部37在判断索引是否与检索查询命令相符合时,可以计算索引和检索查询命令的类似度,该类似度的计算方法可以使用现存的统计的手法。该情况下,例句检索部37可以将该类似度与例句的组一起向输出部38发送。
此外,在例句语料库32a内不存在索引的情况下,例句检索部37可以将该例句语料库32a内的例句分别向语言解析部34、语法特征提取部35以及检索查询命令生成部36发送、实施语言解析、提取语法特征、以及生成检索查询命令。例句检索部37可以从检索查询命令生成部36接收对于例句语料库32a内的各例句的检索查询命令并将对于该各例句的检索查询命令作为索引来利用。此外,例句检索部37为了在以后的利用时使用该索引,可以将该索引以包含在例句语料库32a内的形式保存于例句语料库保存部32。
输出部38从例句检索部37接收与符合于检索查询命令的索引相对应的例句或例句的组,作为检索结果向用户输出。这里,作为基于输出部38的检索结果的输出形态,能够适当使用向例如液晶显示器显示输出的形态等。另外,输出部38也可以从例句检索部37接收索引和检索查询命令的类似度。输出部38可以以在输出检索结果时用户容易确认的方式按照所接收的检索的类似度来排序(sort)例句,也可以以容易识别与检索查询命令相符合的字符串的方式用涂色或下划线来明示该字符串。这样的例句检索部37以及输出部38在输入句是母语的句子的情况下基于生成出的检索查询命令来检索索引,构成了将包含对应于与检索查询命令相符合的索引的母语的例句以及对应于该母语的例句的外语的例句在内的例句的组输出的输出手段。此外,例句检索部37以及输出部38在输入句是外语的句子的情况下,基于生成出的检索查询命令来检索索引,构成将对应于与检索查询命令相符合的索引的外语的例句输出的输出手段。后者的输出手段还可以输出与外语的例句相对应的母语的例句,所述外语的例句对应于与检索查询命令相符合的索引。
接着,使用图6的流程图说明如以上那样构成的外语句子制作支援装置1的动作。另外,在以下的说明中,假想外语句子制作支援装置1作为母语而设定了中文、将日语作为输出句输出的情况。另外,为了使说明简单,假设作为外语的信息而仅保存有日语。即,假设语法特征信息保存部31事先保存有语法特征信息31a、31b。
起初,作为输入句而说明母语被输入的情况的动作。这里,作为一例,说明(输入句A)“让不懂日语的人读日语教科书。”这样的语法上完善的母语句子被输入后的情况。
起初,例句语料库保存部32保存例句语料库32a(ST1)。
接着,输入部33受理输入句A和输出句的语种“日语”的输入(ST2),并将输入句A和输出句的语种“日语”向语言解析部34发送。
语言解析部34接收输入句A和输出句的语种“日语”,判断该输入句A的语种(ST3)。语言解析部34基于输入句A全部由汉字构成的情况等而判断为输入句A是中文。
语言解析部34实施输入句A的语言解析(ST4~ST6)。
具体来说,语言解析部34对输入句A实施词素解析(ST4),得到词素解析结果。语言解析部34具体来说如图7A所示将输入句A像“让/不懂/日语的/人/读/日语教科书/。”那样以词语为单位进行分割,如图7B所示那样,对各个词语赋予词类。
语言解析部34判断输入句A是否与输出句的语种相同(ST5)。语言解析部34判断为输入句A与输出句的语种不相同(ST5:否),基于所得到的词素解析结果,对输入句A实施句法解析(ST6)。
具体来说,如图8所示那样,语言解析部34作为输入句A的构造而得到由节点101、102、105、107以及109和弧103、104、106以及108构成的句法树。作为例而对节点101、102以及弧103的关系进行说明。
示出了节点101表示句节“(让)读”(日语翻译:“読ませる”)、“读”的词类是主动词、句节“(让)读”所包含的“让”是表示使役句型的功能词的情况。此外,示出了节点102表示句节“日语教科书”、“日语教科书”的词类是名词的情况。
此外,示出了弧103被赋予“宾语”、节点101和节点102将节点101作为母节点、将节点102作为子节点而建立了关系的情况。即,弧103示出了节点102是节点101的宾语的情况。
语言解析部34将包含所得到的词素解析结果以及句法解析结果在内的语言解析结果向语法特征提取部35发送。
语法特征提取部35接收语言解析结果,从语法特征信息保存部31读出语法特征信息31a。语法特征提取部35基于语言解析结果以及语法特征信息31a,提取输入句A的语法特征(ST7)。
具体来说,如图9所示那样,语法特征提取部35作为输入句A的语法特征而对使用功能词“让”的主动词“读”的“使役句”进行提取。
此外,语法特征提取部35得到包含作为输入句A的词素解析结果的具体的句子的组合方式以及作为句法解析结果的句节间的依存关系在内的句构成。语法特征提取部35将提取出的输入句A的语法特征向检索查询命令生成部36发送。
检索查询命令生成部36接收输入句A的语法特征,从语法特征信息保存部31读出语法特征信息31a。检索查询命令生成部36基于输入句A的语法特征以及语法特征信息31a生成检索查询命令(ST8)。具体来说,检索查询命令生成部36将输入句A的语法特征内的句构成作为检索查询命令使用。
此外,如图10所示,检索查询命令生成部36基于语法特征信息31a将生成出的检索查询命令扩展。具体来说,检索查询命令生成部36适用体言抽象化以及同义词扩展,作为生成出的检索查询命令的检索范围。
即,语法特征提取部35对检索查询命令适用体言扩展化,将“不懂日语的人”(日语翻译:日本語が分からない人)汇总到1个名词句节,将检索范围扩展到“对象语”。此外,语法特征提取部35对检索查询命令适用同义词扩展,将主动词“读”的同义词即“阅读”、以及功能词“让”的同义词即“叫”、“令”“使”包含于检索查询命令,从而扩展检索范围。
检索查询命令生成部36将生成出的检索查询命令向例句检索部37发送。
例句检索部37接收检索查询命令,作为输出句的输出语种而将“日语”从输入部33接收,将例句语料库32a从例句语料库保存部32读出。例句检索部37基于检索查询命令以及输出语种来检索例句语料库32a内的索引,并取得对应于与检索查询命令相符合的索引的中文的例句以及对应于该中文的例句的日语的例句的组(ST9)。具体来说,例句检索部37参照例句语料库32a内的中文索引,提取与检索查询命令相符合的以下的中文例句1~3。
(中文例句1):“让你的智能手机读你的喜怒哀乐。”
(中文例句2):“叫孩子们读英语。”
(中文例句3):“让学生们阅读这本书。”
例句检索部37还提取与提取出的中文例句1~3相对应的日语例句1~3,并分别取得这些例句的组,向输出部38发送。
输出部38接收所取得的例句的组(ST10)。输出部38如图11所示,通过作为例句的组而将输出句A-1~A-3输出来向用户提示。另外,输出部38关于所取得的例句的组,可以对与检索查询命令吻合后的字符串以涂色或下划线来明示。
由此,外语句子制作支援装置1能够基于受理了输入的母语的输入句A而输出与其语法特征类似的例句。用户能够参照输出句并使其作为用于制作正确的外语句子的参考。具体来说,用户能够参照输出句A-1、A-2的“読ませる”这样的动词的使用方法等来制作“日本語が分からない人に日本語の教科書を読ませる”这样的日文。此外,用户能够参照输出句A-3的“読んでもらう”这样的动词的使用方法等来制作“日本語が分からない人に日本語の教科書を読んでもらう”这样的日文。
接着,对作为输入句而输入外语的情况中的动作进行说明。这里,作为一例,对(输入句B)“管理者はデータを増えた”这样的语法上不完善的外语句子被输入后的情况进行说明。
起初,例句语料库保存部32保存例句语料库32a(ST1)。
接着,输入部33受理输入句B和输出句的语种“日语”的输入(ST2),将输入句B和输出句的语种“日语”向语言解析部34发送。
语言解析部34受理输入句B和输出句的语种“日语”,判断该输入句B的语种(ST3)。语言解析部34考虑输入句B具有“は,データ,が,や,す”等的平假名以及片假名等而判断为输入句B是日语。
语言解析部34实施输入句B的语言解析(ST4~ST5)。
具体来说,语言解析部34对输入句B实施词素解析(ST4),得到词素解析结果。语言解析部34具体来说如图12A所示那样将输入句B像“管理者/は/データ/を/増えた/”那样以语为单位进行分割,如图12B所示那样,对各个语赋予词类。
语言解析部34判断输入句B是否与输出句的语种相同(ST5)。语言解析部34判断为输入句B与输出句的语种相同(ST5:是),对于输入句B基于所得到的词素解析结果不实施句法解析,将包含所得到的词素解析结果在内的语言解析结果向语法特征提取部35发送。
语法特征提取部35接收语言解析结果,从语法特征信息保存部31读出语法特征信息31b。语法特征提取部35基于语言解析结果以及语法特征信息31b提取输入句B的语法特征(ST7)。
具体来说,如图13所示,语法特征提取部35作为输入句B的语法特征提取作为功能词而使用“は”和/或“を”的、主动词是“増える”的“过去式”句子的“日语”。此外,语法特征提取部35提取虽然包含作为输入句B的词素解析结果的具体的句子的组合方式但是不包含作为句法解析结果的句节间的依存关系的句构成。语法特征提取部35将提取出的输入句B的语法特征向检索查询命令生成部36发送。
检索查询命令生成部36接收输入句B的语法特征,从语法特征信息保存部31读出语法特征信息31b。检索查询命令生成部36基于输入句B的语法特征以及语法特征信息31b生成检索查询命令(ST8)。具体来说,检索查询命令生成部36将输入句B的语法特征内的句构成作为检索查询命令使用。
此外,检索查询命令生成部36基于语法特征信息31b如图14所示那样将生成出的检索查询命令扩展。具体来说,检索查询命令生成部36适用体言抽象化、助词扩展以及自他动词扩展,作为生成出的检索查询命令的检索范围。即,语法特征提取部35对检索查询命令适用体言扩展化,将“管理者”以及“データ”的检索范围扩展到“名词句节”。此外,语法特征提取部35对检索查询命令适用助词扩展,对于助词“は”以及助词“を”,将助词“が”包含在检索查询命令从而扩展检索范围。此外,语法特征提取部35对检索查询命令适用自他动词扩展,将作为自动词的“増やす”的成对的他动词即“増やす”包含于检索查询命令从而扩展检索范围。
检索查询命令生成部36将生成出的检索查询命令向例句检索部37发送。
例句检索部37接收检索查询命令,将例句语料库32a从例句语料库保存部32读出。例句检索部37基于检索查询命令来检索例句语料库32a内的索引,并取得对应于与检索查询命令相符合的索引的日语的例句以及对应于该日语的例句的中文的例句的组(ST9)。例句检索部37具体来说参照例句语料库32a内的日语索引,提取与检索查询命令相符合的以下的日语例句1~3。
(日语例句1):“会社は社員の給料を増やした。”
(日语例句2):“企業が採用数を増やす理由。”
(日语例句3):“最近はお客さんが増えた。”
例句检索部37还提取与提取出的日语例句1~3相对应的中文例句1~3,分别取得这些例句的组,向输出部38发送。另外,例句检索部37可以在输入句B的语种和输出句的语种相同的情况下仅取得日语例句1~3而将其向输出部38发送。
输出部38从例句检索部37接收所取得的例句的组(ST10)。输出部38如图15所示,作为例句的组而将输出句B-1~B-3向用户输出。另外,输出部38可以关于所取得的例句的组、对与检索查询命令吻合后的字符串以涂色或下划线来明示。
由此,外语句子制作支援装置1能够基于所输入的外语的输入句B将与该语法特征类似的例句输出,用户能够参照输出句并将其作为用于制作正确的外语句子的参考。具体来说,用户通过输入“管理者はデータを増えた”这样的语法上不完善的外语句子,能够得到输出句B-1、B-2,能够参照输出句B-1、B-2来制作“管理者はデータを増やした”这样的日文。
如上所述,根据本实施方式,对母语的输入句实施语言解析,并基于语言解析的结果提取输入句的语法特征,基于该提取出的语法特征生成检索查询命令。此外,基于该生成出的检索查询命令来检索索引,并将包含对应于与检索查询命令相符合的索引的母语的例句以及对应于该母语的例句的外语的例句在内的例句的组输出。由此,能够减轻制作外语句子时的负担。
若进行补充,则通过基于母语的输入句的语法特征来输出母语的例句和外语的例句的组的构成,能够对于制作外语句子困难的用户支援外语句子的制作。
此外,在是外语的输入句的情况下,同样地实施输入句的语言解析,基于语言解析的结果,提取输入句的语法特征,并基于该提取出的语法特征,生成检索查询命令。此外,基于该生成出的检索查询命令来检索索引,将对应于与检索查询命令相符合的索引的外语的例句输出。从而,该情况下也能够减轻制作外语句子时的负担。
若进行补充,则通过基于外语的输入句的语法特征来输出外语的例句的构成,能够对于能够制作语法上不完善的外语的句子的用户提示语法特征与自己制作出的外语句子相类似的外语的例句。由此,在用户所输入的外语句子的语法不完善的情况下,用户能够参照所提示的外语的例句来制作语法上正确的外语句子。此外,在用户所输入的外语句子在结果上是正确的情况下,能够参照所提示的外语的例句来确认自身制作出的外语句子是语法上正确的。从而,能够减轻制作外语句子时的负担。
此外,在用户输入了外语句子的情况下,通过能够进一步输出与外语的例句相对应的母语的例句的构成,能够对于能够制作语法上不完善的外语的句子的用户进一步提示与外语的例句相对应的母语的互译例句,因此能够更进一步减轻制作外语句子时的负担。
此外,通过基于语法特征来扩展制作出的检索查询命令并最终生成检索查询命令,能够有效地提取与自己制作出的外语句子的语法特征相类似的例句。具体来说,能够适用体言抽象化、同义词扩展、助词扩展以及自他动词扩展等。从而,能够减轻制作外语句子时的负担。
(第二实施方式)
图16是表示涉及第二实施方式的外语句子制作支援装置的硬件构成的一例的示意图。以下,对与图1相同的部分赋予相同的符号而省略其详细说明,主要叙述不同的部分。
第二实施方式是第一实施方式的变形例,成为能够输出更适当的例句的构成。具体来说,该外语句子制作支援装置1在第一实施方式的基础上还具备意思属性信息保存部39以及意思属性解析部40。
这里,意思属性信息保存部39是能够读出/写入的存储器,如图17所示那样事先保存有将词条与该词条的意思属性建立了关联的意思属性信息39a。意思属性信息39a是表示与日语的词条相对的意思属性的信息的一例。另外,意思属性信息保存部39不限定于日语,也可以保存有与任意的语种的词条相对的意思属性信息39a。此外,意思属性信息保存部39根据从意思属性解析部40的读出而将所指定的语种的意思属性信息39a向意思属性解析部40发送。
这里,所谓意思属性是,将单词基于语句的意思而进行分类的属性。意思属性可以是将例如单词的上位概念和下位概念建立关联的分类。例如,作为“リンゴ”的意思属性而举出作为“リンゴ”的上位概念的“水果”,作为“月曜日”的意思属性而举出作为“月曜日”的上位概念的“时间”。此外,意思属性可以分类为多个层次等级(hierarchylevel)来设定。例如,作为“管理者”的意思属性可以像“名词:主体(英语:Entity):人”那样分类为3个层次等级来设定。意思属性的层次等级可以构成为,等级的数值越变大则越限定为更下位概念。该情况下,对于“管理者”的意思属性而言,在层次等级1中为“名词”,在限定到更下位概念后的层次等级2中为“主体”,在进一步限定到下位概念后的层次等级3中为“人”。在上述的例中,除了“水果”、“时间”、“名词:主体:人”以外的意思属性以及分类的方法,也能够任意地获取。这样,意思属性信息39a内的意思属性能够按照每个词条而任意地设定。
另外,作为意思属性被定义的对象,主要想定了名词、代词以及形容动词的词干等的体言,但不限定于体言,也能够对包含形容词、动词等的用言在内的独立词进行定义。
意思属性解析部40具有基于通过语言解析部34实施得到的语言解析的结果来实施输入句的意思属性解析的意思属性解析实施功能。具体来说,意思属性解析部40从语言解析部34接收语言解析结果,从意思属性信息保存部39读出意思属性信息39a。意思属性解析部40基于语言解析结果,一边参照意思属性信息39a一边对输入句所使用的独立词赋予意思属性,并取得意思属性解析结果。另外,意思属性解析部40也可以将该所赋予的意思属性分类为1个或多个层次等级。该情况下,意思属性解析的结果按照每个层次等级而包含输入句的独立词的意思属性。意思属性解析部40将所取得的意思属性解析的结果向语法特征提取部35发送。
例句语料库保存部32如图18所示那样将对索引进一步赋予了意思属性的例句语料库32b保存。
语言解析部34将语言解析结果向意思属性解析部40发送。
语法特征提取部35具有基于通过意思属性解析部40实施得到的意思属性解析的结果来提取输入句的语法特征的提取功能。具体来说,语法特征提取部35从意思属性解析部40接收意思属性解析结果,从语法特征信息保存部31读出语法特征信息31a、31b。语法特征提取部35基于意思属性解析结果,一边参照所读出的语法特征信息31a、31b一边提取输入句的语法特征。所提取出的语法特征除了基于语言解析结果的信息以外还包括被赋予了意思属性的句构成。该所付与的意思属性可以分类为多个层次等级。该情况下,语法特征提取部35对包含每个层次等级的意思属性在内的语法特征进行提取。语法特征提取部35将所提取出的输入句的语法特征向检索查询命令生成部36发送。
检索查询命令生成部36除了基于语言解析结果的信息以外,还将包含被赋予了意思属性的句构成在内的语法特征从语法特征提取部35接收,基于该语法特征生成检索查询命令。另外,检索查询命令生成部36在意思属性被分类为多个层次等级的情况下,可以选择与检索查询命令适用的意思属性的层次等级来生成检索查询命令。此外,检索查询命令生成部36在对体言赋予了意思属性的情况下,可以代替在检索查询命令生成中适用体言抽象化而赋予意思属性。另外,关于所选择的意思属性的层次等级,既可以对检索查询命令生成部36事先设定,也可以通过用户的要求而能够适当变更。检索查询命令生成部36将生成出的检索查询命令向例句检索部37发送。
例句检索部37从检索查询命令生成部36接收检索查询命令,从输入部33接收输出句的语种,将包含被赋予了意思属性的索引在内的例句语料库32b从例句语料库保存部32读出。例句检索部37基于该检索查询命令来检索例句语料库32b内的索引,并提取对应于与检索查询命令相符合的索引的例句,向输出部38发送。另外,例句检索部37可以将被分类为与检索查询命令所选择的意思属性的层次等级相同或该意思属性的下位概念的层次等级的索引作为检索对象来实施检索。即,所选择的意思属性的层次等级越大,则检索范围越可以被限定。
另外,例句检索部37可以在例句语料库32b内不存在索引的情况下,将该例句语料库32b内的例句分别向语言解析部34、意思属性解析部40、语法特征提取部35以及检索查询命令生成部36发送,实施语言解析,实施意思属性解析,提取语法特征,并生成检索查询命令。例句检索部37可以从检索查询命令生成部36接收与例句语料库32b内的各例句相对的检索查询命令,将与该各例句相对的检索查询命令作为索引来利用。此外,例句检索部37为了在以后的利用时使用该索引,可以使该索引以包含在例句语料库32b内的形式保存于例句语料库保存部32。
接着,使用图19的流程图来说明以上那样构成的外语句子制作支援装置1的动作。另外,在以下的说明中,假想使外语句子制作支援装置1与第一实施方式相同地设定了中文作为母语并将日语作为输出句输出的情况。另外,为了容易理解,假设仅保存了日语作为外语的信息。即,假设语法特征信息保存部31事先保存了语法特征信息31a、31b。
此外,说明作为输入句而输入外语的情况中的动作。这里,作为一例,对(输入句B)“管理者はデータを増えた”这样的语法上不完善的外语句子被输入后的情况进行说明。
在步骤ST1~步骤ST5之前与第一实施方式同样地执行。
语言解析部34判断为输入句B与输出句的语种相同(ST5:是),对于输入句B,基于所得到的词素解析结果,不实施句法解析而将包含所得到的词素解析结果在内的语言解析结果向意思属性解析部40发送。
意思属性解析部40接收语言解析结果,从意思属性信息保存部39读出意思属性信息39a。意思属性解析部40基于语言解析结果对输入句B实施意思属性解析(ST7’),得到意思属性解析结果。意思属性解析部40具体来说对于图20A所示那样的输入句B内的独立词,如图20B所示那样基于意思属性信息39a来赋予意思属性。
意思属性解析部40将意思属性解析结果向语法特征提取部35发送。
语法特征提取部35接收意思属性解析结果,从语法特征信息保存部31读出语法特征信息31b。语法特征提取部35基于意思属性解析结果以及语法特征信息31b提取输入句B的语法特征(ST7)。语法特征提取部35具体来说如图21所示那样得到作为语法特征的句构成而包含输入句B的语言解析结果并且包含意思属性解析结果的句构成。语法特征提取部35将提取出的输入句B的语法特征向检索查询命令生成部36发送。
检索查询命令生成部36接收输入句B的语法特征,从语法特征信息保存部31读出语法特征信息31b。检索查询命令生成部36基于输入句B的语法特征以及语法特征信息31b生成检索查询命令(ST8)。检索查询命令生成部36具体来说将输入句B的语法特征内的句构成作为检索查询命令来使用。
此外,检索查询命令生成部36在基于语法特征信息31b扩展所生成的检索查询命令并且意思属性被分类为多个层次等级的情况下,选择与检索查询命令适用的意思属性的层次等级来生成检索查询命令。检索查询命令生成部36具体来说在意思属性的层次等级如图22所示那样被设定为“2”的情况下,适用“名词:主体”来作为对于“管理者”的意思属性并生成检索查询命令。此外,检索查询命令生成部36在意思属性的层次等级如图23所示那样被设定为3的情况下,适用“名词:主体:人”来作为对于“管理者”的意思属性并生成检索查询命令。另外,在以下的说明中,假设意思属性的层次等级被设定为“2”。
检索查询命令生成部36将生成出的检索查询命令向例句检索部37发送。
例句检索部37接收检索查询命令,将例句语料库32b从例句语料库保存部32读出。例句检索部37基于检索查询命令来检索例句语料库32b内的索引,并取得对应于与检索查询命令相符合的索引的日语的例句以及该日语的例句(ST9)。这里,例句检索部37将与选择出的意思属性相同的层次等级或该意思属性的下位概念的层次等级的索引作为检索对象。具体来说,例句检索部37在层次等级被选择为“2”的情况下,参照例句语料库32b内的日语索引并提取与输入句B的检索查询命令相符合的以下的日语例句1、2。
(日语例句1):“会社は社員の給料を増やした。”
(日语例句2):“企業が採用数を増やす理由。”
另外,例句检索部37在层次等级被选择为“3”的情况下,仅将上述的日语例句中的日语例句1提取。
例句检索部37可以进一步提取与所提取的日语例句1、2相对应的中文例句1、2,分别取得这些例句的组并向输出部38发送。另外,例句检索部37可以在输入句B的语种与输出句的语种相同的情况下仅取得日语例句1、2并将日语例句1、2向输出部38发送。
输出部38将所取得的例句的组从例句检索部37接收(ST10)。输出部38如图24所示那样将输出句B-1、B-2作为例句的组向用户输出。另外,输出部38可以对于所取得的例句的组而言对与检索查询命令吻合的字符串以涂色或下划线来明示。
由此,外语句子制作支援装置1能够基于所输入的外语的输入句B来输出与其语法特征相类似的例句中的进一步限定了意思属性的例句。由此,用户能够作为用于更有效地参照例句并制作正确的外语句子的参考。具体来说,外语句子制作支援装置1能够将虽然语法特征类似但被赋予了与输入句B中的层次等级2的意思属性“主体”不同的意思属性“抽象”的例句“最近はお客さんが増えた”排除。从而,用户能够仅参照输出句B-1、B-2来制作“管理者はデータを増やした”这样的日文。
如上所述根据第二实施方式能够减轻制作外语的句子时的负担。若进行补充,则基于语言解析结果进一步实施意思属性解析,并且基于所得到的意思属性解析结果提取语法特征。由此,能够将因虽然语法特征相类似但是意思属性不同而与输入句不相类似的例句排除。从而,能够进一步减轻制作外语句子时的负担。
此外,通过意思属性解析赋予的意思属性将输入句的独立词的意思属性分类为多个层次等级,选择该意思属性的层次等级来生成检索查询命令。由此,通过变更意思属性的层次等级能够调整所输出的例句的检索范围,从而能够进行基于适当的检索范围的例句检索。从而,能够进一步减轻制作外语句子时的负担。
另外,上述的实施方式所记载的手法能够作为能够使计算机执行的程序而保存发布在磁盘(软盘(注册商标)、硬盘等)、光盘(CD-ROM、DVD等)、光磁盘(MO)、半导体存储器等的保存介质。
此外,作为该保存介质,只要是能够保存程序并且计算机能够读取的保存介质即可,其保存形式可以是任何的形态。
此外,基于从保存介质安装到计算机上的程序的指示而在计算机上动作的OS(操作系统)、数据库管理系统、网络系统等的MW(中间件)等可以执行用于实现上述实施方式的各处理的一部分。
进而,实施方式中的保存介质不限定于与计算机独立的介质,还包括将通过LAN或网络等传送了的程序下载并保存或临时保存的保存介质。
此外,实施方式中的保存介质不限定于1个,从多个介质执行上述的实施方式中的处理的情况也包含于本发明中的保存介质,介质构成可以任何的构成。
另外,实施方式中的计算机基于保存在保存介质中的程序来执行上述的实施方式中的各处理,可以是个人电脑等的由1个构成的装置、多个装置被进行了网络连接的系统等的任何的构成。
此外,所谓实施方式中的计算机,不限定于个人电脑,还包括在信息处理设备中包含的运算处理装置、微机等,是能够通过程序来实现本发明的功能的设备、装置的总称。
另外,说明了本发明的实施方式,但该实施方式是作为例而提示的,并不意图限定发明的范围。该实施方式能够以其他的各种形态实施,在不脱离发明的主旨的范围内能够进行各种的省略、替换、变更。该实施方式和其变形包含在发明的范围和主旨中,同样包含在权利要求书所记载的发明和其等价的范围中。

Claims (9)

1.一种外语句子制作支援装置,支援外语的第一句子的制作,上述外语的第一句子是由至少包含独立词在内的多个句节构成的句子,上述外语句子制作支援装置的特征在于,具备:
保存机构,保存例句语料库,上述例句语料库包括例句集和索引,上述例句集包含例句的组,上述例句的组包括上述外语的例句以及与上述外语的例句相对应的母语的例句,上述索引与上述母语的例句相对应;
输入机构,受理输入句的输入,该输入句是与上述第一句子相对应的母语的第二句子;
语言解析实施机构,对于受理了输入的上述输入句,实施包含词素解析以及句法解析在内的语言解析;
语法特征提取机构,基于所实施的上述语言解析的结果,提取上述输入句的语法特征;
检索查询命令生成机构,基于所提取的上述语法特征,生成检索查询命令;以及
输出机构,基于所生成的上述检索查询命令来检索上述索引,输出包含与上述检索查询命令相符合的索引所对应的母语的例句以及与该母语的例句相对应的外语的例句在内的例句的组。
2.一种外语句子制作支援装置,支援外语的第一句子的制作,上述外语的第一句子是由至少包含独立词在内的多个句节构成的句子,上述外语句子制作支援装置的特征在于,具备:
保存机构,保存包含例句集和索引在内的例句语料库,上述例句集包括上述外语的例句,上述索引与上述外语的例句相对应;
输入机构,受理输入句的输入,该输入句是外语的第三句子;
语言解析实施机构,对于受理了输入的上述输入句,实施包含词素解析在内的语言解析;
语法特征提取机构,基于所实施的上述语言解析的结果,提取上述输入句的语法特征;
检索查询命令生成机构,基于所提取的上述语法特征,生成检索查询命令;以及
输出机构,基于所生成的上述检索查询命令来检索上述索引,将与上述检索查询命令相符合的索引所对应的外语的例句输出。
3.如权利要求2所述的外语句子制作支援装置,其特征在于,
上述保存机构保存例句语料库,所述例句语料库包括还包含与上述外语的例句相对应的母语的例句在内的例句集,
上述输出机构还输出与符合于上述检索查询命令的索引所对应的外语的例句相对应的母语的例句。
4.如权利要求1或2所述的外语句子制作支援装置,其特征在于,
上述检索查询命令生成机构基于上述语法特征制作检索查询命令并将所制作的上述检索查询命令扩展,从而最终生成检索查询命令。
5.如权利要求4所述的外语句子制作支援装置,其特征在于,
将上述检索查询命令扩展包括对于该检索查询命令适用体言抽象化、同义词扩展、助词扩展或自他动词扩展中的至少某一种。
6.如权利要求1或2所述的外语句子制作支援装置,其特征在于,
上述语法特征提取机构还具备:
意思属性解析部,基于所实施的上述语言解析的结果,实施上述输入句的意思属性解析;以及
提取部,基于所实施的上述意思属性解析的结果,提取上述输入句的语法特征。
7.如权利要求6所述的外语句子制作支援装置,其特征在于,
上述意思属性解析的结果按照每个层次等级包含有上述输入句的独立词的意思属性,
上述提取部提取包含每个上述层次等级的意思属性在内的语法特征,
上述检索查询命令生成机构选择适用于上述检索查询命令的意思属性的层次等级来生成上述检索查询命令。
8.一种外语句子制作支援装置中的外语句子制作支援方法,支援外语的第一句子的制作,上述外语的第一句子是由至少包含独立词在内的多个句节构成的句子,上述外语句子制作支援方法的特征在于,具备:
保存工序,保存例句语料库,上述例句语料库包括例句集和索引,上述例句集包含例句的组,上述例句的组包括上述外语的例句以及与上述外语的例句相对应的母语的例句,上述索引与上述母语的例句相对应;
输入工序,受理输入句的输入,上述输入句是与上述第一句子相对应的母语的第二句子;
语言解析实施工序,对于受理了输入的上述输入句,实施包含词素解析以及句法解析在内的语言解析;
语法特征提取工序,基于所实施的上述语言解析的结果,提取上述输入句的语法特征;
检索查询命令生成工序,基于所提取的上述语法特征,生成检索查询命令;以及
输出工序,基于所生成的上述检索查询命令来检索上述索引,将包含与上述检索查询命令相符合的索引所对应的母语的例句以及与该母语的例句相对应的外语的例句在内的例句的组输出。
9.一种外语句子制作支援装置中的外语句子制作支援方法,支援外语的第一句子的制作,上述外语的第一句子是由至少包含独立词在内的多个句节构成的句子,上述外语句子制作支援方法的特征在于,具备:
保存工序,保存包含例句集和索引在内的例句语料库,上述例句集包括上述外语的例句,上述索引与上述外语的例句相对应;
输入工序,受理输入句的输入,上述输入句是外语的第三句子;
语言解析实施工序,对于受理了上述输入的输入句,实施包含词素解析在内的语言解析;
语法特征提取工序,基于所实施的上述语言解析的结果,提取上述输入句的语法特征;
检索查询命令生成工序,基于所提取的上述语法特征,生成检索查询命令;以及
输出工序,基于所生成的上述检索查询命令来检索上述索引,将与上述检索查询命令相符合的索引所对应的外语的例句输出。
CN201510726952.6A 2014-11-04 2015-10-30 外语句子制作支援装置以及方法 Expired - Fee Related CN105573990B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014224518A JP6466138B2 (ja) 2014-11-04 2014-11-04 外国語文作成支援装置、方法及びプログラム
JP2014-224518 2014-11-04

Publications (2)

Publication Number Publication Date
CN105573990A true CN105573990A (zh) 2016-05-11
CN105573990B CN105573990B (zh) 2019-09-27

Family

ID=55852848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510726952.6A Expired - Fee Related CN105573990B (zh) 2014-11-04 2015-10-30 外语句子制作支援装置以及方法

Country Status (4)

Country Link
US (1) US10394961B2 (zh)
JP (1) JP6466138B2 (zh)
CN (1) CN105573990B (zh)
TW (1) TWI588668B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113330430A (zh) * 2019-01-31 2021-08-31 三菱电机株式会社 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11449744B2 (en) 2016-06-23 2022-09-20 Microsoft Technology Licensing, Llc End-to-end memory networks for contextual language understanding
US10366163B2 (en) * 2016-09-07 2019-07-30 Microsoft Technology Licensing, Llc Knowledge-guided structural attention processing
US10346548B1 (en) * 2016-09-26 2019-07-09 Lilt, Inc. Apparatus and method for prefix-constrained decoding in a neural machine translation system
JP7106999B2 (ja) * 2018-06-06 2022-07-27 日本電信電話株式会社 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム
TWI666558B (zh) * 2018-11-20 2019-07-21 財團法人資訊工業策進會 語意分析方法、語意分析系統及非暫態電腦可讀取媒體
KR102339487B1 (ko) * 2019-08-23 2021-12-15 울산대학교 산학협력단 의미 추상화를 이용한 전이 기반 한국어 의존관계 분석 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094006A1 (en) * 2005-10-24 2007-04-26 James Todhunter System and method for cross-language knowledge searching
JP2007317140A (ja) * 2006-05-29 2007-12-06 Fuji Xerox Co Ltd 文一致度分析装置および方法、ならびに言語変換装置および方法
CN101295298A (zh) * 2007-04-23 2008-10-29 株式会社船井电机新应用技术研究所 翻译系统、翻译系统的控制方法以及对译数据生成方法
CN101996166A (zh) * 2009-08-14 2011-03-30 张龙哺 双语句对模式化记录方法以及翻译方法和翻译系统
CN102654866A (zh) * 2011-03-02 2012-09-05 北京百度网讯科技有限公司 例句索引创建方法和装置以及例句检索方法和装置

Family Cites Families (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02190972A (ja) * 1989-01-19 1990-07-26 Sharp Corp 用例検索システム
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
RU2136038C1 (ru) * 1992-09-04 1999-08-27 Катерпиллар Инк. Компьютерная система и способ подготовки текста на исходном языке и перевода на иностранные языки
JPH06110929A (ja) * 1992-09-28 1994-04-22 Toshiba Corp データ検索装置
JPH07141382A (ja) 1993-11-19 1995-06-02 Sharp Corp 外国語文書作成支援装置
JPH10105555A (ja) * 1996-09-26 1998-04-24 Sharp Corp 対訳例文検索装置
DE69818796T2 (de) * 1997-06-26 2004-08-05 Koninklijke Philips Electronics N.V. Maschinenorganisiertes verfahren und vorrichtung zum übersetzen einer wortorganisierten textquelle in einen wortorganisierten zieltext
WO1999063456A1 (fr) * 1998-06-04 1999-12-09 Matsushita Electric Industrial Co., Ltd. Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme
JP3114703B2 (ja) * 1998-07-02 2000-12-04 富士ゼロックス株式会社 対訳文検索装置
US6092034A (en) * 1998-07-27 2000-07-18 International Business Machines Corporation Statistical translation system and method for fast sense disambiguation and translation of large corpora using fertility models and sense models
JP2000259627A (ja) 1999-03-08 2000-09-22 Ai Soft Kk 自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体
US6393389B1 (en) * 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US7016977B1 (en) * 1999-11-05 2006-03-21 International Business Machines Corporation Method and system for multilingual web server
JP2001188678A (ja) * 2000-01-05 2001-07-10 Mitsubishi Electric Corp 言語事例推論装置,言語事例推論方法及び言語事例推論プログラムが記述された記憶媒体
US20020010574A1 (en) * 2000-04-20 2002-01-24 Valery Tsourikov Natural language processing and query driven information retrieval
US7437669B1 (en) * 2000-05-23 2008-10-14 International Business Machines Corporation Method and system for dynamic creation of mixed language hypertext markup language content through machine translation
US7389220B2 (en) * 2000-10-20 2008-06-17 Microsoft Corporation Correcting incomplete negation errors in French language text
US20020072914A1 (en) * 2000-12-08 2002-06-13 Hiyan Alshawi Method and apparatus for creation and user-customization of speech-enabled services
US6990439B2 (en) * 2001-01-10 2006-01-24 Microsoft Corporation Method and apparatus for performing machine translation using a unified language model and translation model
JP2003006191A (ja) 2001-06-27 2003-01-10 Ricoh Co Ltd 外国語文書作成支援装置及び外国語文書作成支援方法並びにプログラム記録媒体
AU2002316581A1 (en) * 2001-07-03 2003-01-21 University Of Southern California A syntax-based statistical translation model
US7058567B2 (en) * 2001-10-10 2006-06-06 Xerox Corporation Natural language parser
JP2003228578A (ja) * 2002-02-01 2003-08-15 Canon Inc 情報検索方法及び情報検索装置及び情報検索装置の制御プログラム
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
JP4177070B2 (ja) * 2002-10-09 2008-11-05 富士通株式会社 文書検索装置
EP1560158A1 (en) * 2002-10-18 2005-08-03 Japan Science and Technology Agency Learning/thinking machine and learning/thinking method based on structured knowledge, computer system, and information generation method
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7493602B2 (en) * 2005-05-02 2009-02-17 International Business Machines Corporation Methods and arrangements for unified program analysis
US7949514B2 (en) * 2007-04-20 2011-05-24 Xerox Corporation Method for building parallel corpora
JP4997966B2 (ja) * 2006-12-28 2012-08-15 富士通株式会社 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法
JP4417967B2 (ja) * 2007-02-22 2010-02-17 株式会社東芝 用例データベース及び用例検索システム
JP4971844B2 (ja) * 2007-03-16 2012-07-11 日本放送協会 用例データベース作成装置及び用例データベース作成プログラム、並びに、翻訳装置及び翻訳プログラム
US9779079B2 (en) * 2007-06-01 2017-10-03 Xerox Corporation Authoring system
US8548791B2 (en) * 2007-08-29 2013-10-01 Microsoft Corporation Validation of the consistency of automatic terminology translation
US20090119090A1 (en) * 2007-11-01 2009-05-07 Microsoft Corporation Principled Approach to Paraphrasing
CN102016836B (zh) * 2007-11-26 2013-03-13 沃伦·丹尼尔·蔡尔德 管理电子形式的中文、日文及韩文语言数据的模组系统与方法
JP5112116B2 (ja) * 2008-03-07 2013-01-09 株式会社東芝 機械翻訳する装置、方法およびプログラム
TWI457868B (zh) 2008-03-12 2014-10-21 Univ Nat Kaohsiung 1St Univ Sc 機器翻譯譯文之自動修飾方法
JP5043735B2 (ja) * 2008-03-28 2012-10-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報分類システム、情報処理装置、情報分類方法およびプログラム
WO2009149549A1 (en) * 2008-06-09 2009-12-17 National Research Council Of Canada Method and system for using alignment means in matching translation
TWI385538B (zh) * 2008-07-18 2013-02-11 Inventec Corp 單詞擷取翻譯系統及其方法
US8812304B2 (en) * 2008-08-12 2014-08-19 Abbyy Infopoisk Llc Method and system for downloading additional search results into electronic dictionaries
JP2010267019A (ja) * 2009-05-13 2010-11-25 Internatl Business Mach Corp <Ibm> 文書作成を支援する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
WO2010141598A2 (en) * 2009-06-02 2010-12-09 Index Logic, Llc Systematic presentation of the contents of one or more documents
US7969254B2 (en) * 2009-08-07 2011-06-28 National Instruments Corporation I/Q impairment calibration using a spectrum analyzer
US8484016B2 (en) * 2010-05-28 2013-07-09 Microsoft Corporation Locating paraphrases through utilization of a multipartite graph
TWI427976B (zh) * 2010-09-21 2014-02-21 Inventec Corp 提供多種語言同時進行翻譯轉換的即時通訊系統及其方法
KR101762866B1 (ko) * 2010-11-05 2017-08-16 에스케이플래닛 주식회사 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
US8713037B2 (en) * 2011-06-30 2014-04-29 Xerox Corporation Translation system adapted for query translation via a reranking framework
JP2013235507A (ja) * 2012-05-10 2013-11-21 Mynd Inc 情報処理方法、装置、コンピュータプログラムならびに記録媒体
US9026425B2 (en) * 2012-08-28 2015-05-05 Xerox Corporation Lexical and phrasal feature domain adaptation in statistical machine translation
JP6204923B2 (ja) * 2012-11-06 2017-09-27 株式会社テレコグニックス アセスメント装置、アセスメントシステム、アセスメント方法、及びプログラム
US9152622B2 (en) * 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
JP6096489B2 (ja) 2012-11-30 2017-03-15 株式会社東芝 外国語文章作成支援装置、方法、及びプログラム
US9235567B2 (en) * 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
US9047274B2 (en) * 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
JP6018932B2 (ja) * 2013-01-23 2016-11-02 株式会社エヌ・ティ・ティ・データ 用例検索装置、用例検索方法、および用例検索プログラム
US9231898B2 (en) * 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US20140358519A1 (en) * 2013-06-03 2014-12-04 Xerox Corporation Confidence-driven rewriting of source texts for improved translation
JP2015022590A (ja) * 2013-07-19 2015-02-02 株式会社東芝 文字入力装置、文字入力方法、及び文字入力プログラム
KR101509727B1 (ko) * 2013-10-02 2015-04-07 주식회사 시스트란인터내셔널 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
US20150199339A1 (en) * 2014-01-14 2015-07-16 Xerox Corporation Semantic refining of cross-lingual information retrieval results
US9881006B2 (en) * 2014-02-28 2018-01-30 Paypal, Inc. Methods for automatic generation of parallel corpora
US9582499B2 (en) * 2014-04-14 2017-02-28 Xerox Corporation Retrieval of domain relevant phrase tables
JP6390264B2 (ja) * 2014-08-21 2018-09-19 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
US9367541B1 (en) * 2015-01-20 2016-06-14 Xerox Corporation Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094006A1 (en) * 2005-10-24 2007-04-26 James Todhunter System and method for cross-language knowledge searching
JP2007317140A (ja) * 2006-05-29 2007-12-06 Fuji Xerox Co Ltd 文一致度分析装置および方法、ならびに言語変換装置および方法
CN101295298A (zh) * 2007-04-23 2008-10-29 株式会社船井电机新应用技术研究所 翻译系统、翻译系统的控制方法以及对译数据生成方法
CN101996166A (zh) * 2009-08-14 2011-03-30 张龙哺 双语句对模式化记录方法以及翻译方法和翻译系统
CN102654866A (zh) * 2011-03-02 2012-09-05 北京百度网讯科技有限公司 例句索引创建方法和装置以及例句检索方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113330430A (zh) * 2019-01-31 2021-08-31 三菱电机株式会社 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序
CN113330430B (zh) * 2019-01-31 2024-01-09 三菱电机株式会社 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质

Also Published As

Publication number Publication date
US10394961B2 (en) 2019-08-27
TWI588668B (zh) 2017-06-21
JP2016091269A (ja) 2016-05-23
JP6466138B2 (ja) 2019-02-06
TW201636873A (zh) 2016-10-16
CN105573990B (zh) 2019-09-27
US20160124943A1 (en) 2016-05-05

Similar Documents

Publication Publication Date Title
CN105573990A (zh) 外语句子制作支援装置以及方法
AU2017208219B2 (en) Generating a domain ontology using word embeddings
US9244909B2 (en) System and method for extracting ontological information from a body of text
US9626358B2 (en) Creating ontologies by analyzing natural language texts
US20180173694A1 (en) Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion
KR102046640B1 (ko) 빅데이터 표준화를 위한 표준용어 자동 추천 장치 및 방법
US20170161255A1 (en) Extracting entities from natural language texts
CN104239286A (zh) 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
CN104657439A (zh) 用于自然语言精准检索的结构化查询语句生成系统及方法
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN104657440A (zh) 结构化查询语句生成系统及方法
JP2019016181A (ja) テキスト要約システム
JP2010519655A (ja) 名前照合システムの名前インデックス付け
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
CN104252542A (zh) 一种基于词库的动态规划中文分词方法
JP6186198B2 (ja) 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム
Balsmeier et al. Automated disambiguation of us patent grants and applications
CN110717014B (zh) 一种本体知识库动态构建方法
CN102982063A (zh) 一种基于关系关键词扩展的元组精化的控制方法
JP2021101375A (ja) 辞書構築装置、辞書の生産方法、およびプログラム
Ma et al. A Mongolian information retrieval system based on Solr
JP6076285B2 (ja) 翻訳装置、翻訳方法及び翻訳プログラム
Merhav et al. Basis Technology at TAC 2013 Entity Linking.
Liang et al. Extracting attributes from deep web interface using instances
KR101450795B1 (ko) 대용어 복원 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190927

Termination date: 20201030

CF01 Termination of patent right due to non-payment of annual fee