CN104182450A - 信息结构化系统 - Google Patents

信息结构化系统 Download PDF

Info

Publication number
CN104182450A
CN104182450A CN201410212244.6A CN201410212244A CN104182450A CN 104182450 A CN104182450 A CN 104182450A CN 201410212244 A CN201410212244 A CN 201410212244A CN 104182450 A CN104182450 A CN 104182450A
Authority
CN
China
Prior art keywords
information
medical
link
message structure
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410212244.6A
Other languages
English (en)
Inventor
木户邦彦
由井俊太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN104182450A publication Critical patent/CN104182450A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Abstract

一种信息结构化系统,将关于医疗的信息高效率地结构化。在本发明中,定期地从在因特网等公开的医学文献等的文本数据中,包罗性地提取分析视点候选。并且,将实际的临床数据中包含的病名、药剂、检查、手术等的数据与上述分析视点候选建立链接。这里,在上述分析视点候选中,混杂有在临床上重要者、包含提取错误、在临床上不重要者。为了将其区别,对上述链接进行加权。首先,在提取出分析视点候选的医学文献的证据的水平较高的情况下使权重变强。此外,在各病名的文献群中,计算分析视点候选的单词和关于药剂、检查、手术的单词的共现度,基于该共现度的大小,使上述链接的权重变强。

Description

信息结构化系统
技术领域
本发明以关于临床信息的数据库为对象,涉及临床数据的结构化(构造化)及分析方法。
背景技术
作为本技术领域的背景技术,有专利文献1。在该文献中,有关于储存临床数据和基础研究数据的知识数据库、将两者的信息分解为知识要素、将它们之间的关联性通过加权而连结、再编成的医疗支持系统的记载。
专利文献1:特开2005-108248号
当将临床数据以临床的观点分析时,其分析的视点(维度、dimension)是多种多样的,难以预先决定。所谓分析的视点,可以举出例如并发症、癌的尺寸及个数、药剂的投放量及投放次数等。在现状下,一般不是包罗性且通用性的临床研究用的数据仓库构建,而是对于特定疾患基于临床研究计划限定维度、构建立方体(cube)。另一方面,分析视点(日语:分析視点)的多样性意味着用于类似病例(症例)检索的条件为多样的。即,需要按照个别病例,检索者基于临床知识研究对该病例赋予特征的条件,添加到检索语句中。因此,不缩减检索对象或范围而将检索语句定型化较困难,如果是关系数据库,则需要在熟知数据库的表构造的基础上,基于作为检索语言的SQL进行检索。但是,不能期待不是数据库的专家的医生等的终端用户运用SQL语句的情况较多。
临床数据由病名、处方、手术、检查及检查结果等的临床数据构成。这些临床数据可以通过对象患者及实施日期、记录日期等的属性信息整理合并。但是,基于处方、检查、手术方式与其适应病名的关系等医学上的意义的建立关联的信息缺失的情况较多,在临床研究中,在制作分析数据集的情况下,分析者一般基于医学的知识,在考虑临床数据间的关联性的同时以手工收集关联数据。病名、药剂、手术方式、检查项目数量庞大,在该确认作业中花费大量的时间。
发明内容
一种信息结构化系统,使用保存有医学知识信息的数据库进行临床信息的结构化,该医学知识信息包括医学概念信息、医学概念信息的共现度和医学概念信息的取得处的医学文献信息的文献评级(等级)信息,该信息结构化系统的特征在于,具有:临床信息输入受理部,受理多个临床信息的输入;链接生成部,使用医学知识信息,赋予包括共现度和文献评级信息的权重信息,生成将多个临床信息相互建立关系的链接信息。
根据本发明,基于与临床数据间的关联性有关的医学知识,将临床数据间建立关联。除此以外,在临床数据间的关联建立中,由于根据基于作为医学知识的取得处的医学文献的证据水平(等级、level)和共现度的研究者关注度的观点赋予权重,所以能够基于与检索者的分析目的对应的重要度将数据缩减。例如,在对在学会等中被广泛认可的分析视点下的分析有兴趣的情况下,能够根据基于医学文献的证据水平的权重较高的关联性将数据缩减。此外,在想要收集证据水平较低但研究性较高的数据的情况下,能够缩减为基于共现度较高的关联性的数据。
将它们包罗性地收集,基于该分析视点将临床数据结构化。除此以外,关于分析视点和实际的临床数据的关联性,由于根据基于医学文献的证据水平和共现度的来自研究者的关注度赋予权重,所以能够针对检索者的分析目的,基于包罗性地所准备的分析视点容易地检索需要的数据。例如,在对在学会等中被广泛认可的分析视点下的分析有兴趣的情况下,能够缩减为基于医学文献的证据水平的权重较高的分析视点而进行数据收集。此外,在想要收集证据水平较低但研究性较高的数据的情况下,只要缩减为共现度较高的分析视点而进行数据收集就可以。
附图说明
图1是关于本发明的实施例1的系统结构图。
图2是关于本发明的实施例1的程序结构图。
图3是关于本发明的实施例1的程序结构图。
图4是关于本发明的实施例1的程序的处理流程。
图5是关于本发明的实施例1的程序的处理流程。
图6是将患者ID与临床信息建立关联的表的例子。
图7是管理临床信息的表的例子。
图8是管理临床信息间的关系的表的例子。
图9是用来从医学文献中提取医学概念的词典表的例子。
图10是管理医学知识管理表的表的例子。
图11是管理医学文献的评级(等级)的表的例子。
图12是说明临床研究的种类的表。
图13是医学文献的例子。
图14是关于医学知识生成处理的画面例。
图15是关于链接生成处理的画面例。
图16是关于检索处理的画面例。
图17是管理事前总计值的表的例子。
图18是关于本发明的实施例1的程序结构图。
图19是关于本发明的实施例1的程序的处理流程。
图20是关于本发明的实施例1的程序的处理流程。
101 计算机装置;
102  I/O装置;
103  存储器;
104  CPU;
105 存储装置;
106 医学文献信息数据库;
107 临床信息数据库;
109 词典数据库;
110 医学知识管理数据库;
201 医学文献输入部;
202 医学概念提取部;
203 重要度计算部;
204 医学知识输出部;
301 临床信息/医学知识输入部;
302 链接生成部;
303 链接输出部;
401 医学文献信息/词典表输入;
402 使用词典表的医学用语的提取;
403 使用词典表的量及时间关系信息的提取;
404 求出共现度和文献的评级;
405 医学知识的记录;
501 临床信息的输入;
502 医学知识的输入;
503 条件分支;
504 医学知识为量/时间关系的情况下,检查临床数据是否满足该关系;
505 检查医学知识与临床数据是否匹配;
506 条件分支;
507 求出共现度和评级;
508 加权生成各项目间的链接;
601 患者ID;
602 记录号码;
701 记录号码;
702 病名(项目1);
703 病名(项目2);
704 尺寸(项目3);
705 视点(项目4);
706 时间;
801 记录号码;
802 源项目号码;
803 目标项目号码;
804 权重;
805 知识号码;
901 名称;
902 分类;
1001 知识号码;
1002 文献号码;
1003 单词1;
1004 单词2;
1005 共现度;
1005 种类;
1101 文献号码;
1102 文献评级;
1301 文献名称;
1302 发行年月日;
1303 摘要;
1304 关键词;
1401 期间指定区域;
1402 使用文献指定区域;
1403 医学知识生成开始按钮;
1501 期间指定区域;
1502 链接生成开始按钮;
1601 检索结果显示区域;
1602 检索结果显示区域;
1603 检索条件指定区域;
1701 知识号码;
1702 总计值;
1703 阈值;
1801 事前总计处理部;
1802 检索处理部;
1803 检索结果输出部;
1901 收集具有阈值以上的权重的链接;
1902 按照医学知识号码将链接数总计;
1903 将总计值输出;
2001 检索条件的取得;
2002 检索病名;
2003 用共现度和评级进行缩减;
2004 视点的总计结果和图表显示。
具体实施方式
以下,使用附图说明本发明的实施例。
[实施例1]
本发明的所谓医学文献信息,是记载有关于诊断治疗的知识的医学论文、诊断治疗方针、医学教科书等的包含文本数据的电子数据。关于医学论文,包括标题、发行年月日、正文、摘要、关于正文的内容的关键字。此外,所谓医学概念,包括病名、症状、医药品名、检查名、单位等的医学用语、以及由医学用语的组合构成的等式/不等式。
本发明定期地从公开在因特网等上的医学文献等的文本数据中,包罗性地提取分析视点候选。并且,将在实际的临床数据中包含的病名、药剂、检查、手术等的数据与分析视点候选建立链接。在该分析视点候选中,按照每个病名或药剂、检查,包含有副作用、关于大小/个数/数值的不等式、关于时间关系的信息。
这里,在上述分析视点候选中,混杂有在临床上重要者、和包含提取错误、在临床上不重要者。为了将其区别,通过以下的观点对上述链接进行加权。首先,在提取出分析视点候选的医学文献的证据的水平较高的情况下,使权重变强。这是因为,推测为证据的水平较高的医学文献的分析视点候选在学会中的认可度较高。例如,关于随机化比较试验的荟萃分析(meta-analysis)的医学文献是最高的证据水平,在该文献中所包含的分析视点候选的重要性较高。接着,即便一个进入随机化比较试验的论文为第2高的证据水平。
此外,在各病名的文献群中,计算分析视点候选的单词与关于药剂/检查/手术的单词的共现度,基于该共现度的大小,使上述链接的权重变强。这是因为,推测为在许多论文中被讨论的分析视点候选为研究者的关注较高者。
图1表示本实施例的硬件结构。计算机101具备存储器103、存储装置105、CPU104、I/O装置102,此外,作为外部的存储装置,连接着医学文献信息DB106、临床信息DB107、词典DB108、医学知识DB109,经由I/O装置102与计算机101进行数据的输入输出。图2、图3表示本实施例的程序结构图。图2是基于医学文献信息DB106的数据生成医学知识DB109的信息的程序的结构。由临床文献输入部201、医学概念提取部202、重要度计算部203、医学知识输出部204构成,被从存储装置105从I/O装置102装载到存储器103中,由CPU104执行。图3是基于医学知识DB109的医学知识、对临床信息DB107的临床信息在数据间生成加权的链接的程序的结构。由临床信息/医学知识输入部301、链接生成部302、链接输出部303构成,被从存储装置105从I/O装置102装载到存储器103中,由CPU104执行。
图6、图7、图8、图9、图10、图11是在本实施例中使用的表的结构。图6是患者ID与临床信息的对应表,由患者ID601和记录号码602构成。图7是临床信息表,由记录号码701、病名(项目2)702、病名(项目2)703、尺寸(项目3)704、视点(项目4)705构成。这里,病名有两个表示本系统处置并发症。根据并发症的数量,还可以具有多个病名项目。图6的记录号码602通过参照图7的记录号码701,将患者ID与临床信息建立联系。图8是链接表,是记录临床信息的项目间的关系的,由记录号码801、源项目号码802、目标项目号码803、权重804、知识号码805构成。
所谓源项目及目标项目,是指因果关系中的原因和结果、概念性的包含关系中的上位概念和下位概念、病状的发展中的现状病名和关联病名等,原因→结果、上位概念→下位概念、现状病名→关联病名等的起点和终点。
首先,记录号码801通过参照图7的记录号码,确定临床信息表的记录。假如在项目3和项目4间有链接的情况下,在源项目号码802中记录3,在目标项目号码803中记录4,将链接的权重的值向量(a,b)记录到权重804中。该值向量(a,b)如后述那样,第一成分的a是文献的评级信息,第二成分的b定义为共现度。此外,知识号码805是关于上述链接的权重的值向量的医学知识的识别号码,记录图10的医学知识管理表的对应记录的知识号码。
图9是词典表,为了从医学文献提取医学概念而使用,由名称901和分类902构成。在名称901中,记录从医学文献提取的医学概念的单词。分类902记录该单词的分类。在该分类中,包括病名、手术方式名、指标名、医药品名。图10是医学知识管理表,管理从医学文献提取出的医学概念和其共现度,由作为文献号码1001、共现语的一对的单词(1)1002和单词(2)1003、共现语的共现度1004构成。图11是记录各文献的评级的表,由文献号码1101、文献评级1102构成。词典表是能够更新的,也可以通过网络等进行更新。在本实施例中,文献评级采用图12的临床研究的水平。该水平能够变更,也可以通过网络等进行变更。
图14、图15是在本实施例中使用的画面例。图14是在生成图2所示的医学知识的程序中使用的画面,标号1401是对于保管在医学文献信息DB106中的医学文献指定该程序作为处理对象的期间的区域。标号1402是对于保管在医学文献信息DB106中的医学文献指定该程序作为处理对象的文献DB的区域。标号1403是进行该程序的处理开始的按钮。这样,能够选择特定的期间中的文献进行信息结构化,应对多种多样的结构化的要求。
图15是在生成图3所示的链接的程序中使用的画面,由指定作为链接生成的对象的临床信息的期间的期间1501、链接生成开始按钮1502构成。
通过图4表示图2的程序的处理流程。如果点击图14的画面的医学知识生成开始按钮1403,则本程序启动。
通过步骤401,将由图14的画面指定的医学文献的文献DB及期间的医学文献从医学文献信息DB106经由I/O装置102向存储器103取入。图13是医学文献的例子,由文献标题1301、发行年月日1302、摘要1303、关键字1304构成。同样,从词典DB108将图9所示的词典表经由I/O装置102向存储器103取入。
在步骤402中,对于词典表的各记录,基于分类902关于病名、手术方式、指标的名称901,从医学文献的摘要提取作为医学概念的例子的医学用语。图13的摘要1303的下线部是基于图9的词典表提取出的医学用语的例子。同样,在步骤403中,对于词典表的各记录,基于分类902关于病名、量、大小、单位的名称901,提取作为医学概念的例子的量及时间关系信息。这里设为量及时间关系,但也可以使用其他的医学概念的分类项目。如果用图13的例子说明,则提取“肝细胞癌的大小为4cm以下”。肝细胞癌是“病名”,大小是“量”,cm是“单位”,以下是“大小”,这些单词被“的”、“是”等的助词或数字夹着,所以判断该文章是量及时间关系信息。在步骤404中,根据文献信息的关键字,确定文献的评级。接着,对在步骤403中提取出的医学用语、量及时间关系信息求出共现度。这里,所谓项目A和项目B的共现度,定义为同时包括项目A和项目B的文献数。在步骤405中,关于在步骤404中求出的文献的评级,与图11的文献表的文献号码1101一起将等级(评级)登录到文献评级1102中。关于共现度,在图10的医学知识管理表中,登录文献号码和共现语的一对、以及其共现度。这样,能够使用医学文献信息生成用其评级加权的医学知识信息,支持高精度的信息结构化。此外,能够根据使用分类项目的多种多样的分析的视点将关于医疗的信息结构化。此外,能够使用医学文献信息生成用共现度或文献评级进行了加权的医学知识信息,支持高精度的信息结构化。
由图5表示图3的程序的处理流程。如果在图15的画面上点击链接生成开始按钮1502,则本程序启动。
步骤501将由图15的画面指定的期间1501内的临床数据从临床信息DB107经由I/O装置102向存储器103取入。具体而言,参照图7的临床信息表的时间706,将与通过图15的画面指定的期间1501符合的记录全部检索,经由I/O装置102向存储器103取入。这样,能够选择特定的期间中的临床信息进行信息结构化,应对多种多样的结构化的要求。
在步骤502中,将医学知识从医学知识DB110经由I/O装置102向存储器103取入。具体而言,从图10的医学知识管理表将全部记录经由I/O装置102向存储器103取入。此外,期间1501也可以受理设定该期间的输入来决定。
在步骤503中,从在步骤502中取入的医学知识的全部记录中逐个地取得记录,根据图10的医学知识管理表的种类1005,检查该医学知识是否是量/时间关系。具体而言,将包含有等号、不等号的医学知识判断为量、时间关系。
在如果不是量/时间关系的情况下,在步骤505中,检查标号1002的单词1和标号1003的单词2是否符合在步骤501中取得的临床数据的各记录的病名(项目1)、病名(项目2)、尺寸(项目3)(标号702~标号704)。在步骤506中,检查符合的是(YES)/否(NO),在是(YES)的情况下进入步骤507。
另一方面,在量/时间关系的情况下,在步骤504中检查临床数据的关系是否满足医学知识的等式或不等式。例如,对于“肝细胞癌”及“肝细胞癌的大小≤4cm”的医学知识,如果作为临床数据,病名(项目1)702是“肝细胞癌”、尺寸(项目3)是2cm,则符合医学知识的不等式关系。这里,在符合的情况下,根据图10的医学知识管理表的医学知识号码1006求出该医学知识的医学知识号码,将左述医学知识号码放入到图7的标号705的视点中。这样,能够根据使用分类项目的多种多样的分析的视点将关于医疗的信息结构化。
在步骤506中,调查步骤504和步骤505的检查结果,在是(YES)的情况下进入步骤507。
在步骤507中,根据图11求出包含该医学知识的文献号码的医学文献的评级(等级),根据图10求出标号1002的单词1和标号1003的单词2的共现度。例如,在作为关于文献号码1的医学文献的医学知识的“肝细胞癌”及“肝细胞癌的大小≤4cm”的情况下,可知根据图11,文献的评级是4,根据图10,共现度是3。
在步骤508中,在图8的链接表中生成记录,与记录号码801、源项目号码802、目标项目号码803一起,通过在步骤505中求出的共现度和评级,生成链接的权重的值向量(a,b),登录至该记录的权重804。此外,将在步骤507中作为处理对象的医学知识的知识号码登录至知识号码805。这里,源项目号码802根据符合标号1002的单词1的临床数据的记录的病名(项目1)(标号702)、病名(项目2)(标号703)、尺寸(项目3)(标号704)决定。具体而言,当符合者是病名(项目1)(标号702)时为1,是病名(项目3)(标号703)时为2,尺寸(项目3)(标号704)时为3。另外,关于尺寸(项目3)(标号704)的符合,假设在标号704满足视点(项目4)(标号705)的医学知识号码的量/时间关系的情况下符合。
同样,目标项目号码803根据符合标号1003的单词2的临床数据的记录的病名(项目1)(标号702)、病名(项目2)(标号703)、视点(项目4)(标号705)决定。具体而言,在符合者是病名(项目1)(标号702)时为1,是病名(项目2)(标号703)时为2,是视点(项目4)(标号705)时为4。另外,关于视点(项目4)(标号705)的符合,假设在尺寸(项目3)标号704满足视点(项目4)(标号705)的医学知识号码的量/时间关系的情况下符合。这样,能够赋予使用共现度和文献评级的权重信息而进行高精度的信息结构化。
接着,对检索处理进行说明。
图18表示本实施例的检索处理的程序结构图。本程序由事前总计处理部1801、检索处理部1802、检索结果输出部1803构成,从存储装置105从I/O装置102装载到存储器103中,由CPU104执行。
图17是事前总计表,是管理将与基于医学知识的分析的视点关联的临床信息事前总计的数值的表,由知识号码1701、总计值1702、阈值1703构成。知识号码1701是作为分析的视点的根据的医学知识的识别号码。总计值1702是符合上述医学知识的临床信息的总计值。
例如,对图17中的知识号码1的总计值是100的情形进行说明。根据图10,知识号码1是肝细胞癌与肝硬变相关的知识,知识号码1的总计值为100,表示在实际的临床数据中、肝细胞癌和肝硬变并存的病例有100例。
此外,阈值1703管理关于作为总计的对象的医学知识的权重的阈值。
这里,基于图19对作为制作图17的表的处理的事前总计处理部1801的处理流程进行说明。将该处理1天1次等定期地执行。也可以基于某个触发事件而非定期地执行。事前总计表的知识号码及该知识号码的医学知识管理表的记录提供从医学文献包罗性地提取的分析的视点。通过将与该分析的视点对应的临床信息的个数事前总计,能够在实际的检索时省略总计计算,能够高速地分析。在步骤1901中,从图8的链接表中检索权重804为规定的阈值以上的记录。在步骤1902中,关于在步骤1901中检索出的记录,按照每个不同的知识号码805总计记录数。在步骤1903中,将在步骤1902中按照每个知识号码的总计值与知识号码及在步骤1801中使用的阈值一起,记录到图17的总计号码1701、总计值1702、阈值1703中。这样,通过将结构化的信息总计并拿出,能够进行有效率的分析。
图16是在本实施例中使用的画面例,由将检索结果进行图表显示的区域1601、基于根据医学知识的分析的视点的事前总计值的显示区域1602、检索条件的输入区域1603、检索按钮1604构成。
接着,基于图20说明检索处理部1802、检索结果输出部1803的处理流程。
通过图16的检索按钮1604的点击,本程序启动。在步骤2001中,取得在图16的检索条件区域1603中指定的病名、评级、共现度。
在步骤2002中,关于在步骤2001中取得的病名,将与图7的临床信息表的标号702或标号703中的病名符合的记录全部检索。在步骤2003中,参照记录号码801,求出与在步骤2002中取得的各记录的记录号码701符合的图8的链接表的记录。接着,将该记录的权重804的值向量取出,向该值向量比在步骤2001中取得的评级、共现度大的记录进一步缩减。
在步骤2004中,对于在步骤2003中缩减后的记录,基于其记录号码,检索与图6的患者ID和临床信息的对应表中的记录号码602符合的记录,求出患者ID601。这里,制作用于显示的图表构造,在图16的区域1601显示。该图表构造以患者ID为根,向链接表的源项目号码802建立链接。接着,在源项目号码802与目标项目号码803间建立链接。
在实际的显示中,根据记录号码符合的图7的临床信息表的记录中的对应的项目号码的登录内容,求出与源项目号码802和目标项目号码803对应的医学概念。
例如,在图8的链接表中,着眼于记录号码1、源项目号码为1、目标项目号码为2的记录。图7的记录号码为1的记录中,项目1是病名,登录有“肝细胞癌”,项目2是病名,登录有“肝硬变”。根据以上,建立“肝细胞癌—肝硬变”的链接。另外,在项目号码为4、即标号704的视点的情况下,基于在视点(项目4)(标号704)中记录的知识号码,基于图10的医学知识管理表的知识号码1006检索记录,取得标号1003的单词2的记载内容,将其显示,例如,在图8的链接表中,着眼于记录号码1、源项目号码为3、目标项目号码为4的记录。图7的记录号码为1的记录中,项目3是尺寸,为2cm,项目4是视点,登录有知识号码2。在图10的医学知识管理表中,知识号码2的记录的单词2是“肝细胞癌的大小≤4cm”。根据以上,建立“尺寸2cm→肝细胞癌的大小≤4cm”的链接。
以上,作为检索条件,作为例子而仅指定了病名、评级、共现度,但检索结果基于根据与病名关联的医学知识导出的分析的视点,以图表构造的形式显示关联的数据。因此,检索者能够不指定关于分析的视点的条件,而简单地显示分析所需要的信息。此外,显示的信息可以通过评级(等级)、共现度来缩减。例如,在对在学会等中被广泛认可的分析视点下的分析有兴趣的情况下,缩减为医学文献的评级较高的分析视点。此外,在想要收集研究性较高的数据的情况下,可以缩减为共现度较高的分析视点。
接着,关于上述在图表构造的制作中使用的链接表的记录的知识号码805,搜索与图17的事前总计表的知识号码1701的符合者。
如果有符合者,则基于该知识号码的名称和总计值1702,以表形式显示到图16的区域1602中。以上,即使检索者没有特别指定,也将与分析的视点对应的临床信息的个数高速地显示。另外,知识号码的名称通过根据图10的医学知识管理表检索与该知识号码符合的记录、取得单词1003来求出。这样,能够使用共现度及文献信息等检索总计的链接信息,进行有效率的分析。
工业实用性
对于医院等的医疗机构,提供用于临床研究的结构化的临床信息数据库。由此,促进研究有效的治疗方法等的临床研究,有利于医疗技术的发展。

Claims (10)

1.一种信息结构化系统,利用保存有医学知识信息的数据库,进行临床信息的结构化,该医学知识信息包括医学概念信息,所述信息结构化系统的特征在于,
所述医学知识信息还包括所述医学概念信息的共现度、以及包括所述医学概念信息的医学文献的文献评级信息;
所述信息结构化系统具有:
临床信息输入受理部,受理多个临床信息的输入;以及
链接生成部,利用所述医学知识信息、所述共现度和所述文献评级信息,生成将所述多个临床信息相互建立关系的链接信息。
2.如权利要求1记载的信息结构化系统,其特征在于,
所述医学知识信息具有所述医学知识信息的分类信息;
所述链接生成部在利用所述医学知识信息时参照所述分类信息,在所述医学知识信息为所述分类信息的情况下,进而在所述多个临床信息是所述分类信息的情况下将所述多个临床信息建立关系,在所述多个临床信息不是所述分类信息的情况下不将所述多个临床信息建立关系。
3.如权利要求1记载的信息结构化系统,其特征在于,
所述信息结构化系统还具有:
医学概念提取部,从所述医学文献信息提取所述医学概念信息;以及
医学知识信息生成部,取得所述医学概念信息的共现度及所述医学文献信息的文献评级信息,并将所述医学概念信息、所述共现度和所述评级信息作为医学知识信息保存至所述数据库。
4.如权利要求3记载的信息结构化系统,其特征在于,
所述数据库保存字典信息;
所述医学概念提取部利用所述字典信息,从所述医学文献信息提取所述医学概念信息以及分类信息。
5.如权利要求4记载的信息结构化系统,其特征在于,
所述医学知识生成部计算所述共现度作为在所述医学文献信息所示的文献中包含所述医学概念信息的数量。
6.如权利要求4记载的信息结构化系统,其特征在于,
所述数据库保存文献评级列表信息;
所述医学知识生成部利用所述文献评级列表信息,作为所述文献评级信息,生成包含所述医学概念信息的所述医学文献信息所示的文献的文献评级信息。
7.如权利要求3记载的信息结构化系统,其特征在于,
所述信息结构化系统还具有:
医学知识生成期间受理部,受理医学知识生成期间信息的输入;
所述医学概念提取部基于所述医学知识生成期间信息,选择在所述医学概念的提取中所使用的所述医学文献信息。
8.如权利要求1记载的信息结构化系统,其特征在于,
所述信息结构化系统还具有:
链接生成期间受理部,受理链接生成期间信息的输入;
所述链接生成部基于所述链接生成期间信息,选择在生成所述链接信息时所使用的所述多个临床信息。
9.如权利要求1记载的信息结构化系统,其特征在于,
所述链接生成部基于所述共现度和所述文献评级信息计算权重信息,并利用所述权重信息,生成将所述多个临床信息相互建立关系的链接信息;
所述信息结构化系统还具有:
链接信息提取部,提取所述权重信息为规定的阈值以上的所述链接信息;以及
链接信息合计部,根据所述提取出的链接信息合计所述共现信息和所述文献评级信息,并生成链接合计信息。
10.如权利要求9记载的信息结构化系统,其特征在于,
检索条件输入部,受理包括检索共现信息和检索文献评级信息的检索条件的输入;
基于所述检索条件,检索所述链接合计信息,提取满足所述检索条件的链接合计信息。
CN201410212244.6A 2013-05-20 2014-05-20 信息结构化系统 Pending CN104182450A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013105743A JP6101563B2 (ja) 2013-05-20 2013-05-20 情報構造化システム
JP2013-105743 2013-05-20

Publications (1)

Publication Number Publication Date
CN104182450A true CN104182450A (zh) 2014-12-03

Family

ID=50735933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410212244.6A Pending CN104182450A (zh) 2013-05-20 2014-05-20 信息结构化系统

Country Status (4)

Country Link
US (1) US20140344274A1 (zh)
EP (1) EP2806367A1 (zh)
JP (1) JP6101563B2 (zh)
CN (1) CN104182450A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法
CN107193864A (zh) * 2017-04-01 2017-09-22 徐立水 一种基于大数据的医学网站管理方法
CN111971754A (zh) * 2018-05-29 2020-11-20 株式会社日立制作所 医学信息处理装置、医学信息处理方法及存储介质
CN112256834A (zh) * 2020-10-28 2021-01-22 中国科学院声学研究所 一种基于内容及文献的海洋科学数据推荐系统
CN115858759A (zh) * 2023-02-27 2023-03-28 北京泽桥医疗科技股份有限公司 一种基于医学知识图谱的智能查询算法及管理系统

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6500460B2 (ja) * 2015-01-30 2019-04-17 株式会社島津製作所 医用システム
EP3276570A4 (en) * 2015-03-27 2018-11-07 Hitachi, Ltd. Computer system and information processing method
EP3223179A1 (en) * 2016-03-24 2017-09-27 Fujitsu Limited A healthcare risk extraction system and method
EP3223180A1 (en) * 2016-03-24 2017-09-27 Fujitsu Limited A system and a method for assessing patient risk using open data and clinician input
EP3223178A1 (en) * 2016-03-24 2017-09-27 Fujitsu Limited A system and a method for assessing patient treatment risk using open data and clinician input
EP3239869A1 (en) * 2016-04-29 2017-11-01 Fujitsu Limited A system and method to produce and validate weighted relations between drug and adverse drug reactions
US10606854B2 (en) * 2016-06-22 2020-03-31 Black Knight Ip Holding Company, Llc Intelligent cascading linkage machine for fuzzy matching in complex computing networks
EP3306501A1 (en) * 2016-10-06 2018-04-11 Fujitsu Limited A computer apparatus and method to identify healthcare resources used by a patient of a medical institution
EP3306502A1 (en) * 2016-10-06 2018-04-11 Fujitsu Limited A computer apparatus and method to identify healthcare resources used by a patient given a potential diagnosis
CN107832442A (zh) * 2017-11-17 2018-03-23 陆光辉 一种中医药信息查询系统和方法
JP7068106B2 (ja) * 2018-08-28 2022-05-16 株式会社日立製作所 試験計画策定支援装置、試験計画策定支援方法及びプログラム
CN109408644A (zh) * 2018-09-03 2019-03-01 平安医疗健康管理股份有限公司 知识库更新方法、装置、计算机设备和存储介质
EP3660699A1 (en) * 2018-11-29 2020-06-03 Tata Consultancy Services Limited Method and system to extract domain concepts to create domain dictionaries and ontologies
CN109710670B (zh) * 2018-12-11 2020-04-28 萱闱(河南)生命科学研究院有限公司 一种将病历文本从自然语言转换为结构化元数据的方法
JP7148444B2 (ja) * 2019-03-19 2022-10-05 株式会社日立製作所 文分類装置、文分類方法及び文分類プログラム
CN110147421B (zh) * 2019-05-10 2022-06-21 腾讯科技(深圳)有限公司 一种目标实体链接方法、装置、设备及存储介质
JP2022150987A (ja) * 2021-03-26 2022-10-07 富士通株式会社 訓練データ生成プログラム,訓練データ生成方法および訓練データ生成装置
CN113434626B (zh) 2021-08-27 2021-12-07 之江实验室 一种多中心医学诊断知识图谱表示学习方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1744080A (zh) * 2005-09-27 2006-03-08 南方医科大学 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法
US20080091633A1 (en) * 2004-11-03 2008-04-17 Microsoft Corporation Domain knowledge-assisted information processing
CN101334770A (zh) * 2007-06-28 2008-12-31 科凌力医学软件(深圳)有限公司 循证医学数据库组建方法及相关的循证医学疾病诊断方法
US7647335B1 (en) * 2005-08-30 2010-01-12 ATA SpA - Advanced Technology Assessment Computing system and methods for distributed generation and storage of complex relational data
CN101689220A (zh) * 2007-04-05 2010-03-31 奥利安实验室有限公司 用于治疗、诊断和预测医学病症发生的系统和方法
CN101911078A (zh) * 2007-12-28 2010-12-08 皇家飞利浦电子股份有限公司 基于疾病概率向量检索类似患者病例
CN102024027A (zh) * 2010-11-17 2011-04-20 北京健康在线网络技术有限公司 一种医学数据库的建立方法
CN102576431A (zh) * 2009-10-06 2012-07-11 皇家飞利浦电子股份有限公司 存储于不同实体处的患者信息记录的自主链接

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02301869A (ja) * 1989-05-17 1990-12-13 Hitachi Ltd 自然言語処理システム保守支援方式
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US6292796B1 (en) * 1999-02-23 2001-09-18 Clinical Focus, Inc. Method and apparatus for improving access to literature
US6581038B1 (en) * 1999-03-15 2003-06-17 Nexcura, Inc. Automated profiler system for providing medical information to patients
US7127407B1 (en) * 1999-04-29 2006-10-24 3M Innovative Properties Company Method of grouping and analyzing clinical risks, and system therefor
US20030154208A1 (en) * 2002-02-14 2003-08-14 Meddak Ltd Medical data storage system and method
US6886010B2 (en) * 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
JP4656908B2 (ja) 2003-09-11 2011-03-23 瑠美子 松岡 医療用知識データベース支援システム
US20050210008A1 (en) * 2004-03-18 2005-09-22 Bao Tran Systems and methods for analyzing documents over a network
US20060111943A1 (en) * 2004-11-15 2006-05-25 Wu Harry C Method and system to edit and analyze longitudinal personal health data using a web-based application
US7529408B2 (en) * 2005-02-23 2009-05-05 Ichannex Corporation System and method for electronically processing document images
WO2007075206A2 (en) * 2005-09-30 2007-07-05 The Regents Of The University Of California Satb1: a determinant of morphogenesis and tumor metastatis
WO2007106858A2 (en) * 2006-03-15 2007-09-20 Araicom Research Llc System, method, and computer program product for data mining and automatically generating hypotheses from data repositories
US7805385B2 (en) * 2006-04-17 2010-09-28 Siemens Medical Solutions Usa, Inc. Prognosis modeling from literature and other sources
EP2019619A4 (en) * 2006-05-04 2010-07-21 Centocor Ortho Biotech Inc INFLAMMATORY DISEASE PROGRESSION, DIAGNOSTIC AND TREATMENT MONITORING PROCESSES, SYSTEMS, DEVICE AND USE
US8417537B2 (en) * 2006-11-01 2013-04-09 Microsoft Corporation Extensible and localizable health-related dictionary
US20080114738A1 (en) * 2006-11-13 2008-05-15 Gerald Chao System for improving document interlinking via linguistic analysis and searching
US7822669B2 (en) * 2006-11-16 2010-10-26 General Electric Capital Corporation System and software for providing recommendations to optimize a portfolio of items
JP2008181188A (ja) * 2007-01-23 2008-08-07 Kokusai Research Academy:Kk 健康関連情報提供システム
US8504343B2 (en) * 2007-01-31 2013-08-06 University Of Notre Dame Du Lac Disease diagnoses-bases disease prediction
WO2008109815A1 (en) * 2007-03-07 2008-09-12 Upmc, A Corporation Of The Commonwealth Of Pennsylvania Medical information management system
US8706521B2 (en) * 2010-07-16 2014-04-22 Naresh Ramarajan Treatment related quantitative decision engine
WO2012017418A1 (en) * 2010-08-05 2012-02-09 Koninklijke Philips Electronics N.V. Report authoring
JP5085708B2 (ja) * 2010-09-28 2012-11-28 株式会社東芝 キーワード提示装置、方法及びプログラム
JP5939141B2 (ja) * 2012-11-21 2016-06-22 富士ゼロックス株式会社 プログラム及び診療記録検索装置
US9286379B2 (en) * 2012-11-26 2016-03-15 Wal-Mart Stores, Inc. Document quality measurement

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091633A1 (en) * 2004-11-03 2008-04-17 Microsoft Corporation Domain knowledge-assisted information processing
US7647335B1 (en) * 2005-08-30 2010-01-12 ATA SpA - Advanced Technology Assessment Computing system and methods for distributed generation and storage of complex relational data
CN1744080A (zh) * 2005-09-27 2006-03-08 南方医科大学 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法
CN101689220A (zh) * 2007-04-05 2010-03-31 奥利安实验室有限公司 用于治疗、诊断和预测医学病症发生的系统和方法
CN101334770A (zh) * 2007-06-28 2008-12-31 科凌力医学软件(深圳)有限公司 循证医学数据库组建方法及相关的循证医学疾病诊断方法
CN101911078A (zh) * 2007-12-28 2010-12-08 皇家飞利浦电子股份有限公司 基于疾病概率向量检索类似患者病例
CN102576431A (zh) * 2009-10-06 2012-07-11 皇家飞利浦电子股份有限公司 存储于不同实体处的患者信息记录的自主链接
CN102024027A (zh) * 2010-11-17 2011-04-20 北京健康在线网络技术有限公司 一种医学数据库的建立方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李昊旻: "电子病历的标准化结构化方法研究及实践", 《中国博士学位论文全文数据库 医药卫生科技辑 》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法
CN107193864A (zh) * 2017-04-01 2017-09-22 徐立水 一种基于大数据的医学网站管理方法
CN111971754A (zh) * 2018-05-29 2020-11-20 株式会社日立制作所 医学信息处理装置、医学信息处理方法及存储介质
CN111971754B (zh) * 2018-05-29 2023-09-29 株式会社日立制作所 医学信息处理装置、医学信息处理方法及存储介质
CN112256834A (zh) * 2020-10-28 2021-01-22 中国科学院声学研究所 一种基于内容及文献的海洋科学数据推荐系统
CN112256834B (zh) * 2020-10-28 2021-06-08 中国科学院声学研究所 一种基于内容及文献的海洋科学数据推荐系统
CN115858759A (zh) * 2023-02-27 2023-03-28 北京泽桥医疗科技股份有限公司 一种基于医学知识图谱的智能查询算法及管理系统

Also Published As

Publication number Publication date
EP2806367A1 (en) 2014-11-26
JP6101563B2 (ja) 2017-03-22
US20140344274A1 (en) 2014-11-20
JP2014228907A (ja) 2014-12-08

Similar Documents

Publication Publication Date Title
CN104182450A (zh) 信息结构化系统
Wang et al. A novelty detection patent mining approach for analyzing technological opportunities
Yao et al. Design and development of a medical big data processing system based on Hadoop
Zhang et al. Extracting databases from dark data with deepdive
Puppala et al. METEOR: an enterprise health informatics environment to support evidence-based medicine
Tsai Global data mining: An empirical study of current trends, future forecasts and technology diffusions
Hou et al. Newsminer: Multifaceted news analysis for event search
Vo et al. Next generation business intelligence and analytics: a survey
Figueroa et al. Improving business process retrieval using categorization and multimodal search
Kropf et al. Structuring legacy pathology reports by openEHR archetypes to enable semantic querying
Liu et al. Context-aware experience extraction from online health forums
Cousyn et al. Towards using scientific publications to automatically extract information on rare diseases
Hamoud et al. Design and implementing cancer data warehouse to support clinical decisions
CN116756373A (zh) 基于知识图谱更新的项目评审专家筛选方法、系统及介质
Pradeepa et al. DEODORANT: a novel approach for early detection and prevention of polycystic ovary syndrome using association rule in hypergraph with the dominating set property
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
Yang et al. Evaluation and assessment of machine learning based user story grouping: A framework and empirical studies
Olszak et al. Big Data Approach to Analyzing the IT Job Market
Fan et al. Prior matters: simple and general methods for evaluating and improving topic quality in topic modeling
Smalheiser et al. Design of a generic, open platform for machine learning-assisted indexing and clustering of articles in PubMed, a biomedical bibliographic database
Dixon et al. Occupational models from 42 million unstructured job postings
Jiang et al. A multisource retrospective audit method for data quality optimization and evaluation
Wang et al. An improved approach based on balanced keyword weight to traceability recovery
Manek et al. Classification of drugs reviews using W-LRSVM model
Huang et al. Heterogeneous information network-based patient similarity search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141203

WD01 Invention patent application deemed withdrawn after publication