CN104657402A - 用于语言标签管理的方法和系统 - Google Patents

用于语言标签管理的方法和系统 Download PDF

Info

Publication number
CN104657402A
CN104657402A CN201410641422.7A CN201410641422A CN104657402A CN 104657402 A CN104657402 A CN 104657402A CN 201410641422 A CN201410641422 A CN 201410641422A CN 104657402 A CN104657402 A CN 104657402A
Authority
CN
China
Prior art keywords
linguistic labels
record
thesaurus
linguistic
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410641422.7A
Other languages
English (en)
Other versions
CN104657402B (zh
Inventor
A·Y·伯格米尔
刘速
K·魏德曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN104657402A publication Critical patent/CN104657402A/zh
Application granted granted Critical
Publication of CN104657402B publication Critical patent/CN104657402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Abstract

本公开提供了一种用于语言标签管理的方法和系统。根据本公开的一个方面,一种用于语言标签管理的方法和技术包括:访问标准化的语言标签存储库以识别存储库语言标签的变更;搜索使用语言标签而被分类的数据源的记录以识别在数据源的记录中存在的语言标签;确定在数据源的记录中存在的语言标签是否与存储库语言标签不一致;响应于确定在数据源的记录中存在的语言标签与存储库语言标签不一致,确定针对数据源的语言标签更新策略;以及根据语言标签更新策略对记录执行语言标签更新处理,以基于存储库语言标签对记录重新分类。

Description

用于语言标签管理的方法和系统
背景技术
公共图书馆、国家数据仓库、公共服务资料库以及历史新闻数据库经常收集、分类和挖掘历史记录。元数据管理经常被用于数据分类。例如,语言标签已经被用在元数据中以便分等级、归档、分类和处理所收集的特定语言、脚本、领域和编码类别下的文本、图形、音频和视频流数据格式的国际文档。语言标签可以被嵌入和/或集成到所收集的信息中以支持联网信息处理和管理。具体地,在HTML和XML中,语言标签可以指示HTML和XML文档中的文本或其他项目的语言。
发明内容
根据本公开的一个方面,公开了一种用于国际数据存储库上的语言标签管理的方法和技术。该方法包括:访问标准化语言标签存储库以识别存储库语言标签中的变更;搜索使用语言标签分类的数据源的记录以识别数据源的记录中存在的语言标签;确定数据源的记录中存在的语言标签是否与存储库语言标签不一致;响应于确定数据源的记录中存在的语言标签与存储库语言标签不一致,确定针对数据源的语言标签更新策略;以及根据语言标签更新策略对记录执行语言标签更新处理以基于存储库语言标签对记录重新分类。
附图说明
为了更完整地理解本申请、其目的和优点,现在参考结合附图给出的以下描述,在附图中:
图1是可以在其中实现本公开的说明性实施例的数据处理系统的网络的实施例;
图2是可以在其中实现本公开的说明性实施例的数据处理系统的实施例;
图3是示出可以在其中实现本公开的实施例的用于语言标签管理的数据处理系统的实施例的图;
图4是示出根据本公开实施例的语言标签更新处理的图;
图5是示出根据本公开的使用针对语言标签的抽象层的语言标签更新处理的另一个实施例的图;
图6是示出根据本公开的用于语言标签管理的方法的流程图;并且
图7是示出根据本公开的用于语言标签管理的方法的另一个实施例的流程图。
具体实施方式
本公开的实施例提供了一种用于国际数据存储库上的语言标签管理的方法、系统和计算机程序产品。例如,本公开的实施例能增强语言标签管理、在旧的元数据中更新新语言标签、并重新分类从全世界资源收集的数据。例如,本公开的实施例通过检测语言标签存储库中的新的语言标签、从语言标签存储库动态地同步本地语言标签表、以及根据为数据源建立的配置文件/策略使用新的语言标签动态地更新和/或重新分类所存储的数据,来使得具有语言标签的所存储的元数据能够被管理和/或更新。在一些实施例中,访问标准化语言标签存储库以识别存储库语言标签中的变更;搜索使用语言标签而分类的数据源的记录以识别数据源的记录中存在的语言标签;确定数据源的记录中存在的语言标签是否与存储库语言标签不一致;以及如果这样,则确定针对数据源的语言标签更新策略,根据语言标签更新策略对记录执行语言标签更新处理以基于存储库语言标签对记录重新分类。
所属技术领域的技术人员知道,本公开的各个方面可以实现为系统、方法或计算机程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本公开的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可用或计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本公开。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机或其它可编程数据处理装置以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品。
计算机程序指令还可以加载到计算机、其它可编程数据处理装置或其他设备上,以使一系列操作步骤在计算机、其它可编程装置或其他设备上被执行以产生计算机实现的过程,使得在计算机或其它可编程装置上执行的指令提供用于实现流程图和/或框图中的一个或多个方框中规定的功能/动作的处理。
现在参考附图并且特别参考图1-2,提供可以在其中实现本公开的说明性实施例的数据处理环境的示例性示图。应当理解的是,图1-2仅是示例性的并且并非旨在声称或暗示关于可以在其中实现不同实施例的环境的任何限制。可以对示出的环境进行许多修改。
图1是可以在其中实现本公开的说明性实施例的数据处理系统的网络的图示。网络数据处理系统100是可以在其中实现本公开的说明性实施例的计算机网络。网络数据处理系统100包含网络130,其是用于提供网络数据处理系统100内连接在一起的各种设备和计算机之间的通信链路的介质。网络130可以包括连接,诸如有线、无线通信链路或光纤电缆。
在一些实施例中,服务器140和服务器150与数据存储装置160一起连接到网络130。服务器140和服务器150可以是例如PowerSystemsTM服务器。此外,客户端110和120连接到网络130。客户端110和120可以是例如个人计算机或网络计算机。在示出的示例中,服务器140向客户端110和120提供数据和/或服务,例如但不限于数据文件、操作系统映像以及应用。网络数据处理系统100可以包括附加的服务器、客户端和其他设备。
在示出的示例中,网络数据处理系统100是具有网络130的因特网,网络130表示全世界的使用传输控制协议/因特网协议(TCP/IP)的协议组来相互通信的网络和网关的集合。在因特网的中心是主要节点或主计算机之间的高速数据通信线路的主干,所述主要节点或主计算机由对数据和消息进行路由的数以千计的商业、政府、教育和其他计算机系统组成。当然,网络数据处理系统100也可以被实现为大量不同类型的网络,诸如内联网、局域网(LAN)或广域网(WAN)。图1意在作为一个示例,而并非作为对不同说明性实施例的架构限制。
图2是可以在其中实现根据本公开的用于语言标签管理的系统的实施例的数据处理系统200的实施例,诸如但不限于客户端110和/或服务器140。在该实施例中,数据处理系统200包括总线或通信结构202,其提供处理器单元204、存储器206、持久存储装置208、通信单元210、输入/输出(I/O)单元212和显示器214之间的通信。
处理器单元204用于执行可以被加载到存储器206中的软件指令。处理器单元204可以是一组一个或多个处理器,或者可以是多处理器核,这取决于特定的实现。而且,处理器单元204可以使用一个或多个异构处理器系统来实现,在所述异构处理器系统中主处理器与辅助处理器一起存在于单个芯片上。作为另一个说明性示例,处理器单元204可以是包含相同类型的多个处理器的对称多处理器系统。
在一些实施例中,存储器206可以是随机存取存储器或任何其他适合的易失性或非易失性存储设备。持久存储装置208可以采取各种形式,这取决于特定的实现。例如,持久存储装置208可以包含一个或多个组件或设备。持久存储装置208可以是硬盘驱动器、闪存存储器、可重写光盘、可重写磁带、或上述的某些组合。由持久存储装置208使用的介质也可以是可移除的,诸如但不限于可移除硬盘驱动器。
通信单元210提供与其他数据处理系统或设备的通信。在这些示例中,通信单元210是网络接口卡。调制解调器、电缆调制解调器和以太网卡仅是当前可用类型的网络接口适配器的一些。通信单元210可以通过使用物理和无线通信链路中的任一个或两者来提供通信。
输入/输出单元212使得能够与可被连接到数据处理系统200的其他设备进行数据的输入和输出。在一些实施例中,输入/输出单元212可以通过键盘和鼠标提供针对用户输入的连接。而且,输入/输出单元212可以发送输出到打印机。显示器214提供用于向用户显示信息的机构。
操作系统和应用或程序的指令位于持久存储装置208上。这些指令可以被加载到存储器206中以供处理器单元204执行。不同实施例的处理可以由处理器单元204使用计算机实现的指令来执行,所述指令可以位于存储器(例如存储器206)中。这些指令被称为可以被处理器单元204中的处理器读取和执行的程序代码、计算机可用程序代码、或计算机可读程序代码。不同实施例中的程序代码可以被体现在不同的物理或有形计算机可读介质(诸如存储器206或持久存储装置208)上。
程序代码216以函数形式位于可被选择性地移除的计算机可读介质218上,并且可以被加载到或传输给数据处理系统200以由处理器单元204执行。程序代码216和计算机可读介质218形成这些示例中的计算机程序产品220。在一个示例中,计算机可读介质218可以是有形形式,诸如光盘或磁盘,其被插入到或放入到作为持久存储装置208的一部分的驱动器或其他设备中以便传输给存储设备(诸如作为持久存储装置208的一部分的硬盘驱动器)。以有形形式,计算机可读介质218也可以采取连接到数据处理系统200的持久存储装置的形式,诸如硬盘驱动器、拇指驱动器或闪存存储器。计算机可读介质218的有形形式也被称为计算机可记录存储介质。在一些示例中,计算机可读介质218可以不是可移除的。
可替换地,程序代码216可以通过到通信单元210的通信链路、和/或通过到输入/输出单元212的连接而从计算机可读介质218传递给数据处理系统200。在说明性示例中,通信链路和/或连接可以是物理的或无线的。
为数据处理系统200示出的不同组件并非旨在提供对可以在其中实现不同实施例的方式的架构限制。不同的说明性实施例可以被实现在除了为数据处理系统200示出的那些组件之外还包括其他组件、或者包括取代为数据处理系统200示出的那些组件的组件的数据处理系统中。图2中示出的其他组件可以与示出的说明性示例不同。例如,数据处理系统200中的存储设备是可以存储数据的任何硬件设备。存储器206、持久存储装置208和计算机可读介质218是有形形式的存储设备的示例。
图3是根据本公开的用于语言标签管理的系统300的说明性实施例。系统300可以被实现在数据处理系统或平台(诸如但不限于服务器140和/或150,客户端110和/或120,或其他数据处理系统位置)上。系统300使得能够基于新的语言标签来动态管理在过去收集的多语言数据。例如,本公开的实施例通过检测语言标签存储库中的新的语言标签、从语言标签存储库动态地同步本地语言标签表、以及使用新的语言标签动态地更新和/或重新分类所存储的数据,来使得具有语言标签的所存储的元数据能够被管理和/或更新。
例如,语言标签被用在元数据中以分等级、归档、分类和处理所收集的特定语言、脚本、领域和编码类别下的文本、图形、音频和视频流数据格式的国际文档。语言标签可以被嵌入和/或集成到所收集的信息中以支持联网信息处理和管理。例如,语言标签是标记数字资源以指示其采用的特定人类语言的一种方式。在大多数情况中,存储的材料利用机器可读目录XML(MARCXML)而被分类,并且语言标签作为元数据属性的一部分被保存。现代网页归档是另一个示例(例如,语言标签已经出于不同的信息检索目的而被保存为网页快照的一部分)。在HTML和XML中,语言标签被用作元数据属性以指示HTML和XML文档中的文本或其他项目的语言。语言属性被用来指定HTML中的语言标签,并且xml:lang属性被用于XML。表1示出了Open Graph(开放内容)协议中的语言标签的示例,并且表2示出了不同语言标签类型和格式的若干示例。
<html>
<head>
<meta property="og:locale:alternate"content="fr_FR"/>
</head>
...
</html>
表1
语言标签 语言 子标签
en 英语 语言
mas 马萨伊语(Masai) 语言
fr-CA 加拿大使用的法语 语言+区域
es-419 拉丁美洲使用的西班牙语 语言+区域
zh-Hans 用简体书写的中文 语言+脚本
zh-Hans-CN 中国的用简体书写的中文 语言+脚本+区域
表2
现代语言标签句法由BCP 47定义(BCP表示“最佳当前实践”),并且是针对一系列RFC(请求注解)的永久名称,所述一系列RFC在RFC被更新时其编号会变化。描述语言标签句法的最新RFC是RFC 5646(Tagsfor the Identification of Languages),并且其废弃了较旧的RFC 4646、3066和1766。行业也参考各种ISO(国际标准化组织)标准(例如,ISO 639-1、ISO 639-2、ISO 639-3、ISO-15924、ISO-3166)以创建用于多文化支持的语言标签。除了ISO标准之外,应用或操作系统供应商也被允许从IANA(互联网编号分配机构)语言子标签注册机构注册其自己的标签。
然而,由于技术或政治原因,语言标签被改变、更新、合并、分裂或否决。例如,自从2004年以来,超过27种脚本已经被改变和修订。一个这样的示例是中文脚本“Han”,其被分割为分别针对繁体中文和简体中文的“Hant”和“Hans”。由于语言标签变更,基于不同的产品、平台、标准和不同的历史时期,保存和收集的多语言数据、旧的语言标签不是一致的。表3示出语言标签随时间变化的几个示例。
表3
因此,一些语言标签和相关规则已经随时间而改变。不同的语言标签被用来对不同时期的同一语言的信息和记录进行存储和分等级。换句话说,所存储的同一语言的文件、记录和元数据可以在过去、现在和将来被不同地对待、处理和分等级。这样的语言标签差异会引起数据管理、数据挖掘和信息检索中的问题。在源数据文件中混合有旧的、新的或甚至被否决的语言标签的情况下,可能很难找到期望的或正确的信息。
在图3示出的实施例中,系统300包括主机302(例如,服务器140和/或150或客户端110和/或120),主机302具有处理器单元310、存储器312以及已经使用语言标签被分类的分类数据源314(这样的数据中的至少一些)。数据源314可以驻留在存储器312中,或者位于单独的存储位置(相对于主机302是本地的或远程的)。如表3所示,语言标签可以包括一系列“子标签”,其中每个子标签精炼或缩窄由整体标签识别的语言的范围。在示出的实施例中,识别了三个语言子标签:1)语言子标签;2)脚本子标签;以及3)区域子标签。“语言标签”是指完整的标签(例如,“zh_Hans_CN”)。语言子标签是主要语言,脚本子标签指示区分语言或其方言的书写形式的脚本或书写系统变体,并且区域子标签指示与特定领域或区域相关联或者适合于特定领域或区域的语言变体。应当理解的是,本公开的实施例适用于各种语言标签和子标签标识符。
在示出的实施例中,存储器312包括一个或多个语言标签管理配置文件(management profile)320、一个或多个语言标签表332、以及语言标签管理模块324。语言标签管理模块324通过检测语言标签存储库中的语言标签变更、从语言标签存储库动态地同步本地语言标签表(例如表322)、以及动态地更新所存储的数据源314的数据中嵌入的语言标签和元数据,来使得具有语言标签的数据源314的记录/文件能够被管理和/或更新。例如,在图3中,语言标签管理模块324包括搜索模块330、更新模块332、查看代理(watch agent)334、接口336和验证模块338。语言标签管理模块324可以使用已知的技术以任何适合的方式被实现,所述已知的技术可以基于硬件、基于软件、或者基于二者的某种组合。例如,语言标签管理模块324可以包括用于执行在此描述的各种功能的软件、逻辑和/或可执行代码(例如,作为在处理器单元上运行的软件和/或算法驻留,驻留在处理器或其他类型的逻辑芯片中的硬件逻辑,集中在单个集成电路中或分布在数据处理系统中的不同芯片上)。
语言标签管理模块324可以用来设置和/或配置一个或多个语言标签管理配置文件320。配置文件320可以用来预定义语言标签管理模块324的策略、偏好和/或规则,用于管理适用于特定数据存储/归档的语言标签处理、和/或特定策略/偏好/规则,诸如但不限于:更新语言标签的频率,是否将要替换/修改数据源314中的语言标签,是否应当利用新的语言标签从原始数据记录创建新数据记录(修改新记录中的标签,同时保持原始记录不变),是否应当对数据源314执行新的/当前语言标签到旧的语言标签的映射处理(保持原始数据记录不变/完整,同时将当前语言标签代码链接到这样的数据记录中使用的旧语言标签代码),等等。配置文件320可以被链接到特定数据源314、特定用户、或其组合、或其他特征。用户/管理员可以使用接口336来建立配置文件320、以及记录、跟踪、复查、修改、分析和报告语言标签;启动和/或控制替换和映射旧语言标签的处理;控制语言标签更新;创建、补充和/或编辑语言标签表、等等。
语言标签表322可以包括定义和/或指示从不同的语言标签标准(例如RFC、ISO标准等)派生的语言标签历史的信息。在图3示出的实施例中,表322包括语言子标签历史表340、脚本子标签历史表342、区域子标签历史表344以及语言标签别名表346。表340、342、344和346被用来指示和/或识别语言代码的历史变更、和/或不同的标准、平台和/或应用的代码之间的交叉引用。例如,语言子标签历史表340可以包括诸如下述的语言子标签代码历史条目:
sh->sr
iw->he
脚本子标签历史表342可以包括诸如下述的脚本子标签代码历史条目:
sh->sr-Latn
sr->sr-Cyrl
zh->zh-Hans
zh->zh-Hant
区域子标签历史表344可以包括诸如下述的区域子标签代码历史条目:
YU->CS->RS
语言标签别名表346可以包括使跨越不同标准、平台、应用的标签代码、对于特定用户而言唯一的标签代码等相关或交叉引用的代码条目,诸如:
sr_Cyrl_RS,sr_Cyrl_CS,sr_CS,sr_RS,sr_YU
sr_Latn_RS,sr_Latn_CS,sh_CS,sh_RS,sh_YU
在图3中,管理模块324可以访问或利用一个或多个语言标签存储库350(例如经由网络130或其他类型的通信网络)。语言标签存储库350可以与语言标签存储库或语言标签标准源(诸如ISO、BCP、RFC、IANA等)相关联,使得(一个或多个)存储库350包含当前的标准化的语言标签句法代码。在示出的实施例中,存储库350包括语言子标签代码存储库352、脚本子标签代码存储库354、区域子标签代码存储库356以及语言标签别名参考存储库358。存储库352、354、356和358通常包括当前的语言标签代码信息,诸如与下述有关的信息:语言子标签代码变更,脚本子标签代码变更,区域子标签代码变更,以及分别与某些特定于平台、特定于应用、或其他类型的标签代码相关的变更。
如上所述,语言标签管理模块324包括查看代理334。查看代理334被配置成实时地或者根据预定义/期望的时间表监视和/或跟踪存储库350中的语言标签代码变更。查看代理334访问存储库350、和/或以其他方式被(例如存储库350)通知语言标签代码(例如语言子标签代码、脚本子标签代码、区域子标签代码、和/或语言标签别名代码引用)的任何变更,并且更新对应的/相应的语言标签表322。查看代理334也被配置成实时地或者根据预定义/期望的时间表来监视数据源314(或添加/合并到数据源314中的信息/记录),以识别数据源314中的语言标签,并且在一些示例中将任何发现的语言标签添加到表322中。例如,记录的数据库可以被合并到数据源314中,并且合并的记录可以包含已经被较新的语言标签替换的语言标签、在表322中未被反映的语言标签、等等。查看代理334可以监视和/或自动分析数据源314的添加/合并的记录,并启动对应的动作(例如,如果配置文件320指示,替换合并的记录中的语言标签;生成关于发现的语言标签的警告;与存储库350进行接口连接以获取这些语言标签的变更相关信息;添加关于发现的语言标签的信息到表322中;等等)。查看代理334也可以配置成监视存储库350和/或数据源314,并向用户/管理员警告对语言标签的任何变更、和/或数据源314中任何发现的语言标签(例如,作为将记录添加/合并到数据源314中的结果)。
搜索模块330被配置成寻找数据源314中的语言标签,并把在数据源314中发现的语言标签绑定/关联到表322中阐述的新语言标签。搜索模块330可以执行嵌套的循环搜索以寻找数据源314中的语言标签(例如,第一轮:基于语言子标签历史代码表340的搜索;第二轮:基于脚本子标签历史代码表342的搜索;第三轮:基于区域子标签历史代码表344的搜索;以及第四轮:基于别名历史代码表346的搜索),并根据表322把在数据源314中发现的标签绑定/关联到新的标签代码。在一些实施例中,搜索模块330可以配置成根据单个语言标签输入(例如经由接口336)来寻找数据源341中所有相关的语言标签。
更新模块332被配置成基于当前语言标签代码,执行数据源314中的实时语言标签更新处理、和/或执行针对数据源314的虚拟化元数据生成。例如,基于用户的选择和/或配置文件320,模块332可以搜索数据源314,寻找数据源314中旧的和不一致的语言标签,随后用当前语言标签替换旧标签、或者使用抽象层(诸如生成新的虚拟化元数据(例如元数据的元数据))来将旧的和不一致的语言标签映射到当前语言标签。例如,在一个实施例中,更新模块332可以自动地用当前语言标签替换数据源314中的旧语言标签。然而,在一些示例中,用新标签替换旧标签可能是不合乎期望的(例如,用户可能不想破坏和/或修改原始数据记录的完整性)。因此,在另一个实施例中,不是用数据源314记录中的当前标签去替换或更新旧标签,而是更新模块332可以配置成创建参考元数据360(file_ID,old_langTag,new_langTag)、并将所创建的参考元数据360链接到数据源314记录,由此对于数据源314记录将旧语言标签映射到新语言标签。
验证模块338被配置成验证语言标签替换/更新已经被正确地执行、和/或验证参考元数据360链接到对应的数据源314记录。例如,在一些实施例中,验证模块338可以跟踪更新/变更后的数据源314记录,并验证更新/变更后的记录包含当前语言标签、和/或以其他方式基于当前语言标签而被定位。如果没有,则验证模块338可以配置成撤销和/或逆转处理,并生成关于不成功的更新/替换操作的警告。在一些实施例,验证模块338可以配置成生成副本和/或备选数据源314记录,更新语言标签,验证其准确性,随后用更新后的记录替换原始数据源314记录。验证模块338也可以生成与待更新的记录和更新后的记录相对应的日志文件,并验证相同的记录(或记录数量)或日志文件信息匹配特定的语言标签更新处理。因此,应当理解的是,验证模块338可以配置成使用各种不同的技术来验证可接受的语言标签处理。
因此,在操作中,管理模块324可以与语言标签存储库350进行接口连接,并确定/识别语言标签代码的任何变更。管理模块324随后可以自动地更新语言标签表322以反映这样的语言标签代码中的历史变更。管理模块324也可以自动地(例如取决于特定配置文件320中设置的某些规则和/或处理)利用新的/更新后的语言标签代码信息处理数据源314(例如,基于新的语言标签代码来更新、修改和/或创建参考元数据,生成指示语言标签状态信息的报告,等等)。管理模块324随后可以自动地验证针对数据源314的语言标签处理已经被正确地执行。
图4是示出根据本公开的语言标签替换的图。如上面讨论的,在一些示例中,基于当前的标准语言标签,数据源314可能包括旧的和/或不一致的语言标签。管理模块324可以搜索数据源314(例如数据源的现存或旧的记录3141),定位这样的数据记录中的语言标签,基于语言标签表322确定当前语言标签,并自动地替换语言标签,由此用当前语言标签创建数据源的更新后的记录3142。管理模块可以跟踪哪些记录正被更新,并验证更新后的记录已经利用当前语言标签正确地得到更新。
图5是示出根据本公开的语言标签替换的另一个实施例的图。如之前描述的,数据源314可以包括这样的记录:用户不想修改该记录,或者不能够在对这样的数据的完整性或特性不造成负面影响的情况下修改该记录(或由于另一原因而不能修改该记录)。在该实施例中,作为修改和/或替换这样的数据记录中的语言标签的替代方案,创建关系元数据,其将受影响的数据记录(及其旧语言标签)链接到当前语言标签。例如,在示出的实施例中,某些数据源314记录可以被组织为文件夹或其他类型的群组(尽管这样的群组不是必须的),其中特定文件夹的数据记录引用或使用旧语言标签。管理模块324搜索数据源314,识别数据源314中的旧语言标签,从表322识别当前语言标签,并创建语言标签参考元数据360,其将当前语言标签绑定/链接到旧语言标签。例如,在图5中,元数据3601是为文件夹1创建的,以便将当前语言标签sr_Latin_RS链接到使用旧语言标签sr_Latin_CS的数据记录的文件夹。元数据3602是为文件夹2创建的,以便将当前语言标签sr_Latin_RS链接到使用旧语言标签sh_CS的数据记录的文件夹。元数据3603是为文件夹3创建的,以便将当前语言标签sr_Latin_RS链接到使用旧语言标签sh_YU的数据记录的文件夹。元数据3604是为文件夹4创建的,以便将当前语言标签sr_Cyrl_RS链接到使用旧语言标签sr_RS的数据记录的文件夹。元数据3605是为文件夹5创建的,以便将当前语言标签sr_Cyrl_RS链接到使用旧语言标签sr_CS的数据记录的文件夹。元数据3606是为文件夹6创建的,以便将当前语言标签sr_Cyrl_RS链接到使用旧语言标签sr_YU的数据记录的文件夹。参考元数据360可以作为数据源314的一部分被存储,或者以其他方式被定位。因此,当使用当前语言标签搜索数据时,参考元数据360将指向/链接到使用旧语言标签的数据记录,由此使得旧的原始数据记录能够保持完整。
图6是示出根据本公开的用于语言标签管理的方法的实施例的流程图。该方法从框602开始,在框602中查看代理334在(一个或多个)语言标签存储库350中监视对语言标签代码的变更和/或更新。在判定框604,确定对语言标签代码的变更和/或更新是否已经发生。如果没有,则该方法继续在(一个或多个)语言标签存储库350中监视对语言标签代码的变更和/或更新。如果在判定框604确定对语言标签代码的更新和/或变更已经发生,则该方法进行到框606,在框606中查看代理334在语言代码历史表322中添加和/或更新对应的语言标签代码。
图7是示出根据本公开的用于语言标签管理的方法的实施例的流程图。该方法从框702开始,在框702中可以设置和/或加载(一个或多个)语言标签管理配置文件320。在框704,管理模块324加载和/或以其他方式访问语言标签历史表322。在框706,管理模块324分析数据源314。在框708,管理模块324识别在数据源314中使用的语言标签。在框710,管理模块324报告所发现的语言标签的状态。例如,在一些实施例中,管理模块324可以生成报告、和/或以其他方式提供状态信息,其标识所发现的语言标签、指示特定的语言标签是否被废弃或者已经以其他方式被替换/更新、指示要求额外信息的语言标签(例如,可能指示在表322中缺少针对所发现的语言标签的历史信息)、等等。
在判定框712,确定数据源314是否包含旧的、无效或过时的语言标签。例如,管理模块324可以利用表322中的信息评估数据源314中发现的标签,以确定所发现的标签是否已经被更新/变更。如果为否,则可能不需要进一步的动作。然而,如果数据源314包含旧的/无效语言标签,则该方法进行到判定框714,在判定框714中确定旧的/无效标签是否应当被替换。例如,管理模块324可以评估配置文件320,以确定旧的/无效语言标签是否应当被自动替换、或者是否应当执行另一个动作(如果有的话)。如果将要替换旧的/无效语言标签,则该方法进行到框716,在框716中管理模块324用当前语言标签替换数据源314中旧的/无效的语言标签。在判定框718,确定语言标签是否被替换。例如,如果数据源314不能被修改、或者管理模块324遇到阻止管理模块324成功替换/更新数据源314中的语言标签的条件,则管理模块324可以在框720生成详述这样的条件的状况的错误日志。
如果语言标签被替换/更新,则该方法从判定框718进行到框722,在框722中管理模块324验证语言标签替换/更新处理。如上面所指示的,管理模块324可以验证数据源314的更新后的记录可使用当前语言标签而被定位,可以再次搜索数据源314以验证在数据源314中没有旧的/无效语言标签,可以比较语言标签替换之前和之后的数据源314的日志文件,或者可以执行其他动作以验证旧语言标签已经利用当前语言标签代码而被成功更新。在判定框724,确定语言标签替换/更新处理是否已经被成功验证。如果为否,则该方法进行到框720,在框720中管理模块324可以生成指示未通过验证的细节的错误日志。如果语言标签替换/更新处理在判定框724通过验证,则该方法结束。
在判定框714,如果将不替换所发现的旧的/无效语言标签的替换/更新,则该方法进行到判定框726,在判定框726中确定是否将对所发现的语言标签生成语言标签参考元数据360。例如,如前面所指示的,如果某些数据记录被改变,则这些记录可能会被损害。因此,在这样的数据中修改/替换旧语言标签可能是不合乎期望的。如果将不创建参考元数据360(例如,如果期望使用将旧标签链接到新标签的另一种方法,或者如果需要数据源314的进一步复查/分析),则该方法结束。如果将要创建参考元数据360,则该方法进行到框728,在框728中管理模块324基于当前语言标签(例如通过使用表322中的信息),来创建针对旧语言标签的语言标签参考元数据。在框730,管理模块324将参考元数据360链接到旧语言标签。在判定框732,确定参考元数据360是否已经被链接到旧语言标签。如果为否,则该方法进行到框720,在框720中管理模块324可以生成指示未成功链接的细节的错误日志。如果已成功链接,则该方法进行到框734,在框734中管理模块324验证参考元数据360对旧语言标签的链接。例如,管理模块324可以验证由参考元数据360链接的数据源314的记录可使用当前语言标签而被定位,或者可以执行其他动作来验证旧语言标签已成功链接到当前语言标签代码。如果验证不成功,则该方法进行到框720,在框720中管理模块324可以生成指示未成功验证的细节的错误日志。如果验证成功,则该方法结束。
因此,本公开的实施例使得能够基于新语言标签来动态管理在过去收集的多语言数据。例如,本公开的实施例通过检测语言标签存储库中的新语言标签变更、从语言标签存储库动态地同步本地语言标签表、以及动态地更新所存储的数据中嵌入的语言标签和元数据,来使得具有语言标签的所存储的数据能够被管理和/或更新。
在此所用的术语仅用于描述特定实施例的目的,并且并非旨在限制本公开。如在此所使用的,单数形式的“一”、“一个”和“该”旨在也包括复数形式,除非上下文另有明确指示。将进一步理解的是,当在本说明书中使用时,术语“包括”和/或“包含”指的是所陈述的特征、整数、步骤、操作、元件和/或组件的存在,而并不排除一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组合的存在或附加。
下面的权利要求中的所有装置或步骤加功能元件的对应结构、材料、动作和等效体意在包括任何用于结合其他明确宣称的宣称元件来执行功能的结构、材料或动作。本发明的描述已为说明和描述之目的而被呈现,而非意在是无遗漏的或局限于所公开形式的公开。在不脱离本公开的范围和精神的前提下,许多修改和变化对于本领域普通技术人员来说将是明显的。实施例被选择并描述以便最佳解释本公开的原理和实际应用,并且使得本领域普通技术人员能够理解本公开从而获得具有适合于所预期的特定用途的各种修改的各种实施例。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

Claims (14)

1.一种方法,包括:
访问标准化的语言标签存储库以识别存储库语言标签的变更;
搜索使用语言标签而被分类的数据源的记录以识别在所述数据源的记录中存在的语言标签;
确定在所述数据源的记录中存在的语言标签是否与所述存储库语言标签不一致;
响应于确定在所述数据源的记录中存在的语言标签与所述存储库语言标签不一致,确定针对所述数据源的语言标签更新策略;以及
根据所述语言标签更新策略对所述记录执行语言标签更新处理,以基于所述存储库语言标签对所述记录重新分类。
2.如权利要求1所述的方法,其中所述语言标签更新处理包括:自动地利用对应的存储库语言标签替换所述数据源的记录中的语言标签。
3.如权利要求1所述的方法,其中所述语言标签更新处理包括:
基于存储库语言标签创建元数据;以及
将所述元数据链接到所述数据源的记录中的相关语言标签。
4.如权利要求1所述的方法,还包括:
在所述标准化的语言标签存储库中监视对存储库语言标签的变更;以及
响应于检测到对所述存储库语言标签的变更,自动地更新具有所述存储库语言标签的变更历史的语言标签表。
5.如权利要求4所述的方法,还包括:基于所述语言标签表中的所述变更历史,识别所述数据源的记录中的与所述存储库语言标签不一致的语言标签。
6.如权利要求4所述的方法,还包括:
在所述数据源中监视添加的记录;
响应于检测到添加的记录,基于所述语言标签表来确定所述添加的记录是否具有与所述存储库语言标签不一致的语言标签;以及
响应于确定所述添加的记录具有与所述存储库语言标签不一致的语言标签,自动地根据所述语言标签更新策略对所述添加的记录执行所述语言标签更新处理。
7.如权利要求1所述的方法,还包括:在完成所述语言标签更新处理时,自动地基于所述存储库语言标签来验证所述数据源的记录的重新分类。
8.一种系统,包括:
使用语言标签而被分类的数据源;
处理器单元;以及
能够由所述处理器单元执行以便执行以下操作的逻辑:
访问标准化的语言标签存储库以识别存储库语言标签的变更;
搜索所述数据源的记录以识别在所述数据源的记录中存在的语言标签;
确定在所述数据源的记录中存在的语言标签是否与所述存储库语言标签不一致;
响应于确定在所述数据源的记录中存在的语言标签与所述存储库语言标签不一致,确定针对所述数据源的语言标签更新策略;以及
根据所述语言标签更新策略对所述记录执行语言标签更新处理,以基于所述存储库语言标签对所述记录重新分类。
9.如权利要求8所述的系统,其中所述逻辑能够被执行以自动地利用对应的存储库语言标签替换所述数据源的记录中的语言标签。
10.如权利要求8所述的系统,其中所述逻辑能够被执行以便:
基于存储库语言标签创建元数据;以及
将所述元数据链接到所述数据源的记录中的相关语言标签。
11.如权利要求9所述的系统,其中所述逻辑能够被执行以便:
在所述标准化的语言标签存储库中监视对存储库语言标签的变更;以及
响应于检测到对所述存储库语言标签的变更,自动地更新具有所述存储库语言标签的变更历史的语言标签表。
12.如权利要求11所述的系统,其中所述逻辑能够被执行以便基于所述语言标签表中的所述变更历史,识别所述数据源的记录中的与所述存储库语言标签不一致的语言标签。
13.如权利要求11所述的系统,其中所述逻辑能够被执行以便:
在所述数据源中监视添加的记录;
响应于检测到添加的记录,基于所述语言标签表来确定所述添加的记录是否具有与所述存储库语言标签不一致的语言标签;以及
响应于确定所述添加的记录具有与所述存储库语言标签不一致的语言标签,自动地根据所述语言标签更新策略对所述添加的记录执行所述语言标签更新处理。
14.如权利要求8所述的系统,其中所述逻辑能够被执行以便在完成所述语言标签更新处理时,自动地基于所述存储库语言标签来验证所述数据源的记录的重新分类。
CN201410641422.7A 2013-11-20 2014-11-13 用于语言标签管理的方法和系统 Active CN104657402B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/084,890 US9830376B2 (en) 2013-11-20 2013-11-20 Language tag management on international data storage
US14/084890 2013-11-20

Publications (2)

Publication Number Publication Date
CN104657402A true CN104657402A (zh) 2015-05-27
CN104657402B CN104657402B (zh) 2017-12-12

Family

ID=53174362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410641422.7A Active CN104657402B (zh) 2013-11-20 2014-11-13 用于语言标签管理的方法和系统

Country Status (3)

Country Link
US (4) US9830376B2 (zh)
CN (1) CN104657402B (zh)
DE (1) DE102014116369A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177123A (zh) * 2019-12-30 2020-05-19 联想(北京)有限公司 用于优化标签库的方法、装置、电子设备和介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9569421B2 (en) * 2012-10-31 2017-02-14 Excalibur Ip, Llc Method and system for improved language identification using language tags
US10169373B2 (en) * 2014-08-26 2019-01-01 Sugarcrm Inc. Retroreflective object tagging
US20160267075A1 (en) * 2015-03-13 2016-09-15 Panasonic Intellectual Property Management Co., Ltd. Wearable device and translation system
US10152476B2 (en) * 2015-03-19 2018-12-11 Panasonic Intellectual Property Management Co., Ltd. Wearable device and translation system
US10437586B2 (en) * 2017-01-03 2019-10-08 Infosys Limited Method and system for dynamic impact analysis of changes to functional components of computer application
US11271955B2 (en) * 2017-12-28 2022-03-08 Fireeye Security Holdings Us Llc Platform and method for retroactive reclassification employing a cybersecurity-based global data store
US11240275B1 (en) 2017-12-28 2022-02-01 Fireeye Security Holdings Us Llc Platform and method for performing cybersecurity analyses employing an intelligence hub with a modular architecture
US10635939B2 (en) * 2018-07-06 2020-04-28 Capital One Services, Llc System, method, and computer-accessible medium for evaluating multi-dimensional synthetic data using integrated variants analysis
US11200294B2 (en) * 2019-03-20 2021-12-14 Hisense Visual Technology Co., Ltd. Page updating method and display device
US11182456B2 (en) 2019-09-13 2021-11-23 Oracle International Corporation System and method for providing a user interface for dynamic site compilation within a cloud-based content hub environment
US11727083B2 (en) * 2019-09-13 2023-08-15 Oracle International Corporation System and method for automatic selection for dynamic site compilation within a cloud-based content hub environment
US11586820B2 (en) * 2020-08-10 2023-02-21 Ebay Inc. Techniques for enhancing the quality of human annotation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234785A1 (en) * 2004-04-13 2005-10-20 Burman Robert F Electronic shipping label with updateable visual display
CN101043346A (zh) * 2006-03-22 2007-09-26 腾讯科技(深圳)有限公司 一种为联系人添加标签的方法及系统
CN101996207A (zh) * 2009-08-24 2011-03-30 宏碁股份有限公司 文件标签系统及搜寻与管理文件标签的方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665687B1 (en) * 1998-06-26 2003-12-16 Alexander James Burke Composite user interface and search system for internet and multimedia applications
JPWO2002035369A1 (ja) * 2000-10-13 2004-03-04 株式会社東芝 データ中継システム、データ中継方法、データ中継プログラム、情報処理方法及び情報処理プログラム
US20020129021A1 (en) * 2000-12-26 2002-09-12 Appareon System, method and article of manufacture for handling global data in a supply chain system
US7086004B2 (en) * 2001-04-19 2006-08-01 International Business Machines Corporation Generalized mechanism for unicode metadata
JP2002333895A (ja) * 2001-05-10 2002-11-22 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム
US7043716B2 (en) * 2001-06-13 2006-05-09 Arius Software Corporation System and method for multiple level architecture by use of abstract application notation
US20030154071A1 (en) * 2002-02-11 2003-08-14 Shreve Gregory M. Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents
US8266215B2 (en) * 2003-02-20 2012-09-11 Sonicwall, Inc. Using distinguishing properties to classify messages
US7383269B2 (en) * 2003-09-12 2008-06-03 Accenture Global Services Gmbh Navigating a software project repository
US20070255712A1 (en) * 2005-01-10 2007-11-01 Instant Information Inc. Methods and systems for enabling the collaborative management of information using controlled access electronic workspace
US7792833B2 (en) * 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
US7548927B2 (en) 2005-04-21 2009-06-16 Microsoft Corporation Abstracted metadata policy component and related architecture
WO2007148289A2 (en) 2006-06-23 2007-12-27 Koninklijke Philips Electronics N.V. Representing digital content metadata
US7783644B1 (en) * 2006-12-13 2010-08-24 Google Inc. Query-independent entity importance in books
US8996376B2 (en) * 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20090287471A1 (en) * 2008-05-16 2009-11-19 Bennett James D Support for international search terms - translate as you search
US8250083B2 (en) * 2008-05-16 2012-08-21 Enpulz, Llc Support for international search terms—translate as you crawl
US8346540B2 (en) * 2008-06-03 2013-01-01 International Business Machines Corporation Deep tag cloud associated with streaming media
US8676863B1 (en) * 2008-09-15 2014-03-18 Liberty Mutual Insurance Company Maintaining a relational database and its schema in response to a stream of XML messages based on one or more arbitrary and evolving XML schemas
EP2441010A4 (en) * 2009-06-09 2016-12-28 Ebh Entpr Inc METHODS, APPARATUS AND SOFTWARE FOR ANALYZING THE CONTENT OF MICROBLOGUE MESSAGES
WO2011004367A1 (en) * 2009-07-09 2011-01-13 Eliyahu Mashiah Content sensitive system and method for automatic input language selection
US8560299B2 (en) * 2010-04-29 2013-10-15 International Business Machines Corporation Opening a message catalog file for a language that is not installed
US8327261B2 (en) * 2010-06-08 2012-12-04 Oracle International Corporation Multilingual tagging of content with conditional display of unilingual tags
US9262398B2 (en) * 2011-05-31 2016-02-16 Google Inc. Language set disambiguator
US20130254553A1 (en) * 2012-03-24 2013-09-26 Paul L. Greene Digital data authentication and security system
US9368104B2 (en) * 2012-04-30 2016-06-14 Src, Inc. System and method for synthesizing human speech using multiple speakers and context
US9672209B2 (en) * 2012-06-21 2017-06-06 International Business Machines Corporation Dynamic translation substitution
US9569421B2 (en) * 2012-10-31 2017-02-14 Excalibur Ip, Llc Method and system for improved language identification using language tags
WO2014113071A1 (en) * 2013-01-15 2014-07-24 Viki, Inc. System and method for captioning media
US9373322B2 (en) * 2013-04-10 2016-06-21 Nuance Communications, Inc. System and method for determining query intent
US9529901B2 (en) * 2013-11-18 2016-12-27 Oracle International Corporation Hierarchical linguistic tags for documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234785A1 (en) * 2004-04-13 2005-10-20 Burman Robert F Electronic shipping label with updateable visual display
CN101043346A (zh) * 2006-03-22 2007-09-26 腾讯科技(深圳)有限公司 一种为联系人添加标签的方法及系统
CN101996207A (zh) * 2009-08-24 2011-03-30 宏碁股份有限公司 文件标签系统及搜寻与管理文件标签的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177123A (zh) * 2019-12-30 2020-05-19 联想(北京)有限公司 用于优化标签库的方法、装置、电子设备和介质

Also Published As

Publication number Publication date
US10621211B2 (en) 2020-04-14
US10621212B2 (en) 2020-04-14
DE102014116369A1 (de) 2015-05-21
CN104657402B (zh) 2017-12-12
US20180060414A1 (en) 2018-03-01
US20180060415A1 (en) 2018-03-01
US20150142813A1 (en) 2015-05-21
US20150142764A1 (en) 2015-05-21
US9830376B2 (en) 2017-11-28
US9864793B2 (en) 2018-01-09

Similar Documents

Publication Publication Date Title
CN104657402A (zh) 用于语言标签管理的方法和系统
US10474455B2 (en) Automating identification of code snippets for library suggestion models
US11494181B2 (en) Automating generation of library suggestion engine models
US11568134B2 (en) Systems and methods for diagnosing problems from error logs using natural language processing
US8782609B2 (en) Test failure bucketing
US8255903B2 (en) Data processing system and method
EP3695310A1 (en) Blackbox matching engine
US20160306627A1 (en) Determining errors and warnings corresponding to a source code revision
BR112015011537B1 (pt) Método e dispositivo de armazenamento para associação de metadados com código fonte
An et al. An empirical study of crash-inducing commits in Mozilla Firefox
CN114528008A (zh) 基于分布式版本控制系统的代码管控方法、设备及介质
Jung et al. A survey on mining software repositories
US20170154029A1 (en) System, method, and apparatus to normalize grammar of textual data
Nadim et al. Leveraging structural properties of source code graphs for just-in-time bug prediction
CN112241370B (zh) 一种api接口类的校验方法、系统及装置
Garg et al. Synthesizing code quality rules from examples
Tan et al. Detecting outdated code element references in software repository documentation
Wille et al. Identifying variability in object-oriented code using model-based code mining
Herzig et al. Mining bug data: A practitioner’s guide
CN113672512A (zh) 代码检查规则生成方法、代码检查方法、装置、介质
CN114116471A (zh) 一种自动化代码扫描方法、系统、电子设备与存储介质
Lüders et al. On understanding and predicting issue links
US11829230B2 (en) Globally unique error codes for knowledge document indexing in software systems
US11914993B1 (en) Example-based synthesis of rules for detecting violations of software coding practices
Shang Log Engineering: Towards Systematic Log Mining to Support the Development of Ultra-Large Scale Software Systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant