CN1890661A - 信息提取方法及系统 - Google Patents

信息提取方法及系统 Download PDF

Info

Publication number
CN1890661A
CN1890661A CNA2004800364360A CN200480036436A CN1890661A CN 1890661 A CN1890661 A CN 1890661A CN A2004800364360 A CNA2004800364360 A CN A2004800364360A CN 200480036436 A CN200480036436 A CN 200480036436A CN 1890661 A CN1890661 A CN 1890661A
Authority
CN
China
Prior art keywords
attribute
article
computer
readable media
program code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004800364360A
Other languages
English (en)
Other versions
CN100583082C (zh
Inventor
马克·皮尔逊
克雷格·内维尔-曼宁
阿比奈·夏尔马
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN1890661A publication Critical patent/CN1890661A/zh
Application granted granted Critical
Publication of CN100583082C publication Critical patent/CN100583082C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Abstract

本发明揭示用于从文章中识别并提取信息的系统及方法。在一实施例中,一搜索引擎执行一种包括如下的方法:接收复数个文章,并将至少一第一文章识别为一购物文章。所述方法可进一步包括:接收一对一条目的搜索查询,选择与所述搜索查询相关联的第一文章,及至少部分地根据所述搜索查询从所述第一文章中识别一与第一条目相关联的第一属性,所述第一条目与所述搜索查询相关。

Description

信息提取方法及系统
技术领域
本发明大体而言涉及信息提取。更具体而言,本发明涉及用于从文章中提取信息的方法及系统。
背景技术
搜索引擎或搜索引擎程序为一种使用户能够在大量文档中搜索信息的广泛使用的机制。自动化通用搜索引擎通过使用户所输入的搜索查询项与一带索引的网页库相匹配来确定文档(例如网页)的位置。传统的网络搜索引擎(例如GoogleTM搜索引擎)响应于用户所提交的搜索查询而返回一搜索结果集合。所述搜索结果集合可包括一具有一至每一文档的链接的排序的文档列表且可向用户返回所述文档的摘要。所述搜索引擎可根据许多种量度(例如搜索项在文档中出现的次数及包含一通至一文档的链接的文档数量)在搜索结果集合中对各个文章或文档进行排序或分类。例如,一种已知方法(其阐述于由Sergey Brin及Lawrence Page所撰写的名称为“对一大型超级文本搜索引擎的剖析(The Anatomy of a Large-Scale Hypertextual Search Engine)”的文章中)是根据网页的链接结构为文档(例如网页)指定一重要度。
许多文档(例如网页)提供待售条目。此类购物文档允许用户直接(例如通过点击一链接)或间接购买各条目。希望对来自不同卖主的条目的价格进行比较的用户可在一通用搜索引擎中输入对所述条目的查询并获得一相关文档列表。同样,可能存在所述条目的不同版本且用户可能希望查看每一卖主带有哪个版本。为了比较价格或版本,用户必须访问所有提供所述待售条目的文档。另外,在搜索结果集合中可能存在不是购物文档而只是论述该条目(例如评论)的文档。
期望响应于对条目的搜索查询而自一搜索结果集合中的相关文档向用户提供所述条目的某些属性,例如价格、版本及图像。手动搜遍大量文档来提取条目属性可能极费时间且对于很多文档来说不切实际。
因此,需要响应于用户的搜索查询而自动从文档中提取产品信息。
发明内容
本发明的各实施例包括用于从文章中识别并提取信息的方法及系统。在一实施例中,一搜索引擎执行一种方法,该方法包括:接收复数个文章,并将至少一第一文章识别为一购物文章。所述方法可进一步包括:接收针对一条目的搜索查询,选择与所述搜索查询相关联的所述第一文章,及至少部分地根据所述搜索查询而从所述第一文章中识别出一第一属性,所述第一属性与一和搜索查询相关的第一条目相关联。本发明的其他方面涉及计算机系统并涉及具有与上述方面相关的特征的计算机可读媒体。
下文将对本发明各实施例的进一步细节及优点进行阐述。
附图说明
参照附图阅读下文详细说明,将会更好地了解本发明的这些及其他特征、方面及优点,附图中:
图1为一图解说明一本发明一实施例可在其中运行的实例性环境;
图2为一流程图,其图解说明一种根据本发明的一实施例从文章中识别并提取条目属性的方法;及
图3为一流程图,其图解说明一种根据本发明的一实施例从一文章中识别并提取条目价格及图像信息的方法的一实例。
具体实施方式
本发明包括用于信息提取的方法及系统。现在参见附图,在这几个图式中相同编号指示相同元件,图1为一图解说明一用于实施本发明一实施例的实例性环境的方块图。图1中所示的系统100包括多个通过一网络106与一服务器装置104通信的客户机装置102a-n。所示网络106包括因特网。在其他实施例中,可使用例如内联网等其他网络。此外,本发明的方法可在单个计算机内运行。
所示客户机装置102a-n各自包括一计算机可读媒体,例如一耦接至一处理器110的随机存取存储器(RAM)108。处理器110执行存储于存储器108中的计算机可执行程序指令。此类处理器可包括微处理器、ASIC及状态机。此类处理器包括存储指令的媒体(例如计算机可读媒体)或者可与所述媒体通信,所述指令在由所述处理器执行时会使所述处理器实施本文中所述的步骤。计算机可读媒体的各实施例包括(但不限于)能为处理器(例如客户机102a的处理器110)提供计算机可读指令的电子、光学、磁性或其他存储或传输装置。其他适合的媒体实例包括(但不限于)软盘、CD-ROM、DVD、磁盘、存储芯片、ROM、RAM、ASIC、经配置的处理器、所有光学媒体、所有磁带或其他磁性媒体、或计算机处理器可自其读取指令的任何其他媒体。此外,各种其他形式的计算机可读媒体也可向计算机传输或载送指令,包括路由器、专用或公用网络、或其他有线和无线传输装置或信道。所述指令可包括任一种计算机编程语言的代码,包括(例如)C、C++、C#、Visual Basic、Java、Python、Perl、及JavaScript。
客户机装置102a-n也可包括若干外部或内部装置,例如鼠标、CD-ROM、DVD、键盘、显示器或其他输入或输出装置。客户机装置102a-n的实例为个人计算机、数字助理、个人数字助理、蜂窝式电话、移动电话、智能电话、寻呼机、数字图形输入板、膝上型计算机、因特网设备及其他基于处理器的装置。通常,客户机装置102a可为连接至一网络106并与一个或多个应用程序交互作用的任一类型的基于处理器的平台。客户机装置102a-n可在任一能够支持浏览器或由浏览器启用的应用程序的操作系统(例如MicrosoftWindows或Linux)上运行。所示客户机装置102a-n包括(例如)执行一浏览器应用程序(例如Microsoft公司的Internet ExplorerTM、Netscape通信公司的Netscape NavigatorTM及Apple计算机公司的SafariTM)的个人计算机。
通过客户机装置102a-n,用户112a-n可通过网络106来彼此通信并与耦接至网络106的其他系统及装置通信。如图1所示,一服务器装置104也耦接至网络106。在所示实施例中,一用户112a-n在一客户装置102a处产生一搜索查询114。客户装置102a通过网络106将查询114传输至服务器装置104。例如,一用户112a将一关于一条目的原文搜索查询输入至一显示于客户机装置102a上的购物搜索引擎界面或其他客户端软件的一网页中的查询域中,然后所述搜索查询通过网络106传输至服务器装置104。在所示实施例中,一用户112a在一客户机装置102a上输入一搜索查询114,由客户机装置102a将一反映搜索查询114的相关搜索查询信号122传输至服务器装置104。可如图所示直接将搜索查询114直接传输至服务器装置104。在另一实施例中,查询信号122可改为发送至一代理服务器(未显示),然后由代理服务器将查询信号122传输至服务器装置104。也可具有其他配置。
所示服务器装置104包括一执行一购物搜索引擎应用程序(例如FroogleTM搜索引擎)的服务器。类似于客户机装置102a-n,所示服务器装置104包括一耦接至一计算机可读存储器118的处理器116。服务器装置104-其被显示为单个计算机系统-可构建成一计算机处理器网络。服务器装置104的各实例为服务器、主计算机、联网的计算机、基于处理器的装置、及相似类型的系统及装置。客户机处理器110及服务器处理器116可为若干种计算机处理器中的任一种,例如位于Santa Clara,California的Intel公司的及位于Schaumburg,Illinois的Motorola公司的处理器。
存储器118包含购物搜索引擎应用程序-亦称作搜索引擎120。搜索引擎120响应于来自用户112a-n的搜索查询114而查找文章中的相关条目。条目可包括(例如)产品、商品、服务及任何其他待售物品。然后,搜索引擎120通过网络106将结果集合124提供至客户机102a。结果集合124可包括一排序的条目列表、每一条目的属性(例如价格及图像)及至每一包含所述条目的文章的链接(例如网页)。搜索引擎还包括一文档定位器130及一属性处理器132。在所示实施例中,每一搜索引擎均包括驻留于存储器118中的计算机代码。
在所示实施例中,服务器装置104或相关装置确定存储于与网络106相连的其他装置或系统上文章(例如网页)的位置,并在接收并处理一搜索查询114之前给存储器118中或另一数据存储装置上的所述文章加索引。文章包括(例如)各种格式(例如HTML、XML、XHTML)的网页、可移植文档格式(PDF)文件、及字处理器、数据库、及应用程序文档文件、音频、视频、或可在一网络(例如因特网)、个人计算机或其他计算或存储构件上获得的任何类型的任何其他文档或信息。本文所述实施例大体上是就HTML文件或文档来加以说明,但各实施例亦可对任一类型的文章(包括任一类型的图像)运行。在网络漫游期间或之后,服务器装置104或其他装置可确定是否所漫游文档中有的为购物文档。购物文档为一种提供待售条目的文档且在其中可通过与所述文档或相关文档交互作用来购买所述条目。
响应于一搜索查询信号122,文档定位器130识别包含与搜索查询信号122相关的条目的购物文档。一购物文档可包含单个或多个与所述搜索查询相关的条目。购物文档可包含条目属性,例如(举例而言)条目的价格、条目的图像、条目的SKU数及条目的版本。属性处理器132识别并提取某些关联于这一或这些与搜索查询相关的条目的属性。在一实施例中,属性处理器132从由文档定位器130定位出的与搜索查询相关的文档中识别并提取所述条目的价格及与所述条目相关联的图像。下文将进一步阐述文档定位器130及属性处理器132的其他功能及特性。
应注意,本发明可包括具有一不同于图1所示的架构的系统。例如,在根据本发明的一些系统中,属性处理器132可定位于搜索引擎120的外部且可在用户进行搜索查询之前离线实施其功能。图1所示系统100仅为实例性,用于解释图2及3所示的实例性方法。
可实施根据本发明的各种方法。例如,在一实施例中,接收复数个文章,识别一第一文章中的至少一个价格表示形式,识别第一文章中一链接元素或一形式元素中的至少一个购物字符串,并提供一所述第一文章为一购物文章的指示。所述价格表示形式可为一货币符号后面依次跟有一数字、一句点或逗点、两个单数位的数字。所述字符串可出现于一统一资源定位符(URL)、一HTML形式元素(例如<FORM>、<INPUT>、或<IMAGE>)的参数或值、或一HTML<A>标签中的URL中。所述字符串可为“add to cart(添加至推车)”、“add to basket(添加至篮子)”、“add to shopping bag(添加至购物袋)”、“update order(更新次序)”、“cart(推车)”、“basket(篮子)”及“checkout(收款处)”。
在一实施例中,接收对条目的搜索查询,选择与搜索查询相关联的一第一文章,至少部分地根据搜索查询来识别一与来自所述文章的条目相关联的第一属性,至少部分地根据所述搜索查询及所述第一属性来识别一与所述条目相关联的第二属性,并从第一文章中提取第一属性及第二属性。搜索查询可由用户输入或者可由搜索引擎或搜索引擎管理器产生。可从复数个文章中提取属性并可对每一条目进行排序。可将排序的条目列表作为一搜索结果集合提供给用户。或者,搜索引擎可将所提取的属性加上索引并加以存储。
可按众多种方式来识别第一属性及第二属性。例如,可至少部分地根据第一文章的结构来识别第一属性及第二属性。对第一属性及第二属性的识别可包括确定每一属性与一查询词之间的关系。第一文章可具有一树形结构且对第一属性及第二文章的识别可包括确定每一属性与一查询词之间的若干个字、确定自每一属性及一查询词至一最接近的共同先辈的距离、确定一既包含第一属性及一查询词又包含第二属性及一查询词的最小树中的若干节点、确定到一既包含第一属性及一查询词又包含第二属性及一查询词的最小树的深度、确定第一属性与第二属性之间的距离。对第一属性及第二属性的识别也可包括确定关联于与第一文章相关的文章的全局信息。对第一属性及第二属性的识别可同时实施,或者可逐次实施,例如先确定第一属性、然后再确定第二属性。
在一实施例中,第一属性为一与条目相关联的价格而第二属性为一与条目相关联的图像。识别价格可包括确定一价格表示形式得分、确定价格的字号、确定价格的字体、确定紧邻在价格前面的字、及确定紧跟在价格后面的字。识别图像可包括确定一与图像相关联的长宽比、及确定一与图像相关联的发生频率值。
图2图解说明一种实例性方法200,其提供一种用于从文档中识别并提取条目属性的方法。此实例性方法仅以举例说明方式提供,因为存在众多种实施本发明方法的方式。图2所示方法200可由各种系统中的任一系统执行或以其他方式实施。下文以举例方式将方法200阐述成由图1所示的系统100实施,且在对图2所示实例性方法的解说中引用系统100的各种元件。
在202中,搜索引擎120识别购物文档。购物文档为一种提供待售条目的文档且在其中可通过与所述文档或相关文档交互作用来购买所述条目。搜索引擎120可在网络漫游106期间或在网络漫游106之后确定购物文档。搜索引擎120可在所漫游文档的一索引中为每一被识别为购物文档的文档提供一指示(例如旗标)。
为了确定一文档是否为一购物文档,搜索引擎120可检测所述文档中指示所述文档提供待售条目的特定格式化特性。由于文档常常论述待售条目但不实际提供待售条目(例如是对条目的评论),因而用户可见的文档特征往往不可靠。因此,搜索引擎120可在确定一文档是否为购物文档时着重于所述文档的非用户可见的机械方面。例如,倘若为HTML文档,搜索引擎120可确定文档中是否存在任何指示所述文档为一购物文档的形式元素或链接元素。搜索引擎120可搜寻出现于URL、一HTML形式元素(例如<FORM>、<INPUT>、或<IMAGE>)的参数或值、或一HTML<A>标签中的URL中的字符串。例如,一形式或链接元素中的下列字符串指示一购物文档:“addto cart(添加至推车)”、“add to basket(添加至篮子)”、“add to shopping bag(添加至购物袋)”、“update order(更新次序)”、“cart(推车)”、“basket(篮子)”及“checkout(收款处)”。有众多种其他类似字符串也可指示一购物文档。在确定一文档是否为一购物文档时,搜索引擎120也可确定在所述文档上是否出现价格。具体而言,搜索引擎120可识别所述文档是否包含一价格表示形式。一价格表示形式可为货币符号后面依次跟有一数字、一句点、两个单数位的数字,例如“$15.89”。同样,搜索引擎可识别除“$”以外的其他货币符号并可寻找一指示一货币的小数的逗点而不是句点,例如ε15,89。
在204中,搜索引擎120通过网络106自一客户机装置102a接收一搜索查询信号122。一用户112a可将表示一所述用户希望购买或希望获得其购买信息的条目的文本输入一客户机装置102a中。客户机装置可产生一表示由用户输入的搜索查询114的相关搜索查询信号122并通过网络106将搜索查询信号122传输至服务器装置104。例如,如果用户112a对购买一照相机感兴趣,则其可在客户机装置102a中输入“照相机”且客户机装置将一相关搜索查询信号122发送至服务器装置104。或者,搜索引擎120或一搜索引擎管理器可产生一关于一个或多个条目的搜索查询,以便能够从文档中提取条目属性。
在206中,文档定位器130识别与在搜索查询中所请求的条目相关的购物文档。对于搜索查询“照相机”这一实例而言,文档定位器130可尝试对所有提供照相机以供购买的购物文档进行定位。文档定位器130可使用传统技术来识别相关购物文档,例如(举例而言)将所述搜索查询词与购物文档的索引词相比对。
在208中,对于在步骤206中由文档定位器130所识别的每一购物文档而言,由属性处理器132来识别并提取某些与包含于所述文档中的这一或这些条目相关联的属性。条目属性可包括(例如)条目名称、所述条目的价格、所述条目的图像、所述条目的SKU码、所述条目的版本、所述条目的说明、及与所述条目相关的其他信息。可根据众多个因素,例如查询词、文档结构、相关文档的全局信息及其他所识别出的或潜在的属性,来识别文档中的条目属性。
例如,属性处理器132可通过确定一潜在属性与所述搜索查询中所使用的词的关系来识别条目的潜在属性。可根据众多个距离量度及基于文档结构的结构量度来确定此种关系。例如,属性处理器132可通过确定一潜在属性距查询词的距离、一潜在属性在文档结构中的位置、及一潜在属性的字号及字体来确定一关系。属性处理器132也可使用文档中各潜在属性之间的关系来确定条目的属性。可识别并提取每一条目的多个属性。例如,属性处理器可根据查询词来识别并提取一条目标题,且随即使用此属性及所述查询词来识别并提取所述条目的价格,并使用所提取的两个属性及所述查询词来识别并提取所述条目的图像。通过使属性选择倾向于文档中彼此接近的东西,可提高所选属性的品质。由属性处理器132用于识别及选择与条目相关联的属性的全局信息可包括(例如)来自一特定卖主或主机的文档数量、一图像在网络上被引用的次数、及图像的尺寸。属性处理器132可同时确定一条目的不同属性或者每次确定一个属性。
图3图解说明子例程208的一实例并具体图解说明为一文档中的条目确定两个属性-价格及图像-的实例。在302中,属性处理器132确定条目的一潜在价格列表。属性处理器132可通过检查文档并确定与每一潜在价格相关联的价格信号来确定潜在价格。这些价格信号可包括价格表示形式、潜在价格的字体、潜在价格与特定字的接近性、及与潜在价格相关的距离及结构量度。
例如,可赋予每一潜在价格一表示所述价格看起来多么好像一价格的价格表示形式得分。一价格通常将具有一货币指示符(例如“$”)、一后面依次跟有一句点及两个单数位的数字,因而价格可形如“$15.89”。潜在价格的字号如果为一大的字号,则其可指示其为一价格。字体也可指示潜在价格是否为一实际价格。例如,一加删除线的字型可指示该潜在价格不是条目的价格。紧位于潜在价格前面的词(例如“our price(我方价格)”、“your price(你方价格)”、“sale price(售价)”及“sale(出售)”)可指示为一价格。相反地,某些紧位于一潜在价格前面的字可指示所述潜在价格不是一实际价格,例如(举例而言)“starting at(自...起)”、“over(超过)”、“about(约)”“was(曾为)”、“save(节约)”、“rebate(折扣)”及“shipping(发货)”。一紧位于潜在价格前面或后面的国家缩写(例如“US”)可指示其为一实际价格。
一条目的价格或其他属性有可能非常接近在所述条目的搜索查询中所用的词。因此,属性处理器132可利用各种距离及结构量度来确定一潜在价格与一查询词的接近性。一个此种距离量度为一潜在价格与一查询词之间的字数。可对具有一树形结构的文档使用其他距离量度。如为所属领域的技术人员所知,HTML文档具有一可由复数个小的树形结构形成的分层树形结构。对于树形结构的文档而言,属性处理器132可确定自一潜在价格至与一查询词共享的最接近共同先辈的距离及既包含一潜在价格又包含一查询词的最小树的深度。属性处理器还可使用既包含一潜在价格又包含一查询词的最小树中若干节点的结构量度来确定条目的潜在价格。
根据某些或所有这些价格信号,属性处理器132识别一文档中一条目的潜在价格并为来自一文档的条目编辑一潜在价格列表。在一实施例中,属性处理器132随后可根据在一决策树中所使用的这些相同信号来对所述列表进行分类及排序。对列表进行分类及排序的其他方法也是可能的。
在304中,属性处理器132可为来自一文档的条目确定潜在图像。如同确定条目的潜在价格一样,属性处理器132确定各种图像信号以识别与所述条目相关联的潜在图像。此类信号可为(例如)潜在图像及查询词的各种距离及结构量度、潜在图像及潜在价格的各种距离及结构量度、及关于潜在图像的全局信息。可将在识别潜在价格时所曾使用的类似距离量度及结构量度用于潜在图像及查询词及潜在图像及潜在价格。关于潜在图像的全局信息(例如潜在图像的文件类型、潜在图像的尺寸、潜在图像的长宽比及所述图像的一出现值)也可由属性处理器132用来确定潜在图像。所述出现值可基于所述图像在文档中及网络中的出现频率。最好选取所述条目的呈照片或其他表示形式的条目图像,而不是与条目相关联的标志图或其他不合乎需要的图像。图像可由具有“.gif”、“.jpeg”或“.jpg”扩展名的文件指示。具有奇特长宽比或频繁出现于文档或网络中的图像可能是标志图或其他不合乎需要的图像。另外,极大的图像或小的图像可能表示所述图像不适用或不合适。
根据某些或所有这些信号,属性处理器132为一文档中的条目编辑一潜在图像列表。在一实施例中,属性处理器132随后可根据一决策树中所使用的这些相同信号来对所述列表进行分类及排序。也可具有对所述列表进行分类及排序的其他方法。
在306中,属性处理器132从一文档中选择一条目的最佳潜在价格及最佳潜在图像。属性处理器可将最高有序潜在价格选择为最佳潜在价格且可将最高有序潜在图像选择为最佳潜在图像。使图像及价格选择偏向于文档上彼此接近的东西可提高所选图像及价格的品质。在另一实施例中,在处理器132识别潜在图像之前,处理器132识别最佳潜在价格。
在308中,由属性处理器132提取文档中与所述条目相关的最佳潜在价格及最佳潜在图像并可将其用于编辑所述文档的与所述条目相关的摘要。
现在回到图2,属性处理器可从由文档定位器130所识别出的相关文档中识别并提取所请求条目的属性。在210中,将每一相关文档的条目属性编辑于一搜索结果集合中。
在212中,所编辑的搜索结果集合可由服务器装置104通过网络106传输至客户机装置102a。或者,搜索引擎120可将条目属性加上索引并加以存储,以供响应于来自用户的搜索查询而加以使用。
虽然上文说明包含许多细节,但这些细节不应视为对本发明范围的限制,而应仅视为对所揭示实施例的举例说明。所属领域的技术人员将会设想出许多仍属于本发明的范围内的其他可能的变化形式。措词“第一”及“第二”在本文中只是用来将各条目、文章或属性相互区分。措词“第一”及“第二”并非用来指示时间上的第一或第二,或列表中的第一或第二,或其他次序,除非另外明确指出。例如,“第二”可能在时间上或列表中出现在“第一”之前,除非另外明确表明。

Claims (73)

1、一种方法,其包括:
接收复数个文章;及
将至少一第一文章识别为一购物文章。
2、如权利要求1所述的方法,其中至少部分地通过识别一第一文章中的至少一个价格表示形式来将所述第一文章识别为一购物文章。
3、如权利要求1所述的方法,其中至少部分地通过识别所述第一文章的一链接元素或一形式元素中的至少一个购物字符串来将所述第一文章识别为一购物文章。
4、如权利要求1所述的方法,其进一步包括提供所述第一文章为一购物文章的一指示。
5、如权利要求2所述的方法,其中所述价格表示形式为一货币符号后跟一数字再后跟一句点或逗点及再后跟两个单数位的数字。
6、如权利要求3所述的方法,其中所述字符串包括包含如下的字符串的群组中的至少一个:add to cart(添加至推车),add to basket(添加至篮子),add to shoppingbag(添加至购物袋),update order(更新次序),cart(推车),basket(篮子),及checkout(收款处)。
7、如权利要求1所述的方法,其进一步包括:
接收一对一条目的搜索查询;
使所述第一文章与所述搜索查询相关联;及
至少部分地根据所述搜索查询从所述第一文章中识别一与一第一条目相关联的第一属性,所述第一条目与所述搜索查询相关。
8、如权利要求7所述的方法,其进一步包括至少部分地根据所述搜索查询及所述第一属性来识别一与所述第一条目相关联的第二属性。
9、如权利要求8所述的方法,其进一步包括从所述第一文章中提取所述第一属性及所述第二属性。
10、一种方法,其包括:
接收一对一条目的搜索查询;
识别一与所述搜索查询相关联的第一文章;
至少部分地根据所述搜索查询从所述第一文章中识别一与一第一条目相关联的第一属性,所述第一条目与所述搜索查询相关。
11、如权利要求10所述的方法,其进一步包括至少部分地根据所述搜索查询及所述第一属性来识别一与所述第一条目相关联的第二属性。
12、如权利要求11所述的方法,其进一步包括从所述第一文章中提取所述第一属性及所述第二属性。
13、如权利要求10所述的方法,其进一步包括从所述第一文章中识别与复数个条目相关联的复数个属性,所述复数个条目与所述搜索查询相关。
14、如权利要求11所述的方法,其中所述第一属性及所述第二属性的所述识别至少部分地基于所述第一文章的一结构。
15、如权利要求10所述的方法,其中识别所述第一属性包括确定所述第一属性与一查询词之间的一关系。
16、如权利要求15所述的方法,其中确定所述关系包括确定所述第一属性与一查询词之间的若干个字。
17、如权利要求15所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定一自所述第一属性及一查询词至一最接近的共同先辈的距离。
18、如权利要求15所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定一既包含所述第一属性又包含一查询词的最小树中的若干个节点。
19、如权利要求15所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定所述树形结构中一既包含所述第一属性又包含一查询词的最小树的一深度。
20、如权利要求11所述的方法,其中识别所述第一属性包括确定所述第一属性与所述第二属性之间的一距离。
21、如权利要求10所述的方法,其中所述第一属性为所述第一条目的一价格。
22、如权利要求21所述的方法,其中识别所述价格包括确定一价格表示形式得分。
23、如权利要求21所述的方法,其中识别所述价格包括确定所述价格的一字号。
24、如权利要求21所述的方法,其中识别所述价格包括确定所述价格的一字体。
25、如权利要求21所述的方法,其中识别所述价格包括确定紧位于所述价格前面的字。
26、如权利要求11所述的方法,其中识别所述第一属性及所述第二属性包括确定与和所述第一文章相关的各文章相关联的全局信息。
27、如权利要求11所述的方法,其中识别所述第二属性包括确定所述第二属性与一查询词之间的一关系。
28、如权利要求27所述的方法,其中确定所述关系包括确定所述第二属性与一查询词之间的若干个字。
29、如权利要求27所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定一自所述第二属性及一查询词至一最接近的共同先辈的距离。
30、如权利要求27所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定一既包含所述第二属性又包含一查询词的最小树中的若干个节点。
31、如权利要求27所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定所述树形结构中一既包含所述第二属性又包含一查询词的最小树的一深度。
32、如权利要求11所述的方法,其中识别所述第二属性包括确定所述第二属性与所述第一属性之间的一距离。
33、如权利要求11所述的方法,其中所述第二属性为所述第一条目的一图像。
34、如权利要求33所述的方法,其中识别所述图像包括确定一与所述图像相关联的长宽比。
35、如权利要求33所述的方法,其中识别所述图像包括确定一与所述图像相关联的出现频率值。
36、如权利要求11所述的方法,其中同时实施对所述第一属性及所述第二属性的所述识别。
37、一种包含程序代码的计算机可读媒体,其包括:
用于接收复数个文章的程序代码;及
用于将第一文章识别为一购物文章的程序代码。
38、如权利要求37所述的计算机可读媒体,其中至少部分地通过识别一第一文章中的至少一个价格表示形式来将所述第一文章识别为一购物文章。
39、如权利要求37所述的计算机可读媒体,其中至少部分地通过识别所述第一文章的一链接元素或一形式元素中的至少一个购物字符串来将所述第一文章识别为一购物文章。
40、如权利要求37所述的计算机可读媒体,其进一步包括用于提供所述第一文章为一购物文章的一指示的程序代码。
41、如权利要求38所述的计算机可读媒体,其中所述价格表示形式为一货币符号后跟一数字再后跟一句点或逗点及再后跟两个单数位数字。
42、如权利要求35所述的计算机可读媒体,其中所述字符串包括包含如下的字符串的群组中的至少一个:add to cart(添加至推车),add to basket(添加至篮子),add to shopping bag(添加至购物袋),update order(更新次序),cart(推车),basket(篮子),及checkout(收款处)。
43、如权利要求37所述的计算机可读媒体,其进一步包括:
用于接收一对一条目的搜索查询的程序代码;
用于使所述第一文章与所述搜索查询相关联的程序代码;
用于至少部分地根据所述搜索查询从所述第一文章中识别一与所述条目相关联的第一属性的程序代码。
44、如权利要求43所述的计算机可读媒体,其进一步包括用于至少部分地根据所述搜索查询及所述第一属性来识别一与所述条目相关联的第二属性的程序代码。
45、如权利要求44所述的计算机可读媒体,其进一步包括用于从所述第一文章中提取所述第一属性及所述第二属性的程序代码。
46、一种包含程序代码的计算机可读媒体,其包括:
用于接收一对一条目的搜索查询的程序代码;
用于识别一与所述搜索查询相关联的第一文章的程序代码;
用于至少部分地根据所述搜索查询从所述第一文章中识别一与一第一条目相关联的第一属性的程序代码,所述第一条目与所述搜索查询相关。
47、如权利要求46所述的计算机可读媒体,其进一步包括用于至少部分地根据所述搜索查询及所述第一属性来识别一与所述第一条目相关联的第二属性的程序代码。
48、如权利要求47所述的计算机可读媒体,其进一步包括用于从所述第一文章中提取所述第一属性及所述第二属性的程序代码。
49、如权利要求46所述的计算机可读媒体,其进一步包括用于从所述第一文章中识别与复数个条目相关联的复数个属性的程序代码,所述复数个条目与所述搜索查询相关。
50、如权利要求47所述的计算机可读媒体,其中所述第一属性及所述第二属性的所述识别至少部分地基于所述第一文章的一结构。
51、如权利要求46所述的计算机可读媒体,其中识别所述第一属性包括用于确定所述第一属性与一查询词之间的一关系的程序代码。
52、如权利要求51所述的计算机可读媒体,其中确定所述关系包括用于确定所述第一属性与一查询词之间的若干个字的程序代码。
53、如权利要求51所述的计算机可读媒体,其中所述第一文章具有一树形结构且确定所述关系包括用于确定一自所述第一属性及一查询词至一最接近的共同先辈的距离的程序代码。
54、如权利要求51所述的计算机可读媒体,其中所述第一文章具有一树形结构且确定所述关系包括用于确定一既包含所述第一属性又包含一查询词的最小树中的若干个节点的程序代码。
55、如权利要求51所述的计算机可读媒体,其中所述第一文章具有一树形结构且确定所述关系包括用于确定所述树形结构中一既包含所述第一属性又包含一查询词的最小树的一深度的程序代码。
56、如权利要求47所述的计算机可读媒体,其中识别所述第一属性包括用于确定所述第一属性与所述第二属性之间的一距离的程序代码。
57、如权利要求46所述的计算机可读媒体,其中所述第一属性为所述第一条目的一价格。
58、如权利要求57所述的计算机可读媒体,其中识别所述价格包括用于确定一价格表示形式得分的程序代码。
59、如权利要求57所述的计算机可读媒体,其中识别所述价格包括用于确定所述价格的一字号的程序代码。
60、如权利要求57所述的计算机可读媒体,其中识别所述价格包括用于确定所述价格的一字体的程序代码。
61、如权利要求57所述的计算机可读媒体,其中识别所述价格包括用于确定紧位于所述价格前面的字的程序代码。
62、如权利要求47所述的计算机可读媒体,其中识别所述第一属性及所述第二属性包括用于确定与和所述第一文章相关的各文章相关联的全局信息的程序代码。
63、如权利要求47所述的计算机可读媒体,其中识别所述第二属性包括用于确定所述第二属性与一查询词之间的一关系的程序代码。
64、如权利要求63所述的计算机可读媒体,其中确定所述关系包括用于确定所述第二属性与一查询词之间的若干个字的程序代码。
65、如权利要求63所述的计算机可读媒体,其中所述第一文章具有一树形结构且确定所述关系包括用于确定一自所述第二属性及一查询词至一最接近的共同先辈的距离的程序代码。
66、如权利要求63所述的计算机可读媒体,其中所述第一文章具有一树形结构且确定所述关系包括用于确定一既包含所述第二属性又包含一查询词的最小树中的若干节点的程序代码。
67、如权利要求63所述的计算机可读媒体,其中所述第一文章具有一树形结构且确定所述关系包括用于确定所述树形结构中一既包含所述第二属性又包含一查询词的最小树的一深度的程序代码。
68、如权利要求47所述的计算机可读媒体,其中识别所述第二属性包括用于确定所述第二属性与所述第一属性之间的一距离的程序代码。
69、如权利要求47所述的计算机可读媒体,其中所述第二属性为所述第一条目的一图像。
70、如权利要求69所述的计算机可读媒体,其中识别所述图像包括用于确定一与所述图像相关联的长宽比的程序代码。
71、如权利要求69所述的计算机可读媒体,其中识别所述图像包括用于确定一与所述图像相关联的出现频率值的程序代码。
72、如权利要求47所述的计算机可读媒体,其中同时实施对所述第一属性及所述第二属性的所述识别。
73、一种方法,其包括:
接收复数个文章;
将至少一第一文章识别为一购物文章,其中至少部分地通过识别一第一文章中的至少一个价格表示形式并至少部分地通过识别所述第一文章的一链接元素或一形式元素中的至少一个购物字符来将所述第一文章识别为一购物文章;
接收对一条目的搜索查询;
使所述第一文章与所述搜索查询相关联;
至少部分地根据所述搜索查询从所述第一文章中识别一与一第一条目相关联的价格,所述第一条目与所述搜索查询相关;及
至少部分地根据所述搜索查询及所述价格识别一与所述第一条目相关联的图像。
CN200480036436A 2003-12-10 2004-11-17 信息提取方法及系统 Expired - Fee Related CN100583082C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/731,916 US7836038B2 (en) 2003-12-10 2003-12-10 Methods and systems for information extraction
US10/731,916 2003-12-10

Publications (2)

Publication Number Publication Date
CN1890661A true CN1890661A (zh) 2007-01-03
CN100583082C CN100583082C (zh) 2010-01-20

Family

ID=34652769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200480036436A Expired - Fee Related CN100583082C (zh) 2003-12-10 2004-11-17 信息提取方法及系统

Country Status (5)

Country Link
US (1) US7836038B2 (zh)
EP (1) EP1695232A1 (zh)
CN (1) CN100583082C (zh)
AU (1) AU2004304285B2 (zh)
WO (1) WO2005062192A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102334154A (zh) * 2009-02-24 2012-01-25 电子湾有限公司 用于提供多方向视觉浏览的系统和方法
CN104375985A (zh) * 2014-11-25 2015-02-25 苏州迪云信息科技有限公司 一种从文本中提取物品信息的方法和装置

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7536561B2 (en) 1999-10-15 2009-05-19 Ebrary, Inc. Method and apparatus for improved information transactions
US7840564B2 (en) 2005-02-16 2010-11-23 Ebrary System and method for automatic anthology creation using document aspects
US7433869B2 (en) 2005-07-01 2008-10-07 Ebrary, Inc. Method and apparatus for document clustering and document sketching
US20070078850A1 (en) * 2005-10-03 2007-04-05 Microsoft Corporation Commerical web data extraction system
US7529748B2 (en) 2005-11-15 2009-05-05 Ji-Rong Wen Information classification paradigm
US8145617B1 (en) * 2005-11-18 2012-03-27 Google Inc. Generation of document snippets based on queries and search results
US7693804B2 (en) * 2005-11-28 2010-04-06 Fatlens Inc. Method, system and computer program product for identifying primary product objects
US8156073B1 (en) * 2006-03-29 2012-04-10 Amazon Technologies, Inc. Item attribute generation using query and item data
US8484554B2 (en) * 2006-08-31 2013-07-09 Sap Ag Producing a chart
JP4281017B2 (ja) * 2007-01-05 2009-06-17 ソニー株式会社 情報処理装置、表示制御方法、およびプログラム
US7809707B2 (en) * 2007-07-23 2010-10-05 Sap Ag System and method for identifying element usage in a deep element structure
US8655868B2 (en) 2007-09-12 2014-02-18 Ebay Inc. Inference of query relationships based on retrieved attributes
US20090327223A1 (en) * 2008-06-26 2009-12-31 Microsoft Corporation Query-driven web portals
US8538943B1 (en) * 2008-07-24 2013-09-17 Google Inc. Providing images of named resources in response to a search query
FR2945651A1 (fr) * 2009-05-15 2010-11-19 France Telecom Dispositif et procede de mise a jour d'un profil utilisateur
WO2012058339A1 (en) * 2010-10-26 2012-05-03 Barnes & Noble, Inc System and method for displaying electronic publications cross reference to related application
US9846902B2 (en) * 2011-07-19 2017-12-19 Slice Technologies, Inc. Augmented aggregation of emailed product order and shipping information
US8788436B2 (en) * 2011-07-27 2014-07-22 Microsoft Corporation Utilization of features extracted from structured documents to improve search relevance
US9130892B2 (en) * 2012-06-25 2015-09-08 Verizon Patent And Licensing Inc. Multimedia collaboration in live chat
GB2506450A (en) * 2012-10-01 2014-04-02 Wonga Technology Ltd Web page categorisation
DE102013000615A1 (de) 2013-01-16 2014-07-17 i-market GmbH Automatisches Verfahren um auf Websites diejenigen Webseiten zu erkennen, welche Informationen über Produkte und/oder Dienstleistungen enthalten
US9654906B2 (en) * 2014-06-12 2017-05-16 Samsung Electronics Co., Ltd Method for processing data based on bluetooth protocol and electronic device thereof
US10482528B2 (en) * 2016-04-16 2019-11-19 Boris Sheykhetov Philatelic search service system and method
US10447635B2 (en) 2017-05-17 2019-10-15 Slice Technologies, Inc. Filtering electronic messages
US11803883B2 (en) 2018-01-29 2023-10-31 Nielsen Consumer Llc Quality assurance for labeled training data

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6037939A (en) * 1995-09-27 2000-03-14 Sharp Kabushiki Kaisha Method for enabling interactive manipulation of data retained in computer system, and a computer system for implementing the method
US6298174B1 (en) * 1996-08-12 2001-10-02 Battelle Memorial Institute Three-dimensional display of document set
US5982369A (en) * 1997-04-21 1999-11-09 Sony Corporation Method for displaying on a screen of a computer system images representing search results
US6567980B1 (en) * 1997-08-14 2003-05-20 Virage, Inc. Video cataloger system with hyperlinked output
US5974412A (en) * 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
US6009442A (en) * 1997-10-08 1999-12-28 Caere Corporation Computer-based document management system
US6237011B1 (en) * 1997-10-08 2001-05-22 Caere Corporation Computer-based document management system
US7124129B2 (en) * 1998-03-03 2006-10-17 A9.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US6424980B1 (en) 1998-06-10 2002-07-23 Nippon Telegraph And Telephone Corporation Integrated retrieval scheme for retrieving semi-structured documents
US6317722B1 (en) * 1998-09-18 2001-11-13 Amazon.Com, Inc. Use of electronic shopping carts to generate personal recommendations
US6271840B1 (en) * 1998-09-24 2001-08-07 James Lee Finseth Graphical search engine visual index
US6058417A (en) * 1998-10-23 2000-05-02 Ebay Inc. Information presentation and management in an online trading environment
US6332135B1 (en) * 1998-11-16 2001-12-18 Tradeaccess, Inc. System and method for ordering sample quantities over a network
US6369840B1 (en) * 1999-03-10 2002-04-09 America Online, Inc. Multi-layered online calendaring and purchasing
US6678681B1 (en) * 1999-03-10 2004-01-13 Google Inc. Information extraction from a database
US7096426B1 (en) * 1999-05-07 2006-08-22 Catherine Lin-Hendel Clustered presentation of objects with group and individual identity in, and virtual layered composition of, electronically recorded, computer presented media
US6606625B1 (en) * 1999-06-03 2003-08-12 University Of Southern California Wrapper induction by hierarchical data analysis
US7080070B1 (en) * 1999-07-02 2006-07-18 Amazon Technologies, Inc. System and methods for browsing a database of items and conducting associated transactions
WO2001013273A2 (en) 1999-08-18 2001-02-22 North Carolina State University Systems, methods and computer program products for performing multi-lingual, multi-cultural searches, comparisons, and purchases of products offered for sale at multiple web sites on the internet
US7797195B2 (en) * 1999-09-17 2010-09-14 Michael Jay Langhammer Merchant-affiliated direct wholesale marketing and fulfillment system
US6785671B1 (en) * 1999-12-08 2004-08-31 Amazon.Com, Inc. System and method for locating web-based product offerings
WO2001046870A1 (en) 1999-12-08 2001-06-28 Amazon.Com, Inc. System and method for locating and displaying web-based product offerings
US6615184B1 (en) * 2000-01-04 2003-09-02 Mitzi Hicks System and method for providing customers seeking a product or service at a specified discount in a specified geographic area with information as to suppliers offering the same
US7315864B2 (en) * 2000-03-02 2008-01-01 Valentine Edmund L System and method for creating a book of reports over a computer network
US7660721B2 (en) * 2000-03-28 2010-02-09 Stamps.Com Inc. Apparatus, systems and methods for online, multi-parcel, multi-carrier, multi-service parcel returns shipping management
JP2001290966A (ja) * 2000-04-05 2001-10-19 Hitachi Ltd コンピュータネットワークを利用した販売支援システム及びその方法
US7058598B1 (en) * 2000-04-30 2006-06-06 International Business Machines Corporation Web price optimizer of multiple-item package orders for e-commerce on the internet and method of use
US7076443B1 (en) * 2000-05-31 2006-07-11 International Business Machines Corporation System and technique for automatically associating related advertisements to individual search results items of a search result set
KR100403714B1 (ko) * 2000-06-10 2003-11-01 씨씨알 주식회사 웹문서 레이아웃 이미지 및 웹사이트 구조를 제공하여인터넷 검색을 용이하게 할 수 있는 시스템 및 방법
AU2001266938A1 (en) 2000-06-15 2001-12-24 Infospace, Inc. Unified product purchasing system and method
US7409368B2 (en) * 2000-07-13 2008-08-05 Oes, Inc. Dutch auction system with preregistered bid feature
US6920609B1 (en) * 2000-08-24 2005-07-19 Yahoo! Inc. Systems and methods for identifying and extracting data from HTML pages
US6647383B1 (en) * 2000-09-01 2003-11-11 Lucent Technologies Inc. System and method for providing interactive dialogue and iterative search functions to find information
US7461024B2 (en) * 2000-09-27 2008-12-02 Montgomery Rob R Bidder-side auction dynamic pricing agent, system, method and computer program product
ATE339729T1 (de) * 2000-09-27 2006-10-15 Pertinence Data Intelligence Kollaborative suchmaschine
AU2001296457A1 (en) * 2000-09-29 2002-04-08 Victor Hsieh Online intelligent information comparison agent of multilingual electronic data sources over inter-connected computer networks
US7845554B2 (en) * 2000-10-30 2010-12-07 Fujitsu Frontech North America, Inc. Self-checkout method and apparatus
CA2327192A1 (en) * 2000-11-30 2002-05-30 Ibm Canada Limited-Ibm Canada Limitee System and method for presenting marketing content on a web page
US20020174076A1 (en) * 2000-12-15 2002-11-21 Bertani John A. Search engine and multiple cost analysis for multiple items offered over the internet by different vendors
US20030028446A1 (en) * 2000-12-22 2003-02-06 Stephen Akers Web-enabled method and system for searching correct model data indicative of a porduct to be purchased online
US7599855B2 (en) * 2001-02-13 2009-10-06 Lester Sussman System and method for a complete and convenient shopping experience
US7013289B2 (en) * 2001-02-21 2006-03-14 Michel Horn Global electronic commerce system
US6728706B2 (en) * 2001-03-23 2004-04-27 International Business Machines Corporation Searching products catalogs
US7149804B2 (en) * 2001-04-30 2006-12-12 Sony Computer Entertainment America Inc. Method and system for providing evaluation of text-based products
EP1402409A2 (en) * 2001-06-08 2004-03-31 W.W. Grainger, Inc. System and method for retrieving information from an electronic catalog
US7127416B1 (en) * 2001-06-18 2006-10-24 I2 Technologies Us, Inc. Distributed processing of sorted search results in an electronic commerce system and method
US7092936B1 (en) * 2001-08-22 2006-08-15 Oracle International Corporation System and method for search and recommendation based on usage mining
US7124096B2 (en) * 2001-09-13 2006-10-17 International Business Machines Corporation Query system for service availability according to customized criteria
US20030126095A1 (en) * 2001-12-28 2003-07-03 Docomo Communications Laboratories Usa, Inc. Context-aware market-making service
GB0315154D0 (en) * 2003-06-28 2003-08-06 Ibm Improvements to hypertext integrity
US7130819B2 (en) * 2003-09-30 2006-10-31 Yahoo! Inc. Method and computer readable medium for search scoring
US20050075940A1 (en) * 2003-10-06 2005-04-07 Deangelis Lawrence J. Remote shopping system with integrated product specific advertising
US7340678B2 (en) * 2004-02-12 2008-03-04 Fuji Xerox Co., Ltd. Systems and methods for creating an interactive 3D visualization of indexed media

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102334154A (zh) * 2009-02-24 2012-01-25 电子湾有限公司 用于提供多方向视觉浏览的系统和方法
US8954421B2 (en) 2009-02-24 2015-02-10 Ebay Inc. Systems and methods to provide visual browsing
US9183589B2 (en) 2009-02-24 2015-11-10 Ebay, Inc. Systems and methods to provide visual browsing
CN102334154B (zh) * 2009-02-24 2016-02-03 电子湾有限公司 用于提供多方向视觉浏览的系统和方法
US10095804B2 (en) 2009-02-24 2018-10-09 Ebay Inc. Systems and methods to provide visual browsing
US10509845B2 (en) 2009-02-24 2019-12-17 Ebay Inc. Systems and methods to provide visual browsing
US11436298B2 (en) 2009-02-24 2022-09-06 Ebay Inc. Systems and methods to provide visual browsing
US11836210B2 (en) 2009-02-24 2023-12-05 Ebay Inc. Systems and methods to provide visual browsing
CN104375985A (zh) * 2014-11-25 2015-02-25 苏州迪云信息科技有限公司 一种从文本中提取物品信息的方法和装置

Also Published As

Publication number Publication date
AU2004304285A1 (en) 2005-07-07
WO2005062192A1 (en) 2005-07-07
AU2004304285B2 (en) 2011-08-04
EP1695232A1 (en) 2006-08-30
CN100583082C (zh) 2010-01-20
US20050131764A1 (en) 2005-06-16
US7836038B2 (en) 2010-11-16

Similar Documents

Publication Publication Date Title
CN100583082C (zh) 信息提取方法及系统
US8190556B2 (en) Intellegent data search engine
US20080072140A1 (en) Techniques for inducing high quality structural templates for electronic documents
US20100169311A1 (en) Approaches for the unsupervised creation of structural templates for electronic documents
US20090125529A1 (en) Extracting information based on document structure and characteristics of attributes
US8707167B2 (en) High precision data extraction
CN102687138B (zh) 搜索建议聚类和呈现
US8630972B2 (en) Providing context for web articles
US20080033996A1 (en) Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content
US8793239B2 (en) Method and system for form-filling crawl and associating rich keywords
CN106919625B (zh) 一种互联网用户属性识别方法和装置
JP2003524259A (ja) 情報の空間符号化及び表示
US9697282B2 (en) Search apparatus, search method, search program, and recording medium
CN106126630A (zh) 一种业务对象的收藏、搜索方法和装置
CN111310011B (zh) 一种信息推送方法、装置、电子设备及存储介质
CN101606152A (zh) 通过分类而自动匹配主体到客户的内容的机制
CN115659008A (zh) 大数据信息反馈的信息推送系统、方法、电子设备及介质
Flesca et al. Efficient and effective web change detection
Kuppusamy Machine learning based heterogeneous web advertisements detection using a diverse feature set
WO2008130501A1 (en) Unstructured and semistructured document processing and searching and generation of value-based information
WO2001027712A2 (en) A method and system for automatically structuring content from universal marked-up documents
CN114282119B (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
US11763376B2 (en) System, manufacture, and method for efficiently identifying and segmenting product webpages on an eCommerce website
CN103377199B (zh) 信息处理装置和信息处理方法
CN112000495B (zh) 用于兴趣点信息管理的方法、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: California, USA

Patentee after: Google Inc.

Address before: California, USA

Patentee before: Google Inc.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100120