CN101499098B - 一种网页评估值的确定及运用的方法、系统 - Google Patents

一种网页评估值的确定及运用的方法、系统 Download PDF

Info

Publication number
CN101499098B
CN101499098B CN2009101181501A CN200910118150A CN101499098B CN 101499098 B CN101499098 B CN 101499098B CN 2009101181501 A CN2009101181501 A CN 2009101181501A CN 200910118150 A CN200910118150 A CN 200910118150A CN 101499098 B CN101499098 B CN 101499098B
Authority
CN
China
Prior art keywords
webpage
assessed value
search engine
web page
engine server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009101181501A
Other languages
English (en)
Other versions
CN101499098A (zh
Inventor
陈华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2009101181501A priority Critical patent/CN101499098B/zh
Publication of CN101499098A publication Critical patent/CN101499098A/zh
Priority to HK10100369.1A priority patent/HK1132819A1/xx
Priority to US12/660,606 priority patent/US8364667B2/en
Priority to PCT/US2010/000648 priority patent/WO2010101634A1/en
Priority to JP2011552939A priority patent/JP5329680B2/ja
Priority to EP10749048A priority patent/EP2404267A4/en
Application granted granted Critical
Publication of CN101499098B publication Critical patent/CN101499098B/zh
Priority to US13/683,155 priority patent/US8788489B2/en
Priority to US14/304,674 priority patent/US9223880B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Abstract

本申请公开了一种网页评估值的确定及运用的方法、系统,包括:从搜索引擎服务器获取具有相同或接近相同的内容的网页;确定各网页的生成时间及第一评估值;根据各网页的第一评估值确定生成时间最早的网页的第二评估值。进一步的,搜索引擎服务器根据网页的第二评估值对查询结果进行排序。使用本申请能够为搜索引擎的结果排序增加一个新的重要的排序参数,大幅度提高内容类查询词的搜索结果效果,能够使得用户在网页搜索中找内容类网页的查询结果满意度大幅度提高。

Description

一种网页评估值的确定及运用的方法、系统
技术领域
本申请涉及信息处理技术,特别涉及一种利用计算机对网页评估值进行确定及运用的方法、系统。
背景技术
搜索引擎从互联网上抓取网页,在用户查询时,会找到满足用户关键字的所有网页,然后按照相关度排序,以便排在前面的搜索结果更符合用户的需求。由于相关度是一个非常复杂、基于很多参数计算出来的结果,因而也就存在着利用各种各样的算法和参数来计算相关度的技术方案,并且,一般来说各个搜索引擎厂商用的参数和算法也都各不相同。
例如,Google在1997年提出了Page rank这种提高相关度算法的参数以及计算这个参数的算法。大概可以这样理解Page rank,重要网页链接出去的目标网页,会获得重要的权值,被越多重要网页指向的网页,page rank越高,也就越重要。
现有搜索引擎在处理内容类查询词的排序时,普遍解决的不够好。重点体现在如下两点:
1、使用外链计算Page rank以判断重要网页的方式基本不起作用,导致排在搜索结果前面的结果,很大程度上并不是用户最想看到的结果。
2、现有的搜索引擎通常用排重技术处理内容相同或接近相同的网页。例如,在抓取网页时并不储存某些内容重复的网页,或在收到用户搜索请求后不显示某些内容重复的网页或将该等内容排在搜索结果的后面。如果没有合适的链接数据,搜索引擎有可能根据Page rank算法将原创网页忽略或排后,而把转载的网页排在前面。因此,现有的搜索引擎并没有考虑到内容相同的不同网页对结果排序的影响。
发明内容
本申请提供一种利用计算机对网页评估值进行确定及运用的方法、系统,用以提高对查询结果的反馈准确性。
本申请实施例中提供了一种利用计算机对网页评估值进行确定方法,包括如下步骤:
从搜索引擎服务器系统获取具有相同或接近相同的内容的网页;
搜索引擎服务器系统确定所述各网页的生成时间及第一评估值,所述第一评估值为根据包括外链在内的数据而形成的评估值;
搜索引擎服务器系统根据所述各网页的第一评估值确定生成时间最早的网页的第二评估值,以根据各网页的所述第一评估值和所述第二评估值进行排序,所述第二评估值为与所述生成时间最早的网页具有相同或接近相同的内容的网页的第一评估值之和与第一加权系数的乘积加上所述生成时间最早的网页的第一评估值与第二加权系数的乘积。
较佳地,所述具有相同或接近相同的内容的网页,包括数字指纹相同的网页。
较佳地,所述获取具有相同或接近相同的内容的网页,包括:
获取各网页中非第一段和非最后一段的中间内容最长的段落或段落非第一句和非最后一句的最长句子,并生成数字指纹;
根据数字指纹确定各网页内容是否相同后获取具有相同或接近相同的内容的网页。
较佳地,所述确定所述各网页的生成时间,包括下列方式之一或者其组合:
根据网页统一资源定位符URL包含的时间确定;
根据内容类网页中的时间确定;
根据抓取网页的时间确定;
根据最早将网页收入索引的时间确定。
较佳地,所述第二评估值大于所述第一评估值。
较佳地,所述第一加权系数与所述第二加权系数的取值相同或不同。
本申请还提供了一种根据网页评估值对搜索查询结果进行排序的方法,包括如下步骤:
从搜索引擎服务器系统获取查询后的查询结果;
搜索引擎服务器系统根据各网页的第一评估值及生成时间最早的网页的第二评估值对查询结果排序。
较佳地,进一步包括:
搜索引擎服务器在查询结果中显示每个网页的转载次数。
本申请提供了一种搜索引擎服务器系统,包括:
爬虫系统,用于获取具有相同或接近相同的内容的网页;
索引系统,用于确定各网页的生成时间及各网页的第一评估值,并根据各网页的第一评估值确定生成时间最早的网页的第二评估值,以根据各网页的所述第一评估值和所述第二评估值进行排序,所述第一评估值为根据包括其他网页指向在内的数据而形成的评估值确定,所述第二评估值为与所述生成时间最早的网页具有相同或接近相同的内容的网页的第一评估值之和与第一加权系数的乘积加上所述生成时间最早的网页的第一评估值与第二加权系数的乘积。
较佳地,所述索引系统进一步用于根据网页的数字指纹确定各网页是否具有相同或接近相同的内容。
较佳地,所述索引系统包括:
数字指纹生成单元,用于获取各网页中非第一段和非最后一段的中间内容最长的段落或段落非第一句和非最后一句的最长句子,并生成数字指纹;
比较单元,用于根据数字指纹确定各网页内容是否相同;
获取单元,用于根据数字指纹确定各网页内容是否相同后,获取具有相同或接近相同的内容的网页。
较佳地,所述索引系统进一步用于根据下列方式之一或者其组合确定网页生成时间:
网页统一资源定位符URL包含的时间;
内容类网页中的时间;
抓取网页的时间;
最早将网页收入索引的时间。
较佳地,所述索引系统还用于根据各网页的第一评估值及第二评估值对查询结果排序。
较佳地,所述索引系统进一步用于在查询结果中显示每个网页的转载次数。
本申请有益效果如下:
在本申请实施中,首先获取具有相同或接近相同的内容的网页;然后确定各网页的生成时间及评估值;最后再根据各网页的评估值确定生成时间最早的网页的评估值。
由于在方案中通过对生成时间这一参数考虑到了网页是否为原创,从而确定了与生成时间为依据的、判断网页实际评估值的方案,因此克服了在使用外链计算Page rank以判断重要网页的方式时,导致排在搜索结果前面的结果并不能代表其评估值的问题。
进一步的,还充分利用了内容相同的不同网页之间的评估值之间的关系,并将其用于改进搜索结果的排序,因此提高了查询结果反馈的准确性。
附图说明
图1为本申请实施例中Copy Rank在搜索引擎结果中的效果示意图;
图2为本申请实施例中网页评估值的确定方法实施流程示意图;
图3为本申请实施例中转载网页与原创网页Copy Rank关系示意图;
图4为本申请实施例中根据网页评估值对查询结果进行排序的方法实施流程示意图;
图5为本申请实施例中搜索引擎服务器系统结构示意图;
图6为本申请实施例中搜索引擎服务器系统运用环境结构示意图;
图7为本申请实施例中利用计算机对网页搜索查询结果进行排序的方法实施流程示意图;
图8为本申请实施例中搜索引擎服务器系统结构示意图。
具体实施方式
下面结合附图对本申请具体实施方式进行说明。
发明人在发明过程中注意到:
1、内容类网页往往外链很少,因此使用外链计算Page rank以判断重要网页的方式基本不起作用,从而导致排在搜索结果前面的结果,很大程度上并不是用户最想看到的结果。
2、对于内容相同的不同网页,搜索引擎都把他们当做干扰搜索结果的负面因素,要么被搜索引擎直接扔掉,要么将page rank降的很低。但其实这些内容相同的不同网页,对于改进搜索结果排序具有非常重要的作用。
鉴于此,本申请提出了为搜索引擎的结果排序增加一个新的、重要的排序参数,大幅度提高内容类查询词的搜索结果效果的技术方案。使得网页搜索中找文章的查询结果满意度大幅度提高。下面先对网页评估值的确定实施方式进行说明,在对将该网页评估值运用于返回查询结果以提高搜索准确性的实施方式进行说明。
实施中,借用Google对某个网页的重要性评估的评估值Page Rank的概念,将本申请中网页的评估值称为Copy rank,其代表了一种用于改进搜索引擎相关度排序的参数和产生这个参数的算法,适用于优化内容类查询的搜索结果排序。它利用互联网上文章的转载次数,计算原创网页的Copy rank,并对转载网页进行聚合。搜索引擎在计算相关度时,综合page rank、关键词匹配程度等传统计算相关度的参数和Copy rank,一起计算出一个新的相关度值。在搜索引擎显示结果时,也显示转载数目,以帮助用户最快判断互联网上符合此查询词的最佳结果。
图1为Copy Rank在搜索引擎结果中的效果示意图,如图所示搜索结果,版本(转载次数)越多的文章,越有可能是用户想要看到的文章。
Copy Rank的确定主要包括三个因素,一是判断网页内容是否基本相同;二是判断网页的真实发布时间;三是判断谁是原创网页,下面进行说明。
图2为网页评估值的确定方法实施流程示意图,如图所示,在进行评估值确定时可以包括如下步骤:
步骤201、从搜索引擎服务器系统获取具有相同或接近相同的内容的网页;
步骤202、搜索引擎服务器系统确定各网页的生成时间及第一评估值;
步骤203、搜索引擎服务器系统根据相同或接近相同的内容的各网页的第一评估值确定生成时间最早的网页的第二评估值。
实施中,在步骤201中,具有相同或接近相同的内容的网页包括数字指纹相同的网页。
则获取具有相同或接近相同的内容的网页,可以包括:
从搜索引擎服务器获取各网页中非第一段和非最后一段的中间内容最长的段落或段落非第一句和非最后一句的最长句子,并生成MD5;
根据数字指纹确定各网页内容是否相同后获取具有相同或接近相同的内容的网页。
MD5是message-digest algorithm 5(信息-摘要算法)的缩写,被广泛用于加密和解密技术上,它可以说是文件的“数字指纹”。任何一个文件,无论是可执行程序、图像文件、临时文件或者其他任何类型的文件,也不管它体积多大,都有且只有一个独一无二的MD5信息值,并且如果这个文件被修改过,它的MD5值也将随之改变。因此,实施中可以通过MD5来确定各网页内容是否具有相同或接近相同的内容,即,通过对比同一文件的MD5值,来校验这个文件是否被“篡改”过。MD5的作用在于:当下载了文件后,如果想知道下载的这个文件和网站的原始文件是否一样,就可以给下载的文件做个MD5校验。如果得到的MD5值和网站公布的相同,可确认所下载的文件是完整的。如有不同,说明你下载的文件是不完整的:要么就是在网络下载的过程中出现错误,要么就是此文件已被修改。一般正规的站点,都会提供文件md5校验码。
判断网页内容是否相同,具体采用的办法可以是在所有文章类网页中寻找非第一段和非最后一段的中间最长段落,生成MD5作为网页指纹,作为判断相同的依据。对于只有两个以内段落的文章,取段落非第一句和非最后一句的最长句子,生成MD5作为网页指纹,作为判断相同的依据。如果两个网页的网页指纹一样,则说明两个网页的整篇内容是相同的。
具体实施中,寻找非第一段和非最后一段的中间最长段落,以及取段落非第一句和非最后一句的最长句子生成MD5作为网页指纹,是因为发明人在发明过程中注意到:通常第一段和最后一段、第一句和最后一句被改动的频率很高,并不能代表文章的真实内容,因此选用非第一段和非最后一段、非第一句和非最后一句来生成MD5。
实施中,可以通过MD5来判断两个文件之间是否相同,本领域技术人员易知,当在执行步骤201获取具有相同或接近相同的内容的网页时,并不仅限于采用通过MD5判断内容一致的方式,其他能够比较出两个网页内容是否一致的技术手段均可采用,其最终目的在于当存在内容相同的不同网页时,不会把他们当做干扰搜索结果的负面因素来直接扔掉,并将其用于改进搜索结果排序。
在步骤202中,在确定网页的生成时间时可以包括:
根据网页统一资源定位符URL包含的时间,和/或,根据文章类网页中的时间确定网页生成时间。
实施中,判断网页的真实发布时间,可以采用计算机程序抽取的方式获得。由于目前大部分网站的网页都是动态生成的,因而网页服务器返回的Last-modifed(最后修改时间)字段已经没有什么意义,因此可以从网页正文等处抽取时间。抽取时间可以按以下算法:
首先判断URL中是否含有时间,例如下面的一个例子中的URL(UniformResource Locator,统一资源定位符)中便含有时间:
htfp://news.sina.com.cn/w/2009-01-15/184017052431.shtml;
然后通过程序便有可能把2009-01-15抽取出来。实施中,具体的抽取手段可以包括:A、列举常用的时间格式,并建立时间格式维表用以存储常用的时间格式;B、按照分割符对URL进行切分;C、将切分后的每一部份在时间格式维表中进行查询,若与该维表中的时间格式相匹配,则说明该URL中含有时间,便可以提取该时间。
如果URL中没有时间,则从文章正文中获取。文章正文中的时间格式有很多种,实施中只要根据实际情况将计算机程序考虑周全,便可以尽快找到时间。如下面的例子中文章正文中便含有时间:
2009年01月15日18:40中国网
2009年12月27日23:35
通过程序便可以很容易的把2009年12月27日23:35抽取出来。
实施中,在具体的实现手段上,可以通过分析网页中各种时间、日期格式的代码,用正则表达式匹配等任意程序方式来进行获取。如果程序不能确定生成时间,则取当前抓取的时间作为生成时间。实施中不论如何实现计算生成时间,其目的在于将获取的生成时间用于识别各个转载网页的原创版本。
实施中可以在抓取网页、建立网页索引时就判断生成时间,并将生成时间储存在网页索引的一个字段(FIELD)里。
实施中,当存在无法从文章或URL中抽取生成时间的情况时,可以使用抓取网页的时间作为生成时间,也可以把最早收入索引的时间假定为文章生成时间。
在通过上述方式确定出内容相同的网页以及其生成时间后,便可以判断出谁是原创网页,即,在所有相同网页中,找到真实发布时间最早的网页,即为原创网页。
下面对步骤202中的评估值进行说明。
首先对Page Rank进行说明,以便更深入的理解本申请中所定义的CopyRank,Page Rank是Google对某个网页的重要性评估的评估值,是Page Rank,而不是″Site Rank(网站评估值)″,不是对整个网站的评估值。如果一个网站首页的Page Rank是5,那只是说首页那个页面的Page Rank是5,而不是说整个网站是5。Google的Page Rank不针对网站而言,只针对页面,一个个的页面。
某个页面的Page Rank值,主要来自于指向这个页面的所有链接所代表的那些页面。所谓“所有链接”包括两部分:本网站之外的外部链接和本网站内的其他页面的内部链接。也就是说,任何一个页面的Page Rank值,是由外部链接和内部链接共同作用而产生的。而不只是由外部链接或只由内部链接单方面作用而产生。假设一个网站的首页因为有两个Page Rank为5的外部链接指过来,加上还有更多的内部链接指向首页,才使网站首页的Page Rank为5。
同样道理,在本申请实施中,当在步骤203根据相同或接近相同的内容的各网页的评估值确定生成时间最早的网页的评估值时,便可以确定第二评估值为与生成时间最早的网页具有相同或接近相同的内容的网页的第一评估值之和与第一加权系数的乘积加上所述生成时间最早的网页的第一评估值与第二加权系数的乘积。
也就是说,Copy Rank使得原创网页获得了所有转载网页的权重,即,CopyRank可按如下公式计算:
原创网页的Copy Rank=∑每个转载网页的Page Rank*w1+原创网页的Page Rank*w 2;其中W1和W2为加权系数,W1和W2的值可在实施中按照需要自行设定,并且W1和W2的取值可以相同也可以不同。
需要说明的是,本申请实施例中用以说明评估值的是Page Rank,但是,实际上根据包括其他网页指向在内的数据而形成的评估值都可以用来实现。
另外,实施中可以在抓取网页下来后生成Copy Rank,也可以定期更新所有网页的CopyRank。
实施中,在确定原创网页时还可以根据历史数据或经验建立一个网站黑名单和/或白名单,属于白名单上网站的网页假定为原创网页,而属于黑名单上网站的网页假定为非原创网页。
图3为转载网页与原创网页Copy Rank关系示意图,如图所示,将外链网页给所有转载网页的评估值权重,全部给了原创网页,相当于从外部看,这些网页外链的评估值都给了原创网页。
图4为根据网页评估值对查询结果进行排序的方法实施流程示意图,如图所示,在将网页评估值运用于返回查询结果以提高搜索准确性的实施过程中可以包括如下步骤:
步骤401、从搜索引擎服务器系统获取查询后的查询结果;
步骤402、搜索引擎服务器系统在查询结果中获取具有相同或接近相同的内容的网页;
步骤403、搜索引擎服务器系统确定各网页的生成时间及第一评估值;
步骤404、搜索引擎服务器系统根据各网页的第一评估值确定生成时间最早的网页的第二评估值;
步骤405、根据各网页的第一评估值及第二评估值对查询结果排序。
搜索引擎服务器系统在步骤405的实施中便可以根据评估值对查询到的网页排序,比如按评估值大小排序后依次返回并显示给查询的用户。
进一步的,搜索引擎服务器系统还可以在查询结果中显示每个网页的转载次数。
基于同一申请构思,本申请实施例中还提供了一种搜索引擎服务器系统,由于系统解决问题的原理与网页评估值的确定方法、根据网页评估值返回查询结果的方法相似,因此系统的实施可以参见方法的实施,重复之处不再赘述。
图5为搜索引擎服务器系统结构示意图,如图所示,搜索引擎服务器系统中可以包括:
爬虫系统501,用于获取具有相同或接近相同的内容的网页;
索引系统502,用于确定各网页的生成时间及各网页的第一评估值,并根据各网页的第一评估值确定生成时间最早的网页的第二评估值。
实施中,索引系统可以进一步用于根据网页的MD5确定各网页是否具有相同或接近相同的内容。
网页获取模块中可以包括:
MD5生成单元,用于获取各网页中非第一段和非最后一段的中间内容最长的段落或段落非第一句和非最后一句的最长句子,并生成MD5;
比较单元,用于根据MD5确定各网页内容是否相同;
获取单元,用于根据MD5确定各网页内容是否相同后,获取具有相同或接近相同的内容的网页。
实施中,索引系统可以进一步用于根据网页URL包含的时间,和/或,根据内容类网页中的时间确定网页生成时间。
实施中,索引系统还可以进一步用于根据各网页的第一评估值确定生成时间最早的网页的第二评估值时,确定所述第二评估值为与所述生成时间最早的网页具有相同或接近相同的内容的网页的第一评估值之和与第一加权系数的乘积加上所述生成时间最早的网页的第一评估值与第二加权系数的乘积。
实施中,索引系统还可以进一步用于根据包括外链在内的数据而形成的评估值确定各网页的第一评估值。
索引系统还可以用于根据根据各网页的第一评估值及第二评估值对查询结果排序。
实施中,索引系统还可以进一步用于在查询结果中显示每个网页的转载次数。
图6为搜索引擎服务器系统运用环境结构示意图,如图所示,网络中包括有根据网页评估值对查询结果进行排序的索引系统601、网页602(代表产生网页的各种实体,具体的网页可以表现为服务器等,实施例中用网页来指代这类实体仅是为了描述方便,同时,这类实体可以有很多,图中仅以一个示意)、用户端603(图中仅用一个示意)、爬虫系统604、查询系统605。
由图也可见,索引系统601与爬虫系统604也构成了搜索引擎服务器系统,需要说明的是,图中各功能实体的连接方式有通过网络连接,也有以直线表示的直接连接,但是,该图仅为示意图,实际实施中,可以根据实际需要进行网络架构,比如:爬虫系统与索引系统通过因特网连接,而非局域网连接等,只要各实体之间能实现数据交互的连接方式均可实施本申请。
实施中,网页602提供各种网页内容,爬虫系统604可以在网络中采集各种网页信息,并将网页信息储存在一个或多个服务器上。本申请中的索引系统601根据采集到的网页信息建立索引,以便快速处理查询请求。索引系统601还可以确定网页的第一评估值和第二评估值,并根据上述第一评估值、第二评估值进行网页的排序。所述排序可以在爬虫系统采集到网页信息之后立刻进行,也可以在收到用户端的查询请求之后再进行,本申请对此并不做限定。
当用户端603通过网络到查询系统605中进行查询时,查询系统605便可以根据排序装置601的排序结果,将用户端603所需的信息返回,使得用户获得的查询结果排序准确,能够真实反映查询结果之间的关系。
由上述实施例可以看出,本申请在实施时使用了内容被转载的次数和基于转载计算出来的Copy Rank值,Copy rank是能够改进搜索引擎相关度排序的参数,适用于优化内容类查询的搜索结果排序。能够利用互联网上文章的转载次数计算原创网页的Copy rank,并对转载网页进行聚合,因此在搜索引擎计算相关度时,便可以综合如page rank等根据包括外链在内的数据而形成的评估值、关键词匹配程度等传统计算相关度的参数和Copy rank一起计算出一个新的相关度值,在搜索引擎显示结果时,也显示转载数目,以帮助用户最快判断互联网上符合此查询词的最佳结果,因而能够提高搜索引擎返回结果的准确性。本领域技术人员易知,搜索引擎包括网页搜索引擎、图片搜索引擎、软件搜索引擎等,本申请的技术方案能够提高搜索引擎结果的准确性,包括对搜索结果排序顺序的影响(使得转载次数更高的结果排在前面),也包括对搜索结果界面的影响(在结果页面上显示转载的次数,在结果页面上优先展示原创内容)等。
本申请实施例中为搜索引擎的结果排序增加一个新的重要的排序参数,大幅度提高内容类查询词的搜索结果效果,能够使得用户在网页搜索中找文章的查询结果满意度大幅度提高。
为了描述的方便,以上所述装置的各部分以功能分为各种模块或单元分别描述。当然,在实施本发明时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。
图7为利用计算机对网页搜索查询结果进行排序的方法实施流程示意图,如图所示,当进行排序时可以包括如下步骤:
步骤701、从搜索引擎服务器系统获取具有相同或接近相同的内容的网页;
步骤702、搜索引擎服务器系统确定所述各网页的生成时间;
步骤703、搜索引擎服务器系统根据所述各网页的生成时间的先后顺序进行排序。
进一步的,还可以包括:搜索引擎服务器系统根据所述各网页的生成时间以及外链数据进行排序。
图8为搜索引擎服务器系统结构示意图,如图所示,包括:
爬虫系统801,用于从搜索引擎服务器系统获取具有相同或接近相同的内容的网页;
搜索引擎服务器802,用于搜索引擎服务器系统确定所述各网页的生成时间,并根据所述各网页的生成时间的先后顺序进行排序。
搜索引擎服务器802还可以进一步用于根据所述各网页的生成时间以及外链数据进行排序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (14)

1.一种利用计算机对网页评估值进行确定的方法,其特征在于,包括如下步骤:
从搜索引擎服务器系统获取具有相同或接近相同的内容的网页;
搜索引擎服务器系统确定所述各网页的生成时间及第一评估值,所述第一评估值为根据包括外链在内的数据而形成的评估值;
搜索引擎服务器系统根据所述各网页的第一评估值确定生成时间最早的网页的第二评估值,以根据各网页的所述第一评估值和所述第二评估值进行排序,所述第二评估值为与所述生成时间最早的网页具有相同或接近相同的内容的网页的第一评估值之和与第一加权系数的乘积加上所述生成时间最早的网页的第一评估值与第二加权系数的乘积。
2.如权利要求1所述的方法,其特征在于,所述具有相同或接近相同的内容的网页,包括数字指纹相同的网页。
3.如权利要求2所述的方法,其特征在于,所述获取具有相同或接近相同的内容的网页,包括:
获取各网页中非第一段和非最后一段的中间内容最长的段落或段落非第一句和非最后一句的最长句子,并生成数字指纹;
根据数字指纹确定各网页内容是否相同后获取具有相同或接近相同的内容的网页。
4.如权利要求1所述的方法,其特征在于,所述确定所述各网页的生成时间,包括下列方式之一或者其组合:
根据网页统一资源定位符URL包含的时间确定;
根据内容类网页中的时间确定;
根据抓取网页的时间确定;
根据最早将网页收入索引的时间确定。
5.如权利要求1所述的方法,其特征在于,所述第二评估值大于所述第一评估值。
6.如权利要求5所述的方法,其特征在于,所述第一加权系数与所述第二加权系数的取值相同或不同。
7.一种根据权利要求1至6任一项所述的网页评估值对搜索查询结果进行排序的方法,其特征在于,包括如下步骤:
从搜索引擎服务器系统获取查询后的查询结果;
搜索引擎服务器系统根据各网页的第一评估值及生成时间最早的网页的第二评估值对查询结果排序。
8.如权利要求7所述的方法,其特征在于,进一步包括:
搜索引擎服务器在查询结果中显示每个网页的转载次数。
9.一种搜索引擎服务器系统,其特征在于,包括:
爬虫系统,用于获取具有相同或接近相同的内容的网页;
索引系统,用于确定各网页的生成时间及各网页的第一评估值,并根据各网页的第一评估值确定生成时间最早的网页的第二评估值,以根据各网页的所述第一评估值和所述第二评估值进行排序,所述第一评估值为根据包括其他网页指向在内的数据而形成的评估值确定,所述第二评估值为与所述生成时间最早的网页具有相同或接近相同的内容的网页的第一评估值之和与第一加权系数的乘积加上所述生成时间最早的网页的第一评估值与第二加权系数的乘积。
10.如权利要求9所述的搜索引擎服务器系统,其特征在于,所述索引系统进一步用于根据网页的数字指纹确定各网页是否具有相同或接近相同的内容。
11.如权利要求9所述的搜索引擎服务器系统,其特征在于,所述索引系统包括:
数字指纹生成单元,用于获取各网页中非第一段和非最后一段的中间内容最长的段落或段落非第一句和非最后一句的最长句子,并生成数字指纹;
比较单元,用于根据数字指纹确定各网页内容是否相同;
获取单元,用于根据数字指纹确定各网页内容是否相同后,获取具有相同或接近相同的内容的网页。
12.如权利要求9所述的搜索引擎服务器系统,其特征在于,所述索引系统进一步用于根据下列方式之一或者其组合确定网页生成时间:
网页统一资源定位符URL包含的时间;
内容类网页中的时间;
抓取网页的时间;
最早将网页收入索引的时间。
13.如权利要求9所述的搜索引擎服务器系统,其特征在于,所述索引系统还用于根据各网页的第一评估值及第二评估值对查询结果排序。
14.如权利要求13所述的搜索引擎服务器系统,其特征在于,所述索引系统进一步用于在查询结果中显示每个网页的转载次数。
CN2009101181501A 2009-03-04 2009-03-04 一种网页评估值的确定及运用的方法、系统 Active CN101499098B (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN2009101181501A CN101499098B (zh) 2009-03-04 2009-03-04 一种网页评估值的确定及运用的方法、系统
HK10100369.1A HK1132819A1 (en) 2009-03-04 2010-01-13 A method and system for determining and applying a webpage evaluation value
US12/660,606 US8364667B2 (en) 2009-03-04 2010-03-01 Evaluation of web pages
JP2011552939A JP5329680B2 (ja) 2009-03-04 2010-03-02 ウェブページの評価
PCT/US2010/000648 WO2010101634A1 (en) 2009-03-04 2010-03-02 Evaluation of web pages
EP10749048A EP2404267A4 (en) 2009-03-04 2010-03-02 EVALUATION OF INTERNET PAGES
US13/683,155 US8788489B2 (en) 2009-03-04 2012-11-21 Evaluation of web pages
US14/304,674 US9223880B2 (en) 2009-03-04 2014-06-13 Evaluation of web pages

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101181501A CN101499098B (zh) 2009-03-04 2009-03-04 一种网页评估值的确定及运用的方法、系统

Publications (2)

Publication Number Publication Date
CN101499098A CN101499098A (zh) 2009-08-05
CN101499098B true CN101499098B (zh) 2012-07-11

Family

ID=40946170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101181501A Active CN101499098B (zh) 2009-03-04 2009-03-04 一种网页评估值的确定及运用的方法、系统

Country Status (6)

Country Link
US (3) US8364667B2 (zh)
EP (1) EP2404267A4 (zh)
JP (1) JP5329680B2 (zh)
CN (1) CN101499098B (zh)
HK (1) HK1132819A1 (zh)
WO (1) WO2010101634A1 (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499098B (zh) * 2009-03-04 2012-07-11 阿里巴巴集团控股有限公司 一种网页评估值的确定及运用的方法、系统
US8930437B2 (en) * 2009-10-05 2015-01-06 Tynt Multimedia, Inc. Systems and methods for deterring traversal of domains containing network resources
US20110289216A1 (en) * 2010-05-21 2011-11-24 Timothy Szeto System and Method for Generating Subnets and Using Such Subnets for Controlling Access to Web Content
CN102314435A (zh) * 2010-06-30 2012-01-11 腾讯科技(深圳)有限公司 搜索网页内容的方法及系统
CN101969445B (zh) * 2010-11-03 2014-12-17 中国电信股份有限公司 防御DDoS和CC攻击的方法和装置
CN102231165B (zh) * 2011-07-11 2013-01-09 浙江大学 一种基于用户停留时间分析的个性化网页搜索排序方法
US9189563B2 (en) 2011-11-02 2015-11-17 Microsoft Technology Licensing, Llc Inheritance of rules across hierarchical levels
US9558274B2 (en) * 2011-11-02 2017-01-31 Microsoft Technology Licensing, Llc Routing query results
US8909628B1 (en) * 2012-01-24 2014-12-09 Google Inc. Detecting content scraping
US9191291B2 (en) * 2012-09-14 2015-11-17 Salesforce.Com, Inc. Detection and handling of aggregated online content using decision criteria to compare similar or identical content items
US9298814B2 (en) 2013-03-15 2016-03-29 Maritz Holdings Inc. Systems and methods for classifying electronic documents
US11386181B2 (en) * 2013-03-15 2022-07-12 Webroot, Inc. Detecting a change to the content of information displayed to a user of a website
US11928606B2 (en) 2013-03-15 2024-03-12 TSG Technologies, LLC Systems and methods for classifying electronic documents
CN103177106A (zh) * 2013-03-27 2013-06-26 百度在线网络技术(北京)有限公司 检索方法及设备
US9411786B2 (en) * 2013-07-08 2016-08-09 Adobe Systems Incorporated Method and apparatus for determining the relevancy of hyperlinks
CN103399957A (zh) * 2013-08-21 2013-11-20 百度在线网络技术(北京)有限公司 搜索方法、系统、搜索引擎和客户端
CN104571935A (zh) * 2013-10-18 2015-04-29 宇宙互联有限公司 全局调度系统及方法
CN104572340A (zh) * 2013-10-18 2015-04-29 宇宙互联有限公司 增量备份系统及方法
CN103605704B (zh) * 2013-11-08 2017-02-01 深圳大学 大量url数据任意字段索引及检索方法
CN103902687B (zh) * 2014-03-25 2017-07-04 百度在线网络技术(北京)有限公司 一种搜索结果的生成方法及装置
CN104090976B (zh) * 2014-07-21 2017-06-23 北京奇虎科技有限公司 搜索引擎爬虫抓取网页的方法及装置
CN105630802A (zh) 2014-10-30 2016-06-01 阿里巴巴集团控股有限公司 网页去重方法及装置
CN105447081A (zh) * 2015-11-04 2016-03-30 国云科技股份有限公司 面向云平台的一种政务舆情监控方法
CN106776609B (zh) * 2015-11-19 2020-05-22 北京国双科技有限公司 网站转载数量的统计方法及装置
US10235426B2 (en) * 2016-06-29 2019-03-19 International Business Machines Corporation Proposing a copy area in a document
CN107168997B (zh) * 2017-03-30 2021-07-20 百度在线网络技术(北京)有限公司 基于人工智能的网页原创评估方法、装置及存储介质
CN107357891A (zh) * 2017-07-12 2017-11-17 中云开源数据技术(上海)有限公司 一种主页链接推荐方法
CN110569335B (zh) 2018-03-23 2022-05-27 百度在线网络技术(北京)有限公司 基于人工智能的三元组校验方法、装置及存储介质
CN113763167B (zh) * 2021-08-11 2023-11-17 杭州盈火网络科技有限公司 一种基于复杂网络的黑名单挖掘方法
CN116450634B (zh) * 2023-06-15 2023-09-29 中新宽维传媒科技有限公司 一种数据源权重评估方法及其相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
CN101154224A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种网址导航方法及系统

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5544352A (en) * 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5933827A (en) * 1996-09-25 1999-08-03 International Business Machines Corporation System for identifying new web pages of interest to a user
US6144962A (en) * 1996-10-15 2000-11-07 Mercury Interactive Corporation Visualization of web sites and hierarchical data structures
US6012087A (en) * 1997-01-14 2000-01-04 Netmind Technologies, Inc. Unique-change detection of dynamic web pages using history tables of signatures
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US7308413B1 (en) * 1999-05-05 2007-12-11 Tota Michael J Process for creating media content based upon submissions received on an electronic multi-media exchange
US6269361B1 (en) * 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6832222B1 (en) * 1999-06-24 2004-12-14 International Business Machines Corporation Technique for ensuring authorized access to the content of dynamic web pages stored in a system cache
US6675170B1 (en) * 1999-08-11 2004-01-06 Nec Laboratories America, Inc. Method to efficiently partition large hyperlinked databases by hyperlink structure
US6643641B1 (en) * 2000-04-27 2003-11-04 Russell Snyder Web search engine with graphic snapshots
US6785666B1 (en) * 2000-07-11 2004-08-31 Revenue Science, Inc. Method and system for parsing navigation information
US6757675B2 (en) * 2000-07-24 2004-06-29 The Regents Of The University Of California Method and apparatus for indexing document content and content comparison with World Wide Web search service
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
GB2430507A (en) * 2005-09-21 2007-03-28 Stephen Robert Ives System for managing the display of sponsored links together with search results on a mobile/wireless device
US7904725B2 (en) * 2006-03-02 2011-03-08 Microsoft Corporation Verification of electronic signatures
WO2007137232A2 (en) * 2006-05-20 2007-11-29 Personics Holdings Inc. Method of modifying audio content
US7660804B2 (en) * 2006-08-16 2010-02-09 Microsoft Corporation Joint optimization of wrapper generation and template detection
US9654495B2 (en) * 2006-12-01 2017-05-16 Websense, Llc System and method of analyzing web addresses
US7676520B2 (en) * 2007-04-12 2010-03-09 Microsoft Corporation Calculating importance of documents factoring historical importance
US20080288509A1 (en) * 2007-05-16 2008-11-20 Google Inc. Duplicate content search
US10762080B2 (en) * 2007-08-14 2020-09-01 John Nicholas and Kristin Gross Trust Temporal document sorter and method
US20090327278A1 (en) * 2008-06-26 2009-12-31 Baran-Sneh Alex System and method for ranking web content
KR101086530B1 (ko) * 2008-10-02 2011-11-23 엔에이치엔(주) 웹 문서 원본 판별 방법 및 시스템, 이를 위한 웹 문서 이력 정보 제공 방법 및 시스템
US8695091B2 (en) * 2009-02-11 2014-04-08 Sophos Limited Systems and methods for enforcing policies for proxy website detection using advertising account ID
CN101499098B (zh) * 2009-03-04 2012-07-11 阿里巴巴集团控股有限公司 一种网页评估值的确定及运用的方法、系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
CN101154224A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种网址导航方法及系统

Also Published As

Publication number Publication date
US8788489B2 (en) 2014-07-22
US8364667B2 (en) 2013-01-29
JP5329680B2 (ja) 2013-10-30
US20100228718A1 (en) 2010-09-09
JP2012519901A (ja) 2012-08-30
HK1132819A1 (en) 2010-03-05
EP2404267A4 (en) 2012-12-05
WO2010101634A1 (en) 2010-09-10
CN101499098A (zh) 2009-08-05
US20130144873A1 (en) 2013-06-06
US9223880B2 (en) 2015-12-29
US20150006506A1 (en) 2015-01-01
EP2404267A1 (en) 2012-01-11

Similar Documents

Publication Publication Date Title
CN101499098B (zh) 一种网页评估值的确定及运用的方法、系统
TWI463337B (zh) 用於實施於跨多搜尋引擎之結盟搜尋之方法及系統
US7509477B2 (en) Aggregating data from difference sources
Jäschke et al. Tag recommendations in folksonomies
US7974974B2 (en) Techniques to perform relative ranking for search results
US8612416B2 (en) Domain-aware snippets for search results
TWI397826B (zh) 用於重新排序搜尋結果的系統、方法及裝置
AU2007324329B2 (en) Annotation index system and method
US20120084291A1 (en) Applying search queries to content sets
US20080195586A1 (en) Ranking search results based on human resources data
US9639627B2 (en) Method to search a task-based web interaction
JP2009525520A (ja) 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン
US20150331906A1 (en) System and Method for Query Re-Issue in Search Engines
US20070239692A1 (en) Logo or image based search engine for presenting search results
JP2007219722A (ja) 文書検索サーバおよび文書検索方法
Sharma et al. Web search personalization using semantic similarity measure
AU2012203678A1 (en) Method and apparatus for performing a search for article content at a plurality of content sites
US7836108B1 (en) Clustering by previous representative
CN107851114A (zh) 自动信息检索
KR101446154B1 (ko) 사용자 질의 확장 기법을 이용한 시맨틱 콘텐츠 검색 시스템 및 방법
JP2010123036A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
WO2013063545A1 (en) Accounting for authorship in a web log search engine
CN107463590B (zh) 自动的对话阶段发现
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2010225051A (ja) コンテンツメタ情報付与装置及びその方法並びにコンテンツ検索装置及びその方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1132819

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1132819

Country of ref document: HK