CN101075259A

CN101075259A - 使用公众网站获取元数据

Info

Publication number: CN101075259A
Application number: CNA200710103715XA
Authority: CN
Inventors: 赫姆达特·波昂; M·E·普卢托夫斯基
Original assignee: Sony Corp; Sony Electronics Inc
Current assignee: Sony Corp; Sony Electronics Inc
Priority date: 2006-05-16
Filing date: 2007-05-16
Publication date: 2007-11-21
Also published as: JP2008004080A; US20070271274A1

Abstract

本发明涉及使用公众网站获取元数据。类别数据集包括类别的名称和关系数据，其中，关系数据定义类别和内容之间的关系。内容的类别通过从与特定内容有关的例如WIKIPEDIA网站的在线公众网站检索网页并分析该网页以获得内容元数据来产生。从内容元数据提取该内容的类别数据。另外，基于类别和关系数据减少类别数据集的语言项。

Description

使用公众网站获取元数据

技术领域

本发明一般地涉及多媒体，尤其是涉及使用公众(community-generated)数据源来产生多媒体元数据。

背景技术

聚类(cluster)和分类(classification)趋于成为某些数据挖掘应用中重要的操作。例如，就帮助用户搜索和自动组织内容的目的，在数据系统中，数据集(dataset)中的数据可能需要进行聚类和/或分类。搜索和自动组织的内容例如：记录的电视节目、电子节目指南条目以及其它类型的多媒体内容。

一般来说，当数据集是数值的时(即，当数据集中的数据都通过某个固有相似性度量(similarity metric)或自然的顺序相关时)，很多聚类和分类算法都能很好的工作。数值的数据集经常描述单一属性或类别。另一方面，类别数据集描述经常是离散的多属性或类别，因此，在这些多属性或类别之间缺乏自然的距离或近似度。

发明内容

类别数据集包括类别的名称和关系数据，其中，关系数据定义类别和内容之间的关系。内容的类别通过从与某条具体内容有关的、例如WIKIPEDIA网站的在线公众网站检索网页并分析该网页以获得内容元数据来产生。从内容元数据提取该条内容的类别数据。另外，基于类别和关系数据减少类别数据集的语言项(term)。

根据本发明的第一方面，提供一种计算机化方法，其包括：从公众网站接收网页，所述网页与特定内容有关；从所述网页提取多个语言项；将所述多个语言项添加到与所述内容有关的内容元数据；从所述内容元数据提取指定类别数据；将所述指定类别数据加载到类别数据集；以及基于所述类别数据集和关系数据减少所述类别数据集的维度，其中，所述关系数据定义所述类别数据集和与所述类别数据集有关的所述内容之间的关系。

根据本发明的第二方面，提供一种机器可读介质，其包括：从公众网站接收网页，所述网页与特定内容有关；从所述网页提取多个语言项；将所述多个语言项添加到与所述内容有关的内容元数据；从所述内容元数据提取指定类别数据；将所述指定类别数据加载到类别数据集；以及基于所述类别数据集和关系数据减少所述类别数据集的维度，其中，所述关系数据定义所述类别数据集和与所述类别数据集有关的所述内容之间的关系。

根据本发明的第三方面，提供一种设备，其包括：用于从公众网站接收网页的装置，所述网页与特定内容有关；用于从所述网页提取多个语言项的装置；用于将所述多个语言项添加到与所述内容有关的内容元数据的装置；用于从所述内容元数据提取指定类别数据的装置；用于将所述指定类别数据加载到类别数据集中的装置；以及用于基于所述类别数据集和关系数据减少所述类别数据集的维度的装置，其中，所述关系数据定义所述类别数据集和与所述类别数据集有关的所述内容之间的关系。

根据本发明的第四方面，提供一种系统，其包括：处理器；通过总线连接到所述处理器的存储器；以及由所述处理器从所述存储器执行的处理，所述处理使得处理器：从公众网站接收网页，所述网页与特定内容有关；从所述网页提取多个语言项；将所述多个语言项添加到与所述内容有关的内容元数据；从所述内容元数据提取指定类别数据；将所述指定类别数据加载到类别数据集中；以及基于所述类别数据集和关系数据减少所述类别数据集的维度，其中，所述关系数据定义所述类别数据集和与所述类别数据集有关的所述内容之间的关系。

使用不同范围的系统、客户端、服务器、方法和机器可读介质一起说明了本发明。除了该发明内容中说明的本发明的方面，通过参考附图并阅读下面的详细说明，本发明的其它方面将变得明显。

附图说明

附图中的各图以例子的方式说明本发明，而不限制本发明，其中，相似的附图标记表示相似的元件。

图1A示出多媒体数据库系统的一个实施例。

图1B示出内容元数据(metadata)的一个实施例。

图2是用于生成来自公众网站的内容的元数据的方法的一个实施例的流程图。

图3是图2的方法中使用的检索内容网页的方法的一个实施例的流程图。

图4是图3的方法中使用的解析内容网页的方法的一个实施例的流程图。

图5是示出从公众网站生成内容元数据的装置的一个实施例的框图。

图6是适于实现本发明的操作环境的一个实施例的图。

图7是适于在图2～4的操作环境中使用的计算机系统的一个实施例的图。

具体实施方式

在下面对本发明的实施例的详细说明中，参考了附图，在附图中，相似的附图标记表示相似的元件，附图示出了可以实现本发明的具体实施例。充分详细地说明了这些实施例，从而使得本领域的技术人员可以实现本发明，应该理解：可以使用其它实施例，可以进行逻辑、机构、电气、功能和其它改变而不离开本发明的范围。因此，下面的详细说明不视作限制，本发明的范围只由所附权利要求书限定。

图1A是使例如内容的、可以由类别数据11表征的信息可以被自动推荐或选择的数据系统10的图。类别数据也称为类别数据集，其描述多个属性或类别。每个类别包括类别名称和关系数据，其中，关系数据定义类别和一条或多条具体内容之间的关系。词“语言项(term)”这里指类别名称。在一个实施例中，类别数据具有基于语言项和语言项关系的数量的维。类别数据中的语言项和/或语言项关系越多，类别数据的维度越大。相反地，减少语言项和/或语言项关系的数量，类别数据的维度则更小。

此外，类别数据可以是稀疏的，这意味着类别数据具有大的维度。在一个实施例中，因为类别是离散的且在类别间缺乏自然的相似度，所以类别数据稀疏。类别数据的例子包括：电子节目指南(EPG，electronic program guide)数据以及内容元数据。数据系统10包括预处理并加载来自数据库输入8A～N的类别数据11的输入处理模块9。在一个实施例中，数据库输入8A～N可以是例如WIKIPEDIA等的一些公众源中的一个。

将类别数据11聚成簇，并/或通过聚类/分类模块12分类为文件夹。下面详细说明由模块12执行的聚类和分类。聚类/分类模块12的输出是例如簇树或系统树的组织数据结构13。簇树可以用作类别数据的索引组织或用来选择数据的合适簇。

很多聚类应用需要识别最佳描述类别数据中的模式的潜在分布(underlying distribution)的簇树中的特定层。在一个实施例中，组织数据结构13包括：包含含有最优数量的簇的唯一簇组的最优层。

数据分析模块14可以使用基于文件夹的分类器和/或由聚类操作产生的分类器来自动推荐或选择内容。数据分析模块14可以自动推荐或提供用户可能感兴趣的或可能相似于用户选择的相关内容的内容。在一个实施例中，用户识别对特定内容语言项进行分类的类别数据记录的多个文件夹，且数据分析模块14基于相似性用适当文件夹对新内容语言项分配类别数据记录。

同样在图1A中示出的用户接口15用于辅助用户使用数据系统10搜索并自动组织内容。该内容可能是例如所记录的电视节目、电子节目指南(EGP)条目以及多媒体内容。

聚类是根据类别数据间的某些相似度将类别数据组织为多个簇的处理。模块12通过使用一个或多个聚类处理将类别数据聚类，该聚类处理包括：基于种子的分层聚类、常阶(order-invariant)聚类以及子空间限制递归聚类。在一个实施例中，聚类/分类模块12以与接收到类别数据的顺序独立的方式合并各簇。

在第一实施例中，由用户生成的文件夹组可以作为分类器，使得将新的类别数据记录与用户生成的文件夹组相比并将新的类别数据记录自动分拣到最合适的文件夹。在另一个实施例中，聚簇/分类模块12基于用户反馈实现基于文件夹的分类器。基于文件夹的分类器自动生成文件夹集，自动向集添加或从集删除文件夹。基于文件夹的分类器还可以自动修改不在该集中的其它文件夹的内容。

在一个实施例中，聚类/分类模块12可以在聚类或分类之前或期间增加类别数据。用于增加的一个方法是通过输入类别数据的属性。该增加可以在提高类别数据的整体质量的同时减少类别数据的任何稀少以帮助聚类和分类处理。

尽管如图1A中所示为特定单独的模块，但是聚类/分类模块12、组织数据结构13和数据分析模块14可以作为不同的单独的模块实现，或可以结合为一个或多个模块。

如图1A所示，数据库输入模块9处理来自数据库8～N的信息并将其加载到类别数据集11中。数据库输入模块9还包括：处理可以从上述公众源得到的数据的公共源处理器17。在另一个实施例中，公共源处理器17请求某条具体内容的信息并将结果信息处理成可以输入到内容元数据的形式。

数据库输入模块9还包括数据库维数减少模块15。如上所述，类别数据集可能是稀疏的。因为数据集越密集则越易于搜索和/或处理，所以减少数据集的维度可改进使用数据集的模块的效率和质量。在一个实施例中，数据库维数减少模块15通过修改类别数据集11中的语言项和内容之间的语言项关系来减少类别数据集11的维度。语言项关系是定义类别数据11中的语言项和与该语言项相关联的一条或多条具体内容之间的关系的数据。在另一个实施例中，数据库维数减少模块15通过减少类别数据集11中的语言项的数量来减少类别数据集11的维度。用于减少类别数据维度的具体方法在名称为“内容类别数据的维度减少”、申请号为11/435,494、代理人申请案编号为80398.P655的待决美国专利申请中说明。如在该申请中所述，基于类别数据集中的类别名称和关系数据减少类别数据维度，其中，关系数据定义类别数据集和与该类别数据集相关的内容之间的关系。

在一个实施例中，输入处理模块9从内容元数据提取某条具体内容的类别数据。内容元数据是描述由数据系统10使用的内容的信息。图1B示出由输入处理模块9处理的具体内容的内容元数据150的一个实施例。在图1B中，内容元数据150包括：节目标识符152、广播台154、广播区域156、类别数据158、种类160、日期162、开始时间164、结束时间166和持续时间168。此外，内容元数据150可以包括附加字段(未示出)。节目标识符152标识数据系统10使用的内容。广播台154和广播区域156标识广播公司和内容播放的区域。另外，内容元数据150用日期162、开始时间164、结束时间166来标识内容播放的日期和时间。持续时间168是内容的持续时间。此外，种类描述与内容相关的种类。

某条具体内容的类别数据是一个或多个描述与该条内容相关的不同类别的语言项。如图1B中所示，类别数据158包括语言项：最好、进行中、运动、高尔夫类别、高尔夫、艺术、0子文化、活泼、家庭、家庭代际、儿童、孩子、家庭、家庭代际以及儿童。因此，类别数据158包括描述节目的15个语言项。其中一些语言项是相关的，例如“运动、高尔夫类别、高尔夫”涉及运动，“家庭、家庭代际、儿童、孩子”涉及家庭。此外，类别数据158包括重复语言项和可能未定义的语言项(0子文化)。因为定义是不知道的，所以未定义的语言项与一个节目相关。

产生精确且最新内容150的一个问题是保持大量内容。例如，一周的电视节目可能具有上千个节目，而这些节目具有上千条描述该节目的单独的语言项。一个减少维护大量内容数据的成本和时间的可能的方法是从例如基于wiki的网站的公众网站提取内容元数据。基于wiki的网站是允许用户容易地增加和编辑内容的基于web的自由内容百科全书。一个例子是公众可用的WIKIPEDIA服务。因此，wiki百科全书由很多用户协作编写，允许任何人用web浏览器编辑大多数文章。这可以考虑到生成内容的元数据的相对便宜的方式。

图2是用于从公众网站创建内容元数据的方法200的一个实施例的流程图。在一个实施例中，方法200从wiki型网站中检索内容信息。在可选实施例中，方法200从其它公共或商业网站如WIKIPEDIA、GRACENOTE、IMDB、MOODLOGIC、ROTTEN TOMATOES、AMG、AMAZON等中检索内容信息。

方法200可通过万维网(web)检索收集信息来利用包含在wiki中的信息。在块202处，方法200检索与感兴趣的内容有关的信息。例如，在一个实施例中，方法200检索标题、种类以及与男演员、女演员、制片人、导演等有关的信息。在块204处，方法200基于检索到的内容信息来检索与内容相关联的网页。下面在图3中进一步说明web检索的一个实施例。

在块206处，方法200从检索到的网页中提取文本。文本提取提取描述感兴趣的内容的语言项或与感兴趣的内容有关的语言项。下面在图4中进一步说明一个实施例的文本提取。

任选地，在块208处，方法200从所提取的文本中除去停止语言项(stop term)。在一个实施例中，停止语言项是描绘句子、从句等的标点符号。可选地，停止语言项可包括其它标记，如a、the、an、of、in、but、or等。通过除去停止语言项，所提取的文本剩下有与内容相关的语言项和其它非停止语言项。

任选地，在块210处，方法200使用本领域公知的词干化算法(stemming algorithms)例如但不限于Paice/Husk、Porter、Lovins、Dawson、Krovetz等中的一个从所提取的文本中除去词干语言项。词干化将语言项缩减到其词干或词根形式。例如，单词“computing”和“computation”具有词干“compute”。对语言项进行词干化进一步缩减所提取的文本中语言项的变体，从而词干化可缩减所提取的文本中语言项的数量。

在块212处，方法200将来自修改后的所提取的文本中的语言项添加到该内容的元数据中。例如，方法200提取与内容的种类、男演员、女演员、获奖、制片人、导演、评论、与其它信息的链接等有关的语言项。在一个实施例中，方法200将所提取的语言项添加到类别数据。在本实施例中，方法200将所提取的语言项添加到类别数据11中，类别数据11用于对内容进行分类，例如但不限于种类、男演员、女演员、获奖、制片人、导演等。可选地，方法200可对数据进行分类。在可选实施例中，方法200将语言项添加到用于存储内容元数据的单独的元数据数据库中。

图3是用于检索内容网页的方法300的一个实施例的流程图。在块302处，方法300检索与感兴趣的内容有关的信息。例如，在一个实施例中，方法300检索内容标题、种类、内容长度、制作年以及与男演员、女演员、制片人、导演等有关的信息。方法300基于检索到的信息形成内容的统一资源定位符(uniform resource locator，URL)。例如，如果方法300从公共WIKIPEDIA中检索与“Star Wars IV：A New Hope”有关的信息，则方法300基于源(“en.wikipe dia.org/wiki/”)和标题(“Star_Wars_Episode_IV：_A_New_Hope”)来创建URL。每个公众源可具有其自己的用于访问的格式。

在块306，方法300打开在块304中形成的URL。尽管在一个实施例中方法300通过进行超文本传输协议(hypertexttransfer protocol，HTTP)请求来打开URL，但是在可选实施例中，方法300使用不同的协议(安全HTTP(HTTPS)等)来打开URL。在块308处，方法300返回URL内容。

图4是用于解析内容网页的方法400的一个实施例的流程图。在块404处，方法400检索网页。在一个实施例中，网页是超文本置标语言(hypertext markup language，HTML)页。可选地，网页可以是本领域公知的其它类型文本格式(Extended HTML(XHTML)、extended markup language(XML)、standard generalized markup language(SGML)等)。

在块404处，方法400指定HTML解析程序动作。解析程序动作限定HTML解析程序如何从检索到的网页中提取单词。例如，方法400可以指定去除HTML标签中的所有文本，去除除了HTML“META”标签以外的所有HTML标签，忽略以数字开头的单词等。此外，在另一实施例中，方法400可基于其它类型的格式(XHTML、XML、SGML等)来指定解析程序动作。在块406处，方法400使用本领域公知的算法如本领域公知的解析程序动作、如以空白分离语言项(除了“Mr.X”、“Joe Public”等情况以外)，基于所指定的解析程序动作将HTML页解析为单独的单词。在块408处，方法400从解析后的HTML页中提取第一个N个单词。在第一实施例中，N是对单词的粗略限制。可选地，N可以是对处理后的段落数量的限制，如从文本的第一个N个段落中选择单词。由于所提取的元数据被用于输入到类别数据11，所以限制所提取的单词的数量有助于保持较小大小的类别数据。可选地，方法400从解析后的HTML页中提取全部单词。

图5是示出用于从公众网站创建内容元数据的装置的一个实施例的框图。在一个实施例中，输入处理器11包含公共源处理器17。可选地，输入处理器11不包含公共源处理器17，而是耦合到公共源处理器17。公共源处理器17包括信息检索模块502、文本提取器模块504、停止语言项处理器模块506、词干语言项处理器模块508以及源数据输出模块510。信息检索模块502从公众源中检索与图2中的块204处描述的特定内容有关的信息。文本提取器模块504从图2中的块206处描述的所请求的信息中提取语言项。停止语言项处理器模块506从图2中的块208处描述的所提取的语言项中去除停止语言项。词干语言项处理器模块506将所提取的语言项处理成在图2中的块210处描述的相关的词干语言项。元数据输出模块510将所提取的语言项添加到图2中的块212处描述的特定内容的元数据中。

以下对图6和图7的说明意图提供适用于执行上述本发明的方法的计算机硬件和其它工作组件的概况，但是这不意味着限制可应用的环境。本领域的技术人员很容易明白，可利用其它计算机系统配置，包括手持装置、多处理器系统、基于微处理器的或可编程的用户电子产品、网络PC、小型机、大型计算机等来实现本发明的实施例。本发明的实施例还可以在分布式计算环境中来实现，分布式计算环境由通过对等(peer to peer)网络基础设施等通信网络链接的远程处理装置来执行任务。

在实际中，本文中所描述的方法可构成由机器可执行的指令组成的一个或多个程序。参照图2至图4中的流程图描述的本方法使本领域的技术人员能够开发出这种程序，这种程序包括用于在适当配置的机器(执行来自机器可读介质的指令的机器的处理器)上执行由逻辑块所代表的操作(动作)的指令。可以用计算机编程语言编写该机器可读指令，也可以用固件逻辑或者用硬件电路来实现该机器可读指令。如果用符合公认标准的编程语言来编写，则可以在各种硬件平台上执行这种指令并适用于各种操作系统。另外，没有参照任何特定的编程语言来说明本发明。应该理解，可以使用各种编程语言来实现本文中所描述的本发明的教导。此外，在采取动作或产生结果时，在本领域中常常以一种或另一种形式(例如，程序、序列、处理、应用、模块、逻辑…)提到软件。这些表述仅是由机器执行软件使机器的处理器执行动作或产生结果的简称。还应该理解，可以将或多或少的处理包含在流程图中所示的方法中而不违背本发明的范围，并且在本文中所示和所述的块的配置不意味着特定的顺序。

图6示出通过网络602如因特网耦合在一起的多个计算机系统600。本文中所用的术语“因特网”是指使用某种协议如TCP/IP协议以及可能的其它协议如用于组成web(World WideWeb，万维网)的超文本置标语言(HTML)文档的超文本传输协议(HTTP)的多个网络的网络。因特网的物理连接以及因特网的协议和通信程序对本领域的技术人员来说是公知的。典型地，由因特网服务提供商(Internet service providers，ISP)如ISP604和606来提供对因特网602的访问。客户计算机系统612、616、624和626等客户机系统上的用户通过ISP 604和606等因特网服务提供商来获得对因特网的访问。对因特网的访问允许客户计算机系统的用户交换信息，接收和发送电子邮件以及观看文档如用HTML格式制备的文档。通常由被认为是在因特网“上”的web服务器608等web服务器来提供这些文档。这些web服务器通常由ISP 604等ISP来提供，但可以不使用本领域所公知的ISP将计算机系统安装并链接到因特网。

典型地，web服务器608是作为服务器计算机系统工作的、配置成利用World Wide Web的协议工作并耦合到因特网的至少一个计算机系统。任选地，web服务器608可以是向客户机系统提供对因特网的访问的ISP的一部分。web服务器608示出为耦合到服务器计算机系统610，服务器计算机系统610本身耦合到可视为媒体数据库形式的web内容640。应该理解，尽管图6中示出了两个计算机系统608和610，但是web服务器系统608和服务器计算机系统610可以是具有不同软件组件的一个计算机系统，这些计算机组件提供web服务器功能和服务器计算机系统610提供的服务器功能，下面将进一步说明。

客户计算机系统612、616、624和626可各自利用适当的web浏览软件来观看web服务器608提供的HTML页。ISP 604通过可视为客户计算机系统612的一部分的调制解调器接口614向客户计算机系统612提供因特网连接。该客户计算机系统可以是个人计算机系统、网络计算机、Web TV系统、手持式装置或其它计算机系统。类似地，ISP 606提供客户机系统616、624和626的因特网连接，尽管如图6中所示，这三个计算机系统的连接并不相同。通过调制解调器接口618耦合客户计算机系统616，而客户计算机系统624和626是LAN的一部分。尽管图6将接口614和618一般地示出为“调制解调器”，但是应该理解，这些接口中的每一个可以是模拟调制解调器、ISDN调制解调器、线缆调制解调器、卫星传输接口或用于将计算机系统耦合到其它计算机系统的其它接口。客户计算机系统624和616通过网络接口630和632耦合到LAN 622，网络接口630和632可以是Ethernet网络或其它网络接口。LAN 622还耦合到网关计算机系统620，网关计算机系统620为局域网提供防火墙和其它因特网相关服务。该网关计算机系统620耦合到ISP 606以向客户计算机系统624和626提供因特网连接。网关计算机系统620可以是传统的服务器计算机系统。此外，web服务器系统608可以是传统的服务器计算机系统。

可选地，如公知的那样，服务器计算机系统628可以通过网络接口634直接耦合到LAN 622以向客户机624、626提供文件636和其它服务，而不需要通过网关服务器620连接到因特网。此外，可以使用LAN 622、因特网602或作为通信介质的组合在对等网络中将客户机系统612、616、624、626的任何组合连接在一起。通常，对等网络将数据分布在用于存储和检索的多个机器的网络上而不使用一个或多个中央服务器。因此，每个对等网络节点可以包含上述客户机和服务器二者的功能。

图7示出可用作编码器或解码器的传统计算机系统的一个例子。计算机系统700通过调制解调器或网络接口702连接到外部系统。应该理解，调制解调器或网络接口702可视为计算机系统700的一部分。接口702可以是模拟调制解调器、ISDN调制解调器、线缆调制解调器、令牌环(token ring)接口、卫星传输接口或用于将计算机系统耦合到其它计算机系统的其它接口。计算机系统700包括处理单元704，处理单元704可以是传统的微处理器，如Intel Pentium微处理器或Motorola PowerPC微处理器。存储器708通过总线706耦合到处理器704。存储器708可以是动态随机存取存储器(DRAM)，也可以包括静态RAM(SRAM)。总线706将处理器704耦合到存储器708、非易失性存储器714、显示控制器710以及输入/输出(I/O)控制器716。显示控制器710以传统方式控制在显示装置712上的显示，显示装置712可以是阴极射线管(CRT)或液晶显示器(LCD)。输入/输出装置718可以包括键盘、盘驱动器、打印机、扫描仪以及其它输入和输出装置，包括鼠标或其它指示装置。可以利用传统的公知技术来实现显示控制器710和I/O控制器716。数字图像输入装置720可以是耦合到I/O控制器716的数字照相机，以使来自数字照相机的图像被输入到计算机系统700。非易失性存储器714通常是磁硬盘、光盘或其它形式的用于大量数据的存储器。在计算机系统700中执行软件期间，通常通过直接存储器访问处理将该数据中的一些写入存储器708。本领域的技术人员很容易认识到，术语“计算机可读介质”和“机器可读介质”包括可被处理器704访问的任何类型存储装置，并且还包含对数据信号进行编码的载波。

网络计算机是可应用本发明的实施例的另一类型计算机系统。网络计算机通常不包括硬盘或其它大容量存储器，由处理器704执行的可执行程序从网络连接加载到存储器708中。本领域已知的Web TV系统也被视为根据本发明的实施例的计算机系统，但是它可能缺少图7中所示的某些特征，如某输入或输出装置。典型的计算机系统通常至少包括处理器、存储器以及将存储器耦合到处理器的总线。

应该理解，计算机系统700是具有不同结构的众多可能的计算机系统的一个例子。例如，基于Intel微处理器的个人计算机通常具有多总线，其中的一个可以是用于外围设备的输入/输出(I/O)总线，一个是直接连接处理器704和存储器708的总线(通常称为存储器总线)。通过桥组件将这些总线连接在一起，桥组件因总线协议不同而进行任何必要的转换。

还应该理解，计算机系统700由操作系统软件来控制，操作系统软件包括文件管理系统，如盘操作系统，其为操作系统软件的一部分。带有文件管理系统软件的的操作系统软件的一个例子是Washington的Redmond的Microsoft Corporation的称为Windows^的操作系统家族及其文件管理系统。典型地，该文件管理系统被存储在非易失性存储器714中，使处理器704执行操作系统输入和输出数据以及将数据存储在存储器中所需的各种动作，包括将文件存储在非易失性存储器714中。

在以上说明书中，已关于本发明的特定典型实施例描述了本发明。显而易见的是，在不违背所附权利要求书中所述的本发明的更宽的本质和范围的情况下可以对其进行各种修改。因此，应当将本说明书和附图看作是说明性的而不是限制性的。

Claims

1.一种计算机化方法，其包括：

从公众网站接收网页，所述网页与特定内容有关；

从所述网页提取多个语言项；

将所述多个语言项添加到与所述内容有关的内容元数据；

从所述内容元数据提取指定类别数据；

将所述指定类别数据加载到类别数据集；以及

基于所述类别数据集和关系数据减少所述类别数据集的维度，其中，所述关系数据定义所述类别数据集和与所述类别数据集有关的所述内容之间的关系。

2.根据权利要求1所述的计算机化方法，其特征在于，所述提取多个语言项还包括如下处理至少之一：将所述网页中的语言项词干化、从所述网页去除停止语言项、以及从所述网页提取有限数量的语言项。

3.根据权利要求1所述的计算机化方法，其特征在于，所述提取多个语言项还包括：关于网页格式定义解析程序动作。

4.根据权利要求1所述的计算机化方法，其特征在于，所述元数据是类别数据。

5.一种机器可读介质，其包括：

从公众网站接收网页，所述网页与特定内容有关；

从所述网页提取多个语言项；

将所述多个语言项添加到与所述内容有关的内容元数据；

从所述内容元数据提取指定类别数据；

将所述指定类别数据加载到类别数据集；以及

6.根据权利要求5所述的机器可读介质，其特征在于，所述提取多个语言项还包括如下处理至少之一：将所述网页中的语言项词干化、从所述网页去除停止语言项、以及从所述网页提取有限数量的语言项。

7.根据权利要求5所述的机器可读介质，其特征在于，所述提取多个语言项还包括：关于网页格式定义解析程序动作。

8.根据权利要求5所述的机器可读介质，其特征在于，所述元数据是类别数据。

9.一种设备，其包括：

用于从公众网站接收网页的装置，所述网页与特定内容有关；

用于从所述网页提取多个语言项的装置；

用于将所述多个语言项添加到与所述内容有关的内容元数据的装置；

用于从所述内容元数据提取指定类别数据的装置；

用于将所述指定类别数据加载到类别数据集中的装置；以及

用于基于所述类别数据集和关系数据减少所述类别数据集的维度的装置，其中，所述关系数据定义所述类别数据集和与所述类别数据集有关的所述内容之间的关系。

10.根据权利要求9所述的设备，其特征在于，所述用于提取多个语言项的装置还用于如下处理至少之一：将所述网页中的语言项词干化、从所述网页去除停止语言项、以及从所述网页提取有限数量的语言项。

11.根据权利要求9所述的设备，其特征在于，所述用于提取多个语言项的装置还用于：关于网页格式定义解析程序动作。

12.根据权利要求9所述的设备，其特征在于，所述元数据是类别数据。

13.一种系统，其包括：

处理器；

通过总线连接到所述处理器的存储器；以及

由所述处理器从所述存储器执行的处理，所述处理使得处理器：从公众网站接收网页，所述网页与特定内容有关；从所述网页提取多个语言项；将所述多个语言项添加到与所述内容有关的内容元数据；从所述内容元数据提取指定类别数据；将所述指定类别数据加载到类别数据集中；以及基于所述类别数据集和关系数据减少所述类别数据集的维度，其中，所述关系数据定义所述类别数据集和与所述类别数据集有关的所述内容之间的关系。

14.根据权利要求13所述的系统，其特征在于，所述提取多个语言项还包括如下处理至少之一：将所述网页中的语言项词干化、从所述网页去除停止语言项、以及从所述网页提取有限数量的语言项。

15.根据权利要求13所述的系统，其特征在于，所述提取多个语言项还包括：关于网页格式定义解析程序动作。

16.根据权利要求13所述的系统，其特征在于，所述元数据是类别数据。