CN104679771A - 一种个性化数据搜索方法和装置 - Google Patents

一种个性化数据搜索方法和装置 Download PDF

Info

Publication number
CN104679771A
CN104679771A CN201310628812.6A CN201310628812A CN104679771A CN 104679771 A CN104679771 A CN 104679771A CN 201310628812 A CN201310628812 A CN 201310628812A CN 104679771 A CN104679771 A CN 104679771A
Authority
CN
China
Prior art keywords
user
feature
data
user behavior
data object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310628812.6A
Other languages
English (en)
Other versions
CN104679771B (zh
Inventor
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201310628812.6A priority Critical patent/CN104679771B/zh
Priority to TW103110111A priority patent/TW201520790A/zh
Priority to US14/554,775 priority patent/US20150154508A1/en
Priority to PCT/US2014/067648 priority patent/WO2015081219A1/en
Publication of CN104679771A publication Critical patent/CN104679771A/zh
Application granted granted Critical
Publication of CN104679771B publication Critical patent/CN104679771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing

Abstract

本申请涉及一种个性化数据搜索方法和装置。该方法包括:对用户行为数据中记录的用户行为进行机器学习,获得用户行为数据的满意度;选择用户行为数据中的用户的特征和数据对象的特征中的一项或多项特征形成的特征组合;根据特征或特征组合下的用户行为数据的满意度,进行个性化模型训练,获得特征或特征组合的个性化权重;根据特征或特征组合的个性化权重,对搜索出的一个或多个数据对象进行排序以展示一个或多个数据对象。本申请结合以往的用户行为数据训练满意度模型,进而训练个性化模型,利用个性化模型对搜索出的数据对象进行排序并展示。以此改进和提升了搜索平台的性能,提高了搜索结果的准确性,为用户输出合理其符合其搜索意图的结果。

Description

一种个性化数据搜索方法和装置
技术领域
本申请涉及数据搜索领域,更具体地涉及一种个性化数据搜索方法和装置。
背景技术
网络中的数据量日益增加。数据搜索引擎已经成为帮助用户在海量数据对象中找到自己满意数据对象的重要工具。数据搜索引擎的使用方式多种多样,用户可以输入一个查询的关键词(查询词),在海量数据对象中筛选出与该查询词相匹配的搜索结果(数据对象)。但是,无论如何使用数据搜索引擎来搜索数据对象,其关键技术都包含对搜索出的搜索结果中所有的数据对象进行排序的输出处理。也即是说,用户输入一个查询词后,通过搜索找到对应的数据对象作为搜索结果,并以一定的排序方式展示输出这些搜索结果。现有技术中,数据搜索技术与用户本身的差异或者用户的特点无关,仅与查询词有关。也就是说对不同用户使用同一个查询词,搜索到的全部数据对象一致即搜索结果完全一致,并且,对搜索结果的输出展示的排序方式相同,因而不同用户采用同一查询词搜索,最后看到的搜索结果相同。
如果,同一查询词搜索出的搜索结果以及搜索结果的排序方式相同,则不能为不同特点的用户,提供最合适、最准确的搜索结果,如:不能向特定用户提供,最符合该用户希望的、通过其查询词在海量数据中找到的最准确的结果。从而,导致对于用户来说,搜索结果不准确、不满意,搜索平台的性能弱、效率低,还需要用户人工浏览数量庞大的搜索结果,进而,使得后续用户的浏览、访问等用户行为效率低,还使得对搜索到的数据对象的用户行为减少。其中用户的特点即用户在各个维度上的特征,包括:用户的性别、年龄、工作、偏好等。
针对上述情形个性化搜索逐渐兴起。所谓个性化搜索,是指不同用户能获得不同的搜索结果。具体说,不同用户采用同一查询词做搜索,所得到的搜索结果,由于对应不同用户,其会按照不同的排序方式输出展示。这里的排序方式,考虑了用户在一个或多个维度上的特征。而用户的维度可以体现出用户的个性。例如:性别维度,可以有男性、女性;年龄维度,可以有儿童、青年、中年、老年;网络访问频率维度,可以有高、中、低;帐号维度,可以有帐号A、帐号B,……;等等。另外,搜索到的数据对象,在不同维度也有不同特点。例如:数据对象的类别可以作为维度之一,即类别维度。在类别维度上,数据对象的特征可以有体育类、人文类,等等。由于不同用户在某一维度上可能具有不同的特征,相应地,用户所偏爱/关注的搜索结果中的数据对象的特征也不同。而用户对其关注的数据对象可以通过用户行为数据分析而得到,用户行为数据可以包括与用户对数据对象进行操作所产生的用户行为有关的各种数据。例如:用户对数据对象的点击、浏览、交互等行为。个性化搜索以用户为出发点,根据用户行为数据,结合用户的特征和数据对象的特征对搜索结果中的数据对象进行个性化排序,以满足不同用户对不同数据对象的需求。
现有的个性化搜索,比如:主要以用户对数据对象的交互为目标,对用户行为、用户在一个或多个维度上的特征、数据对象在一个或多个维度上的特征做训练,得用户特征的权重和/或数据对象的特征的权重,再由所述权重来预测用户可能会对每个数据对象做交互的概率。所述概率可以作为数据对象在排序时的排序分值。当根据用户输入的查询词进行搜索时,对搜索出的搜索结果(一个或多个数据对象),按照每个数据对象的数据交互概率从大到小的顺序,为用户展示搜索结果。但是,用户不同的行为数据所体现的对数据对象的关注或偏好程度是不一样的。例如,用户点击某一数据对象,获取该数据对象的详细信息后就结束页面访问,没有后续的对该数据对象的行为操作;而用户点击另一数据对象,获取该数据对象的详细信息后执行了收藏该数据对象的操作;在这样的例子中,用户后一点击的行为数据相较于前一点击的行为数据更能表现用户对数据对象的关注或偏好程度。在计算特征组合的权重时,只考虑“交互”这一种用户行为按照数据交互的概率对作为搜索结果的各个数据对象进行排序,而忽略了用户的不同行为数据对用户偏好或关注程度的影响,导致对搜索结果的排序准确性不高的缺陷。从而需要改进搜索平台的个性化搜索处理性能,以提高搜索的输出结果准确度,为用户输出最合理最符合其搜索意图的结果。
发明内容
基于上述现有技术中个性化搜索的缺陷,本申请的主要目的在于提供一种个性化数据搜索方法和装置,以改进个性化搜索处理性能,从而最大限度为用户提供符合其搜索意图的搜索结果、提高搜索平台的输出搜索结果的准确度。
为了解决上述技术问题,本申请是通过以下技术方案来实现。
本申请提供了一种个性化数据搜索方法,包括:根据对用户行为数据中记录的用户对数据对象的用户行为进行机器学习,以获得每个用户行为数据的满意度;选择所述每个用户行为数据中的用户的特征、以及所述数据对象的特征中的一项特征或多项特征形成的特征组合;根据每个特征或特征组合下的用户行为数据的满意度,进行个性化模型训练,并获得每个特征或特征组合的个性化权重;根据所述特征或特征组合的个性化权重,对根据用户的搜索请求中的查询词所搜索出的一个或多个数据对象,进行排序,以根据所述排序展示所述一个或多个数据对象。
其中,在所述每个用户行为数据中,至少记录用户、所述用户对数据对象的一种或多种用户行为、所述数据对象、以及所述数据对象对应的查询词;根据对用户行为数据中记录的用户对数据对象的用户行为进行机器学习,包括:根据记录的所述一种或多种用户行为中的每种用户行为进行学习。
其中,根据对用户行为数据中记录的用户对数据对象的用户行为进行机器学习,以获得所述每个用户行为数据的满意度,包括:所述学习,包括:训练处理和预测处理;所述训练处理,包括:根据每个用户行为数据记录的一种或多种用户行为中的每一种用户行为,进行满意度模型训练,并确定每种用户行为的满意度权重;所述预测处理,包括:根据每个用户行为数据记录的一种或多种用户行为中的每种用户行为的满意度权重,预测每个用户行为数据的满意度。
其中,根据对用户行为数据中记录的用户对数据对象的用户行为进行机器学习,以获得所述每个用户行为数据的满意度,包括:根据每个用户行为数据中记录的用户以及查询词,对所述每个用户行为数据的满意度进行归一化。
其中,选择所述每个用户行为数据中的用户的特征、以及所述数据对象的特征中的一项特征或多项特征形成的特征组合,包括:根据预先存储的用户的特征、以及数据对象的特征,获得每个用户行为数据中记录的用户的特征,以及记录的数据对象的特征;根据每个特征或特征组合下的用户行为数据的满意度,进行个性化模型训练,并获得每个特征或特征组合的个性化权重,包括:根据所述每个用户行为数据的满意度,以及所述每个用户行为数据记录的数据对象的特征和用户的特征,训练所述每个数据对象的特征针对所述每个用户特征的个性化权重。
其中,根据所述特征或特征组合的个性化权重,对根据用户的搜索请求中的查询词所搜索出的一个或多个数据对象,进行排序,包括:基于用户的搜索请求获得用户的特征,以及根据搜索出的每个数据对象,获得数据对象的特征;通过查询与所述用户的特征和搜索出的每个数据对象的特征相对应的特征组合的个性化权重,预测所述每个数据对象的个性化分数;基于所述每个数据对象的个性化分数,对所述一个或多个数据对象进行排序。
本申请还提供了一种个性化数据搜索装置,包括:学习模块,用于根据对用户行为数据中记录的用户对数据对象的用户行为进行机器学习,以获得每个用户行为数据的满意度;形成模块,用于选择所述每个用户行为数据中的用户的特征、以及所述数据对象的特征中的一项特征或多项特征形成的特征组合;训练模块,用于根据每个特征或特征组合下的用户行为数据的满意度,进行个性化模型训练,并获得每个特征或特征组合的个性化权重;排序模块,用于根据所述特征或特征组合的个性化权重,对根据用户的搜索请求中的查询词所搜索出的一个或多个数据对象,进行排序,以根据所述排序展示所述一个或多个数据对象。
其中,在所述每个用户行为数据中,至少记录用户、所述用户对数据对象的一种或多种用户行为、所述数据对象、以及所述数据对象对应的查询词;所述学习模块还被配置成:根据记录的所述一种或多种用户行为中的每种用户行为进行学习。
其中,所述学习模块还包括:训练处理单元和预测处理单元;所述训练处理单元,用于根据每个用户行为数据记录的一种或多种用户行为中的每一种用户行为,进行满意度模型训练,并确定每种用户行为的满意度权重;所述预测处理单元,用于根据每个用户行为数据记录的一种或多种用户行为中的每种用户行为的满意度权重,预测每个用户行为数据的满意度。
其中,所述学习模块还被配置成:根据每个用户行为数据中记录的用户以及查询词,对所述每个用户行为数据的满意度进行归一化。
其中,所述形成模块还被配置成:根据预先存储的用户的特征、以及数据对象的特征,获得每个用户行为数据中记录的用户的特征,以及记录的数据对象的特征;所述训练模块还被配置成:根据所述每个用户行为数据的满意度,以及所述每个用户行为数据记录的数据对象的特征和用户的特征,训练所述每个数据对象的特征针对所述每个用户特征的个性化权重。
其中,所述排序模块还被配置成:基于用户的搜索请求获得用户的特征,以及根据搜索出的每个数据对象,获得数据对象的特征;通过查询与所述用户的特征和搜索出的每个数据对象的特征相对应的特征组合的个性化权重,预测所述每个数据对象的个性化分数;基于所述每个数据对象的个性化分数,对所述一个或多个数据对象进行排序。
与现有技术相比,根据本申请的技术方案具有以下有益效果:
本申请结合以往的用户行为数据及其记录的用户、数据对象、该用户对该数据对象的一种或多种用户行为,构建满意度模型,进而形成个性化模型。以便在用户进行数据搜索时,利用个性化模型对搜索出的一个或多个数据对象中每个数据对象进行个性化分数计算,按照每个数据对象的个性化分数,对所有的数据对象进行排序处理,以该排序处理得到的顺序,展示这些作为搜索结果的数据对象给用户。以此改进和提升了搜索平台的性能,提高输出给用户的搜索结果的准确性,为用户输出最合理最符合其搜索意图的结果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一实施例的个性化数据搜索方法的流程图;
图2是根据本申请一实施例的个性化数据搜索方法的满意度模型训练的流程图;
图3是根据本申请一实施例的个性化数据搜索装置的结构图。
具体实施方式
本申请的主要思想在于,根据记录的用户行为数据,构建满意度模型,以得到每一个用户行为数据的满意度。根据每一个用户行为数据中对应的用户在一个或多个维度上的特征和数据对象在一个或多个维度上的特征所组成的特征组合,结合每个用户行为数据的满意度,构建个性化模型,以得到每个特征组合的个性化权重。在基于用户输入的查询词进行数据搜索时,对于搜索出的一个或多个数据对象,可以根据每个特征组合的个性化权重,匹配出该用户的特征和每个数据对象的特征对应的个性化权重,并在此基础上,可以计算该用户搜索出的每一个数据对象的个性化分数。根据每个数据对象的个性化分数对搜索出的一个或多个数据对象进行排序,并按照排序结果进行展示。通过该方法可以提高输出给用户的搜索结果的准确性,为用户输出最合理最符合其搜索意图的结果。
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种搜索结果排序方法。如图1所示,图1是根据本申请一实施例的个性化数据搜索方法的流程图。
在步骤S110处,根据对每个用户行为数据中记录的用户对数据对象的每种用户行为进行机器学习,以获得每个用户行为数据的满意度。
其中,用户行为是用户对数据对象进行的行为(操作、动作),并且,用户对数据对象的行为可以有多种,例如:点击、浏览、收藏数据对象,浏览数据对象停留的时间,基于数据对象进行数据交互等多种不同的用户行为;进一步的,数据交互这种用户行为还可以细分为下载、付款等几种行为。用户通过搜索请求获得与搜索请求中的查询词相匹配的一个或多个数据对象。一个或多个数据对象作为搜索结果输出给请求搜索的用户。
用户行为数据,用于记录用户针对数据对象的一种或多种不同类型的用户行为(即一种或多种用户行为)。进一步地,在用户行为数据中,可以记录有:用户、用户对数据对象的一种或多种用户行为、数据对象、以及数据对象对应的查询词等。服务器采集的日志文件中包括一条或多条日志数据,该一条或多条日志数据即可以为一个或多个用户行为数据。一个用户行为数据可以包括用户从开始搜索数据对象,到搜索出数据对象后,用户针对该数据对象的进行的一系列的用户行为。
该学习可以包括:训练处理和预测处理,用以获得每个用户行为数据的满意度。用户行为数据的满意度,是该用户行为数据中用户对数据对象的满意度,具体是指,在该用户行为数据中,针对记录的数据对象,记录的用户能够实现指定的数据交互的概率。在电子商务系统中,指定的数据交互即系统期望用户进行的数据交互,比如购买商品、付款操作等。换言之,该学习过程包括训练满意度模型以及利用满意度模型预估/预测出每个用户行为数据中用户对数据对象的满意度。
图2是根据本申请一实施例的个性化数据搜索方法的满意度模型训练的流程图。
在步骤S210处,根据每个用户行为数据中记录的一种或多种用户行为,进行满意度模型训练,并确定每种用户行为的满意度权重。步骤S210即为训练处理。
在所述训练处理中,服务器可以将用户行为数据记录中用户的一系列相关行为(比如在一个session内的用户操作)及行为特征(比如行为次数、时间)作为训练集的特征(样本特征)。训练目标是一系列相关行为中指定的一个行为。其中训练集的用户行为数据的满意度可以预先标注,即是已知的。
基于训练集中的特征进行模型训练,以获得能够正确预测用户行为数据满意度的模型即满意度模型。对预想的模型(规则)进行训练,调整该模型中的参数,若通过该模型计算出的用户行为数据的满意度与该用户行为数据预先标注的满意度相匹配(比如误差在设定范围内)时,则该模型即为训练得到的满意度模型。
服务器可以将用户对数据对象执行的指定的数据交互作为满意度模型训练的目标。根据记录的所有的用户行为数据,进行满意度模型训练,并获得每种用户行为的满意度权重。
具体地,训练满意度模型并获得满意度权重,可以包括选择一个机器学习模型,并且通过已标注样本集训练获得该模型中的一个或多个参数,其中每个参数对应一种用户行为。利用已标注满意度的用户行为数据所包含一种或多种用户行为及其特征,即训练集的特征,训练该模型,即验证该模型预测出的用户行为数据的满意度是否准确,若预测的满意度不准确,则对模型和/参数进行调整,直至该模型预测的满意度准确为止。调整后的模型作为最终用于预测用户行为数据满意度的满意度模型,其包含的参数作为对应的用户行为的满意度权重。
其中,用户行为的满意度权重(wm)可以用于反映,在实现训练目标(比如完成指定的数据交互行为)的过程中所考察的用户行为类型的重要性。该满意度权重是满意度模型中的参数。一个最简单的例子,用户行为类型的重要性可以表示为:在发生该种用户行为的基础上,成功实现训练目标的比例。如:满意度权重(wm)=在发生用户行为A的条件下实现训练目标G的次数÷发生用户行为A的总次数。用户行为的满意度权重越大说明实现训练目标的可能性越大,用户行为的满意度权重越小说明实现训练目标的可能性越小。
以网络购物这类需要海量数据搜索的技术为例:当用户进行网购时,用户输入一个查询词(query)后,可以看到商品列表,该商品列表即是搜索出的一个或多个数据对象(商品)所组成的。用户行为类型包括浏览商品列表,点击某一商品,浏览商品的详情页,购买商品/成交(指定的数据交互行为)等行为。这一系列的用户行为都将被记录在日志文件中。
进一步地,用于记录用户行为数据日志文件,例如表1所示,但日志文件不限于表1中的内容。
表1:
该日志文件中包含4个用户行为数据。用户行为数据中记录了序号、搜索出的数据对象(商品A1、商品A2),输入查询词的用户(用户U1、用户U2),查询词(Q1、Q2),以及在一次搜索中,用户针对数据对象产生的用户行为的数量。其中,该日志文件中记录了展示、点击、加入购物车、成交4种用户行为,和每个用户行为数据中的每种用户行为的次数,如,展示数1次、点击数1次、加入购物车数1次、成交数1次。用户行为数据中的用户行为的种类可以根据需要增加或减少。
在日志文件中记录了所有用户行为数据,可以通过考察一种用户行为最终实现目标的比例,来确定该种用户行为的满意度权重。可以将表1中表示数据交互的用户行为“成交”作为满意度模型训练的目标,根据表1中列出的所有用户行为数据,计算每种用户行为(考察的用户行为)在实现“成交”的过程中所体现的重要性。可以在日志文件中提取出所有种类的用户行为,如,提取表1中的用户行为,包括展示、点击、加入购物车、成交,共4种。根据提取出的用户行为,将成交作为满意度模型训练目标,计算得出每种用户行为的满意度权重。
一个简单的计算例子,表1中所示,展示商品(数据对象)的次数共计为4次,在展示商品的用户中,实现成交的为2个,那么展示的满意度权重为0.5(2÷4=0.5)。点击商品的次数为3次,在点击商品的用户中,实现成交的为2个,那么点击的满意度权重为0.67(2÷3≈0.67)。用户将商品加入购物车的数量为1个,在将商品加入购物车的用户中,实现成交的为1个,那么加入购物车的满意度权重为1(1÷1=1)。实现商品成交的次数为2,那么成交的满意度权重为1(2÷2=1)。
在一个实施例中,进行满意度模型训练,可以通过采用逻辑回归、决策树等方式来实现。比如以逻辑回归、决策树等构建待训练的模型(规则),并进行训练,如逻辑回归模型训练或决策树模型训练等,以获得最终的满意度模型,并得到每种用户行为的满意度权重。
在另一个实施例中,还可以抽取日志文件中的一部分用户行为数据作为训练样本进行满意度模型训练,并得到该部分用户行为数据中每种用户行为的满意度权重。例如,在日志文件中随机抽取出一半(50%)的用户行为数据,用以训练每种用户行为的满意度权重。那么可以在表1中随机抽取出序号为1和序号为2的两个用户行为数据(50%),忽略未被抽取出的序号为3和序号为4的两个用户行为数据,基于抽取出的两个用户行为数据,得到每种用户行为的满意度权重。
在步骤S220处,根据满意度模型及每种用户行为的满意度权重,预测每个用户行为数据的满意度。步骤S220即为预测处理。该预测处理为满意度模型预测过程。
预测用户行为数据的满意度,即是预测该用户行为数据中,用户针对数据对象实现数据交互的概率。可以将实现数据交互的用户行为数据作为满意度数值最高的用户行为数据。
具体而言,可以将用户针对数据对象的一种或多种用户行为,作为用户行为链条,如点击数据对象、浏览数据对象的时间、针对数据对象进行数据交互等。进而可以根据用户的用户行为,来判断用户对数据对象的满意/偏爱程度。用户对数据对象的满意/偏爱程度越高,实现数据交互的可能性越大。
预测用户行为数据的满意度,可以根据一种或多种用户行为的满意度权重和日志文件记录的用户行为数据所包含一种或多种用户行为,计算用户行为数据的满意度。
在一个实施例中,可以通过公式(1.1)计算表1中每个用户行为数据的满意度(PVR)。
PVR = 1 1 + e - ( fm 1 × wm 1 + fm 2 × wm 2 + · · · + fmn × wmn ) - - - ( 1.1 )
其中,fm(fm1、fm2、……、fmn)是特征量。fm特征量可以是数值,在本申请的实施例中,fm特征量是用户行为数据中包含的一种或多种用户行为中的每种用户行为的数量(次数);wm(wm1、wm2、……wmn)用于表示每种用户行为对应的满意度权重。该公式(1.1)可以作为满意度模型,满意度权重作为该满意度模型中的参数。
根据满意度模型预测用户行为数据的满意度,以表1为例,表1中所列的用户行为,展示行为的满意度权重为0.5;点击行为的满意度权重为0.67;加入购物车的行为的满意度权重为1;成交行为的满意度权重为1。
通过公式(1.1)计算,可以得到:
序号为1的用户行为数据的满意度PRV1为:
PVR 1 = 1 1 + e - ( 1 × 0.5 + 1 × 0.67 + 1 × 1 + 1 × 1 ) = 0.96
序号为2的用户行为数据的满意度PRV2为:
PVR 2 = 1 1 + e - ( 1 × 0.5 + 1 × 0.67 + 0 × 1 + 0 × 1 ) = 0.76
序号为3的用户行为数据的满意度PRV3为:
PVR 3 = 1 1 + e - ( 1 × 0.5 + 0 × 0.67 + 0 × 1 + 0 × 1 ) = 0.62
序号为4的用户行为数据的满意度PRV4为:
PVR 4 = 1 1 + e - ( 1 × 0.5 + 1 × 0.67 + 0 × 1 + 1 × 1 ) = 0.90
由此,可以预测出日志文件中记录的每个用户行为数据的满意度。
进一步,在一个实施例中,根据用户行为数据记录的用户和查询词,还可以对用户行为数据的满意度进行归一化。所述归一化可以是根据用户、查询词,对用户行为数据的满意度进行调整。以避免满意度可能在不同查询词、不同用户下产生的一些偏差。
具体而言,在日志文件中,每个用户行为数据都可以包括用户和用户所输入的查询词。其中,与用户相关的用户行为数据可以反映出该用户的个人偏好。例如,不同用户的不同购物习惯,可以影响用户对数据对象的满意度。如:男性用户决定购买商品的时间较短,进而对商品的满意度较高。而女性用户往往要逛很久才能决定是否要购买商品,进而对商品的满意度较低。与同一查询词相关的用户行为数据也可以反映出该查询词的特点。例如,不同查询词可以反映出有不同的购物习惯,如:用户输入查询词“连衣裙”时,往往会逛很久才能决定是否进行购买。而用户输入查询词“甜美修身连衣裙”时,往往容易在较短时间内决定是否进行购买。所以,针对不同查询词、不同用户,对每个用户行为数据的满意度进行归一化,是为了消除不同查询词、不同用户对用户行为数据产生的影响。
对用户行为数据的满意度进行归一化,可以通过公式(1.2)来实现。
 PVR′=(PVR×PVR)÷(PVRq×PVRu)           (1.2)
其中,PVR’是归一化后的满意度,PVR是原始预测的满意度,PVRq是查询词q的平均满意度(即包含查询词q的用户行为数据的满意度的平均值),PVRu是用户u的平均满意度(即用户u的用户行为数据的满意度的平均值)。
以表1列出的4个用户行为数据为例,对每个用户行为数据的满意度归一化。其中,序号为1的用户行为数据(用户U1、查询词Q1)的满意度为0.96,序号为2的用户行为数据(用户U2、查询词Q1)的满意度PVR2为0.76,序号为3的用户行为数据(用户U1、查询词Q2)的满意度PVR3为0.62,序号为4的用户行为数据(用户U1、查询词Q2)的满意度PVR4为0.90。
PVRQ1=(0.96+0.76)÷2=0.86
PVRQ2=(0.62+0.90)÷2=0.76
PVRU1=(0.96+0.62+0.90)÷3=0.83
PVRU2=0.76÷1=0.76
那么通过公式(1.2)计算得到:
用户行为数据的满意度PRV1,归一化后为:
PVR1’=(PVR1×PVR1)÷(PVRQ1×PVRU1)=(0.96×0.96)÷(0.86×0.83)=1.29
用户行为数据的满意度PRV2,归一化后为:
PVR2’=(PRV2×PRV2)÷(PVRQ1×PVRU2)=(0.76×0.76)÷(0.86×0.76)=0.88
用户行为数据的满意度PRV3,归一化后为:
PVR3’=(PRV3×PRV3)÷(PVRQ2×PVRU1)=(0.62×0.62)÷(0.76×0.83)=0.61
用户行为数据的满意度PRV4,归一化后为:
PVR4’=(PRV4×PRV4)÷(PVRQ2×PVRU1)=(0.90×0.90)÷(0.76×0.83)=1.28
在步骤S120处,从每个用户行为数据中的用户的特征、以及用户的一种或多种用户行为所对应的数据对象的特征中选择一项特征或多项特征形成的特征组合。
可以根据数据对象在一个或多个维度上的特征和用户在一个或多个维度上的特征,形成特征组合。
选择的特征也可以是单一特征。在电子商务网站中,所述数据对象为商品信息。所述单一特征可以包括:商品的属性(如:商品的价格、销量、风格、品牌、类目等)、用户的群体标签(如:性别、年龄、职业、地域、购买力等)及查询词的属性(如:查询词涉及的类目、品牌、风格等)。
数据对象的维度,可以表示数据对象的属性(个性化标签)。数据对象的属性值作为数据对象在其维度上的特征。例如,当数据对象为商品时,商品的维度可以是商品的价格、销量、风格、品牌、类目等。数据对象的风格维度的特征可以是甜美、淑女等。用户的维度,可以表示用户的属性(个性化标签),用户的属性值作为用户在其维度上的特征。例如,用户的维度可以包括性别、年龄、职业、所处的地域等等,用户的性别维度的特征可以是男性、女性。可以将数据对象的特征和用户的特征进行组合,以得到特征组合。例如:数据对象为足球,足球的特征可以是体育、男性等,用户的特征可以是男性。那么足球的特征和用户特征进行组合,可以得到体育(足球的特征)与男性(用户特征)的组合,可以得到男性(足球的特征)和男性(用户特征)的组合。
数据对象可以预先存储在服务器侧,可以通过对服务器侧的数据对象进行预先分析,获得数据对象的特征。如果用户曾经访问过服务器或用户在服务器侧已经预先注册,这些用户的访问记录或注册记录(信息)等,将会在服务器有所保留,在服务器侧,可以通过分析用户的访问记录或注册记录而获得用户的维度特征。根据预先存储的用户的特征、以及数据对象的特征,提取用户行为数据中记录的用户的特征,以及记录的数据对象的特征。
具体而言,在用户行为数据中,记录着用户、数据对象。如表1所示。所以,可以在服务器侧,在预先存储的所有的数据对象的维度特征和所有的用户的维度特征中,查询出该用户的用户维度特征和数据对象的维度特征。
进一步地,可以为每一个用户分配唯一的用户ID,可以为每一个数据对象分配唯一的数据对象ID。预先存储的数据对象的特征与数据对象的数据对象ID对应,预先存储的用户的特征与用户的用户ID对应。并且,用户行为数据中记录的用户以用户ID来代替,记录的数据对象以数据对象ID来代替。将用户行为数据中记录的数据对象ID与预先存储的所有数据对象ID进行匹配,进而获得该数据对象ID对应的数据对象的特征。将用户行为数据中记录的用户ID与预先存储的所有用户的用户ID进行匹配,进而获得该用户ID对应的用户特征。从而,可以获得每个用户行为数据记录的数据对象的维度和用户的维度。在一个实施例中,用户输入的查询词也可以具有特征,查询词特征可以用于表示查询词的属性值。例如:查询词为足球,那么足球的维度可以是体育,足球的特征可以是男性等。
进一步地,可以将数据对象的特征、用户的特征、查询词特征进行组合,组合的形式可以包括将数据对象的特征与用户的特征进行组合,将用户的特征与查询词特征进行组合,将数据对象的特征与查询词特征进行组合,以及将数据对象的特征、用户特征与查询词特征三者进行组合。进而得到组合特征。
在步骤S130处,根据每个特征或特征组合下的用户行为数据的满意度,进行个性化模型训练,并获得每个特征或特征组合的个性化权重。
个性化权重,可以用于反映每个特征或特征组合在提高用户对数据对象的满意度中的重要性。
某一特征或特征组合下的用户行为数据是指具有该特征或特征组合的用户行为数据。
使用每个特征或特征组合下的用户行为数据的满意度,进行个性化模型训练,进而获得每项特征或特征组合对用户行为数据的满意度的影响的权重(即特征或特征组合的个性化权重)。
根据用户输入的查询词可以搜索出一个或多个数据对象,通过个性化模型可以预估/预测出每一个数据对象的个性化分数。
该个性化分数可以表示用户对该数据对象的期望值。数据对象的期望值越高,表示用户对该数据对象的关注度越高,数据对象的期望值越低,表示用户对该数据对象的关注度越低。
个性化模型,还可以根据用户的个性,对搜索出的数据对象进行个性化分数计算,并根据分数对数据对象进行个性化排序。该个性化排序可以是将用户关注度最高的数据对象排列在搜索结果的队首,将用户不关注的数据对象排列在搜索结果的队尾。
可以利用日志文件中记录的用户行为数据的满意度或者每个用户行为数据归一化后的满意度为目标,以用户行为数据中记录的用户和数据对象中的特征或特征组合作为训练集中的特征,进行个性化模型训练。该训练集中的用户行为数据中记录的数据对象的个性化分数已知(即可以预先标注)。基于训练集中的特征对预想的模型进行训练,通过调整该模型中的参数,若通过该模型计算出的个性化分数与已知的个性化分数相匹配(比如相等或误差在设定范围内),则该能够得出正确个性化分数的模型即为训练得到的个性化模型。
下面将以特征组合作为一种优选的方式,来说明个性化模型训练过程。
其中个性化模型中的包括个性化权重这一参数。例如:个性化权重,可以表示包含相同特征组合的用户行为数据的满意度的平均值。如:在日志文件中,包含4个用户行为数据,分别是根据用户U1输入的查询词Q3搜索出的商品A1、商品A2、商品A3、商品A4。查询出用户U1的用户特征,以及查询出根据查询词Q3搜索出的数据对象,商品A1、商品A2、商品A3、商品A4的特征。根据用户行为数据训练满意度模型,进而得到每个用户行为数据的满意度。如表2所示。用户U1的用户特征为男,表示该用户U1为男性用户,根据查询词Q3搜索出的数据对象为商品A1、商品A2、商品A3、商品A4,其中,商品A1的数据对象特征为男性用品;商品A2的数据对象特征为女性用品;商品A3的数据对象特征为女性用品;商品A4的数据对象特征为男性用品。将用户的特征与数据对象的特征进行组合,得到特征组合。可以根据日志文件中记录的其他数据,如用户行为数据中的每种用户行为发生的次数,计算出每个用户行为数据的满意度。该步骤可以参照步骤S210-S220所描述的内容。此处为了便于描述个性化模型的训练过程,直接将每种用户行为的满意度列于表2中,即序号为5的用户行为数据的满意度为0.5;序号为6的用户行为数据的满意度为0.6;序号为7的用户行为数据的满意度为2.4;序号为8的用户行为数据的满意度为1.5。表2中的满意度也可以是每个用户行为数据归一化后的满意度。
表2:
数据对象的特征针对用户特征的个性化权重(wg),可以是特征组合相同的用户行为数据的满意度的平均值。表2中列出的特征组合包括:“男+男性用品”和“男+女性用品”。特征组合为“男+男性用品”的个性化权重为1,是序号为5、8的用户行为数据的满意度的平均值((0.5+1.5)÷2=1),特征组合为“男+女性用品”的个性化权重为1.5,是序号为6、7的用户行为数据的满意度的平均值((0.6+2.4)÷2=1.5)。
将最终获得的每个数据对象的特征针对每个用户特征的个性化权重(如表3所示)进行存储,以在数据搜索中,排序搜索出的数据对象时使用。
表3:
训练个性化模型,获得数据对象的特征针对用户特征的个性化权重,还可以通过逻辑回归、决策树等方式来实现。即,利用逻辑回归算法、决策树训练个性化模型,以获得个性化权重。个性化权重例如是个性化模型中的参数。个性化模型和满意度模型所采用的模型或算法可以相同或不相同。
在步骤S140处,根据特征或特征组合的个性化权重,对根据用户的搜索请求中的查询词所搜索出的一个或多个数据对象,进行排序,以根据排序展示一个或多个数据对象。
服务器可以接收到用户的搜索请求,包含输入的查询词,根据该查询词,服务器可以在海量数据对象中搜索出与该查询词相匹配的多个数据对象。根据预先训练个性化模型得到的特征组合的个性化权重,可以对该多个数据对象进行个性化排序,以体现出用户与用户之间对数据对象不同的需求。
在预先存储的用户的特征,以及数据对象的特征中,获得该用户的特征和搜索出的每个数据对象的特征。具体而言,用户在发送查询词的同时,还可以携带用户数据,该用户数据可以包括:用户ID。服务器根据分析出的该用户的用户ID可以在预先存储的、对应用户ID的用户特征中,查询出该用户的用户特征。服务器侧可以根据与查询词相匹配的一个或多个数据对象的数据对象ID,在预先存储的、对应数据对象ID的数据对象特征中,查询出每个相匹配的数据对象的特征。
将用户的用户特征和每个相匹配的数据对象的特征,与预先训练的数据对象的特征针对用户特征的个性化权重进行匹配,以得到相匹配的数据对象的特征针对用户的用户特征的个性化权重。具体而言,将查询出的用户特征,与查询出的每个相匹配的数据对象的特征进行组合,以得到查询特征组合。在已经存储的数据对象的特征针对用户的特征的个性化权重(存储项,如表3)中,匹配出与查询特征组合具有相同特征组合形式的存储项,即存储项中的数据对象的特征和用户特征,和查询出的用户特征和相匹配的数据对象的特征相同。将该存储项的个性化权重作为相匹配的数据对象的特征针对用户特征的个性化权重。
例如:用户输入的查询词为Q3,搜索出商品A1、商品A2、商品A3、商品A4。用户的用户特征为男,商品A1的数据对象的特征为男性用品,商品A2的数据对象的特征为女性用品,商品A3的数据对象的特征为女性用品,商品A4的数据对象的特征为男性用品。将用户特征与数据对象的特征进行组合,得到“男+男性用品”、“男+女性用品”两种组合特征。通过对表2进行计算,可以得到并存储个性化权重数据,即,“男+男性用品”的个性化权重为1,“男+女性用品”的个性化权重为1.5,如表3所示。所以,将本次数据搜索得到的用户特征(男)与数据对象的特征(商品A1:男性用品;商品A2:女性用品;商品A3:女性用品;商品A4:男性用品)的组合,得到两种查询特征组合:“男+男性用品”、“男+女性用品”,将这两种查询特征组合,与已存储的个性化权重数据中的特征组合进行匹配,可以得到查询特征组合“男+男性用品”的个性化权重为1,查询特征组合“男+女性用品”的个性化权重为1.5。
通过查询与用户的特征和搜索出的数据对象的特征相对应的特征组合的个性化权重,预测数据对象的个性化分数。基于所述每个数据对象的个性化分数,对所述一个或多个数据对象进行排序。
根据相匹配的数据对象的特征针对用户的用户特征的个性化权重,以及用户的用户特征和相匹配的数据对象的特征,计算相匹配的数据对象的个性化分数S。数据对象的个性化分数可以用于表示用户对该数据对象的期望值,即,在搜索出的多个数据对象中,用户对该数据对象的偏爱程度。
具体而言,计算每个相匹配的数据对象的个性化分数(S),可以通过公式1.3来实现。
s = 1 1 + e - ( fg 1 * wg 1 + fg 2 * wg 2 + · · · + fgm * wgm ) - - - ( 1.3 )
其中,fg(fg1、fg2、……、fgm)用于表示在用户行为数据中相同的数据对象的特征与用户特征的组合(特征组合)的数量;wg(wg1、wg2、……、wgm)用于表示数据对象的特征针对用户特征的个性化权重。
该公式(1.3)可以作为个性化模型,个性化权重可以作为个性化模型中的参数。与训练满意度模型获得满意度权重的过程相似,可以通过训练个性化模型,获得该个性化权重。
根据个性化模型预测每个数据对象的个性化分数,以表3为例,根据用户U1输入的查询词Q3,搜索出4个数据对象,商品A1、商品A2、商品A3、商品A4。序号5中的“男+男性用品”组合的数量为1,“男+男性用品”组合的个性化权重为1。序号6中“男+女性用品”组合的数量为1,“男+女性用品”组合的个性化权重为1.5。序号7中“男+女性用品”组合的数量为1,“男+女性用品”组合的个性化权重为1.5。序号8中的“男+男性用品”组合的数量为1,“男+男性用品”组合的个性化权重为1。
那么,根据公式(1.3)可以分别得到商品A1、商品A2、商品A3、商品A4的个性化分数。
商品A1的个性化分数: S 5 = 1 1 + e - ( 1 × 1 ) = 0.73
商品A2的个性化分数: S 6 = 1 1 + e - ( 1 × 1.5 ) = 0.82
商品A3的个性化分数: S 7 = 1 1 + e - ( 1 × 1.5 ) = 0.82
商品A4的个性化分数: S 8 = 1 1 + e - ( 1 × 1 ) = 0.73
在一个实施例中,对于每个数据对象的个性化分数可以进行平滑处理,该平滑处理,可以表示为将每个数据对象的个性化分数控制在限定的范围之内。例如,将数据对象的个性化分数限定在0.5至0.8之间,则商品A1、商品A4的个性化分数(0.73)处于限定的范围之内,符合要求。而商品A2和商品A3的个性化分数0.82处于限定的范围之外,则可以将该个性化分数0.82平滑为限定范围的之内,可以将该个性化分数0.82进行变更,变更为接近于该个性化分数0.82并且处于限定范围内的个性化分数0.8。
基于每个相匹配的数据对象的个性化分数,对多个相匹配的数据对象进行排序。
例如:基于搜索出的商品A1、商品A2、商品A3、商品A4的个性化分数(0.73、0.82、0.82、0.73),对商品A1、商品A2、商品A3、商品A4进行排序。
由于S5和S8相等都为0.73,S6和S7相等都为0.82,即商品A1和商品A4的个性化分数相等、商品A2和商品A3的个性化分数相等,则可以在个性化分数相等的数据对象之间采用随机的方式进行排序。可以得到排序结果商品A2、商品A3、商品A1、商品A4。
根据排序结果为用户展示搜索到的多个数据对象。例如:按照个性化分数从高到低的顺序,展示搜索出的多个数据对象。
本申请还提供了一种个性化数据搜索装置。如图3所示,图3是根据本申请一实施例的个性化数据搜索装置300的结构图。
在该装置300中,包括:学习模块310,形成模块320,训练模块330,排序模块340。
学习模块310,可以用于根据对用户行为数据中记录的用户对数据对象的用户行为进行机器学习,以获得每个用户行为数据的满意度。在每个用户行为数据中,至少记录用户、用户对数据对象的一种或多种用户行为、数据对象、以及数据对象对应的查询词。
学习模块310还可以根据记录的一种或多种用户行为中的每种用户行为进行学习。
学习模块310还可以包括:训练处理单元(未示出)和预测处理单元(未示出)。训练处理单元,可以用于根据每个用户行为数据记录的一种或多种用户行为中的每一种用户行为,进行满意度模型训练,并确定每种用户行为的满意度权重。该训练处理单元的具体实现过程可以参照步骤S210。预测处理单元,可以用于根据每个用户行为数据记录的一种或多种用户行为中的每种用户行为的满意度权重,预测每个用户行为数据的满意度。该预测处理单元的具体实现过程可以参照步骤S220。
学习模块310还可以被配置成:根据每个用户行为数据中记录的用户以及查询词,对每个用户行为数据的满意度进行归一化。
该学习模块310的具体实现方式可以参照步骤S110。
形成模块320,可以用于选择每个用户行为数据中的用户的特征、以及数据对象的特征中的一项特征或多个项特征形成的特征组合。
形成模块320还可以被配置成:根据预先存储的用户的特征、以及数据对象的特征,获得每个用户行为数据中记录的用户的特征,以及记录的数据对象的特征。
该形成模块320的具体实现方式可以参照步骤S120。
训练模块330,用于根据每个特征或特征组合下的用户行为数据的满意度,进行个性化模型训练,并获得每个特征或特征组合的个性化权重。
训练模块330还被配置成:根据每个用户行为数据的满意度,以及每个用户行为数据记录的数据对象的特征和用户的特征,训练每个数据对象的特征针对每个特征的个性化权重。
该训练模块330的具体实现过程可以参照步骤S130。
排序模块340,用于根据特征或特征组合的个性化权重,对根据用户的搜索请求中的查询词所搜索出的一个或多个数据对象,进行排序,以根据排序展示一个或多个数据对象。
排序模块340还被配置成:基于用户的搜索请求获得用户的特征,以及根据搜索出的每个数据对象,获得数据对象的特征;通过查询与用户的特征和搜索出的每个数据对象的特征相对应的特征组合的个性化权重,预测每个数据对象的个性化分数;基于每个数据对象的个性化分数,对一个或多个数据对象进行排序。
该排序模块340的具体实现过程可以参照步骤S140。
由于图3所描述的本申请的装置所包括的各个模块的具体实施方式与本申请的方法中的步骤的具体实施方式是相对应的,由于已经对图1-图2进行了详细的描述,所以为了不模糊本申请,在此不再对各个模块的具体细节进行描述。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种个性化数据搜索方法,其特征在于,包括:
根据对用户行为数据中记录的用户对数据对象的用户行为进行机器学习,以获得每个用户行为数据的满意度;
选择所述每个用户行为数据中的用户的特征、以及所述数据对象的特征中的一项特征或多项特征形成的特征组合;
根据每个特征或特征组合下的用户行为数据的满意度,进行个性化模型训练,并获得每个特征或特征组合的个性化权重;
根据所述特征或特征组合的个性化权重,对根据用户的搜索请求中的查询词所搜索出的一个或多个数据对象,进行排序,以根据所述排序展示所述一个或多个数据对象。
2.根据权利要求1所述的方法,其特征在于,
在所述每个用户行为数据中,至少记录用户、所述用户对数据对象的一种或多种用户行为、所述数据对象、以及所述数据对象对应的查询词;
根据对用户行为数据中记录的用户对数据对象的用户行为进行机器学习,包括:根据记录的所述一种或多种用户行为中的每种用户行为进行学习。
3.根据权利要求1至2之一所述的方法,其特征在于,根据对用户行为数据中记录的用户对数据对象的用户行为进行机器学习,以获得所述每个用户行为数据的满意度,包括:
所述学习,包括:训练处理和预测处理;
所述训练处理,包括:根据每个用户行为数据记录的一种或多种用户行为中的每一种用户行为,进行满意度模型训练,并确定每种用户行为的满意度权重;
所述预测处理,包括:根据每个用户行为数据记录的一种或多种用户行为中的每种用户行为的满意度权重,预测每个用户行为数据的满意度。
4.根据权利要求2至3之一所述的方法,其特征在于,根据对用户行为数据中记录的用户对数据对象的用户行为进行机器学习,以获得所述每个用户行为数据的满意度,包括:
根据每个用户行为数据中记录的用户以及查询词,对所述每个用户行为数据的满意度进行归一化。
5.根据权利要求2至4之一所述的方法,其特征在于,
选择所述每个用户行为数据中的用户的特征、以及所述数据对象的特征中的一项特征或多项特征形成的特征组合,包括:根据预先存储的用户的特征、以及数据对象的特征,获得每个用户行为数据中记录的用户的特征,以及记录的数据对象的特征;
根据每个特征或特征组合下的用户行为数据的满意度,进行个性化模型训练,并获得每个特征或特征组合的个性化权重,包括:根据所述每个用户行为数据的满意度,以及所述每个用户行为数据记录的数据对象的特征和用户的特征,训练所述每个数据对象的特征针对所述每个用户特征的个性化权重。
6.根据权利要求1至5之一所述的方法,其特征在于,根据所述特征或特征组合的个性化权重,对根据用户的搜索请求中的查询词所搜索出的一个或多个数据对象,进行排序,包括:
基于用户的搜索请求获得用户的特征,以及根据搜索出的每个数据对象,获得数据对象的特征;
通过查询与所述用户的特征和搜索出的每个数据对象的特征相对应的特征组合的个性化权重,预测所述每个数据对象的个性化分数;
基于所述每个数据对象的个性化分数,对所述一个或多个数据对象进行排序。
7.一种个性化数据搜索装置,其特征在于,包括:
学习模块,用于根据对用户行为数据中记录的用户对数据对象的用户行为进行机器学习,以获得每个用户行为数据的满意度;
形成模块,用于选择所述每个用户行为数据中的用户的特征、以及所述数据对象的特征中的一项特征或多项特征形成的特征组合;
训练模块,用于根据每个特征或特征组合下的用户行为数据的满意度,进行个性化模型训练,并获得每个特征或特征组合的个性化权重;
排序模块,用于根据所述特征或特征组合的个性化权重,对根据用户的搜索请求中的查询词所搜索出的一个或多个数据对象,进行排序,以根据所述排序展示所述一个或多个数据对象。
8.根据权利要求7所述的装置,其特征在于,
在所述每个用户行为数据中,至少记录用户、所述用户对数据对象的一种或多种用户行为、所述数据对象、以及所述数据对象对应的查询词;
所述学习模块还被配置成:根据记录的所述一种或多种用户行为中的每种用户行为进行学习。
9.根据权利要求7至8之一所述的装置,其特征在于,所述学习模块还包括:训练处理单元和预测处理单元;
所述训练处理单元,用于根据每个用户行为数据记录的一种或多种用户行为中的每一种用户行为,进行满意度模型训练,并确定每种用户行为的满意度权重;
所述预测处理单元,用于根据每个用户行为数据记录的一种或多种用户行为中的每种用户行为的满意度权重,预测每个用户行为数据的满意度。
10.根据权利要求8至9之一所述的装置,其特征在于,所述学习模块还被配置成:
根据每个用户行为数据中记录的用户以及查询词,对所述每个用户行为数据的满意度进行归一化。
11.根据权利要求8至10之一所述的装置,其特征在于,
所述形成模块还被配置成:根据预先存储的用户的特征、以及数据对象的特征,获得每个用户行为数据中记录的用户的特征,以及记录的数据对象的特征;
所述训练模块还被配置成:根据所述每个用户行为数据的满意度,以及所述每个用户行为数据记录的数据对象的特征和用户的特征,训练所述每个数据对象的特征针对所述每个用户特征的个性化权重。
12.根据权利要求7至11之一所述的装置,其特征在于,所述排序模块还被配置成:
基于用户的搜索请求获得用户的特征,以及根据搜索出的每个数据对象,获得数据对象的特征;
通过查询与所述用户的特征和搜索出的每个数据对象的特征相对应的特征组合的个性化权重,预测所述每个数据对象的个性化分数;
基于所述每个数据对象的个性化分数,对所述一个或多个数据对象进行排序。
CN201310628812.6A 2013-11-29 2013-11-29 一种个性化数据搜索方法和装置 Active CN104679771B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201310628812.6A CN104679771B (zh) 2013-11-29 2013-11-29 一种个性化数据搜索方法和装置
TW103110111A TW201520790A (zh) 2013-11-29 2014-03-18 個性化資料搜尋方法和裝置
US14/554,775 US20150154508A1 (en) 2013-11-29 2014-11-26 Individualized data search
PCT/US2014/067648 WO2015081219A1 (en) 2013-11-29 2014-11-26 Individualized data search

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310628812.6A CN104679771B (zh) 2013-11-29 2013-11-29 一种个性化数据搜索方法和装置

Publications (2)

Publication Number Publication Date
CN104679771A true CN104679771A (zh) 2015-06-03
CN104679771B CN104679771B (zh) 2018-09-18

Family

ID=52146714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310628812.6A Active CN104679771B (zh) 2013-11-29 2013-11-29 一种个性化数据搜索方法和装置

Country Status (4)

Country Link
US (1) US20150154508A1 (zh)
CN (1) CN104679771B (zh)
TW (1) TW201520790A (zh)
WO (1) WO2015081219A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095357A (zh) * 2015-06-24 2015-11-25 百度在线网络技术(北京)有限公司 一种用于咨询数据处理的方法和装置
CN106095983A (zh) * 2016-06-20 2016-11-09 北京百度网讯科技有限公司 一种基于个性化深度神经网络的相似度确定方法及装置
CN106445941A (zh) * 2015-08-05 2017-02-22 北京奇虎科技有限公司 一种网站提供对象的推荐方法和装置
CN107092626A (zh) * 2015-12-31 2017-08-25 达索系统公司 预计算模型的结果的检索
CN107133253A (zh) * 2015-12-31 2017-09-05 达索系统公司 基于预测模型的推荐
CN107506367A (zh) * 2017-07-03 2017-12-22 阿里巴巴集团控股有限公司 确定应用展示内容的方法、装置及服务器
CN108932648A (zh) * 2017-07-24 2018-12-04 上海宏原信息科技有限公司 一种预测商品属性数据及训练其模型的方法和装置
CN109189904A (zh) * 2018-08-10 2019-01-11 上海中彦信息科技股份有限公司 个性化搜索方法及系统
CN109299344A (zh) * 2018-10-26 2019-02-01 Oppo广东移动通信有限公司 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN111062736A (zh) * 2018-10-17 2020-04-24 百度在线网络技术(北京)有限公司 模型训练、线索排序方法、装置及设备
CN112017324A (zh) * 2019-05-31 2020-12-01 上海凌晗电子科技有限公司 一种驾驶信息实时交互系统及方法
CN112990938A (zh) * 2019-12-17 2021-06-18 阿里巴巴集团控股有限公司 检测对象的方法、装置和系统
US11176481B2 (en) 2015-12-31 2021-11-16 Dassault Systemes Evaluation of a training set

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037236B1 (en) * 2014-01-31 2021-06-15 Intuit Inc. Algorithm and models for creditworthiness based on user entered data within financial management application
US10331752B2 (en) * 2015-07-21 2019-06-25 Oath Inc. Methods and systems for determining query date ranges
CN105389714B (zh) * 2015-10-23 2022-07-05 北京慧辰资道资讯股份有限公司 一种从行为数据识别用户特性的方法
US10657434B2 (en) * 2016-04-05 2020-05-19 Intellective Ai, Inc. Anomaly score adjustment across anomaly generators
US11537791B1 (en) 2016-04-05 2022-12-27 Intellective Ai, Inc. Unusual score generators for a neuro-linguistic behavorial recognition system
CN106327266B (zh) * 2016-08-30 2021-05-25 北京京东尚科信息技术有限公司 数据挖掘方法及装置
TWI634499B (zh) * 2016-11-25 2018-09-01 財團法人工業技術研究院 資料分析方法、系統及非暫態電腦可讀取媒體
CN110472645A (zh) * 2018-05-09 2019-11-19 北京京东尚科信息技术有限公司 一种选择目标对象的方法和装置
CN109902167B (zh) * 2018-12-04 2020-09-01 阿里巴巴集团控股有限公司 嵌入结果的解释方法和装置
CN110018869B (zh) 2019-02-20 2021-02-05 创新先进技术有限公司 通过强化学习向用户展示页面的方法及装置
US11741191B1 (en) 2019-04-24 2023-08-29 Google Llc Privacy-sensitive training of user interaction prediction models
EP4293662A1 (en) * 2022-06-17 2023-12-20 Samsung Electronics Co., Ltd. Method and system for personalising machine learning models

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007106269A1 (en) * 2006-03-02 2007-09-20 Microsoft Corporation Mining web search user behavior to enhance web search relevance
CN101454776A (zh) * 2005-10-04 2009-06-10 汤姆森环球资源公司 用于识别相关法律文件的系统、方法、和软件
CN101894351A (zh) * 2010-08-09 2010-11-24 北京邮电大学 基于多智能Agent的旅游多媒体信息个性化服务系统
US20120078825A1 (en) * 2010-09-28 2012-03-29 Ebay Inc. Search result ranking using machine learning
CN102542003A (zh) * 2010-12-01 2012-07-04 微软公司 用于顾及当用户在搜索引擎中提出查询时的用户意图的点击模型
CN102779193A (zh) * 2012-07-16 2012-11-14 哈尔滨工业大学 自适应个性化信息检索系统及方法
CN103020289A (zh) * 2012-12-25 2013-04-03 浙江鸿程计算机系统有限公司 一种基于日志挖掘的搜索引擎用户个性化需求提供方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070106663A1 (en) * 2005-02-01 2007-05-10 Outland Research, Llc Methods and apparatus for using user personality type to improve the organization of documents retrieved in response to a search query
CA2764496C (en) * 2009-06-05 2018-02-27 Wenhui Liao Feature engineering and user behavior analysis
CN101996215B (zh) * 2009-08-27 2013-07-24 阿里巴巴集团控股有限公司 一种应用于电子商务网站的信息匹配方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101454776A (zh) * 2005-10-04 2009-06-10 汤姆森环球资源公司 用于识别相关法律文件的系统、方法、和软件
WO2007106269A1 (en) * 2006-03-02 2007-09-20 Microsoft Corporation Mining web search user behavior to enhance web search relevance
CN101894351A (zh) * 2010-08-09 2010-11-24 北京邮电大学 基于多智能Agent的旅游多媒体信息个性化服务系统
US20120078825A1 (en) * 2010-09-28 2012-03-29 Ebay Inc. Search result ranking using machine learning
CN102542003A (zh) * 2010-12-01 2012-07-04 微软公司 用于顾及当用户在搜索引擎中提出查询时的用户意图的点击模型
CN102779193A (zh) * 2012-07-16 2012-11-14 哈尔滨工业大学 自适应个性化信息检索系统及方法
CN103020289A (zh) * 2012-12-25 2013-04-03 浙江鸿程计算机系统有限公司 一种基于日志挖掘的搜索引擎用户个性化需求提供方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095357A (zh) * 2015-06-24 2015-11-25 百度在线网络技术(北京)有限公司 一种用于咨询数据处理的方法和装置
CN106445941A (zh) * 2015-08-05 2017-02-22 北京奇虎科技有限公司 一种网站提供对象的推荐方法和装置
US11176481B2 (en) 2015-12-31 2021-11-16 Dassault Systemes Evaluation of a training set
CN107092626A (zh) * 2015-12-31 2017-08-25 达索系统公司 预计算模型的结果的检索
CN107133253A (zh) * 2015-12-31 2017-09-05 达索系统公司 基于预测模型的推荐
CN106095983B (zh) * 2016-06-20 2019-11-26 北京百度网讯科技有限公司 一种基于个性化深度神经网络的相似度确定方法及装置
CN106095983A (zh) * 2016-06-20 2016-11-09 北京百度网讯科技有限公司 一种基于个性化深度神经网络的相似度确定方法及装置
CN107506367A (zh) * 2017-07-03 2017-12-22 阿里巴巴集团控股有限公司 确定应用展示内容的方法、装置及服务器
CN108932648A (zh) * 2017-07-24 2018-12-04 上海宏原信息科技有限公司 一种预测商品属性数据及训练其模型的方法和装置
CN109189904A (zh) * 2018-08-10 2019-01-11 上海中彦信息科技股份有限公司 个性化搜索方法及系统
CN111062736A (zh) * 2018-10-17 2020-04-24 百度在线网络技术(北京)有限公司 模型训练、线索排序方法、装置及设备
CN109299344A (zh) * 2018-10-26 2019-02-01 Oppo广东移动通信有限公司 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN112017324A (zh) * 2019-05-31 2020-12-01 上海凌晗电子科技有限公司 一种驾驶信息实时交互系统及方法
CN112990938A (zh) * 2019-12-17 2021-06-18 阿里巴巴集团控股有限公司 检测对象的方法、装置和系统

Also Published As

Publication number Publication date
WO2015081219A1 (en) 2015-06-04
TW201520790A (zh) 2015-06-01
US20150154508A1 (en) 2015-06-04
CN104679771B (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
CN104679771A (zh) 一种个性化数据搜索方法和装置
CN104866474B (zh) 个性化数据搜索方法及装置
Sivapalan et al. Recommender systems in e-commerce
CN103246980B (zh) 信息输出方法及服务器
CN102902691B (zh) 推荐方法及系统
CN102419779B (zh) 一种基于属性排序的商品个性化搜索方法及装置
CN109189904A (zh) 个性化搜索方法及系统
TWI557664B (zh) Product information publishing method and device
US9589277B2 (en) Search service advertisement selection
JP5859606B2 (ja) オンライン商取引プラットフォームにおける広告ソースおよびキーワードセットの適合
CN104951468A (zh) 数据搜索处理方法和系统
CN103970850B (zh) 网站信息推荐方法和系统
CN102411754A (zh) 一种基于商品属性熵值的个性化推荐方法
CN105426528A (zh) 一种商品数据的检索排序方法及系统
CN103886487A (zh) 基于分布式的b2b平台的个性化推荐方法与系统
CN105447186A (zh) 一种基于大数据平台的用户行为分析系统
CN108537596B (zh) 搜索框内车型推荐的方法、装置、系统及存储器
CN111737418B (zh) 搜索词和商品的相关性预测方法、设备和存储介质
CN109918563B (zh) 一种基于公开数据的图书推荐的方法
CN111429203A (zh) 基于用户行为数据的商品推荐方法和装置
US11682060B2 (en) Methods and apparatuses for providing search results using embedding-based retrieval
CN104408648A (zh) 一种挑选商品的方法及装置
CN102650991A (zh) 一种基于用户喜好的商品推荐方法及系统
KR20190081671A (ko) 온라인 쇼핑몰 통합 관리 시스템에서의 유사상품을 검색하는 방법 및 그 서버
US20150142782A1 (en) Method for associating metadata with images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant