CN103530305A

CN103530305A - 信息处理设备、信息处理方法、程序以及信息处理系统

Info

Publication number: CN103530305A
Application number: CN201310263008.2A
Authority: CN
Inventors: 川元洋平; 白井太三; 神尾一也; 田中雄; 作本纮一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-07-04
Filing date: 2013-06-27
Publication date: 2014-01-22
Also published as: US20140012862A1; JP2014013479A

Abstract

本发明公开了一种信息处理设备、信息处理方法、程序以及信息处理系统。所述信息处理设备包括计算单元和生成单元。所述计算单元被配置成计算如下频率函数：该频率函数是与数据库的一个或更多个属性值的出现频率相关的函数，所述数据库具有预定属性和与所述属性相关的所述一个或更多个属性值。所述生成单元被配置成基于计算出的频率函数来生成根据与所述数据库相关的出现频率的样本数据，所述样本数据包括所述一个或更多个属性值的至少一部分来作为一个或更多个样本属性值。

Description

信息处理设备、信息处理方法、程序以及信息处理系统

技术领域

本公开内容涉及用于提供例如数据库的信息处理设备、信息处理方法、程序以及信息处理系统。

背景技术

例如，日本专利申请公开No.2010-93424公开了如下技术：通过统计方法仅获得统计值来作为数据的汇集结果，而隐藏了数据库中的各个数据。例如，在为了学术研究或市场分析而分发由各种组织（例如公司）拥有的消费者信息等的情况下，使用以上提及的技术。

在日本专利申请公开No.2010-93424公开的数据汇集方法中，执行了由能够定义数据的反函数的函数进行的变换操作，并且针对变换后的数据执行干扰处理。基于通过干扰处理获得的干扰后的数据，计算与所述变换后的数据相关的统计值的近似值。然后，由反函数对所述统计值执行逆变换处理，由此生成与所述数据相关的统计值的近似值。

在所述数据汇集方法中，因为针对数据不仅执行了干扰处理而且执行了变换处理，所以增加了保密性。同时，在变换处理和逆变换处理中，统计值的精确度未降低，所以仅仅在干扰处理中引起了统计值的精确度的下降。作为结果，可以同时实现待生成的统计值的高精确度以及数据保密性（参见例如日本专利申请公开No.2010-93424的段落0001至0010）。

发明内容

在例如如上所述提供数据时，需要一种用于数据提供者和数据用户的有用系统。

鉴于上述情况，期望提供能够获得对数据提供者和数据用户有用的数据提供系统的信息处理设备、信息处理方法、程序以及信息处理系统。

根据本公开内容的实施方式，提供了一种信息处理设备，所述信息处理设备包括计算单元和生成单元。

计算单元被配置成计算如下频率函数：所述频率函数是与数据库的一个或更多个属性值的出现频率相关的函数，所述数据库具有预定属性和与所述属性相关的所述一个或更多个属性值。

生成单元被配置成：基于计算出的频率函数来生成根据与数据库相关的出现频率的样本数据，该样本数据包括所述一个或更多个属性值的至少一部分作为一个或更多个样本属性值。

在信息处理设备中，计算与由数据库所具有的一个或更多个属性值的出现频率相关的频率函数。通过使用该频率函数，生成根据出现频率的样本数据。作为结果，可以获得对数据提供者和数据用户有用的数据提供系统。

频率函数可以表达第一出现频率，第一出现频率是每个属性值的出现频率。

以这种方式，可以将表达每个属性值的第一出现频率的函数用作频率函数。

生成单元可以生成样本数据，使得由频率函数所表达的每个样本属性值的第一出现频率与第二出现频率彼此对应，所述第二出现频率是样本数据中的每个样本属性值的出现频率。

作为结果，可以生成与数据库相关的有用样本数据。

计算单元可以计算所述一个或更多个属性值的出现次数相对于各个属性值的总数的比率，并且计算将通过对出现次数的比率进行近似而获得的近似值表达为第一出现频率的频率函数。

在信息处理设备中，计算出现次数相对于整体属性值的比率。然后，将出现次数的比率的近似值表达为第一出现频率。作为结果，生成根据出现次数的比率的样本数据。

计算单元可以选择预定模型函数并且使所述预定模型函数与每个属性值的出现次数的比率拟合，以计算频率函数。

以这种方式，可以通过拟合模型函数来计算频率函数。

计算单元可以通过最大似然估计法来估计根据每个属性值的出现次数的比率的概率函数，以计算所估计的概率函数来作为频率函数。

以这种方式，可以将通过最大似然估计法所估计的概率函数用作频率函数。

计算单元可以计算所述一个或更多个属性值的出现次数相对于各个属性值的总数的比率，并且生成将出现次数的比率表达为第一出现频率的频率函数。

以这种方式，出现次数的比率可以被表达为第一出现频率。作为结果，生成根据出现次数的比率的样本数据。

信息处理设备还可以包括设置单元，该设置单元被配置成将所述一个或更多个属性值中的预定属性值设置为计算单元计算频率函数时不使用的非目标属性值。在这种情况下，计算单元可以计算与除了所设置的非目标属性值之外的所述一个或更多个属性值的出现频率相关的频率函数。另外，生成单元可以基于所计算出的频率函数、根据除了非目标属性值之外的所述一个或更多个属性值来生成样本数据。

在信息处理设备中，设置不用于计算频率函数的非目标属性值。例如，将这样的意在被从样本数据中排除的特征属性值设置为非目标属性值。作为结果，可以生成有用的样本数据。

计算单元可以计算所述一个或更多个属性值的出现次数相对于各个属性值的总数的比率，并且基于出现次数的比率来生成频率函数。在这种情况下，设置单元可以基于每个属性值的出现次数的比率，将出现次数的比率小于预定值的属性值设置为非目标属性值。

以这种方式，可以将出现次数的比率小于预定值的属性值设置为非目标属性值。作为结果，例如，出现次数的比率小的特征值被设置为非目标属性值。

计算单元可以计算所述一个或更多个属性值的出现次数相对于各个属性值的总数的比率，并且基于出现次数的比率来生成频率函数。在这种情况下，设置单元可以基于每个属性值的出现次数的比率，将出现次数的比率与由频率函数所表达的第一出现频率之间的差大于预定值的属性值设置为非目标属性值。计算单元可以再次计算与除了设置的非目标属性值之外的所述一个或更多个属性值的出现频率相关的频率函数。另外，计算单元可以基于再次计算出的频率函数，根据除了非目标属性值之外的所述一个或更多个属性值来生成样本数据。

在信息处理设备中，计算由计算出的频率函数表达的第一出现频率与出现次数的比率之间的差。将具有大于预定值的差的属性值设置为非目标属性值。再次计算与除了非目标属性值之外的属性值相关的出现频率。作为结果，出现次数的比率与第一出现频率之间具有较大差的特征属性值被设置为非目标属性值。

信息处理设备还可以包括接收单元和选择单元。

接收单元被配置成接收对与数据库中的预定数据相关的样本数据的请求。

选择单元被配置成基于所述请求从数据库中选择预定数据。

在这种情况下，计算单元可以计算与所选择的预定数据相关的频率函数。另外，生成单元可以基于计算出的频率函数根据预定数据来生成样本数据。

以这种方式，可以接收对与数据库中的预定数据相关的样本数据的请求。当合适时可以选择预定数据，并且当合适时可以生成与所述数据相关的样本数据。

接收单元可以接收外部设备所具有的外部数据和对与数据库中的外部数据关联的关联数据相关的样本数据的请求。在这种情况下，计算单元可以使用外部数据和关联数据的组合作为所述一个或更多个属性值来计算频率函数。生成单元可以基于所计算出的频率函数来生成如下样本数据：所述样本数据包括外部数据与关联数据的组合作为所述一个或更多个样本属性值。

信息处理设备从外部设备接收外部数据和对样本数据的请求。生成针对外部数据和与外部数据相关的关联数据的组合的样本数据。作为结果，可以获得对数据提供者和数据用户有用的数据提供系统。

接收单元、计算单元和生成单元能够基于多方协议来操作。

可以基于所述多方协议来执行上述针对外部数据与关联数据的组合的样本数据的生成。作为结果，可以获得对数据提供者和数据用户有用的数据提供系统。

接收单元可以接收通过全同态加密（fully homomorphic encryption）进行加密的外部数据。在这种情况下，信息处理设备还可以包括加密单元，该加密单元被配置成通过全同态加密来对关联数据加密。另外，计算单元可以计算与所加密的外部数据和所加密的关联数据的组合相关的频率函数。生成单元可以基于所计算出的频率函数来生成与所加密的外部数据和所加密的关联数据的组合相关的样本数据。

以这种方式，可以通过全同态加密来加密外部数据和关联数据。可以生成与加密的外部数据和关联数据的组合相关的样本数据。

计算单元能够生成作为与所述一个或更多个属性值的出现频率相关的函数的第一频率函数和与第一频率函数不同的第二频率函数。在这种情况下，接收单元可以从外部设备接收用于选择第一频率函数和第二频率函数之一的指定。

以这种方式，计算单元可以生成两个不同的频率函数。基于来自外部设备的指定，可以适当地选择第一频率函数和第二频率函数中的任一个。作为结果，可以获得有用的数据提供系统。

根据本公开内容的另一个实施方式，提供了一种信息处理方法，其包括计算如下频率函数：该频率函数是与数据库的一个或更多个属性值的出现频率相关的函数，所述数据库具有预定属性和与所述属性相关的所述一个或更多个属性值。

基于计算出的频率函数来生成根据与数据库相关的出现频率的样本数据。样本数据包括所述一个或更多个属性值的至少一部分来作为一个或更多个样本属性值。

根据本公开内容的又一个实施方式，提供了一种程序，所述程序使计算机执行以下步骤：

计算如下频率函数：该频率函数是与数据库的一个或更多个属性值的出现频率相关的函数，所述数据库具有预定属性和与所述属性相关的所述一个或更多个属性值；

根据本公开内容的又一个实施方式，提供了一种信息处理系统，其包括第一信息处理设备和第二信息处理设备。

第一信息处理设备能够提供具有预定属性和与所述属性相关的一个或更多个属性值的数据库。

第二信息处理设备被配置成向第一信息处理设备发送对与数据库相关的样本数据的请求。

第一信息处理设备包括接收单元、计算单元以及生成单元。

接收单元被配置成从第二信息处理设备接收对样本数据的请求。

计算单元被配置成计算如下频率函数：该频率函数是与数据库的所述一个或更多个属性值的出现频率相关的函数。

生成单元被配置成基于所计算出的频率函数来生成根据与数据库相关的出现频率的样本数据，样本数据包括所述一个或更多个属性值的至少一部分来作为一个或更多个样本属性值。

第二信息处理设备包括发送单元和接收单元。

发送单元被配置成发送对样本数据的请求。

接收单元被配置成接收所生成的样本数据。

根据本公开内容的又一个实施方式，提供了一种信息处理设备，其包括发送单元和接收单元。

发送单元被配置成向能够提供数据库的数据提供设备发送对与数据库相关的样本数据的请求，所述数据库具有预定属性和与所述属性相关的一个或更多个属性值。

接收单元被配置成接收根据所述一个或更多个属性值的出现频率的样本数据，该样本数据是由接收所述请求的数据提供设备基于作为与出现频率相关的函数的频率函数来生成的，并且该样本数据包括所述一个或更多个属性值的至少一部分来作为一个或更多个样本属性值。

如上所述，根据本公开内容的实施方式，可以获得对数据提供者和数据用户有用的数据提供系统。

根据以下详细描述的通过附图示出的本公开内容的最佳模式的实施方式，本公开内容的这些以及其他目的、特征以及优点将变得更加明显。

附图说明

图1是示出了根据本公开内容的第一实施方式的数据提供系统的结构示例的图；

图2是示出了数据提供设备和数据接收设备的硬件结构的示例的图；

图3是用于解释数据提供系统的操作的概要的示意图；

图4是示出了数据提供设备所具有的数据库的示例的图；

图5是示出了数据提供设备的软件结构示例的示意图；

图6是示出了由数据提供设备生成伪样本数据的流程图；

图7A、7B和7C是分别示出了从数据库选择的预定数据的示例的图；

图8是示出了每个属性值的出现次数的比率的示意图；

图9是用于解释对频率分布进行近似的频率函数的示例的图；

图10是用于解释使用每个属性值的出现次数的比率作为第一出现频率的频率函数的图；

图11A和11B是用于解释根据本公开内容的第二实施方式的关于非目标属性值的设置处理的示意图；

图12是用于解释关于非目标属性值的设置处理的另一个示例的示意图；

图13是用于解释关于非目标属性值的设置处理的又一个示例的示意图；

图14是用于解释根据本公开内容的第三实施方式的数据提供系统的操作的概要的示意图；

图15A和15B是示出了数据提供设备和数据接收设备所具有的数据库的示例的图；

图16是示出了数据提供设备的软件结构的示例的示意图；

图17是示出了由数据提供设备生成伪样本数据的流程图；

图18A和18B是分别示出了表示与预定条件相关的数据的表的图；

图19是用于解释根据本公开内容的第四实施方式的数据提供系统的操作的概要的示意图；

图20是示出了数据提供设备的软件结构的示例的示意图；

图21是示出了由数据提供设备生成伪样本数据的流程图；

图22是示出了根据本公开内容的第五实施方式的数据提供设备的软件结构的示例的示意图；以及

图23是示出了由数据提供设备生成伪样本数据的流程图。

具体实施方式

在下文中，将参照附图描述本公开内容的实施方式。

<第一实施方式>

（信息处理系统的结构）

图1是示出了数据提供系统的结构示例的图，该数据提供系统是根据本公开内容的第一实施方式的信息处理系统。数据提供系统100包括数据提供设备10和数据接收设备20。数据提供设备10是由数据提供者使用的第一信息处理设备。数据接收设备20是由数据用户使用的第二信息处理设备。

数据提供设备10与数据接收设备20通过网络1例如LAN（局域网）以及WAN（广域网）彼此连接。数据提供设备10与数据接收设备20的连接形式不受限制，只要两个设备10与20能够向彼此发送以及从彼此接收数据即可。

在数据提供系统100中，可以设置多个数据提供设备10和多个数据接收设备20。换言之，数据提供设备10的数目与数据接收设备20的数目不受限制。在数据提供系统100中，经由网络1来彼此连接的其他设备对应于外部设备。例如，在图1中，数据接收设备20针对数据提供设备10来说对应于外部设备。

如图1所示，数据提供设备10包括存储各种数据的存储单元708。在存储单元708中，存储能够经由网络1向外部设备提供数据的数据库30。数据库30被存储在数据提供设备10所具有的存储单元708中。

例如，在数据提供设备10所具有的数据库30是期望的数据的情况下，数据用户请求提供数据。数据用户通过使用数据接收设备20向数据提供设备10发送对与数据库30相关的样本数据50的请求，以确定数据库30是否是期望数据。

一旦接收到针对样本数据50的请求，数据提供设备10根据如下将要描述的本技术来生成样本数据50。然后，数据提供设备10向数据接收设备20发送样本数据50。通过根据本技术生成样本数据50，获得了对数据提供者和数据用户有用的数据提供系统100。

（数据提供设备的硬件结构）

在本实施方式中，作为数据提供设备10和数据接收设备20，使用了具有图2中示出的硬件结构的PC（个人计算机）70，但并不限于此。当合适时可以使用具有其他结构的计算机。另外，数据提供设备10和数据接收设备20不必具有相同的硬件结构。

PC70包括CPU（中央处理单元）701、ROM（只读存储器）702、RAM（随机存取存储器）703、输入输出接口705以及将它们相互连接的总线704。

显示单元706、输入单元707、存储单元708、通信单元709、驱动单元710等连接至输入输出接口705。

显示单元706是使用液晶、EL（电致发光器件）、CRT（阴极射线管）等的显示装置。

输入单元707是例如定点装置、键盘、触摸板或其他操作装置。在输入单元707包括触摸板的情况下，触摸板可以与显示单元706集成为一体。

存储单元708是非易失性存储装置,例如HDD（硬盘驱动器）、闪速存储器或其他固态存储器。

驱动单元710是能够驱动可拆卸记录介质711的装置，该可拆卸记录介质711例如为光记录介质、软盘（注册商标）、磁记录带以及闪速存储器。相反，存储单元708被经常用作如下装置：其主要驱动非可拆卸记录介质并且被预先安装在数据提供设备10上。

在可拆卸记录介质711中，可以存储数据库30。当合适时可以通过驱动单元710来读取数据库30。

通信单元709是用于与可连接至LAN、WAN等的另外的装置进行通信的通信设备，例如调制解调器和路由器。通信单元709可以执行有线或无线通信。通信单元709可以与PC70分开使用。

例如，通信单元709从数据接收设备20接收各种数据、指示、请求等。例如，通过通信单元709接收上述针对样本数据50的请求。在本实施方式中，通信单元709起到数据提供设备10的接收单元的作用。

另外，当图2中示出的结构为数据接收设备20的硬件结构时，通信单元709向数据提供设备10发送各种数据、请求等。另外，通信单元709从数据提供设备10接收样本数据50等。因此，在本实施方式中通信单元709起到数据接收设备20的发送单元和接收单元的作用。

通过存储在存储单元708、ROM702等中的软件与PC70中的硬件资源相互配合来执行由具有上述硬件结构的PC70进行的信息处理。具体地，CPU701将形成存储在存储单元、ROM702等中的软件的程序装载到RAM703中，并执行该程序，从而执行信息处理。程序通过记录介质等被安装在PC70中。可替代地，程序可以经由全球网络等被安装在PC70中。

（数据提供系统的操作）

图3是用于解释根据本实施方式的数据提供系统100的操作的概要的示意图。图4是示出了根据本实施方式的数据提供设备10所具有的数据库30的示例的图。

本实施方式的数据提供设备10所具有的数据库30是关系数据库并且通过图4中示出的表31来示出。表31具有四个字段（列）32，包括“ID号”、“身高”、“体重”以及“既往疾病”作为字段名称。表31还具有记录（行）33，在每个记录中存储了字段的数据。

在四个字段中，“ID号”字段32被设置为主键。因此，通过“ID号”来标识记录33，并且相互关联的“身高”、“体重”以及“既往疾病”被存储在记录33中。在四个字段32“ID号”、“身高”、“体重”以及“既往疾病”中，存储对应于预定域的数据。在字段32“ID号”、“身高”以及“体重”中，放置整数，而在字段32“既往疾病”中，放置字符串。

数据库30具有预定属性和与所述属性相关的一个或更多个属性值。在该实施方式中，表31所具有的字段32“身高”、“体重”以及“既往疾病”的组合对应于预定属性31a。“身高”、“体重”以及“既往疾病”的数据的组合对应于一个或更多个属性值31b。也就是说，在本实施方式中，在表示关系数据库的表31中的不是主键的字段32对应于属性，而存储在记录33中的属性的数据对应于属性值31b。

如图3所示，从数据接收设备20发送针对满足特定条件的样本数据50的请求。所述特定条件如下。

条件1：表31中的身高的数据；

条件2：身高为170cm或更高的ID的身高和体重的组合的数据；

条件3：具有既往疾病的人的既往疾病的数据。

也就是说，在本实施方式中，数据接收设备20向数据提供设备10发送针对与在数据库30中的预定数据（满足以上提及的条件等的数据）相关的样本数据50的请求。

接收到针对样本数据50的请求的数据提供设备10根据本技术生成样本数据50并向数据接收设备20发送所述数据。样本数据50包括在数据库30中的所述一个或更多个属性值31b的至少一部分来作为一个或更多个样本属性值51。在图3中所示的样本数据（x1,x2,…,xn）的元素代表样本属性值51。

（数据提供设备的操作）

将更加详细地描述由数据提供设备10根据本实施方式生成样本数据50。图5是示出了数据提供设备10的软件结构示例的示意图。图6是示出了由数据提供设备10生成样本数据50的流程图。

例如，执行预定程序的CPU701实施图5所示的软件块。块中示出的单元按照图6所示的流程图来进行操作，由此生成样本数据50。应当注意，当合适时，可以使用用于执行所述块的专用硬件。

数据用户指定作为针对数据接收设备20的样本数据50的必要数据条件（步骤ST101）。数据接收设备20的发送单元向数据提供设备10发送针对满足指定条件的数据的样本数据50的请求（步骤ST102）。应当注意，根据本技术的样本数据50可以被称为伪样本数据50。

图5中示出的数据提供设备10的接收单元11接收针对伪样本数据50的请求（步骤ST103）。基于针对伪样本数据50的请求，数据提取单元12从数据库30提取满足条件的数据。作为结果，从数据库30选择并获得预定数据（步骤ST104）。在本实施方式中，数据提取单元12起到选择单元的作用。

图7A至7C是分别示出了从数据库30选择的预定数据的示例的图。例如，在以上提及的条件1被指定的情况下，数据提取单元12提取表34,表34包括图7A中示出的身高数据。在表34中，“身高”是预定属性34a，预定属性值的数据是一个或更多个属性值34b。

在条件2被指定的情况下，数据提取单元12提取表35，表35是图7B中所示的身高为170cm或更高的ID的身高和体重的数据组合。在表35中，“身高”和“体重”的组合是预定属性35a，预定属性的值是一个或更多个属性值35b。

在条件3被指定的情况下，数据提取单元12提取表36，表36是在图7c中所示的具有既往疾病的人的既往疾病的数据。在表36中，“既往疾病”是预定属性36a，预定属性36a的字符串是一个或更多个属性值36b。

在以下描述中，由数据提取单元12提取的预定数据可以被称为原始数据37。在此，作为原始数据37，在图7A中示出的身高数据的表34被作为示例给出。

频率函数计算单元13计算频率函数（步骤ST105），该频率函数是用于表达原始数据37的出现频率的函数。在此，频率函数是与由数据库所具有的所述一个或更多个属性值的出现频率相关的函数。也就是说，频率函数与特定属性值在数据库中出现的频率相关。在本实施方式中，表达第一出现频率的函数被计算作为频率函数，所述第一出现频率是每个属性值的出现频率。因此，频率函数是输入属性值并输出第一出现频率的函数。

在图6的步骤ST105中，计算与表34所具有的一个或更多个属性值34b的出现频率相关的频率函数。因此，输入作为属性值34b的身高数据，计算输出每个属性值34b的第一出现频率的频率函数。

在下面，将描述由频率函数计算单元13进行的频率函数计算。图8至图10是用于解释计算频率函数的图。在本实施方式中，频率函数计算单元13计算一个或更多个属性值34b的出现数目（出现次数）与各个属性值34b的总数的比率。

图8是示出关于图7A中所示的身高数据的表34的每个属性值34b的出现次数的比率38的数据的图。针对每个属性值34b（针对表达身高的每个整数），计算属性值34b在表31中的出现数目。将通过将每个属性值34b的出现次数除以表31中的属性值34b的总数而获得的比率计算为每个属性值34b的出现次数的比率38。

如图8所示，在本实施方式中，将从比在图7A所示的表34中的作为最小属性值34b的152小的值150到作为表31中的最大属性值34b的值180的出现次数的比率38计算为数据。选择用于计算出现次数的比率38的属性值34b的选择方法不受限制。可以针对未包括在原始数据37中的属性值34b，计算出现次数的比率（在这种情况下获得值0）。当合适时，可以根据频率函数的计算来选择属性值34b。

在本实施方式中，计算如下频率函数：该频率函数将通过对图8中的每个属性值34b的出现次数的比率38进行近似而获得的近似值表达为第一出现频率。也就是说，计算对原始数据37中的属性值的频率分布进行近似的频率函数。

图9是用于解释对频率分布进行近似的频率函数的示例的图。如图9所示，以横轴为身高，以纵轴为出现频率的比率，来绘制每个属性值34b的出现频率的比率38。计算对属性值的频率分布进行近似的频率函数f(x)。

为了计算频率函数，在本实施方式中，频率函数计算单元13选择预定模型函数，预定模型函数经历与每个属性值34的出现次数的比率38的拟合。作为结果，计算出频率函数。模型函数是如下函数：其是根据属性值34b输出每个属性值34b的第一出现频率的频率函数的模型。模型函数的选择方法以及用于出现次数的比率38的拟合方法不受限制，可以使用各种技术，包括已知技术。

所选择的模型函数的示例包括指数函数、线性函数、对数函数、多项式函数、高斯函数等。在本实施方式中，选择以下高斯函数作为模型函数。

g(x)=a+b·exp(-(x-c)²/d²)

其中，变量x表达身高值，输出的g(x)表达第一出现频率。

关于拟合方法，通常使用最小二乘法，但是也可以使用其他方法。例如，在通过最小二乘法拟合以上提及的高斯函数的情况下，参数分别被确定为a=-0.075,b=0.185,c=165.8,以及d=16.1。

在本实施方式中，已经历拟合的模型函数g(x)被归一化，从而计算频率函数f(x)。具体地，如果图8中示出的一个或更多个属性值34b被表示为（y1至ym），则确定归一化参数k，使得获得k∑g(yi)=1。例如，如果设置m=15以及yi=152+2(i-1)，则获得k=0.98。作为结果，作为用于生成伪样本数据50的频率函数f(x)，获得k·g(x)(f(x)=k·g(x))。

通过频率函数f(x)=k·g(x)，通过对每个属性值34b的出现次数的比率38进行近似获得的近似值被作为第一出现频率输出。应当注意，在计算出的函数获得小于0的值的情况下，属性值34b被用作伪样本数据50，也就是说，所选择的作为样本属性值51的属性值34b可以被限制在不包括0的范围内。

如果在图6所示的步骤ST101中指定以上提及的条件2，则数据提取单元12提取图7B中示出的表35。在这种情况下，使用“身高”和“体重”的数据的组合作为属性值35b来计算每个属性值35b的出现次数的比率。然后，计算将出现次数的比率的近似值作为第一出现频率进行输出的频率函数。

在这种情况下获得频率函数的基本方式与以上相同。在以上所选择的模型函数具有一个变量，但是在这种情况下具有两个变量。选择具有两个变量的模型函数，并且模型函数经历与每个属性值35b的出现次数的比率的拟合，从而使得可以计算与表35相关的频率函数。在作为用于计算频率函数的目标的表具有大量字段的情况下，当合适时，可以选择具有多个变量的模型函数。

如果在图6所示的步骤ST101中指定以上提及的条件3，则数据提取单元12提取在图7c中示出的表36。在这种情况下，使用“既往疾病”的数据作为图10中所示的属性值36b来计算每个属性值36b的出现次数的比率38。

关于条件1和条件2，属性值是具有顺序的连续值。另一方面，在与条件3相关的表36中，属性值36b是表示既往疾病的名称的不具有顺序的字符串。也就是说，在表36中，存储离散值作为属性值36b。在这种情况下，如图10所示，可以计算输出每个属性值的出现次数的比率38的函数作为使用属性值36b作为变量x的频率函数f(x)。

以这种方式，可以计算将出现频率的比率38表示为第一出现频率的频率函数。可以在属性值是由多个字段形成的情况下，即设置多个变量的情况下，在属性值是具有顺序的值的情况下，或者在提供上述情况的组合的情况下，计算频率函数。

将描述生成频率函数的方法的另一个示例。如以下将要描述的，通过借助于最大似然估计法来估计根据每个属性值的出现次数的概率函数，可以计算所估计的概率函数作为频率函数。

例如，假定一个概率模型，并且通过最大似然估计法（最大似然法）获得参数，从而估计频率函数。最大似然估计法是指用于根据给定数据来估计数据所遵循的概率分布的参数的方法，并且可以被应用于各种模型例如高斯分布、二项分布以及泊松分布。

将给出具体示例。首先，选择带有变量x的概率密度函数或概率函数p(x;θ)。基于作为属性值数据的一个或更多个属性值（y1至ym）来估计参数θ。

作为概率模型，考虑正态线性模型。认为数据遵循yi=μ+εi(i=1·r)。μ是固定值（例如，平均值），εi是遵循高斯分布的误差并且在数据之间独立。在本示例中，估计参数θ的问题是估计μ与εi的离差σ²的问题。

为了通过最大似然估计法估计参数θ，使似然函数p(x;θ)=Πp(xi;θ)的对数似然函数log·p(x;θ)最大化的θ’是最大似然量。例如，在上述正态线性模型中的最大似然量是μ’=(1/r)∑xi,σ²=(1/r)∑(xi-μ’)²。在属性值的数据为图8所示的图中的数据的情况下，获得μ’=165.4以及σ²=43.24。

以这种方式，可以计算由最大似然估计法估计的概率函数作为频率函数。应当注意，由最大估计法进行的概率函数估计方法不受限制。所选择的概率模型是任意的。

基于计算出的频率函数，伪样本数据生成单元14生成根据与如下数据库（原始数据37）相关的出现频率的伪样本数据50：该数据库包括一个或更多个属性值34b的至少一部分来作为一个或更多个样本属性值51（步骤ST106）。

在本实施方式中，生成伪样本数据50，使得由频率函数f(x)表达的每个样本属性值51的第一出现频率与作为伪样本数据50中的每个样本属性值51的出现频率的第二出现频率彼此对应。例如，基于频率函数f(x)，输出数据，使得样本属性值x在伪样本数据50中的出现概率是f(x)的值，从而生成伪样本数据（x1,x2,…,以及xn）。

当在频率函数f(xn)中输入样本属性值xn时，频率函数f(xn)的输出为样本属性值xn的第一出现频率。另一方面，伪样本数据（x1,x2,…,xn）中的xn的出现频率被设置为第二出现频率。通常，样本属性值51的出现次数与伪样本数据50中的总数的比率是第二出现频率。应当注意，可以将每个样本属性值51的出现次数的比率的近似值设置为第二出现频率。

生成伪样本数据50，使得第一出现频率与第二出现频率彼此对应。典型地，生成伪样本数据50，使得第一出现频率与第二出现频率彼此相等，但并不限于此。第一出现频率与第二出现频率可以通过近似彼此关联。可以以如下出现分布来输出样本属性值51：所述出现分布对应于原始数据37中的属性值的出现分布，从而可以生成伪样本数据50。作为结果，可以生成保留有原始数据的特征的伪样本数据50。

应当注意，包括在伪样本数据50中的样本属性值51的数目不受限制。当合适时，可以考虑原始数据37的属性值的数目、防止数据泄露等来设置样本属性值51的数目。另外，当合适时，可以基于如下各种条件来设置样本属性值51的数目：例如来自数据用户的、与伪样本数据50的精确度相关的请求，以及数据提供服务的设置。

通过发送单元15向数据接收单元20发送生成的伪样本数据50（步骤ST107）。然后，数据接收设备20的接收单元接收伪样本数据50（步骤ST108）。

如上所述，在作为根据本实施方式的信息处理设备的数据提供设备10中，计算与数据库30（或原始数据37）所具有的一个或更多个属性值的出现频率相关的频率函数。使用频率函数来生成根据出现频率的伪样本数据50。作为结果，可以实现对数据提供者和数据用户有用的数据提供系统。

作为频率函数，计算将每个属性值的出现次数的比率的近似值表达为第一出现频的函数或者将每个属性值的出现次数的比率表达为第一出现频率的函数。作为结果，生成根据出现次数的比率的伪样本数据50。

作为用于生成与数据库相关的样本数据的方法，可以想到以下方法。例如，可以想到其中数据提供设备在数据库中随机选择特定比率的数据并且生成所选择的数据的一部分的方法。在该方法中，在数据库中的数据量较小的情况下，样本数据的数目也较小，并且因此由数据用户难以确定其是否是期望的数据库。也就是说，其有用性随着待提供给数据提供者的样本数据而降低。

还可以想到通过向数据库中的数据添加噪声来生成数据以作为样本数据的方法。例如，针对原始数据(d1,d2,…,dn)，生成数据(d1+ε1,d2+ε2,...,dn+εn)来作为样本数据。ε1至εn是遵循具有平均值0的均匀分布（例如高斯分布）的噪声。

在该方法中，向具有顺序的值添加噪声是有意义的，但是向不具有顺序的值（例如既往疾病和住所）添加噪声是没有意义的，而且仅获得通过简单模型来添加噪声而进行变形从而作为样本数据的数据，这作为样本数据提供了低有用性。

在一种方法中，生成通过以特定概率替换在数据库中的元素（属性值等）而获得的数据，来作为样本数据。例如，针对原始数据(d1,d2,…,dn)，通过替换生成(d’1,d’2,...,d’n)。作为替换方法，可以想到如下方法：在所述方法中，当数据库中的元素为(a1至ak)时，用ak替换ak的概率（即不执行替换的概率）被设置为ρ，通过ak以外的元素来替换ak的概率被设置为(1-ρ)/(n-1)。

在该方法中，改变了整个原始数据的频率分布，这对数据提供者而言可能不能够掌握数据库的趋势。另外，仅获得了通过简单模型来替换元素而变形的作为样本数据的数据，作为样本数据的有用性低。

此外，计算一些统计数据，例如数据库的平均值和离差，所述统计数据的值被生成以作为代表数据特征的特征量。可以想到如下方法：在所述方法中，特征量作为样本数据被发送给数据用户。在该方法中，对数据用户而言可能不能够确定有限的特征量，因此样本数据的有用性低。可替代地，也可以想到如下情况：其中特征量（例如平均值和离差）是数据用户需要的信息。在这种情况下，样本数据本身是用户需要的数据，从而不建立数据库的提供服务。另外，可能不能够防止数据库泄露。

相反，在根据本实施方式生成伪样本数据50的方法中，计算与出现频率相关的频率函数。然后，生成伪样本数据50，使得第一出现频率与第二出现频率彼此对应。通过以这种方式生成伪样本数据50，可以将与数据相关的信息作为伪样本数据50来发送，同时防止数据泄露。

例如，在生成特定比率的样本数据的情况下，假设样本比率为10%，数据的总数为100个。在这种情况下，对数据用户而言有必要根据10个数据来得到全部数据的特征。相反，在本实施方式中，基于全部的100个数据（数目增加了10倍）来生成频率函数。作为结果，可以生成反映整体数据的趋势的数据来作为伪样本数据50。随着数据的总数增加，可以以更高的精确度来执行频率函数的估计等，因此根据本实施方式的生成方法是其中原始数据结构被进一步反映的方法。例如，如果样本比率被设置为p%，则在根据本实施方式的伪样本数据50中，可以向数据用户提供等同于约100/p倍的数据的信息。

另外，在本实施方式中，即使在值不具有顺序的数据（既往疾病、住所等）的情况下，也可以提供伪样本数据50。在值不具有顺序的情况下，上述其中添加噪声的方法是没有意义的。在本实施方式中，注意集中在属性值的频率上，因此可以计算频率函数，而不管值的顺序。基于频率函数，可以生成伪样本数据50。

因为可以提供保留有原始数据结构的伪样本数据50，所以可以超出需求地限制信息的泄露并且同时在数据用户能够执行关于数据使用的确定的程度下给出信息。例如，在其中数据库的元素被替换的方法中，改变数据的概率分布。另一方面，在本实施方式中，可以选择各种函数或近似方法（拟合、最大似然法等）作为对属性值的频率分布进行近似的频率函数。作为结果，通过根据原始数据结构合适地选择函数，可以使原始数据结构保留。另外，可以通过对函数的选择等来调整近似程度，因此可以超出需求地限制信息的泄露。

另外，在本实施方式中，通过限制包括在伪样本数据50中的样本属性值51的数目，可以调整待给予数据用户的信息量。例如，假设频率分布是通过多项式函数f(x)=a0+a1x+...+aqxⁿ进行近似的。在这种情况下，如以上其他方法所描述的，作为数据特征量的(a0,a1,…,aq)被用作样本数据。作为结果，在数据用户需要数据的情况下，通过样本数据泄露数据。在本实施方式中，基于计算出的f(x)，生成伪样本数据(x1,x2,…,xn)，因此这样的问题不再发生。

类似地，高斯分布经历最大似然估计，从而计算以下频率函数f(x)。

f(x)=(1/√(2π)σ)exp(-(x-μ)²/2σ²))

在这种情况下，如果(μ,σ)被用作数据特征量，则担心信息可能泄露。在本实施方式中，基于f(x)生成伪样本数据(x1,x2,…,xn)，因此所述问题不再发生。

基于根据本实施方式的伪样本数据(x1,x2,…,xn)，数据用户可以计算(a0,a1,…,aq)或(μ,σ)作为数据特征量。在这种情况下，为了生成具有高精确度的数据特征量，大量的数据是必要的。通过调整伪样本数据50的样本属性值51的数目，可以调整待给予数据用户的信息量。作为结果，可以防止信息的不必要的泄露。

另一方面，基于根据本实施方式的伪样本数据50，数据用户可以获得在特定精确度范围内的各种统计数据。也就是说，与将平均值或离差作为数据特征量发送的情况相比，可以在一定精确度范围内掌握整体趋势并且获得除了平均值和离差之外的其他统计数据。这可以由数据用户来自由执行。

<第二实施方式>

将描述根据本公开内容的第二实施方式的数据提供系统。在以下描述中，将省略或简化对与根据第一实施方式的数据提供系统100相同的结构和操作的解释。

在本实施方式中，执行以下处理来进行由频率函数计算单元执行的频率函数计算处理。在本实施方式中，频率函数计算单元将一个或更多个属性值中的预定属性值设置为不用于计算频率函数的非目标属性值。在本实施方式中，频率函数计算单元还作为设置单元来进行操作，并且频率函数计算单元设置非目标属性值。然而，可以向频率函数计算单元额外地提供用于设置非目标属性值的块。

频率函数计算单元计算与除了所设置的非目标属性值之外的一个或更多个属性值的出现频率相关的频率函数。基于计算出的频率函数，伪样本数据生成单元根据除了非目标属性值之外的一个或更多个属性值生成伪样本数据。

图11至13是用于解释非目标属性值的设置处理的示意图。例如，假设针对与图11A所示的表230中的身高相关的数据生成伪样本数据，同时，将每个属性值（身高）的出现频率与模型函数拟合，从而计算频率函数。

在本实施方式中，当计算频率函数时，频率小于预定值的属性值被设置为非目标属性值40。在图11A的表230中，作为在ID2000的记录中的身高的属性值，存储“190”。如图11B所示，190的属性值小于与预设出现频率相关的阈值。因此，身高的属性值190cm被设置为非目标属性值40。

应当注意，在图11B的纵轴上表示的每个属性值的频率通常为如第一实施方式所描述的每个属性值的出现次数的比率。也就是说，在计算出每个属性值的出现次数的比率并基于出现次数的比率生成频率函数的情况下，将出现次数的比率小于预定值的属性值设置为非目标属性值40。

以这种方式，针对频率来设置阈值，并将小于特定阈值的属性值设置为非目标属性值40。如图11B所示，使用除了非目标属性值40之外的属性值，并执行拟合，结果，计算出频率函数f(x)。

应当注意，可以计算频率函数一次，并且可以将作为所述频率函数的输出的、小于预定值的第一出现频率的属性值计算作为非目标属性值40。然后，基于除了非目标属性值40之外的属性值，可以再次计算频率函数。

可以针对属性值来设置阈值。例如，在图11所示的示例中，可以采用将预定身高或更高身高的属性值设置为非目标属性值40的算法。

在如图7C所示的不具有顺序的离散值的数据库的情况下，如图10所示，计算其中每个属性值36b的出现次数的比率38被作为第一出现频率的频率函数f(x)。在值不具有顺序的情况下，在如图12所示，例如，计算频率函数f(x)一次，然后可以将较小频率（出现次数的比率38）的属性值设置为非目标属性值40。在图12所示的示例中，将属性值“肾功能衰竭”设置为非目标属性值40。然后，基于除了非目标属性值40之外的属性值再次计算频率函数f(x)。

应当注意，即使在频率函数具有多个变量的情况下，也可以基于频率等以多个变量的组合的形式来合适地设置非目标属性值。

参照图13，将描述设置非目标属性值40的另一种方法。该方法还被用于如下情况：模型函数经历拟合以计算频率函数的情况，通过使用最大似然估计法等来估计频率函数的情况，等等。

在图13所示的示例中，通过拟合来计算频率函数f(x)。将如下属性值设置为非目标属性值40：对于该属性值，由一次计算出的f(x)所表达的第一出现频率（图13的曲线图）与属性值x的频率之间的差大于预定值。

在基于每个属性值的出现次数的比率来计算频率函数的情况下，将如下属性值设置为非目标属性值40：对于该属性值，出现次数的比率与由频率函数所表达的第一出现频率之间的差大于预定值。当合适时，可以通过设置阈值来执行设置处理。

如图13所示，再次计算与除了非目标属性值40之外的一个或更多个属性值的出现频率相关的频率函数。然后，伪样本数据生成单元基于再次计算出的频率函数、根据除了非目标属性值40之外的所述一个或更多个属性值来生成伪样本数据。

可以计算如上所述由一次生成的频率函数表达的第一出现频率与每个属性值的频率（例如出现次数的比率）之间的差。将差大于预定值的属性值设置为非目标属性值40。

如上所述，在根据本实施方式的作为信息处理设备的数据提供设备中，设置不用于计算频率函数的非目标属性值40。例如，将不希望被包括在伪样本数据中的特征属性值设置为非目标属性值40。作为结果，可以生成有用的样本数据。例如，作为特征属性值的如下属性值被设置为非目标属性值40：出现次数较少的属性值或者出现次数的比率与第一出现频率之间的差较大的属性值。

在许多情况下，很高的人的数据、具有罕见的既往疾病的人的数据等是具有重要意义的有价值的数据。如果这样的数据作为样本数据被泄露，则存在所述人被识别的可能性。在本实施方式中，通过使用每个属性值的频率等设置非目标属性值40，使得这样的在整体趋势之外的唯一值被排除。然后，在非目标属性值40被排除的情况下计算频率函数并生成伪样本数据。作为结果，可以防止具有重要意义的有价值信息的泄露。

在根据特定比率生成样本数据的情况下，可以将图11A所示的特征属性值（被称为离群值）（ID2000的身高）发送给数据用户。当样本比率为p%时，将离群值选择作为具有p/100的概率的样本数据。另外，在通过向数据添加噪声来生成样本数据的情况下，生成数据190+ε作为样本数据。为了增加数据的实用价值，需要ε较小，因此最后所述数据可能作为特征信息被泄露。

另外，在存在身高为190cm或更高的人可能被指定的可能性的情况下，所述数据可以与不同数据进行组合，导致敏感数据（既往疾病等）的泄露。在本实施方式中，使用低的出现频率、一次计算出的频率函数与原始数据之间的较大的差异等，从而使得能够防止数据泄露。

<第三实施方式>

将描述根据本公开内容的第三实施方式的数据提供系统。图14是用于解释根据本实施方式的数据提供系统300的操作的概要的示意图。图15是示出了由根据本实施方式的数据提供设备310和数据接收设备320所具有的数据库的示例的图。

在本实施方式中，在作为外部设备的数据接收设备320的存储单元中，存储作为外部数据的数据库。在数据提供设备310的存储单元中，存储与外部数据相关的数据库。与外部数据相关的数据库对应于关联数据。在这种情况下，数据用户操作数据接收设备320以向数据提供设备310发送外部数据和对与关联数据相关的伪样本数据的请求。

在本实施方式中，由图15A所示的表330表示的数据库被存储为外部数据。另外，由图15B所示的表335表示的数据库被存储为关联数据。

图15A所示的表330由字段332“ID号”和“身高”构成。图15B所示的表335由字段332“ID号”和“体重”构成。在同一“ID号”中，存储同一个人的数据。

如图14所示，在本实施方式中，作为外部数据，表330的整体或表330的预定部分被发送给数据提供设备310。作为对与关联数据相关的伪样本数据的请求，对与对应于同一ID号的（身高、体重）的组合的数据相关的伪样本数据的请求被发送。

数据提供设备310的接收单元接收对伪样本数据的请求以及外部数据。频率函数计算单元使用外部数据与关联数据的组合（即对应于同一ID号的、作为一个或更多个属性值的（身高、体重）的组合）来生成在以上实施方式中描述的频率函数。

基于计算出的频率函数，伪样本数据生成单元生成如下伪样本数据350：其包括将外部数据与关联数据组合作为一个或更多个属性值而获得的（身高、体重）组。生成的伪样本数据350被发送给数据接收设备320。图14所示的伪样本数据((x1,y1),(x2,y2),...(xn,yn))的元素代表样本属性值351。

另外，在本实施方式中，通过多方计算（MPC）来执行以上提及的处理。因此，可以基于多方协议来操作包括数据提供设备310的频率函数计算单元、伪样本数据生成单元以及接收单元的各种块。MPC指用于执行共同计算但彼此隐藏数据的协议。在本实施方式中，在彼此之间隐藏身高和体重的数据的状态下计算频率函数并生成伪样本数据。

将详细描述通过数据提供设备310生成伪样本数据350。图16是示出了数据提供设备310的软件结构的示例的示意图。图17是示出了通过数据提供设备310生成伪样本数据350的流程图。

数据用户指定作为相对于数据接收设备320的伪样本数据350的必要数据条件。另外，指定需要伪样本数据350的ID号（步骤ST301）。数据接收设备320的发送单元基于所述指定来将对伪样本数据350的请求发送到数据提供设备310（步骤ST302）。

在步骤ST301中的条件和ID指定如下，例如：

条件4：表330和335中的身高和体重的组合的数据；

条件5：表330中身高为170cm或更高的ID的身高和体重的组合的数据。

图18A与图18B是分别示出表示条件4和条件5的数据的表的图。图18A所示的表331示出了在条件4下的身高和体重的组合的数据。图18B所示的表336示出了在条件5下的身高为170cm或更高的ID的身高和体重的组合的数据。

数据提供设备310的接收单元311接收对伪样本数据350的请求（步骤ST303）。数据提供设备310向数据接收设备320发送对用于创建伪样本数据350的加密外部数据的请求（步骤ST304）。

例如，在指定条件4的情况下，请求表330中的身高的加密数据（在表336中的身高数据）。在指定条件5的情况下，请求在表335中170cm或更高的身高的加密数据（在表336中的身高数据）。通过外部数据请求单元（未示出）来生成对外部数据的请求，例如通过发送单元315来生成对外部数据的请求。

数据接收设备320的接收单元接收对加密的外部数据的请求（步骤ST305）。数据接收设备320的选择单元获得关联属性和与所有ID相关的作为目标的数据（属性值）（步骤ST306）。例如，在条件4的情况下，选择身高数据，以及在条件5的情况下，选择170cm或更高的身高的数据。

数据接收设备320的加密单元对获得的外部数据进行加密。在本实施方式中，通过全同态加密来加密外部数据。在本实施方式中，加密单元具有密钥存储单元，并且，在密钥存储单元中，存储公用密钥和秘密密钥。公用密钥用于执行对外部数据的加密（步骤ST307）。

通过全同态加密，可以在加密状态下进行求和或求积计算，并且在经历逻辑的算法的情况下，可以获得输入值被隐藏的算法的输出结果。例如，建立以下表达式。

Enc(pk,p1)+Enc(pk,p2)=Enc(pk,p1+p2)

Enc(pk,p1)*Enc(pk,p2)=Enc(pk,p1*p2)

其中p1和p2是纯文本，pk是数据提供者的公用密钥。

在本实施方式中，输入值p1与p2是外部数据与关联数据。所述算法为相对于所组合的数据计算频率函数并基于该频率函数生成伪样本数据。也就是说，输出结果是伪样本数据。

数据接收设备320的发送单元向数据提供设备310发送加密的外部数据（步骤ST308）。数据提供设备310的接收单元311接收加密的外部数据（步骤ST309）。

数据提取单元312从表335中的数据库获得与关联属性相关的关联数据（原始数据）（步骤ST310）。例如，在条件4的情况下，选择图18A所示的表331中的体重数据。在条件5的情况下，选择图18B所示的表336中的体重数据。

加密单元316对所选择的关联数据进行加密。以与加密外部数据的相同方式，通过全同态加密来加密关联数据。使用数据接收设备320的公用密钥来执行加密（步骤ST311）。可以将公用密钥与加密的外部数据一起发送给数据提供设备310。可以通过其他方法将公用密钥存储在数据提供设备310的存储单元等中。

数据接收设备320和数据提供设备310对数据的加密方法、用于加密的结构、算法等不受限制。

频率函数计算单元313计算与加密的外部数据和加密的关联数据的组合相关的频率函数f(x,y)（步骤ST312）。也就是说，通过以上实施方式中描述的方法，使用作为属性值的、基于ID而组合的（身高、体重）的加密的组合数据来计算频率函数。

基于计算出的频率函数f(x,y)，伪样本数据生成单元314生成与加密的外部数据和加密的关联数据的组合相关的伪样本数据((x1,y1),(x2,y2),...(xn,yn))（步骤ST313）。伪样本数据350是包括作为样本属性值351的加密的组合数据（身高、体重）的数据。

如在以上实施方式中所描述的，生成伪样本数据((x1,y1),(x2,y2),...(xn,yn))，使得由频率函数f(x,y)表达的第一出现频率与在伪样本数据350中的第二出现频率彼此对应。

发送单元315向数据接收设备320发送生成的伪样本数据((x1,y1),(x2,y2),...(xn,yn))（步骤ST314）。数据接收单元320接收伪样本数据((x1,y1),(x2,y2),...(xn,yn))（步骤ST315）。

数据接收设备320的解码单元对作为加密数据的伪样本数据350进行解码。在本实施方式中，使用存储在数据接收设备320的密钥存储单元中的秘密密钥，由此对加密的组合数据（身高、体重）进行解码（步骤ST316）。

如上所述，在根据本实施方式的数据提供系统300中，从数据接收设备320发送对伪样本数据350的请求和外部数据。可以以相同时序或不同时序来发送外部数据和对伪样本数据350的请求。然后，针对外部数据和与外部数据相关的关联数据的组合来生成伪样本数据350。作为结果，可以针对例如彼此关联的数据之间的相关性来生成伪样本数据350。还可以具有例如由多个数据提供者具有的数据之间的相关性。作为结果，可以获得对数据提供者和数据用户有用的数据提供系统300。

在本实施方式中，通过多方计算来生成与外部数据和关联数据的组合相关的伪样本数据350。也就是说，使用加密的组合数据作为属性值，通过拟合或最大似然估计法来计算频率函数。基于频率函数来生成伪样本数据350。作为结果，可以在相对于彼此隐藏数据的情况下来生成、提供以及接收伪样本数据350。因此，可以获得有用的数据提供系统300。

应当注意，可以向与数据提供设备310和数据接收设备320不同的设备发送外部数据和关联数据，并且可以在不同的设备中通过多方计算来生成伪样本数据350。

<第四实施方式>

将描述根据本公开内容的第四实施方式的数据提供系统。图19是用于解释根据本实施方式的数据提供系统400的操作的概要的示意图。

在本实施方式中，作为与一个或更多个属性值的出现频率相关的函数，数据提供设备410可以生成第一频率函数和不同于第一频率函数的第二频率函数。也就是说，可以生成作为频率函数的至少两个不同的函数。

数据接收设备420发送用于选择第一频率函数与第二频率函数之一的指定。由数据提供设备410的接收单元来接收指定。因此，对数据提供者而言可以选择频率函数并指定生成伪样本数据的方法。可以以任意时序来接收对选择频率函数的指定。

如在以上实施方式中描述的，作为频率函数的计算方法以及生成伪样本数据的方法，可以想到以下各种选择：

频率函数的各种生成方法（针对模型函数执行拟合的方法、通过使用最大似然估计法估计概率函数的方法、等等）；

用于拟合的各种模型函数（指数函数、线性函数、对数函数、多项式函数、高斯函数等）；

用于最大似然估计法的各种概率模型（高斯分布、二项分布泊、泊松分布等）；

存在或不存在设置非目标属性值（离群值）；

设置非目标属性值的方法内容（用于设置非目标属性值的阈值的大小等）；

用于计算频率函数的属性值的数目；

包括在伪样本数据中的样本属性值的数目；

算法的收敛条件（例如在最小二乘法中的重复次数）。

此外，存在计算频率函数的方法的各种示例。在所述各种示例中，生成至少两个频率函数，所述至少两个频率函数被计算为第一频率函数和第二频率函数。可以生成两个或更多个频率函数。另外，伪样本数据生成单元可以执行基于频率函数来生成伪样本数据的多种方法。当合适时，可以基于来自数据用户的对生成方法的指示来生成伪样本数据。

如图19所示，数据接收设备420发送对满足特定条件的数据的样本数据的请求和对频率函数的指定。在此，发送对通过执行正态分布的最大似然估计而获得的频率函数所生成的伪样本数据的请求。数据提供设备410向数据接收设备420发送基于所指示的频率函数而生成的伪样本数据450。图19所示的伪样本数据(x1,x2,…,xn)的元素代表样本属性值451。

图20是示出数据提供设备410的软件结构的示例的示意图。图21是示出通过数据提供设备410生成伪样本数据450的流程图。

指定关于伪样本数据450的必要数据条件，发送对伪样本数据450的请求（步骤ST401和ST402）。接收单元411接收对伪样本数据450的请求（步骤ST403）。

用于展示可以通过数据提供设备410执行的伪样本数据生成方法的信息被发送给数据接收设备420（步骤ST404）。如图20所示，与可执行的生成伪样本数据的方法相关的信息被存储在样本选项存储单元417中。展示给数据接收设备420的信息包括与第一频率函数和第二频率函数相关的信息。

基于展示的信息，数据接收设备420选择生成伪样本数据450的方法并且向数据提供设备410发送对生成方法的指示（步骤ST405和ST406）。所述指示包括用于选择第一频率函数和第二频率函数之一的指定。

接收单元411接收对生成伪样本数据450的方法的指示（步骤ST407）。数据提取单元412从数据库430中选择原始数据（步骤ST408）。频率函数计算单元413通过由数据用户指定的生成伪样本数据的方法来计算频率函数。也就是说，基于来自数据接收设备420的指示，计算第一频率函数和第二频率函数之一（步骤ST409）。

伪样本数据生成单元414基于计算出的频率函数来生成伪样本数据450，发送单元415向数据接收设备420发送伪样本数据450（步骤ST410和ST411）。数据接收设备420接收伪样本数据450（步骤ST412）。

如上所述，在根据本实施方式的数据提供系统400中，对数据提供设备410而言可以生成两个不同的频率函数。当合适时，基于来自外部设备的指定来选择第一频率函数和第二频率函数之一。作为结果，可以获得有用的数据提供系统400。

在本实施方式中，可以在数据提供侧生成多个频率函数，并且可以使用针对伪样本数据的多个生成方法。因此，对数据提供者而言，可以从多个生成方法中适当地选择一个生成方法并获得期望的伪样本数据450。

例如，取决于生成频率函数的方法以及其所使用的属性值的数目等，伪样本数据450的统计精确度发生变化。因此，当合适时通过使用不同的生成方法，数据用户可以对待给予数据用户的伪样本数据450的精确度进行控制。因此，数据提供者可以根据精确度来设置价格并且生成多样化的服务。另一方面，对数据用户而言还可以根据例如分析的最终意图来获得伪样本数据450。也就是说，关于期望的伪样本数据450，提供了许多选择。作为结果，获得了对数据提供者和数据用户有用的数据提供系统400。

在本实施方式中，响应于对伪样本数据450的请求，展示可由数据提供设备410执行的生成伪样本数据的方法。除此之外，可以预先向外部设备展示可执行的生成伪样本数据450的方法。

<第五实施方式>

将描述根据本公开内容的第五实施方式的数据提供系统。图22是示出数据提供系统510的软件结构的示例的示意图。图23是示出通过数据提供设备510生成伪样本数据的流程图。

在本实施方式中，基于上述多方计算，生成与数据接收设备520的外部数据和数据提供设备510的关联数据的组合相关的伪样本数据。另外，在本实施方式中，如上所述，数据提供设备510可以生成多个频率函数，并且可以使用生成伪样本数据的多个方法。

在本实施方式中，响应于对伪样本数据的请求，存储在样本选项存储单元517中的与可执行的生成伪样本数据的方法相关的信息被发送给数据接收设备520（步骤ST501至ST504）。数据接收设备520指定生成伪样本数据的方法，并且将该指定发送给数据提供设备510（步骤ST505和ST506）。

根据对生成伪样本数据的方法的指定，数据提供设备510向数据接收设备520发送对加密的外部数据的请求（步骤ST507和ST508）。数据接收设备520对外部数据进行加密并将加密的外部数据发送到数据提供设备510（步骤ST509至ST512）。

数据提供设备510选择与外部数据相关的关联数据并且加密所述数据（步骤ST513至ST515）。然后，基于由数据用户指定的生成伪样本数据的方法来计算频率函数，以及基于频率函数来生成与加密的外部数据和关联数据的组合相关的伪样本数据（步骤ST516和ST517）。生成的伪样本数据被发送至数据接收设备520并由数据接收设备520进行解码（步骤ST518至ST520）。

如在本实施方式中，在生成与外部数据和关联数据的组合相关的伪样本数据时，数据用户可以选择生成伪样本数据的方法。作为结果，获得对数据提供者和数据用户有用的数据提供系统。

<修改的示例>

本公开内容并不限于以上实施方式而是可以进行各种修改。

例如，在如图8所示计算每个属性值的出现次数的比率时，当合适时可以调整属性值的粒度。也就是说，例如在每个属性值的出现次数的比率的情况下，可以组合多个属性值以计算出现次数的比率。例如，在图8中，身高的多个数据被组合，可以计算出现次数150至154的比率。通过组合计算出的值是针对每种多个属性值的出现次数的比率。

除了以上实施方式中举例的数据库之外，本公开内容适于提供各种数据库。例如，为了提供与天气信息、交通信息、医疗信息等相关的数据库，可以使用根据本公开内容的数据提供系统。另外，本公开内容可以不仅被应用于关系数据库而且还可以被应用于对象数据库。

在通过上述多方计算生成伪样本数据时，并不限于待使用的多方计算，可以使用任何协议。

在上述实施方式的特征部分中，至少两个特征部分可以被组合。

应当注意，本公开内容可以采用以下配置。

（1）一种信息处理设备，包括：

计算单元，所述计算单元被配置成计算如下频率函数：所述频率函数是与数据库的一个或更多个属性值的出现频率相关的函数，所述数据库具有预定属性和与所述属性相关的所述一个或更多个属性值；以及

生成单元，所述生成单元被配置成基于所计算出的频率函数来生成根据与所述数据库相关的所述出现频率的样本数据，所述样本数据包括所述一个或更多个属性值的至少一部分作为一个或更多个样本属性值。

（2）根据项（1）所述的信息处理设备，其中，

所述频率函数表达第一出现频率，所述第一出现频率是每个属性值的出现频率。

（3）根据项（2）所述的信息处理设备，其中，

所述生成单元生成所述样本数据，使得由所述频率函数所表达的每个样本属性值的第一出现频率与第二出现频率彼此对应，所述第二出现频率是所述样本数据中的每个样本属性值的出现频率。

（4）根据项（2）或（3）所述的信息处理设备，其中，

所述计算单元计算所述一个或更多个属性值的出现次数相对于各个属性值的总数的比率，并且计算将通过对所述出现次数的比率进行近似而获得的近似值表达为所述第一出现频率的频率函数。

（5）根据项（4）所述的信息处理设备，其中，

所述计算单元选择预定模型函数，并且使所述预定模型函数与所述每个属性值的出现次数的比率拟合，以计算所述频率函数。

（6）根据项（4）或（5）所述的信息处理设备，其中，

所述计算单元通过最大似然估计法来估计根据所述每个属性值的出现次数的比率的概率函数，以计算所估计的概率函数作为所述频率函数。

（7）根据项（2）至（6）中任一项所述的信息处理设备，其中，

所述计算单元计算所述一个或更多个属性值的出现次数相对于各个属性值的总数的比率，并且生成将所述出现次数的比率表达为所述第一出现频率的频率函数。

（8）根据项（1）至（7）中任一项所述的信息处理设备，还包括：

设置单元，所述设置单元被配置成将所述一个或更多个属性值中的预定属性值设置为所述计算单元计算所述频率函数时不使用的非目标属性值，其中，

所述计算单元计算与除了所设置的非目标属性值之外的所述一个或更多个属性值的出现频率相关的频率函数，以及

所述生成单元基于所计算出的频率函数、根据除了所述非目标属性值之外的所述一个或更多个属性值来生成样本数据。

（9）根据项（8）所述的信息处理设备，其中，

所述计算单元计算所述一个或更多个属性值的出现次数相对于各个属性值的总数的比率，并且基于所述出现次数的比率来生成所述频率函数，以及

所述设置单元基于所述每个属性值的出现次数的比率，将出现次数的比率小于预定值的属性值设置为所述非目标属性值。

（10）根据项（8）所述的信息处理设备，其中，

所述计算单元计算所述一个或更多个属性值的出现次数相对于各个属性值的总数的比率，并且基于所述出现次数的比率来生成所述频率函数；

所述设置单元基于每个属性值的出现次数的比率，将所述出现次数的比率与由所述频率函数所表达的所述第一出现频率之间的差大于预定值的属性值设置为所述非目标属性值；

所述计算单元再次计算与除了所设置的非目标属性值之外的所述一个或更多个属性值的出现频率相关的频率函数；以及

所述生成单元基于再次计算出的频率函数，根据除了所述非目标属性值之外的所述一个或更多个属性值来生成样本数据。

（11）根据项（1）至（10）中任一项所述的信息处理设备，还包括：

接收单元，所述接收单元被配置成接收对与所述数据库中的预定数据相关的样本数据的请求；以及

选择单元，所述选择单元被配置成基于所述请求从所述数据库中选择预定数据，其中，

所述计算单元计算与所选择的预定数据相关的频率函数；以及

所述生成单元基于所计算出的频率函数、根据所述预定数据来生成样本数据。

（12）根据项（11）所述的信息处理设备，其中，

所述接收单元接收外部设备所具有的外部数据和对与所述数据库中的所述外部数据关联的关联数据相关的样本数据的请求；

所述计算单元计算使用所述外部数据与所述关联数据的组合作为所述一个或更多个属性值的频率函数；以及

所述生成单元基于所计算出的频率函数来生成如下样本数据：所述样本数据包括所述外部数据与所述关联数据的组合作为所述一个或更多个样本属性值。

（13）根据项（12）所述的信息处理设备，其中，

所述接收单元、所述计算单元和所述生成单元能够基于多方协议进行操作。

（14）根据项（13）所述的信息处理设备，其中，

所述接收单元接收通过全同态加密进行加密的外部数据；

所述信息处理设备还包括：

加密单元，所述加密单元被配置成通过所述全同态加密对所述关联数据进行加密，其中，

所述计算单元计算与所加密的外部数据和所加密的关联数据的组合相关的频率函数；以及

所述生成单元基于所计算出的频率函数来生成与所加密的外部数据和所加密的关联数据的组合相关的样本数据。

（15）根据项（11）至（14）中任一项所述的信息处理设备，其中，

所述计算单元能够生成第一频率函数以及与所述第一频率函数不同的第二频率函数来作为与所述一个或更多个属性值的出现频率相关的函数；以及

所述接收单元从所述外部设备接收用于选择所述第一频率函数和第二频率函数之一的指定。

（16）一种信息处理方法，包括：

计算如下频率函数：所述频率函数是与数据库的一个或更多个属性值的出现频率相关的函数，所述数据库具有预定属性和与所述属性相关的一个或更多个属性值；以及

基于所计算出的频率函数来生成根据与所述数据库相关的出现频率的样本数据，所述样本数据包括所述一个或更多个属性值的至少一部分作为一个或更多个样本属性值。

（17）一种程序，使计算机执行以下步骤：

（18）一种信息处理系统，包括：

第一信息处理设备，所述第一信息处理设备能够提供具有预定属性和与所述属性相关的一个或更多个属性值的数据库；以及

第二信息处理设备，所述第二信息处理设备被配置成向所述第一信息处理设备发送对与所述数据库相关的样本数据的请求，其中，

所述第一信息处理设备包括：

接收单元，所述接收单元被配置成从所述第二信息处理设备接收对所述样本数据的请求；

计算单元，所述计算单元被配置成计算如下频率函数：所述频率函数是与所述数据库的一个或更多个属性值的出现频率相关的函数；以及

生成单元，所述生成单元被配置成基于所计算出的频率函数来生成根据与所述数据库相关的出现频率的样本数据，所述样本数据包括所述一个或更多个属性值的至少一部分作为一个或更多个样本属性值，以及

所述第二信息处理设备包括：

发送单元，所述发送单元被配置成发送对所述样本数据的请求；以及

接收单元，所述接收单元被配置成接收所生成的样本数据。

（19）一种信息处理设备，包括：

发送单元，所述发送单元被配置成向能够提供数据库的数据提供设备发送对与所述数据库相关的样本数据的请求，所述数据库具有预定属性和与所述属性相关的一个或更多个属性值；

接收单元，所述接收单元被配置成接收根据所述一个或更多个属性值的出现频率的样本数据，所述样本数据是由接收所述请求的所述数据提供设备基于作为与所述出现频率相关的函数的频率函数来生成的，并且所述样本数据包括所述一个或更多个属性值的至少一部分作为一个或更多个样本属性值。

本公开内容包含与在2012年7月4日提交给日本专利局的日本优先专利申请JP2012-150237中公开的主题内容相关的主题内容，所述日本优先专利申请的全部内容通过引用合并在本文中。

本领域的技术人员应当理解，取决于设计要求和其他因素可以发生各种修改、组合、子组合以及变化，只要所述修改、组合、子组合以及变化均落在所附权利要求及其等价物的保护范围内即可。

Claims

1.一种信息处理设备，包括：

2.根据权利要求1所述的信息处理设备，其中，

3.根据权利要求2所述的信息处理设备，其中，

4.根据权利要求2所述的信息处理设备，其中，

5.根据权利要求4所述的信息处理设备，其中，

所述计算单元选择预定模型函数，并且使所述预定模型函数与每个属性值的出现次数的比率拟合，以计算所述频率函数。

6.根据权利要求4所述的信息处理设备，其中，

所述计算单元通过最大似然估计法来估计根据每个属性值的出现次数的比率的概率函数，以计算所估计的概率函数作为所述频率函数。

7.根据权利要求2所述的信息处理设备，其中，

8.根据权利要求1所述的信息处理设备，还包括：

所述计算单元计算与除了所设置的非目标属性值之外的所述一个或更多个属性值的出现频率相关的频率函数；以及

9.根据权利要求8所述的信息处理设备，其中，

所述计算单元计算所述一个或更多个属性值的出现次数相对于各个属性值的总数的比率，并且基于所述出现次数的比率来生成所述频率函数；以及

所述设置单元基于每个属性值的出现次数的比率，将出现次数的比率小于预定值的属性值设置为所述非目标属性值。

10.根据权利要求8所述的信息处理设备，其中，

11.根据权利要求1所述的信息处理设备，还包括：

选择单元，所述选择单元被配置成基于所述请求从所述数据库中选择预定数据，其中

12.根据权利要求11所述的信息处理设备，其中，

所述接收单元接收由外部设备所具有的外部数据和对所述数据库中的与所述外部数据关联的关联数据相关的样本数据的请求；

13.根据权利要求12所述的信息处理设备，其中，

14.根据权利要求13所述的信息处理设备，其中，

所述接收单元接收通过全同态加密进行加密的外部数据，

所述信息处理设备还包括：

加密单元，所述加密单元被配置成通过全同态加密对所述关联数据进行加密，其中，

15.根据权利要求11所述的信息处理设备，其中，

16.一种信息处理方法，包括：

17.一种程序，使计算机执行以下步骤：

18.一种信息处理系统，包括：

所述第一信息处理设备包括：

所述第二信息处理设备包括：

接收单元，所述接收单元被配置成接收所生成的样本数据。

19.一种信息处理设备，包括：