Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
DATA GENERATION METHOD AND DEVICE
Document Type and Number:
WIPO Patent Application WO/2014/114112
Kind Code:
A1
Abstract:
The present invention relates to the field of computers. Provided are a data generation method and device, capable of utilizing small-scale sample data to generate big data while retaining the characteristic rule of the original small-scale data, and improving the reference value of the generated big data without large-scale data transfer, thus effectively saving storage and network overhead. The method comprising: a primary node establishes a data generation policy according to the sample data, and issues the data generation policy to at least one secondary node, such that the primary node and the secondary node generate data according to the data generation policy, and upload the generated data to a file system. The present invention enables the resulting generated data to have the numerical rule of the sample data, and improves the reference value of the generated data on the basis of the numerical rule while avoiding large-scale data transfer, thus effectively saving storage and network overhead. The present invention is used to generate big data.

Inventors:
LUO CHUNJIE (CN)
WANG LEI (CN)
ZHAN JIANFENG (CN)
ZHANG LIXIN (CN)
Application Number:
PCT/CN2013/085193
Publication Date:
July 31, 2014
Filing Date:
October 14, 2013
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
HUAWEI TECH CO LTD (CN)
International Classes:
G06F17/30
Foreign References:
CN102054043A2011-05-11
CN101226557A2008-07-23
Download PDF:
Claims:
权 利 要 求

1、 一种产生数据的方法, 其特征在于, 所述方法包括:

根据已获得的样本数据制定数据生成策略;

根据所述数据生成策略生成第一数据, 并将所述第一数据上传至 文件系统;

将所述数据生成策略发送至从节点, 以便所述从节点根据所述数 据生成策略生成第二数据, 并将所述第二数据上传至所述文件系统。

2、 根据权利要求 1所述的方法, 其特征在于, 所述样本数据为 m 行 n列的矩阵, 其中 m表示第一对象的总数, n表示第二对象的总数, 所述矩阵中元素为 r ( u, i ) , 所述 r ( u, i )表示第 u个第一对象对第 i个第二对象的评分。

3、 根据权利要求 2所述的方法, 其特征在于, 所述根据已获得的 样本数据制定数据生成策略包括:

确定数据生成的方向为沿所述矩阵的横向扩展和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向扩展, 则在所述矩 阵的 n列向量中选取至少一列作为第一参考向量集; 或

若确定的数据生成的方向为沿所述矩阵的纵向扩展, 则在所述矩 阵的 m行向量中选取至少一行作为第一参考向量集。

4、 根据权利要求 2所述的方法, 其特征在于, 所述根据已获得的 样本数据制定数据生成策略还包括:

确定数据生成的方向为沿所述矩阵的横向扩展和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向扩展, J¾ 'J对所述矩 阵的 n 列向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第一参考向量集; 或

若确定的数据生成的方向为沿所述矩阵的纵向扩展, J¾ 'J对所述矩 阵的 m行向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第一参考向量集。

5、 根据权利要求 3或 4所述的方法, 其特征在于, 所述根据所述 数据生成策略生成第一数据包括: 记录所述第一参考向量集中每个向量中的非空元素的位置信息; 根据所述第一参考向量集中每个向量中的非空元素选取第一向量 集, 所述第一向量集中的每个向量不包含空元素;

利用向量相似性根据所述第一向量集生成第二向量集, 所述第二 向量集中的每个向量不包含空元素;

根据所述参考向量中每个向量中的非空元素的位置信息以及所述 第二向量集生成第三向量集;

将所述第三向量集加入所述矩阵中形成新矩阵, 将所述新矩阵作 为所述第一数据。

6、 根据权利要求 1至 5任意一项所述的方法, 其特征在于, 在所 述将所述数据生成策略发送至从节点时, 所述方法还包括:

将所述从节点需要生成数据的数据量及所述从节点向主节点返回 完成生成数据消息的时间间隔发送至所述从节点;

按照所述时间间隔, 从所述从节点接收所述数据生成结果, 所述 完成生成数据消息包括所述从节点已生成的数据量和已完成数据生成 的信息。

7、 根据权利要求 6所述的方法, 其特征在于, 所述方法还包括: 若在所述时间间隔内, 没有接收到所述从节点发送的所述完成生 成数据消息, 则指定除所述从节点之外的其他从节点按照所述数据生 成策略生成数据并将生成的数据上传至所述文件系统。

8、 一种产生数据的方法, 其特征在于, 所述方法包括:

从主节点接收数据生成策略;

根据所述数据生成策略生成第二数据, 并将所述第二数据上传至 文件系统。

9、 根据权利要求 8所述的方法, 其特征在于, 所述数据生成策略 中包括: m行 n列的矩阵, 其中 m表示第一对象的总数, n表示第二 对象的总数, 所述矩阵中元素为 r ( u, i ) , 所述 r ( u, i )表示第 u个 第一对象对第 i个第二对象的评分。

10、 根据权利要求 9 所述的方法, 其特征在于, 所述从主节点接 收的数据生成策略包括:

确定数据生成的方向为沿所述矩阵的横向扩展和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向扩展, 则在所述矩 阵的 n列向量中选取至少一列作为第二参考向量集; 或

若确定的数据生成的方向为沿所述矩阵的纵向扩展, 则在所述矩 阵的 m行向量中选取至少一行作为第二参考向量集。

11、 根据权利要求 9 所述的方法, 其特征在于, 所述从主节点接 收的数据生成策略包括:

确定数据生成的方向为沿所述矩阵的横向扩展和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向扩展, 则对所述矩 阵的 n 列向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第二参考向量集; 或

若确定的数据生成的方向为沿所述矩阵的纵向扩展, J¾ 'J对所述矩 阵的 m行向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第二参考向量集。

12、 根据权利要求 10或 11 所述的方法, 其特征在于, 所述根据 所述数据生成策略生成第二数据包括:

记录所述第二参考向量集中每个向量中的非空元素的位置信息; 选取所述第二参考向量集中每个向量中的非空元素作为第四向量 集, 所述第四向量集中的每个向量不包含空元素;

利用向量相似性根据所述第四向量集生成第五向量集, 所述第五 向量集中的每个向量不包含空元素;

根据所述参考向量中每个向量中的非空元素的位置信息以及所述 第五向量集生成第六向量集;

将所述第六向量集加入所述矩阵中形成新矩阵, 将所述新矩阵作 为所述第二数据。

13、 一种产生数据的装置, 其特征在于, 所述装置包括: 策略制定单元, 用于根据已获得的样本数据制定数据生成策略; 第一数据生成单元, 用于根据所述数据生成策略生成第一数据, 并将所述第一数据上传至文件系统;

策略分发单元, 用于将所述数据生成策略发送至从节点, 以便所 述从节点根据所述数据生成策略生成第二数据, 并将所述第二数据上 传至所述文件系统。

14、 根据权利要求 13所述的装置, 其特征在于, 所述样本数据为 m行 n列的矩阵, 其中 m表示第一对象的总数, n表示第二对象的总 数, 所述矩阵中元素为 r ( u, i ) , 所述 r ( u, i )表示第 u个第一对象 对第 i个第二对象的评分。

15、 根据权利要求 14所述的装置, 其特征在于, 所述策略制定单 元具体用于:

确定数据生成的方向为沿所述矩阵的横向扩展和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向扩展, 则在所述矩 阵的 n列向量中选取至少一列作为第一参考向量集; 或

若确定的数据生成的方向为沿所述矩阵的纵向扩展, 则在所述矩 阵的 m行向量中选取至少一行作为第一参考向量集。

16、 根据权利要求 14所述的装置, 其特征在于, 所述策略制定单 元具体用于:

确定数据生成的方向为沿所述矩阵的横向扩展和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向扩展, 则在所述矩 阵的 n列向量中选取至少一列作为第一参考向量集; 或

若确定的数据生成的方向为沿所述矩阵的纵向扩展, 则在所述矩 阵的 m行向量中选取至少一行作为第一参考向量集。

17、 根据权利要求 15或 16所述的装置, 其特征在于, 所述第一 数据生成单元包括:

第一位置记录单元, 用于记录所述第一参考向量集中每个向量中 的非空元素的位置信息, 并将所述位置信息发送至第一向量生成单元; 第一向量生成单元, 用于根据所述第一参考向量集中每个向量中 的非空元素选取第一向量集, 所述第一向量集中的每个向量不包含空 元素;

所述第一向量生成单元, 还用于利用向量相似性根据所述第一向 量集生成第二向量集, 所述第二向量集中的每个向量不包含空元素; 所述第一向量生成单元, 还用于从根据所述参考向量中每个向量 中的非空元素的位置信息以及所述第二向量集生成第三向量集, 将所 述第三向量集发送至第一合成子单元;

第一合成子单元, 用于从所述第一向量生成单元接收所述第三向 量集, 将所述第三向量集加入所述矩阵中形成新矩阵, 将所述新矩阵 作为所述第一数据。

18、 根据权利要求 12至 17任意一项所述的装置, 其特征在于, 所述策略分发单元还用于:

将所述从节点需要生成数据的数据量及所述从节点向主节点返回 完成生成数据消息的时间间隔至所述从节点;

按照所述时间间隔, 从所述从节点接收所述数据生成结果, 所述 完成生成数据消息包括所述从节点已生成的数据量和已完成数据生成 的信息。

19、 根据权利要求 18所述的装置, 其特征在于, 所述策略分发单 元还用于:

若在所述时间间隔内, 没有接收到所述从节点发送的所述完成生 成数据消息, 则指定除所述从节点之外的其他从节点按照所述数据生 成策略生成数据并将生成的数据上传至所述文件系统。

20、 一种产生数据的装置, 其特征在于, 所述装置包括:

策略接收单元, 用于从主节点接收数据生成策略;

第二数据生成单元, 用于根据所述数据生成策略生成第二数据, 并将所述第二数据上传至文件系统。

21、 根据权利要求 20所述的装置, 其特征在于, 所述数据生成策 略中包括: m行 n列的矩阵, 其中 m表示第一对象的总数, n表示第 二对象的总数, 所述矩阵中元素为 r ( u, i ) , 所述 r ( u, i ) 表示第 u 个第一对象对第 i个第二对象的评分。

22、 根据权利要求 21所述的装置, 其特征在于, 所述策略接收单 元接收到的所述数据生成策略包括:

确定数据生成的方向为沿所述矩阵的横向扩展和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向扩展, 则在所述矩 阵的 n列向量中选取至少一列作为第二参考向量集; 或

若确定的数据生成的方向为沿所述矩阵的纵向扩展, 则在所述矩 阵的 m行向量中选取至少一行作为第二参考向量集。

23、 根据权利要求 21所述的装置, 其特征在于, 所述策略接收单 元接收到的所述数据生成策略包括:

确定数据生成的方向为沿所述矩阵的横向扩展和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向扩展, J¾ 'J对所述矩 阵的 n 列向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第二参考向量集; 或

若确定的数据生成的方向为沿所述矩阵的纵向扩展, J¾ 'J对所述矩 阵的 m行向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第二参考向量集。

24、 根据权利要求 22或 23所述的装置, 其特征在于, 所述第二 数据生成单元包括:

第二位置记录单元, 用于记录所述第二参考向量集中每个向量中 的非空元素的位置信息, 并将所述位置信息发送至第二向量生成单元; 第二向量生成单元, 用于选取所述第二参考向量集中每个向量中 的非空元素作为第四向量集, 所述第四向量集中的每个向量不包含空 元素;

所述第二向量生成单元还用于利用向量相似性根据所述第四向量 集生成第五向量集, 所述第五向量集中的每个向量不包含空元素;

所述第二向量生成单元还用于根据所述参考向量中每个向量中的 非空元素的位置信息以及所述第五向量集生成第六向量集, 并将所述 第六向量集发送至第二合成子单元;

第二合成子单元, 用于从所述第二向量生成单元接收所述第六向量集, 将所述第六向量集加入所述矩阵中形成新矩阵, 将所述新矩阵作为所述 第二数据。

Description:
一种产生数据的方法和装置 本申请要求于 2013 年 01 月 24 日提交中国专利局、 申请号为 201310027416.8、 发明名称为"一种产生数据的方法和装置 "的中国专利申请 的优先权, 其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机领域, 尤其涉及一种产生数据的方法和装置。 背景技术

随着互联网的不断发展, 大数据 (Big Data )通常用来形容一个公 司创造的大量非结构化和半结构化数据, 现在对大数据的研究已经扩 展到生活的方方面面, 通过对大数据进行分析发掘, 进而获得更有价 值的信息。 大数据已成为当前很多行业研究的主题。

在对大数据进行处理时, 需要处理的数据量是极其庞大的, 然而 处于保密性的考虑, 大数据处理方案的提供者只能得到小规模的样 本 数据, 往往不能获取到实际的大数据来进行测试, 并且获取和传输大 数据的过程中, 会占用更多的资源, 对相应的存储和网络资源都有较 高的要求。

现有大规模数据生成技术主要包括以下几种: 基于 Hadoop (—个 分布式系统基础架构, 用户可以在不了解分布式底层细节的情况下, 开发分布式程序) 基准测试程序集, 利用完全随机的方式来产生大规 模的数据; 或者, 采用 zipfian分布生成数据, 或按照均勾分布和高斯 分布生成数据。

但是上述三种现有技术生成的大数据都不能反 应样本数据的原有 的规律性, 使得新生成的数据参考性较低。

发明内容

本发明的实施例提供一种产生数据的方法和装 置, 能够利用小规 模的样本数据生成大数据, 同时还保留了原有小规模数据的特征规律, 提高了生成的大数据的参考价值, 并且不需要进行数据的大规模移动, 有效节省了存储和网络开销。 为达到上述目的, 本发明的实施例采用如下技术方案: 第一方面, 提供一种产生数据的方法, 所述方法包括:

根据已获得的样本数据制定数据生成策略;

根据所述数据生成策略生成第一数据, 并将所述第一数据上传至 文件系统;

将所述数据生成策略发送至从节点, 以便所述从节点根据所述数 据生成策略生成第二数据, 并将所述第二数据上传至所述文件系统。

在第一种可能的实现方式中, 结合第一方面, 所述样本数据为 m 行 n列的矩阵, 其中 m表示第一对象的总数, n表示第二对象的总数, 所述矩阵中元素为 r ( u, i ) , 所述 r ( u, i )表示第 u个第一对象对第 i个第二对象的评分。

在第二种可能的实现方式中, 结合第一种可能的实现方式, 所述 根据已获得的样本数据制定数据生成策略包括 :

确定数据生成的方向为沿所述矩阵的横向扩展 和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向 扩展, 则在所述矩 阵的 n列向量中选取至少一列作为第一参考向量集 或

若确定的数据生成的方向为沿所述矩阵的纵向 扩展, 则在所述矩 阵的 m行向量中选取至少一行作为第一参考向量集

在第三种可能的实现方式中, 结合第一种可能的实现方式, 所述 根据已获得的样本数据制定数据生成策略还包 括:

确定数据生成的方向为沿所述矩阵的横向扩展 和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向 扩展, J¾ 'J对所述矩 阵的 n 列向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第一参考向量集; 或

若确定的数据生成的方向为沿所述矩阵的纵向 扩展, J¾ 'J对所述矩 阵的 m行向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第一参考向量集。 在第四种可能的实现方式中, 根据第二种或第三种可能的实现方 式, 所述根据所述数据生成策略生成第一数据包括 :

记录所述第一参考向量集中每个向量中的非空 元素的位置信息; 根据所述第一参考向量集中每个向量中的非空 元素选取第一向量 集, 所述第一向量集中的每个向量不包含空元素;

利用向量相似性根据所述第一向量集生成第二 向量集, 所述第二 向量集中的每个向量不包含空元素;

根据所述参考向量中每个向量中的非空元素的 位置信息以及所述 第二向量集生成第三向量集;

将所述第三向量集加入所述矩阵中形成新矩阵 , 将所述新矩阵作 为所述第一数据。

在第五种可能的实现方式中, 结合第一方面至第一方面的第四种 可能的实现方式中的任意一项, 在所述将所述数据生成策略发送至从 节点时, 所述方法还包括:

将所述从节点需要生成数据的数据量及所述从 节点向主节点返回 完成生成数据消息的时间间隔至所述从节点;

按照所述时间间隔, 从所述从节点接收所述数据生成结果, 所述 完成生成数据消息包括所述从节点已生成的数 据量和已完成数据生成 的信息。

在第六中可能的实现方式中, 结合第五种可能的实现方式, 所述 方法还包括:

若在所述时间间隔内, 没有接收到所述从节点发送的所述完成生 成数据消息, 则指定除所述从节点之外的其他从节点按照所 述数据生 成策略生成数据并将生成的数据上传至所述文 件系统。

第二方面, 提供一种产生数据的方法, 所述方法包括:

从主节点接收数据生成策略;

根据所述数据生成策略生成第二数据, 并将所述第二数据上传至 文件系统。

在第一种可能的实现方式中, 结合第二方面, 所述数据生成策略 中包括: m行 n列的矩阵, 其中 m表示第一对象的总数, n表示第二 对象的总数, 所述矩阵中元素为 r ( u, i ) , 所述 r ( u, i )表示第 u个 第一对象对第 i个第二对象的评分。

在第二种可能的实现方式中, 结合第一种可能的实现方式, 所述 从主节点接收的数据生成策略包括:

确定数据生成的方向为沿所述矩阵的横向扩展 和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向 扩展, 则在所述矩 阵的 n列向量中选取至少一列作为第二参考向量集 或

若确定的数据生成的方向为沿所述矩阵的纵向 扩展, 则在所述矩 阵的 m行向量中选取至少一行作为第二参考向量集

在第三种可能的实现方式中, 结合第一种可能的实现方式, 所述 从主节点接收的数据生成策略包括:

确定数据生成的方向为沿所述矩阵的横向扩展 和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向 扩展, J¾ 'J对所述矩 阵的 n 列向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第二参考向量集; 或 若确定的数据生成的方向为沿所述矩阵的纵向 扩展, J¾ 'J对所述矩 阵的 m行向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第二参考向量集。 在第四种可能的实现方式中, 结合第二种或第三种可能的实现方 式, 所述根据所述数据生成策略生成第二数据包括 :

记录所述第二参考向量集中每个向量中的非空 元素的位置信息; 选取所述第二参考向量集中每个向量中的非空 元素作为第四向量 集, 所述第四向量集中的每个向量不包含空元素;

利用向量相似性根据所述第四向量集生成第五 向量集, 所述第五 向量集中的每个向量不包含空元素;

根据所述参考向量中每个向量中的非空元素的 位置信息以及所述 第五向量集生成第六向量集;

将所述第六向量集加入所述矩阵中形成新矩阵 , 将所述新矩阵作 为所述第二数据。

第三方面, 提供一种产生数据的装置, 所述装置包括:

策略制定单元, 用于根据已获得的样本数据制定数据生成策略 ; 第一数据生成单元, 用于根据所述数据生成策略生成第一数据, 并将所述第一数据上传至文件系统;

策略分发单元, 用于将所述数据生成策略发送至从节点, 以便所 述从节点根据所述数据生成策略生成第二数据 , 并将所述第二数据上 传至所述文件系统。

在第一种可能的实现方式中, 结合第三方面, 所述样本数据为 m 行 n列的矩阵, 其中 m表示第一对象的总数, n表示第二对象的总数, 所述矩阵中元素为 r ( u, i ) , 所述 r ( u, i )表示第 u个第一对象对第 i个第二对象的评分。

在第三种可能的实现方式中, 结合第二可能的实现方式, 所述策 略制定单元具体用于:

确定数据生成的方向为沿所述矩阵的横向扩展 和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向 扩展, 则在所述矩 阵的 n列向量中选取至少一列作为第一参考向量集 或

若确定的数据生成的方向为沿所述矩阵的纵向 扩展, 则在所述矩 阵的 m行向量中选取至少一行作为第一参考向量集

在第四种可能的实现方式中, 结合第二种可能的实现方式, 所述 策略制定单元还用于:

确定数据生成的方向为沿所述矩阵的横向扩展 和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向 扩展, 则在所述矩 阵的 n列向量中选取至少一列作为第一参考向量集 或

若确定的数据生成的方向为沿所述矩阵的纵向 扩展, 则在所述矩 阵的 m行向量中选取至少一行作为第一参考向量集

在第五种可能的实现方式中, 结合第二或第三种可能的实现方式, 所述第一数据生成单元包括:

第一位置记录单元, 用于记录所述第一参考向量集中每个向量中 的非空元素的位置信息, 并将所述位置信息发送至第一向量生成单元; 第一向量生成单元, 用于根据所述第一参考向量集中每个向量中 的非空元素选取第一向量集, 所述第一向量集中的每个向量不包含空 元素;

所述第一向量生成单元还用于利用向量相似性 根据所述第一向量 集生成第二向量集, 所述第二向量集中的每个向量不包含空元素;

所述第一向量生成单元还用于根据所述参考向 量中每个向量中的 非空元素的位置信息以及所述第二向量集生成 第三向量集, 将所述第 三向量集发送至第一合成子单元;

第一合成子单元, 用于从所述第一向量生成单元接收所述第三向 量集, 将所述第三向量集加入所述矩阵中形成新矩阵 , 将所述新矩阵 作为所述第一数据。

在第六种可能的实现方式中, 结合第一方面至第一方面的第五种 可能的实现方式中的任意一项, 所述策略分发单元还用于:

将所述从节点需要生成数据的数据量及所述从 节点向主节点返回 完成生成数据消息的时间间隔至所述从节点;

按照所述时间间隔, 从所述从节点接收所述数据生成结果, 所述 完成生成数据消息包括所述从节点已生成的数 据量和已完成数据生成 的信息。

在第七种可能的实现方式中, 结合第六种可能的实现方式, 所述 策略分发单元还用于:

若在所述时间间隔内, 没有接收到所述从节点发送的所述完成生 成数据消息, 则指定除所述从节点之外的其他从节点按照所 述数据生 成策略生成数据并将生成的数据上传至所述文 件系统。

第四方面, 提供一种产生数据的装置, 所述装置包括: 策略接收单元, 用于从主节点接收数据生成策略;

第二数据生成单元, 用于根据所述数据生成策略生成第二数据, 并将所述第二数据上传至文件系统。

在第一种可能的实现方式中, 结合第四方面, 所述数据生成策略 中包括: m行 n列的矩阵, 其中 m表示第一对象的总数, n表示第二 对象的总数, 所述矩阵中元素为 r ( u, i ) , 所述 r ( u, i )表示第 u个 第一对象对第 i个第二对象的评分。

在第二种可能的实现方式中, 结合第一种可能的实现方式, 所述 策略接收单元接收到的所述数据生成策略包括 :

确定数据生成的方向为沿所述矩阵的横向扩展 和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向 扩展, 则在所述矩 阵的 n列向量中选取至少一列作为第二参考向量集 或

若确定的数据生成的方向为沿所述矩阵的纵向 扩展, 则在所述矩 阵的 m行向量中选取至少一行作为第二参考向量集

在第三种可能的实现方式中, 结合第一种可能的实现方式, 所述 策略接收单元接收到的所述数据生成策略包括 :

确定数据生成的方向为沿所述矩阵的横向扩展 和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向 扩展, 则对所述矩 阵的 n 列向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第二参考向量集; 或 若确定的数据生成的方向为沿所述矩阵的纵向 扩展, J¾ 'J对所述矩 阵的 m行向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第二参考向量集。

在第四种可能的实现方式中, 结合第四方面的第二种或第四方面 第三种可能的实现方式, 所述第二数据生成单元包括:

第二位置记录单元, 用于记录所述第二参考向量集中每个向量中 的非空元素的位置信息, 并将所述位置信息发送至第二向量生成单元; 第二向量生成单元, 用于选取所述第二参考向量集中每个向量中 的非空元素作为第四向量集, 所述第四向量集中的每个向量不包含空 元素;

所述第二向量生成单元还用于利用向量相似性 根据所述第四向量 集生成第五向量集, 所述第五向量集中的每个向量不包含空元素;

所述第二向量生成单元还用于根据所述参考向 量中每个向量中的 非空元素的位置信息以及所述第五向量集生成 第六向量集, 并将所述 第六向量集发送至第二合成子单元;

第二合成子单元, 用于从所述第二向量生成单元接收所述第六向 量集, 将所述第六向量集加入所述矩阵中形成新矩阵 , 将所述新矩阵 作为所述第二数据。

本发明提供一种产生数据的方法和装置, 通过主节点根据样本数 据制定数据生成的策略, 并将数据生成的策略分发至至少一个从节点, 以便主节点和从节点根据数据生成策略产生数 据, 并将产生的数据上 传至文件系统。 能够利用小规模的样本数据生成大数据, 还保留了原 有小规模数据的特征规律, 提高了生成的大数据的参考价值, 同时避 免了数据的大规模移动, 有效的节省了存储和网络开销。

附图说明

为了更清楚地说明本发明实施例或现有技术中 的技术方案, 下面 将对实施例或现有技术描述中所需要使用的附 图作筒单地介绍, 显而 易见地, 下面描述中的附图仅仅是本发明的一些实施例 , 对于本领域 普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据这些 附图获得其他的附图。

图 1为本发明实施例提供另一种产生数据的方法 流程示意图; 图 2为本发明实施例提供一种产生数据的方法的 程示意图; 图 3为本发明实施例提供一种产生数据的方法的 统结构示意图; 图 4为本发明实施例提供一种产生数据的方法的 意图;

图 5为本发明实施例提供一种产生数据的方法的 意图;

图 6本发明实施例提供一种产生数据的装置的结 示意图; 图 7 为本发明另一实施例提供另一种产生数据的装 置的结构示意 图;

图 8为本发明实施例提供一种产生数据的装置的 构示意图; 图 9为本发明实施例提供一种产生数据的装置的 构示意图; 图 10为本发明实施例提供一种产生数据的装置的 构示意图; 图 11为本发明实施例提供一种产生数据的装置的 构示意图。 具体实施方式

下面将结合本发明实施例中的附图, 对本发明实施例中的技术方 案进行清楚、 完整地描述, 显然, 所描述的实施例仅仅是本发明一部 分实施例, 而不是全部的实施例。 基于本发明中的实施例, 本领域普 通技术人员在没有做出创造性劳动前提下所获 得的所有其他实施例, 都属于本发明保护的范围。

本发明实施例提供一种产生数据的方法, 如图 1 所示, 基于主节 点侧的方法包括:

101、 根据已获得的样本数据制定数据生成策略。

此处的数据生成策略为包含主节点和从节点在 内的所有节点生成 数据的算法, 是由主节点根据数据生成需求和对样本数据类 型进行分 析得到的方法, 并将该方法发送给至少一个从节点, 以便包括主节点 和至少一个从节点生成符合要求的大规模数据 , 数据生成策略具体包 括:

选取出的在样本数据中进行扩展的方向, 例如可以在横向或纵向 进行扩展;

根据扩展方向选取出的作为参考向量的向量集 合。

102、 根据数据生成策略生成第一数据, 并将所述第一数据上传至 文件系统。

103、 将数据生成策略发送至从节点。

需要说明的是, 主节点向从节点发送数据生成策略和主节点本 身 根据数据生成策略生成数据两个步骤之间没有 特定的时间先后顺序, 本发明实施例提供另一种产生数据的方法, 如图 2 所示, 基于从 节点侧的方法包括:

201、 从主节点接收数据生成策略。

202、 根据数据生成策略生成第二数据, 并将第二数据上传至所述 文件系统。

上述的文件系统为一个计算机集群, 为便于设备存储和用户访问, 可以采用分布式文件系统的方案, 在本发明中文件系统用来接收并存 储主节点和从节点生成的数据, 并将上述数据整合成一个完整的大规 模数据矩阵。

上述的主节点和从节点可以为服务器和客户机 的关系, 如图 3 所 示, 主节点向从节点发送数据生成策略, 从节点接收主节点发送的数 据生成策略, 主节点根据数据生成策略生成数据, 并将生成的数据发 送至文件系统, 从节点也根据数据生成策略生成数据, 并将生成的数 据发送至文件系统。

本发明提供一种产生数据的方法和装置, 通过主节点根据样本数 据制定数据生成的策略, 并将数据生成的策略分发至至少一个从节点, 以便主节点和从节点根据数据生成策略产生数 据, 并将产生的数据上 传至文件系统。 能够利用小规模的样本数据生成大数据, 还保留了原 有小规模数据的特征规律, 提高了生成的大数据的参考价值, 同时避 免了数据的大规模移动, 有效的节省了存储和网络开销。

为了使本领域技术人员能够更清楚地理解本发 明实施例提供的技 术方案, 下面通过具体的实施例, 对本发明实施例提供的另一种产生 数据的方法进行详细说明。

本发明实施例提供另一种产生数据的方法, 如图 4, 该方法包括: 301、 主节点根据已获得的样本数据制定数据生成策 略。

示例性的, 上述样本数据可以为一个 m行 n列的矩阵, 其中 m表 示第一对象的总数, n表示第二对象的总数, 矩阵中元素为 r ( u , i ) , r ( u, i ) 表示第 u个第一对象对第 i个第二对象的评分。

示例性的, 上述 m行 n列矩阵中的具体内容可以如表 1所示: 表 l

其中, 根据已获得的样本数据制定数据生成策略可以 具体包括: 数据生成策略包括主节点和从节点在内的所有 节点生成数据的算 法, 是由主节点根据数据生成需求和对样本数据类 型进行分析得到的 方法, 并将该方法发送给至少一个从节点, 以便包括主节点和至少一 个从节点生成符合要求的大规模数据, 数据生成策略具体包括:

选取出的在样本数据中进行扩展的方向, 例如可以在横向或纵向 进行扩展;

根据扩展方向选取出的作为参考向量的向量集 合。

302、 主节点将数据生成策略发送至从节点。

303、主节点确定数据生成的方向为沿矩阵的横 向扩展和 /或沿矩阵 的纵向扩展。

若确定的数据生成的方向为沿矩阵的横向扩展 , 则在矩阵的 n 列 向量中选取至少一列作为第一参考向量集; 或

若确定的数据生成的方向为沿矩阵的纵向扩展 , 则在矩阵的 m行 向量中选取至少一行作为第一参考向量集。

例如, 对矩阵进行行扩展后的结果如表 2 所示、 对矩阵进行列扩 展后的结果如表 3所示。

2 r r r r

3 r r r r r

4 r r r r r m r r r r r

• . . m+a r r r r r

表 3

上述沿着矩阵的某一方向扩展, 即在原有矩阵的基础上, 在行或 列上生成新的数据, 构成新的矩阵。 其中在行或列上生成新数据的步 骤, 没有特定的先后顺序, 两者发生顺序可互有先后, 也可以同时发 生。

优选的, 根据已获得的样本数据制定的数据生成策略还 可以有另 一种实现方式:

确定数据生成的方向为沿矩阵的横向扩展和 /或沿矩阵的纵向扩 展;

若确定的数据生成的方向为沿矩阵的横向扩展 , 则对矩阵的 n 列 向量进行聚类处理, 并将聚类处理结果的中心点中的向量作为第一 参 考向量集; 或 若确定的数据生成的方向为沿矩阵的纵向扩展 , 则对矩阵的 m行 向量进行聚类处理, 并将聚类处理结果的中心点中的向量作为第一 参 考向量集。

其中, 采用聚类处理可以将矩阵中选取的向量按照事 先规定的大 小进行分类, 在每个分类中进行求平均值的运算, 并以最终得到的所 有平均值作为参考向量集中的元素。

304、 主节点记录第一参考向量集中每个向量中的非 空元素的位置 信息。

其中, 每个向量中非空元素的位置信息为上述元素在 矩阵的行或 列中所在的序号。

示例性的, 为了方便说明, 如表 4 所示, 选取的参考向量集中的 一个向量进行说明:

表 4

由于上述向量中非空元素所在的位置依次为第 2、 第 4、 第 5个位 置, 因此上述参考向量中元素的位置信息为: 2、 4、 5。

305、 主节点根据第一参考向量集中每个向量中的非 空元素选取第 一向量集, 第一向量集中的每个向量不包含空元素。

示例性的, 根据表 4所示向量中的非空元素为 3、 5、 1 , 因此, 新 生成向量中包含的元素为 3、 5、 1 , 如表 5所示。

表 5

3 1 同理, 按照上述方法就可以根据参考向量集中所有向 量得到第一 向量集。

306、 主节点利用向量相似性根据第一向量集生成第 二向量集, 所 述第二向量集中的每个向量不包含空元素。

利用向量相似性根据第一向量集生成第二向量 具体包括: 首先, 根据公式 d = ^/( Xl X2 ) 2 + ( yi y 2 ) 2 + ... + ( Zl Z2 ) 2 得到与第一向量集 中各元素附近的点到第一向量中各元素的距离 , d表示空间中两点的距 离, Xl , yi , a表示第一向量集中的各个元素。 其次, 将得到的距离与规定的数值进行比较, 并选取距离小于规 定的数值的点, 其中, 规定的数值是由主节点向从节点发送的。

最后, 将已选取的点的坐标值作为第二向量中的元素 。

示例性的, 假设选取第一向量集的某一向量中的元素为 3、 5、 1, 规定的数值为 2, 根据上述公式, 得到点 (2, 4, 1 )与点 (3, 5, 1, ) 的空间距离为 小于规定的距离 2, 因此, 点 (2, 4, 1 ) 的坐标值 2、 4、 1 可以作为第二向量中的元素。 其中, 得到的点的坐标值的取值要 大于等于矩阵中已有数值的最小值, 并且小于等于矩阵中已有数值的 最大值。

同理, 按照上述方法就可以根据第一向量集中所有向 量得到第二 向量集。

307、 主节点根据参考向量中每个向量中的非空元素 的位置信息以 及第二向量集生成第三向量集。

示例性的, 选取的第一向量集为第 2行, 其中, 元素为 3, 5, 1。 元素所在矩阵的位置如表 6中第三行所示。

表 6

而后, 根据之前记录的参考向量集中的位置信息, 将第二向量中的 元素根据位置信息生成第三向量, 例如, 已得到的表 4所示向量的位置 信息为 2、 4、 5, 则根据表 4所示向量的位置信息为 2、 4、 5以及步骤 306中已得到的第二向量集中的向量 ( 2, 4, 1 ) 可以得到的向量如表 7 所示: 表 7

同理, 按照上述方法就可以根据第二向量集中所有向 量得到第三 向量集。

308、 主节点将第三向量集加入矩阵中形成新矩阵, 将新矩阵作为 第一数据。

示例性的, 将 307中得到的第三向量集中的向量 (2, 4, 1 ) 添加 到原有的矩阵中, 形成新矩阵如表 8所示:

表 8

309、 主节点将形成的新矩阵上传至文件系统。

310、 主节点将从节点需要生成数据的数据量及从节 点向主节点返 回完成生成数据消息的时间间隔发送至从节点 。

其中, 同时发送的还包括在生成数据所规定的数值, 以便生成符 合要求的数据。

311、 主节点按照时间间隔, 从从节点接收完成生成数据消息。 完 成生成数据消息包括从节点已生成的数据量和 已完成数据生成的信 示例性的, 从节点在规定时间间隔向主节点发送数据生成 结果, 该数据生成结果可以为: "当前本节点已生成数据 2789组, 完成率为 87%。 ,, 或 "本节点已完成数据生成任务" 。 312、 主节点从节点将生成的矩阵上传至文件系统。

313、 主节点若在时间间隔内, 没有接收到从节点发送的完成生成 数据消息, 则指定除从节点之外的其他从节点按照数据生 成策略生成 数据并将生成的数据上传至文件系统。

其中, 当主节点在规定的时间间隔内没有接受到从节 点发送的数 据生成信息, 则认为该从节点存在故障, 因此, 主节点将终止该从节 点的数据生成任务, 并在其他节点中重新选择从节点, 重复发送数据 生成策略, 并接收对应节点的数据生成信息。

本发明实施例提供一种产生数据的方法, 通过主节点根据样本数 据制定数据生成的策略, 并将数据生成的策略分发至至少一个从节点, 以便主节点和从节点根据数据生成策略产生数 据, 并将产生的数据上 传至文件系统。 能够利用小规模的样本数据生成大数据, 同时还保留 了原有小规模数据的特征规律, 提高了生成的大数据的参考价值, 同 时避免了数据的大规模移动, 有效的节省了存储和网络开销。

本发明实施例还提供另一种产生数据的方法, 如图 5 所示, 该方 法包括:

401、 从节点从主节点接收数据生成策略。

其中, 从节点接收到的数据生成策略与 301 中提供的数据生成策 略完全相同, 这里不再赘述。

402、从节点确定数据生成的方向为沿矩阵的横 向扩展和 /或沿矩阵 的纵向扩展。

具体的, 若确定的数据生成的方向为沿矩阵的横向扩展 , 则在矩 阵的 n列向量中选取至少一列作为第二参考向量集 或

若确定的数据生成的方向为沿矩阵的纵向扩展 , 则在矩阵的 m行 向量中选取至少一行作为第二参考向量集。

可选的, 还可以通过以下方式:

确定数据生成的方向为沿矩阵的横向扩展和 /或沿矩阵的纵向扩 展;

若确定的数据生成的方向为沿矩阵的横向扩展 , 则对矩阵的 n 列 向量进行聚类处理, 并将聚类处理结果的中心点中的向量作为第二 参 考向量集; 或

若确定的数据生成的方向为沿矩阵的纵向扩展 , 则对矩阵的 m行 向量进行聚类处理, 并将聚类处理结果的中心点中的向量作为第二 参 考向量集。

403、 从节点记录第二参考向量集中每个向量中的非 空元素的位置 信息。

其中, 每个向量中非空元素的位置信息为上述元素在 矩阵的行或 列中所在的序号。

404、 从节点选取第二参考向量集中每个向量中的非 空元素作为第 四向量集, 第四向量集中的每个向量不包含空元素。

405、 从节点利用向量相似性根据第四向量集生成第 五向量集, 第 五向量集中的每个向量不包含空元素。

406、 从节点根据参考向量中每个向量中的非空元素 的位置信息以 及第五向量集生成第六向量集。

407、 从节点将第六向量集加入矩阵中形成新矩阵, 将新矩阵作为 第二数据。

408、 从节点将第二数据上传至文件系统中。

以上 402~408中的详细内容, 与上个实施例中 303~309 的实现方 法完全相同, 在此不再赘述。

本发明实施例提供一种产生数据的方法, 通过主节点根据样本数 据制定数据生成的策略, 并将数据生成的策略分发至至少一个从节点, 以便主节点和从节点根据数据生成策略产生数 据, 并将产生的数据上 传至文件系统。 能够利用小规模的样本数据生成大数据, 同时还保留 了原有小规模数据的特征规律, 提高了生成的大数据的参考价值, 同 时避免了数据的大规模移动, 有效的节省了存储和网络开销。

本发明实施例提供一种产生数据的装置 01 , 如图 6所示, 该装置 包括:

策略制定单元 011 , 用于根据已获得的样本数据制定数据生成策 略。

第一数据生成单元 012, 用于根据数据生成策略生成第一数据, 并 将第一数据上传至文件系统。

策略分发单元 013 , 用于将数据生成策略发送至从节点, 以便从节 点根据数据生成策略生成第二数据, 并将第二数据上传至文件系统。

其中, 上述样本数据为 m行 n列的矩阵, 其中 m表示第一对象的 总数, n表示第二对象的总数, 矩阵中元素为 r ( u, i ) , r ( u, i ) 表 示第 u个第一对象对第 i个第二对象的评分。

可选的, 策略制定单元 011可以具体用于:

确定数据生成的方向为沿矩阵的横向扩展和 /或沿矩阵的纵向扩 展;

若确定的数据生成的方向为沿矩阵的横向扩展 , 则在矩阵的 n 列 向量中选取至少一列作为第一参考向量集; 或

若确定的数据生成的方向为沿矩阵的纵向扩展 , 则在矩阵的 m行 向量中选取至少一行作为第一参考向量集。

可选的, 策略制定单元 011还可以用于:

确定数据生成的方向为沿矩阵的横向扩展和 /或沿矩阵的纵向扩 展;

若确定的数据生成的方向为沿矩阵的横向扩展 , 则在矩阵的 n 列 向量中选取至少一列作为第一参考向量集; 或

若确定的数据生成的方向为沿矩阵的纵向扩展 , 则在矩阵的 m行 向量中选取至少一行作为第一参考向量集。

可选的, 如图 7所示, 第一数据生成单元 012包括:

第一位置记录子单元 0121 , 用于记录第一参考向量集中每个向量 中的非空元素的位置信息, 并将位置信息发送至第一向量生成单元 013。

第一向量生成单元 0122, 用于根据第一参考向量集中每个向量中 的非空元素选取第一向量集, 并将第一向量集发送至第二生成子单元 0123 , 第一向量集中的每个向量不包含空元素。

第一向量生成单元 0122, 用于利用向量相似性根据第一向量集生 成第二向量集, 第二向量集中的每个向量不包含空元素。

第一向量生成单元 0122, 还用于根据参考向量中每个向量中的非 空元素的位置信息以及第二向量集生成第三向 量集, 将第三向量集发 送至第一合成子单元 0123。

第一合成子单元 0123 , 用于接收第三向量集, 将第三向量集加入 矩阵中形成新矩阵, 将新矩阵作为第一数据。

可选的, 策略分发单元 011还可以用于:

将从节点需要生成数据的数据量及从节点向主 节点返回完成生成 数据消息的时间间隔至从节点;

按照时间间隔, 从从节点接收数据生成结果, 完成生成数据消息 包括从节点已生成的数据量和已完成数据生成 的信息。

可选的, 策略分发单元 011还可以用于:

若在时间间隔内, 没有接收到从节点发送的完成生成数据消息, 则指定除从节点之外的其他从节点按照数据生 成策略生成数据并将生 成的数据上传至文件系统。

本发明实施例提供一种产生数据的装置, 通过主节点根据样本数 据制定数据生成的策略, 并将数据生成的策略分发至至少一个从节点, 以便主节点和从节点根据数据生成策略产生数 据, 并将产生的数据上 传至文件系统。 能够利用小规模的样本数据生成大数据, 同时还保留 了原有小规模数据的特征规律, 提高了生成的大数据的参考价值, 同 时避免了数据的大规模移动, 有效的节省了存储和网络开销。

本发明另一实施例提供另一种产生数据的装置 02, 如图 8所示, 该装置包括:

策略接收单元 021 , 用于从主节点接收数据生成策略。

第二数据生成单元 022, 用于根据数据生成策略生成第二数据, 并 将第二数据上传至文件系统。

其中, 生成数据生成策略的样本数据为一 m行 n列的矩阵, 其中 m表示第一对象的总数, n表示第二对象的总数, 矩阵中元素为 r ( u, i ) , r ( u, i ) 表示第 u个第一对象对第 i个第二对象的评分。

其中, 策略接收单元 021具接收到的所述数据生成策略包括: 确定数据生成的方向为沿矩阵的横向扩展和 /或沿矩阵的纵向扩 展; 若确定的数据生成的方向为沿矩阵的横向扩展 , 则在矩阵的 n 列 向量中选取至少一列作为第二参考向量集; 或

若确定的数据生成的方向为沿矩阵的纵向扩展 , 则在矩阵的 m行 向量中选取至少一行作为第二参考向量集。

可选的, 策略接收单元 021接收到的所述数据生成策略包括: 确定数据生成的方向为沿矩阵的横向扩展和 /或沿矩阵的纵向扩 展;

若确定的数据生成的方向为沿矩阵的横向扩展 , 则对矩阵的 n 列 向量进行聚类处理, 并将聚类处理结果的中心点中的向量作为第二 参 考向量集; 或

若确定的数据生成的方向为沿矩阵的纵向扩展 , 则对矩阵的 m行 向量进行聚类处理, 并将聚类处理结果的中心点中的向量作为第二 参 考向量集。

可选的, 如图 9所示, 第二数据生成单元 022包括:

第二位置记录单元 0221 , 用于记录第二参考向量集中每个向量中 的非空元素的位置信息, 并将位置信息发送至第二向量生成单元 023。

第二向量生成单元 0222, 用于选取第二参考向量集中每个向量中 的非空元素作为第四向量集, 第四向量集中的每个向量不包含空元素。

第二向量生成单元 0222, 用于利用向量相似性根据第四向量集生 成第五向量集, 第五向量集中的每个向量不包含空元素。

第二向量生成单元 0222, 还用于根据参考向量中每个向量中的非 空元素的位置信息以及第五向量集生成第六向 量集, 并将第六向量集 发送至第二合成子单元 0223。

第二合成子单元 0223 ,用于从第二向量生成单元 0222接收第六向 量集, 将第六向量集加入矩阵中形成新矩阵, 将新矩阵作为第二数据。

本发明实施例提供一种产生数据的装置, 通过主节点根据样本数 据制定数据生成的策略, 并将数据生成的策略分发至至少一个从节点, 以便主节点和从节点根据数据生成策略产生数 据, 并将产生的数据上 传至文件系统。 能够利用小规模的样本数据生成大数据, 同时还保留 了原有小规模数据的特征规律, 提高了生成的大数据的参考价值, 同 时避免了数据的大规模移动, 有效的节省了存储和网络开销。 本发明实施例还提供了一种产生数据的装置 03 , 可作为主节点, 如图 10所示, 该装置 03包括: 总线 031 , 以及连接到总线 031的存储 器 032、 发射器 033、 接收器 034、 处理器 035 ; 其中存储器 032用于 存储指令, 处理器 035 执行该指令用于根据已获得的样本数据制定数 据生成策略; 处理器 035 执行该指令用于根据所述数据生成策略生成 第一数据, 并将所述第一数据上传至文件系统; 处理器 035 执行该指 令用于将所述数据生成策略发送至从节点, 以便所述从节点根据所述 数据生成策略生成第二数据, 并将所述第二数据上传至所述文件系统。

在本发明实施例中, 可选的, 该处理器 035 执行该指令用于根据 已获得的样本数据制定数据生成策略包括:

确定数据生成的方向为沿所述矩阵的横向扩展 和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向 扩展, 则在所述矩 阵的 n列向量中选取至少一列作为第一参考向量集 或

若确定的数据生成的方向为沿所述矩阵的纵向 扩展, 则在所述矩 阵的 m行向量中选取至少一行作为第一参考向量集

在本发明实施例中, 可选的, 该处理器 035 执行该指令用于根据 已获得的样本数据制定数据生成策略包括:

确定数据生成的方向为沿所述矩阵的横向扩展 和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向 扩展, J¾ 'J对所述矩 阵的 n 列向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第一参考向量集; 或

若确定的数据生成的方向为沿所述矩阵的纵向 扩展, 则对所述矩 阵的 m行向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第一参考向量集。

在本发明实施例中, 可选的, 该处理器 035 执行该指令用于根据 所述数据生成策略生成第一数据包括:

记录所述第一参考向量集中每个向量中的非空 元素的位置信息; 根据所述第一参考向量集中每个向量中的非空 元素选取第一向量 集, 所述第一向量集中的每个向量不包含空元素;

利用向量相似性根据所述第一向量集生成第二 向量集, 所述第二 向量集中的每个向量不包含空元素;

根据所述参考向量中每个向量中的非空元素的 位置信息以及所述 第二向量集生成第三向量集;

将所述第三向量集加入所述矩阵中形成新矩阵 , 将所述新矩阵作 为所述第一数据。

在本发明实施例中, 可选的, 该处理器 035 执行该指令用于将所 述数据生成策略发送至从节点时, 所述方法包括:

将所述从节点需要生成数据的数据量及所述从 节点向主节点返回 完成生成数据消息的时间间隔发送至所述从节 点;

按照所述时间间隔, 从所述从节点接收所述数据生成结果, 所述 完成生成数据消息包括所述从节点已生成的数 据量和已完成数据生成 的信息。

在本发明实施例中, 可选的, 该处理器 035 执行该指令用于将所 述数据生成策略发送至从节点时, 所述方法还包括:

若在所述时间间隔内, 没有接收到所述从节点发送的所述完成生 成数据消息, 则指定除所述从节点之外的其他从节点按照所 述数据生 成策略生成数据并将生成的数据上传至所述文 件系统。

因此, 本发明实施例的产生数据的装置, 根据已获得的样本数据 制定数据生成策略, 根据所述数据生成策略生成第一数据, 并将所述 第一数据上传至文件系统, 以及将所述数据生成策略发送至从节点, 以便所述从节点根据所述数据生成策略生成第 二数据, 并将所述第二 数据上传至所述文件系统, 从而能够产生所需的大数据。

本发明实施例提供一种产生数据的装置, 通过主节点根据样本数 据制定数据生成的策略, 并将数据生成的策略分发至至少一个从节点, 以便主节点和从节点根据数据生成策略产生数 据, 并将产生的数据上 传至文件系统。 能够利用小规模的样本数据生成大数据, 同时还保留 了原有小规模数据的特征规律, 提高了生成的大数据的参考价值, 同 时避免了数据的大规模移动, 有效的节省了存储和网络开销。

本发明实施例还提供了一种产生数据的装置 04, 可作为从节点, 如图 11所示, 该装置 04包括: 总线 041 , 以及连接到总线 041的存储 器 042、 发射器 043、 接收器 044、 处理器 045 ; 其中存储器 042用于 存储指令, 处理器 045 执行该指令用于从主节点接收数据生成策略; 处理器 045 执行该指令还用于根据所述数据生成策略生成 第二数据, 并将所述第二数据上传至所述文件系统。

在本发明实施例中, 可选的, 该处理器 045 执行该指令用于从主 节点接收的数据生成策略包括:

m行 n列的矩阵, 其中 m表示第一对象的总数, n表示第二对象 的总数, 所述矩阵中元素为 r ( u, i ) , 所述 r ( u, i )表示第 u个第一 对象对第 i个第二对象的评分。

确定数据生成的方向为沿所述矩阵的横向扩展 和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向 扩展, 则在所述矩 阵的 n列向量中选取至少一列作为第二参考向量集 或

若确定的数据生成的方向为沿所述矩阵的纵向 扩展, 则在所述矩 阵的 m行向量中选取至少一行作为第二参考向量集

在本发明实施例中, 可选的, 该处理器 045 执行该指令用于从主 节点接收的数据生成策略包括:

确定数据生成的方向为沿所述矩阵的横向扩展 和 /或沿所述矩阵的 纵向扩展;

若确定的数据生成的方向为沿所述矩阵的横向 扩展, J¾ 'J对所述矩 阵的 n 列向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第二参考向量集; 或

若确定的数据生成的方向为沿所述矩阵的纵向 扩展, J¾ 'J对所述矩 阵的 m行向量进行聚类处理, 并将聚类处理结果的中心点中的向量作 为第二参考向量集。

在本发明实施例中, 可选的, 该处理器 045 执行该指令用于根据 所述数据生成策略生成第二数据包括: 记录所述第二参考向量集中每个向量中的非空 元素的位置信息; 选取所述第二参考向量集中每个向量中的非空 元素作为第四向量 集, 所述第四向量集中的每个向量不包含空元素;

利用向量相似性根据所述第四向量集生成第五 向量集, 所述第五 向量集中的每个向量不包含空元素;

根据所述参考向量中每个向量中的非空元素的 位置信息以及所述 第五向量集生成第六向量集;

将所述第六向量集加入所述矩阵中形成新矩阵 , 将所述新矩阵作 为所述第二数据。

因此, 本发明实施例的产生数据的装置, 通过从主节点接收数据 生成策略, 并根据所述数据生成策略生成第二数据, 并将所述第二数 据上传至所述文件系统, 从而能够产生所需的大数据。

本发明实施例提供一种产生数据的方法, 从通过主节点接收数据 生成策略, 并根据所述数据生成策略生成第二数据, 并将所述第二数 据上传至所述文件系统, 从而能够产生所需的大数据, 能够利用小规 模的样本数据生成大数据, 同时还保留了原有小规模数据的特征规律, 提高了生成的大数据的参考价值, 同时避免了数据的大规模移动, 有 效的节省了存储和网络开销。

在本申请所提供的几个实施例中, 应该理解到, 所揭露的方法, 装置, 和系统, 可以通过其它的方式实现。 例如, 以上所描述的装置实施例仅仅是 示意性的, 例如, 所述单元的划分, 仅仅为一种逻辑功能划分, 实际实现时 可以有另外的划分方式,例如多个单元或组件 可以结合或者可以集成到另一 个系统, 或一些特征可以忽略, 或不执行。 另一点, 所显示或讨论的相互之 间的耦合或直接耦合或通信连接可以是通过一 些接口,装置或单元的间接耦 合或通信连接, 可以是电性, 机械或其它的形式。 为单元显示的部件可以是或者也可以不是物理 单元, 即可以位于一个地方, 或者也可以分布到多个网络单元上。可以根据 实际的需要选择其中的部分或 者全部单元来实现本实施例方案的目的。

另外, 在本发明各个实施例中的各功能单元可以集成 在一个处理单元 中, 也可以是各个单元单独物理包括, 也可以两个或两个以上单元集成在一 个单元中。 上述集成的单元既可以采用硬件的形式实现, 也可以采用硬件加 软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元 ,可以存储在一个计算机 可读取存储介质中。 上述软件功能单元存储在一个存储介质中, 包括若干指 令用以使得一台计算机设备(可以是个人计算 机,服务器,或者网络设备等) 执行本发明各个实施例所述方法的部分步骤。 而前述的存储介质包括: U盘、 移动硬盘、 只读存储器(Read-Only Memory, 筒称 ROM ) 、 随机存取存储 器(Random Access Memory, 筒称 RAM ) 、 磁碟或者光盘等各种可以存储 程序代码的介质。

以上所述, 仅为本发明的具体实施方式, 但本发明的保护范围并不局限 于此, 任何熟悉本技术领域的技术人员在本发明揭露 的技术范围内, 可 轻易想到变化或替换, 都应涵盖在本发明的保护范围之内。 因此, 本发 明的保护范围应以所述权利要求的保护范围为 准。