(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211533807.2
(22)申请日 2022.12.02
(71)申请人 湖南工商大 学
地址 410205 湖南省长 沙市岳麓区岳麓 大
道569号
(72)发明人 陈晓红 张威威 曹文治 徐选华
胡东滨
(74)专利代理 机构 深圳众鼎汇成知识产权代理
有限公司 4 4566
专利代理师 朱业刚
(51)Int.Cl.
G06F 16/215(2019.01)
G06F 16/2458(2019.01)
(54)发明名称
基于特征抽样的数据修复方法、 装置及相关
设备
(57)摘要
本发明涉及数据处理领域, 公开了一种基于
特征抽样的数据修复方法、 装置及相关设备, 所
述方法包括: 通过聚类算法对存储节 点的数据进
行特征抽样, 对n个分布式数据存储节点的数据
特征集进行特征提取, 得到每个分布式数据存储
节点的k个特征值作为存储节点的数据特征; 将
每个分布式数据存储节点的k个特征值作为每个
分布式数据存储节点对应的数据采样集合; 将每
个分布式数据存储节点对应的数据采样集合与
其它n‑1个分布式数据存储节点的数据采样集合
进行合并, 得到每个分布式数据存储节点对应的
合成数据集; 基于预设的数据修复方法, 对合成
数据集进行修复, 得到修复数据集, 提高智 能制
造生产数据的质量。
权利要求书3页 说明书9页 附图2页
CN 115543991 A
2022.12.30
CN 115543991 A
1.一种基于特征抽样的数据修复方法, 其特征在于, 所述基于特征抽样的数据修复方
法包括:
基于聚类算法, 对n个分布式数据存储节点的本地数据集进行特征提取, 得到每个所述
分布式数据存 储节点的k个特 征值;
将每个所述分布式数据存储节点的k个特征值作为每个所述分布式数据存储节点对应
的数据采样集 合;
将每个所述分布式数据存储节点对应的数据采样集合与其它n ‑1个所述分布式数据存
储节点的数据采样集 合进行合并, 得到每 个所述分布式数据存 储节点对应的合成数据集;
将所述分布式数据存储节点对应的合成数据集分发到存储节点, 并采用每个所述分布
式数据存储节点在本地基于预设的数据修复方法, 对所述合成数据集进行修复, 得到修复
数据集。
2.如权利要求1所述的基于特征抽 样的数据修复方法, 其特征在于, 所述对本地的数据
特征集进行 特征提取, 与所述对所述 合成数据集进行修复, 并行 执行。
3.如权利要求1所述的基于特征抽 样的数据修复方法, 其特征在于, 所述基于特征抽样
的数据修复方法还 包括:
基于剔除缺失数据方式, 对n个分布式数据存储节点的数据 特征集进行处理, 得到每个
所述分布式数据存 储节点对应的完整数据集和待修复数据集;
将所述完整数据集和所述待修复数据集作为每个所述分布式数据存储节点对应的数
据采样集 合。
4.如权利要求1所述的基于特征抽 样的数据修复方法, 其特征在于, 所述预设的数据修
复方法为SVD分解填充方法, 所述合 成数据集包括待修复合 成数据集, 所述基于预设的数据
修复方法, 对所述 合成数据集进行修复, 得到修复数据集包括:
基于所述SVD分解填充方法, 对所述待修复合成数据集进行特征均值填补, 得到完整矩
阵;
对所述完整矩阵进行奇异值分解, 得到第一奇异值分解矩阵;
基于预设的剔除方式, 剔除所述第一奇异值分解矩阵中对应的值, 得到第二奇异值分
解矩阵;
将第二奇异值分解矩阵中的奇异值对应的特 征矩阵进行恢复, 得到 近似矩阵;
从所述近似矩阵中取出填充值, 并采用所述填充值对所述完整矩阵进行填充, 得到初
始修复矩阵;
将所述初始修复矩阵作为所述完整矩阵, 返回所述对所述完整矩阵进行奇异值分解,
得到第一奇异值分解矩阵的步骤继续执行, 直至达到预设的停止条件为止, 得到最终修复
矩阵;
将所述最终修复矩阵作为所述 修复数据集。
5.一种基于特征抽样的数据修复装置, 其特征在于, 所述基于特征抽样的数据修复装
置包括:
特征聚类模块, 用于基于聚类算法, 对n个分布式数据存储节点的本地数据集进行特征
提取, 得到每 个所述分布式数据存 储节点的k个特 征值;
第一数据采样集合确定模块, 用于将每个所述分布式数据存储节点的k个特征值作为权 利 要 求 书 1/3 页
2
CN 115543991 A
2每个所述分布式数据存 储节点对应的数据采样集 合;
合并模块, 用于将每个所述分布式数据存储节点对应的数据采样集合与其它n ‑1个所
述分布式数据存储节点的数据采样集合进 行合并, 得到每个所述分布式数据存储节点对应
的合成数据集;
修复模块, 用于将所述分布式数据存储节点对应的合成数据集分发到存储节点, 并采
用每个所述分布式数据存储节点在本地基于预设的数据修复方法, 对所述合成数据集进 行
修复, 得到修复数据集。
6.如权利要求5所述的基于特征抽 样的数据修复装置, 其特征在于, 所述特征聚类模块
包括:
初始簇中心确定模块, 用于在每个所述分布式数据存储节点的数据特征集中随机选择
k个特征数据, 作为 k个初始簇中心;
距离计算模块, 用于依次计算每个所述分布式数据存储节点的数据特征集中的特征数
据与k个所述初始簇中心之间的距离;
数据特征簇获取模块, 用于根据所述距离的大小, 从k个所述初始簇中心中, 确定目标
簇中心并将所述特 征数据划分到所述目标簇中心对应的簇, 得到数据特 征簇;
均值计算模块, 用于对所述数据特征簇中的特征数据进行均值计算, 得到所述数据特
征簇的均值;
特征数据划分模块, 用于将所述均值作为初始簇中心, 返回所述计算所述分布式数据
存储节点的数据特征集中的特征数据与k个所述初始簇中心之间的距离的步骤继续执行,
直至迭代次数等于预设迭代次数为止, 得到每 个所述分布式数据存 储节点的k个特 征值。
7.如权利要求5所述的基于特征抽 样的数据修复装置, 其特征在于, 所述基于特征抽样
的数据修复装置还 包括:
数据处理模块, 用于基于剔除缺失数据方式, 对n个分布式数据存储节点的数据 特征集
进行处理, 得到每 个所述分布式数据存 储节点对应的完整数据集和待修复数据集;
第二数据采样集合确定模块, 用于将所述完整数据集和所述待修复数据集作为每个所
述分布式数据存 储节点对应的数据采样集 合。
8.如权利要求5所述的基于特征抽 样的数据修复装置, 其特征在于, 所述预设的数据修
复方法为SVD分解 填充方法, 所述 修复模块包括:
特征均值填补模块, 用于基于所述SVD分解填充方法, 对所述待修复合成数据集进行特
征均值填补, 得到 完整矩阵;
奇异值分解模块, 用于对所述完整矩阵进行奇异值分解, 得到第一奇异值分解矩阵;
奇异值剔除模块, 用于基于预设的剔除方式, 剔除所述第一奇异值分解矩阵中对应的
值, 得到第二奇异值分解矩阵;
近似矩阵获得模块, 用于将第二奇异值分解矩阵中的奇异值对应的特征矩阵进行恢
复, 得到近似矩阵;
初始修复矩阵获得模块, 用于从所述近似矩阵中取出填充值, 并采用所述填充值对所
述完整矩阵进行填充, 得到初始修复矩阵;
最终修复矩阵获得模块, 用于将所述初始修复矩阵作为所述完整矩阵, 返回所述对所
述完整矩阵进行奇异值分解, 得到第一奇异值分解矩阵的步骤继续执行, 直至达到预设的权 利 要 求 书 2/3 页
3
CN 115543991 A
3
专利 基于特征抽样的数据修复方法、装置及相关设备
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:03上传分享