文库搜索
切换导航
首页
频道
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
首页
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211061660.1 (22)申请日 2022.08.31 (71)申请人 浙江大华 技术股份有限公司 地址 310051 浙江省杭州市滨江区滨安路 1187号 (72)发明人 文欢 吕晓 陈立力 周明伟 (74)专利代理 机构 杭州华进联浙知识产权代理 有限公司 3 3250 专利代理师 贺才杰 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06K 9/62(2022.01) (54)发明名称 一种数据项 对标方法、 装置和存 储介质 (57)摘要 本申请涉及一种数据项对 标方法、 装置和存 储介质, 其中, 该数据项对 标方法包括: 从待对 标 的数据表中获得待对 标的数据项; 计算待对 标的 数据项之间的文本相似度; 根据计算出的文本相 似度, 对待对标的数据项进行聚类; 根据聚类结 果, 对待对 标的数据项进行对 标。 通过本申请, 通 过挖掘数据项内容之间的文本相似度, 利用待对 标的数据项之间的文本相似度, 先对待对标的数 据项进行聚类, 对于聚类后的每类数据项, 只需 要对标有限的个数, 即可完成所有数据项对 标工 作的方法, 大大提高数据元对标工作效率, 解决 了现有技 术中数据元对标效率低的问题。 权利要求书2页 说明书8页 附图3页 CN 115495549 A 2022.12.20 CN 115495549 A 1.一种数据项对标 方法, 其特 征在于, 所述方法包括: 从待对标的数据表中获得待对标的数据项; 计算所述待对标的数据项之间的文本相似度; 根据计算出的文本相似度, 对所述待对标的数据项 进行聚类; 根据聚类结果, 对所述待对标的数据项 进行对标。 2.根据权利要求1所述的数据项对标方法, 其特征在于, 所述计算所述待对标的数据项 之间的文本相似度, 包括: 对所述待对标的数据项 进行分词处 理, 获得所述待对标的数据项的分词列表; 根据所述分词列表, 构建所述待对标的数据项的内容分词集 合; 根据所述内容分词集 合, 计算所述待对标的数据项之间的文本相似度。 3.根据权利要求2所述的数据项对标方法, 其特征在于, 所述根据所述分词列表, 构建 所述待对标的数据项的内容分词集 合, 包括: 对所述分词列表中的分词 去重, 基于去重后的所述分词列表构建所述待对标的数据项 的内容分词集 合。 4.根据权利要求1至3任一项所述的数据项对标方法, 其特征在于, 所述根据计算出的 文本相似度, 对所述待对标的数据项 进行聚类, 包括: 根据计算出的文本相似度和预设的相似度阈值, 对所述待对标的数据项 进行聚类。 5.根据权利要求4所述的数据项对标方法, 其特征在于, 所述根据计算出的文本相似度 和预设的相似度阈值, 对所述待对标的数据项 进行聚类, 包括: 根据计算出的文本相似度和预设的相似度阈值, 从所述待对标的数据项中筛选出文本 相似度大于所述预设的相似度阈值的待对标的数据项作为数据项关系对; 将所述数据项关 系对分类至同一聚类集 合; 根据所述聚类集 合中的所述待对标的数据项, 更新所述聚类集 合。 6.根据权利要求5所述的数据项对标方法, 其特征在于, 所述根据 所述聚类集合中的所 述待对标的数据项, 更新所述聚类集 合, 包括: 根据待分类的所述待对标的数据项与所述聚类集合的所述待对标的数据项之间的文 本相似度, 对所述待分类的所述待对标的数据项 进行分类, 以更新所述聚类集 合。 7.根据权利要求5或6所述的数据项对标方法, 其特征在于, 所述根据聚类结果, 对所述 待对标的数据项 进行对标, 包括: 选择所述聚类集 合中的一个待对标的数据项 进行对标; 根据对标 结果, 完成所有 待对标的数据项的对标。 8.根据权利要求1所述的数据项对标方法, 其特征在于, 所述待对标的数据项为所述待 对标的数据表中的数据项为文本型的数据项或字符型的数据项。 9.一种数据项对标装置, 其特 征在于, 所述装置包括: 获取模块, 用于从待对标的数据表中获得待对标的数据项; 计算模块, 用于计算所述待对标的数据项之间的文本相似度; 分类模块, 用于根据计算出的文本相似度, 对所述待对标的数据项 进行聚类; 对标模块, 用于根据聚类结果, 对所述待对标的数据项 进行对标。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序权 利 要 求 书 1/2 页 2 CN 115495549 A 2被处理器执行时实现权利要求1至8中任一项所述的数据项对标 方法的步骤。权 利 要 求 书 2/2 页 3 CN 115495549 A 3
专利 一种数据项对标方法、装置和存储介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 02:12:14
上传分享
举报
下载
原文档
(426.7 KB)
分享
友情链接
GB/T 34960.2-2017 信息技术服务 治理 第2部分:实施指南.pdf
T-CES 177—2022 磷酸铁锂电池储能舱早期安全预警系统技术规范.pdf
GB-T 28827.2-2012 信息技术服务 运行维护 第2部分:交付规范.pdf
广州市绿色建筑和建筑节能管理规定.pdf
GB-T 26225-2010 信息技术 移动存储 闪存盘通用规范.pdf
GM-T 0042-2015 三元对等密码安全协议测试规范.pdf
GB-T 18994-2014 电子工业用气体 高纯氯.pdf
T-CSAE 75.2—2021 汽车防锈包装规程 第2部分:动力总成及其主要零部件.pdf
GB-T 40113.1-2021 生物质热解炭气油多联产工程技术规范 第1部分:工艺设计.pdf
T-CSPSTC 75—2021 微动探测技术规程.pdf
专利 一种智能恒温控制装置.PDF
GB-T 33474-2016 物联网 参考体系结构.pdf
GB-T 21064-2007 电子政务系统总体设计要求.pdf
奇安信 中国政企机构数据安全风险研究报告.pdf
GB-T 12538-2023 道路车辆 质心位置的测定.pdf
T-CSAE 90—2019 汽车用电动热泵空调系统性能测试规范.pdf
GB-T 29490-2023 企业知识产权合规管理体系 要求.pdf
信通院 联邦学习应用安全研究报告 2023年.pdf
GB 3096-2008_声环境质量标准.pdf
证券研究报告 - 2023.1.20 - 从CHAT_GPT到生成式AI(Generative+AI):人工智能新范式,重新定义生产力.pdf
1
/
3
14
评价文档
赞助2元 点击下载(426.7 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。