standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211440292.1 (22)申请日 2022.11.17 (71)申请人 江苏鸿程大 数据技术与应用研究院 有限公司 地址 211800 江苏省南京市江北新区研创 园团结路9 9号孵鹰大厦1 120室 申请人 江苏皓盘云 建网络科技有限公司 (72)发明人 李珍珍 赵博 张海军 徐忠 崔爱民 黄宜华 (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 许小莉 (51)Int.Cl. G06F 16/2458(2019.01) (54)发明名称 一种工程材料信息价格匹配方法、 系统及存 储介质 (57)摘要 本发明公开了一种工程材料信息价格匹配 方法、 系统及存储介质, 属于 数据处理技术领域。 本发明的方法首先构建常用材料库和特殊材料 库, 采用新词发现技术对现有工程材料数据进行 挖掘, 根据信息熵和互信息两个评估指标给材料 名称打分, 按照得分顺序选取常用材料和特殊材 料名称; 参考材料库和待匹配材料预处理; 再根 据待匹配的材料名 称和规格与参考材料库中的 材料进行数据匹配, 并将匹配到的材料信息按照 相关性排序; 再对材料匹配出来的结果, 采用规 则匹配对部分特殊材料进行后处理; 最后对匹配 材料价格单位换算。 本发明基于常用词库对匹配 出的材料进行规则匹配, 显著提高匹配的准确 度, 并且解决人工进行材料价格匹配效率低的问 题。 权利要求书3页 说明书8页 附图1页 CN 115495507 A 2022.12.20 CN 115495507 A 1.一种工程材 料信息价格匹配方法, 其特 征在于, 该 方法具体步骤如下: 步骤S1: 构建常用材料库和特殊材料库, 采用新词发现技术对现有工程材料数据进行 挖掘, 根据信息熵和互信息两个评估指标给材料名称打分, 按照得分顺序选取常用材料和 特殊材料名称; 步骤S2: 参考材料库和待匹配材料预处理, 分别对参考材料库和待匹配材料名称和规 格起别名, 将补全材 料名称描述信息作为别名; 步骤S3: 材料匹配, 根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹 配, 获取符合待匹配的材 料信息, 并将匹配到的材 料信息按照相关性 排序; 步骤S4: 匹配结果后处理, 对材料匹配出来的结果, 采用规则匹配对部分特殊材料进行 后处理; 步骤S5: 匹配材料价格单位换算, 将待匹配材料在参考材料库匹配出的材料中, 单位不 一致的材料进行单位价格换算。 2.根据权利要求1所述的一种工程材料信 息价格匹配方法, 其特征在于, 步骤S1中所述 新词发现技术是根据信息熵和互信息两个评估指标对材料名称进 行打分, 材料名称得分计 算方法如下: 使用现有工程材料的名称建立语料库, 计算每个候选词的总体得分, 按照总体得分进 行排序, 选出常用材料库和特殊材料库词语, 总体得分由信息熵和互信息两个指标 组成, 首 先分别计算每 个候选词的信息熵和互信息, 候选词信 息熵采用左邻熵和 右邻熵评估左右相邻词的丰富程度, 信 息熵的计算公式如 下: 其中,EL和ER分别为左邻熵和右邻熵, 和 分别为左邻字符串集合和右邻字符串 集合, 为第i个字符串, s为字符串的组合, 为信息熵, 为字符串 在字符串组合 s出现的概 率; 候选词互信息用于 评估一个字符串组合是否为有意 义的新词, 计算公式如下: 其中, 为平均互信息, W为候选词, n为候选词长度, 是联合概率分布函 数, 和 分别为字符串 和 的边缘概率分布函数; 候选词的总体得分用信息熵和互信息 两个指标进行评估, 计算公式如下:权 利 要 求 书 1/3 页 2 CN 115495507 A 2其中, 为候选词的整体得分, 为候选词信息熵, 和 分别为信息熵和互 信息的评估权 重; 对语料库中所有候选词计算其整体得分, 根据得分进行排序, 选取前1000的分词结果 作为常用材 料库词语。 3.根据权利要求1所述的一种工程材料信 息价格匹配方法, 其特征在于, 步骤S2中所述 参考材料库和待匹配材料预处理具体是指对参考材料库和待匹配材料名 称title和规格 specs分别进行预处理, 参考材料库预处理后的材料名称作为别名title_alias和spec_ alias, 参考材料库含有材料名称, 规格, 单位, 含税价, 除税价, 来源及区域描述字段; 待匹 配材料含有名称, 规格, 单位描述字段。 4.根据权利要求3所述的一种工程材料信 息价格匹配方法, 其特征在于, 参考材料库 所 述的参考材料库预处 理具体方法为: 参考材料库格式校验, 检测其信息 字段是否有缺失, 补全缺失值 为空字符; 参考材料库过滤去除名称为空的材 料; 参考材料库的材 料名称和规格统一 转换为大写; 部分特殊材料补全描述信息, 遍历特殊材料换算表对钢筋和砂浆材料进行代号换算, 根据材料代号, 获取参 考材料库的材 料名称和规格中缺少的描述信息作为补全信息; 同义词材料补全描述信息, 遍历同含义词表查找材料是否含有 同含义词语, 取同含义 但未出现的词语作为补全信息; 若预处理后的材 料和规格名称不变, 则将原 始名称和规格作为材 料别名和规格别名。 5.根据权利要求3所述的一种工程材料信 息价格匹配方法, 其特征在于, 所述的待 匹配 材料预处理方法具体为: 待匹配材 料格式校验, 检测其材 料信息字段是否有缺失, 补全缺失值 为空字符; 待匹配材 料名称和规格统一 转换为大写; 同义词材料补全描述信息, 遍历同含义词表查找材料是否含有 同含义词语, 取同含义 但未出现的词语作为补全信息 。 6.根据权利要求1所述的一种工程材料信 息价格匹配方法, 其特征在于, 步骤S3所述材 料匹配方法如下: 以参考材料库的材 料名称和规格别名title_al ias和 spec_alias为全文索引; 将分词存储在一个辅助表中, 分词大小设置为2; 辅助表内容为词语及词语在各条记录 位置的映射关系, 存 储为倒排文件索引; 通过倒排索引进行前查找, 计算查看各条数据的相关性, 相关性根据记录 中的单词数, 记录中唯一单词数, 集 合中单词的总数以及包 含特定单词的记录数 各因素进行计算; 按照相关性 排序, 取出前10条数据记录作为匹配结果。 7.根据权利要求1所述的一种工程材料信 息价格匹配方法, 其特征在于, 步骤S4所述匹 配结果后处 理具体方法如下: 过滤异义词材料, 异义词材料即材料名称相似, 但是完全不同的材料, 遍历异义词材料 表去除匹配结果中的异义词材 料;权 利 要 求 书 2/3 页 3 CN 115495507 A 3
专利 一种工程材料信息价格匹配方法、系统及存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:34:03
上传分享
举报
下载
原文档
(508.3 KB)
分享
友情链接
工行 - 2023.2 - 2022网络金融黑产研究报告.pdf
YJ-T 3-2011 地震救援装备检测规程 起重气垫系统.pdf
专利 一种新能源汽车用水冷板散热器碰焊定位装置.PDF
GB-T 41772-2022 信息技术 生物特征识别 人脸识别系统技术要求.pdf
GB-T 29529-2013 泵的噪声测量与评价方法.pdf
T-CSAE 284.2—2022 自动驾驶乘用车 线控底盘性能要求及试验方法 第2部分:制动系统.pdf
GB-T 38638-2020 信息安全技术 可信计算 可信计算体系结构.pdf
GB-T 36896.4-2018 轻型有缆遥控水下机器人 第4部分:摄像、照明与云台.pdf
GB-T 3620.1-2016 钛及钛合金牌号和化学成分.pdf
T-BISSC 01—2022 专科疾病标准数据集建设规范.pdf
安华金和 数据安全治理白皮书5.0 医疗数据安全治理实践.pdf
GB-T 35553-2017 城市轨道交通机电设备节能要求.pdf
安恒信息-GBT31168-2023 信息安全技术云计算服务安全能力要求 国家标准解读.pdf
T-CCASC 1006—2023 氯乙烯生产企业安全风险隐患排查指南.pdf
炼石 网络数据安全管理条例(征求意见稿) 及数据安全技术体系V1.0.0 .pdf
T-CCUA 003—2019 金融信息科技服务外包风险管理能力成熟度评估规范.pdf
GB-T 14263-2010 散装浮选铜精矿取样、制样方法.pdf
DB43-T 2632.6-2023 烟叶生产收购站管理规范 第6部分:数字化管理 湖南省.pdf
上海市公共数据开放暂行办法.pdf
TTAF 077.6-2020 APP收集使用个人信息最小必要评估规范 软件列表.pdf
1
/
13
评价文档
赞助2.5元 点击下载(508.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。