standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211440292.1 (22)申请日 2022.11.17 (71)申请人 江苏鸿程大 数据技术与应用研究院 有限公司 地址 211800 江苏省南京市江北新区研创 园团结路9 9号孵鹰大厦1 120室 申请人 江苏皓盘云 建网络科技有限公司 (72)发明人 李珍珍 赵博 张海军 徐忠  崔爱民 黄宜华  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 许小莉 (51)Int.Cl. G06F 16/2458(2019.01) (54)发明名称 一种工程材料信息价格匹配方法、 系统及存 储介质 (57)摘要 本发明公开了一种工程材料信息价格匹配 方法、 系统及存储介质, 属于 数据处理技术领域。 本发明的方法首先构建常用材料库和特殊材料 库, 采用新词发现技术对现有工程材料数据进行 挖掘, 根据信息熵和互信息两个评估指标给材料 名称打分, 按照得分顺序选取常用材料和特殊材 料名称; 参考材料库和待匹配材料预处理; 再根 据待匹配的材料名 称和规格与参考材料库中的 材料进行数据匹配, 并将匹配到的材料信息按照 相关性排序; 再对材料匹配出来的结果, 采用规 则匹配对部分特殊材料进行后处理; 最后对匹配 材料价格单位换算。 本发明基于常用词库对匹配 出的材料进行规则匹配, 显著提高匹配的准确 度, 并且解决人工进行材料价格匹配效率低的问 题。 权利要求书3页 说明书8页 附图1页 CN 115495507 A 2022.12.20 CN 115495507 A 1.一种工程材 料信息价格匹配方法, 其特 征在于, 该 方法具体步骤如下: 步骤S1: 构建常用材料库和特殊材料库, 采用新词发现技术对现有工程材料数据进行 挖掘, 根据信息熵和互信息两个评估指标给材料名称打分, 按照得分顺序选取常用材料和 特殊材料名称; 步骤S2: 参考材料库和待匹配材料预处理, 分别对参考材料库和待匹配材料名称和规 格起别名, 将补全材 料名称描述信息作为别名; 步骤S3: 材料匹配, 根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹 配, 获取符合待匹配的材 料信息, 并将匹配到的材 料信息按照相关性 排序; 步骤S4: 匹配结果后处理, 对材料匹配出来的结果, 采用规则匹配对部分特殊材料进行 后处理; 步骤S5: 匹配材料价格单位换算, 将待匹配材料在参考材料库匹配出的材料中, 单位不 一致的材料进行单位价格换算。 2.根据权利要求1所述的一种工程材料信 息价格匹配方法, 其特征在于, 步骤S1中所述 新词发现技术是根据信息熵和互信息两个评估指标对材料名称进 行打分, 材料名称得分计 算方法如下: 使用现有工程材料的名称建立语料库, 计算每个候选词的总体得分, 按照总体得分进 行排序, 选出常用材料库和特殊材料库词语, 总体得分由信息熵和互信息两个指标 组成, 首 先分别计算每 个候选词的信息熵和互信息, 候选词信 息熵采用左邻熵和 右邻熵评估左右相邻词的丰富程度, 信 息熵的计算公式如 下: 其中,EL和ER分别为左邻熵和右邻熵, 和 分别为左邻字符串集合和右邻字符串 集合, 为第i个字符串, s为字符串的组合, 为信息熵, 为字符串 在字符串组合 s出现的概 率; 候选词互信息用于 评估一个字符串组合是否为有意 义的新词, 计算公式如下: 其中, 为平均互信息, W为候选词, n为候选词长度, 是联合概率分布函 数, 和 分别为字符串 和 的边缘概率分布函数; 候选词的总体得分用信息熵和互信息 两个指标进行评估, 计算公式如下:权 利 要 求 书 1/3 页 2 CN 115495507 A 2其中, 为候选词的整体得分, 为候选词信息熵, 和 分别为信息熵和互 信息的评估权 重; 对语料库中所有候选词计算其整体得分, 根据得分进行排序, 选取前1000的分词结果 作为常用材 料库词语。 3.根据权利要求1所述的一种工程材料信 息价格匹配方法, 其特征在于, 步骤S2中所述 参考材料库和待匹配材料预处理具体是指对参考材料库和待匹配材料名 称title和规格 specs分别进行预处理, 参考材料库预处理后的材料名称作为别名title_alias和spec_ alias, 参考材料库含有材料名称, 规格, 单位, 含税价, 除税价, 来源及区域描述字段; 待匹 配材料含有名称, 规格, 单位描述字段。 4.根据权利要求3所述的一种工程材料信 息价格匹配方法, 其特征在于, 参考材料库 所 述的参考材料库预处 理具体方法为: 参考材料库格式校验, 检测其信息 字段是否有缺失, 补全缺失值 为空字符; 参考材料库过滤去除名称为空的材 料; 参考材料库的材 料名称和规格统一 转换为大写; 部分特殊材料补全描述信息, 遍历特殊材料换算表对钢筋和砂浆材料进行代号换算, 根据材料代号, 获取参 考材料库的材 料名称和规格中缺少的描述信息作为补全信息; 同义词材料补全描述信息, 遍历同含义词表查找材料是否含有 同含义词语, 取同含义 但未出现的词语作为补全信息; 若预处理后的材 料和规格名称不变, 则将原 始名称和规格作为材 料别名和规格别名。 5.根据权利要求3所述的一种工程材料信 息价格匹配方法, 其特征在于, 所述的待 匹配 材料预处理方法具体为: 待匹配材 料格式校验, 检测其材 料信息字段是否有缺失, 补全缺失值 为空字符; 待匹配材 料名称和规格统一 转换为大写; 同义词材料补全描述信息, 遍历同含义词表查找材料是否含有 同含义词语, 取同含义 但未出现的词语作为补全信息 。 6.根据权利要求1所述的一种工程材料信 息价格匹配方法, 其特征在于, 步骤S3所述材 料匹配方法如下: 以参考材料库的材 料名称和规格别名title_al ias和 spec_alias为全文索引; 将分词存储在一个辅助表中, 分词大小设置为2; 辅助表内容为词语及词语在各条记录 位置的映射关系, 存 储为倒排文件索引; 通过倒排索引进行前查找, 计算查看各条数据的相关性, 相关性根据记录 中的单词数, 记录中唯一单词数, 集 合中单词的总数以及包 含特定单词的记录数 各因素进行计算; 按照相关性 排序, 取出前10条数据记录作为匹配结果。 7.根据权利要求1所述的一种工程材料信 息价格匹配方法, 其特征在于, 步骤S4所述匹 配结果后处 理具体方法如下: 过滤异义词材料, 异义词材料即材料名称相似, 但是完全不同的材料, 遍历异义词材料 表去除匹配结果中的异义词材 料;权 利 要 求 书 2/3 页 3 CN 115495507 A 3

PDF文档 专利 一种工程材料信息价格匹配方法、系统及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种工程材料信息价格匹配方法、系统及存储介质 第 1 页 专利 一种工程材料信息价格匹配方法、系统及存储介质 第 2 页 专利 一种工程材料信息价格匹配方法、系统及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。