standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210002032.X (22)申请日 2022.01.04 (71)申请人 杭州网易竹 书信息技 术有限公司 地址 310052 浙江省杭州市滨江区长河街 道网商路39 9号3幢303室 (72)发明人 何学楷 王超  (74)专利代理 机构 北京博思佳知识产权代理有 限公司 1 1415 专利代理师 林祥 (51)Int.Cl. G06F 40/12(2020.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 名称相似度计算方法、 装置、 存储介质和计 算设备 (57)摘要 本公开的实施方式提供了一种名称相似度 计算方法、 装置、 存储介质和计算设备。 包括: 获 取待计算的至少两个企业的企业名称; 从所述企 业名称中提取出至少一种要素类型的企业要素 信息; 对所述至少一种要素类型下不同企业的企 业要素信息进行相似度计算, 得到所述企业之间 的至少一种要素类型的要素相似度; 基于所述至 少一种要素类型的要素相似度, 计算所述企业的 企业名称的相似度。 权利要求书2页 说明书16页 附图4页 CN 114444441 A 2022.05.06 CN 114444441 A 1.一种名称相似度计算方法, 包括: 获取待计算的至少两个企业的企业名称; 从所述企业名称中提取 出至少一种要素类型的企业要素信息; 对所述至少一种 要素类型下不同企业的企业要素信 息进行相似度计算, 得到所述企业 之间的至少一种要素类型的要素相似度; 基于所述至少一种要素类型的要素相似度, 计算所述企业的企业名称的相似度。 2.根据权利要求1所述的方法, 所述从所述企业名称中提取出至少一种要素类型的企 业要素信息, 包括: 对所述企业名称进行分词, 得到 至少一个分词; 将所述分词与至少一种要素类型对应的要素信息库进行匹配; 将与所述要素信息库相匹配的分词确定为与所述要素信息库对应的要素类型的企业 要素信息 。 3.根据权利要求2所述的方法, 所述对所述企业名称进行分词, 得到至少一个分词, 包 括: 对所述企业名称进行分词, 并与预设的词典进行匹配; 其中, 所述预设的词典中记录有 语义连贯的短词语; 确定至少一个与所述预设的词典相匹配的分词。 4.根据权利要求2所述的方法, 所述要素类型包括行政区划、 组织形式、 经营范围中的 至少一种; 所述将与所述要素信息库相匹配的分词确定为与所述要素信息库对应的要素类型的 企业要素信息, 至少包括以下一种: 将与所述行政区划库中的行政区划匹配的分词确定为行政区划信息; 将与所述组织形式库中的组织形式匹配的分词确定为组织形式信息; 将与所述经 营范围库中的经 营范围匹配的分词确定为经 营范围信息 。 5.根据权利要求 4所述的方法, 所述要素类型还 包括企业字号, 所述方法还 包括: 将确定的所述行政区划信息、 组织形式信息和经营范围信息从所述企业名称中删除, 将剩余的内容确定为企业字号信息 。 6.根据权利要求1所述的方法, 所述对所述至少一种要素类型下不同企业的企业要素 信息进行相似度计算, 得到所述企业之间的至少一种要素类型的要素相似度, 包括: 对不同企业的企业要素信息进行编码, 得到与所述企业要素信息对应的词向量; 对所述至少一种 要素类型下不同企业的词向量进行相似度计算, 得到所述企业之间的 至少一种要素类型的要素相似度。 7.根据权利要求6所述的方法, 所述对不同企业的企业要素信息进行编码, 包括: 采用BERT编码方式对不同企业的企业要素信息进行编码; 其中, 所述BERT编码采用的 是轻量化的编码文本库。 8.一种名称相似度计算装置, 包括: 获取单元, 获取待计算的至少两个企业的企业名称; 提取单元, 从所述企业名称中提取 出至少一种要素类型的企业要素信息; 第一计算单元, 对所述至少一种要素类型下不同企业的企业要素信息进行相似度计权 利 要 求 书 1/2 页 2 CN 114444441 A 2算, 得到所述企业之间的至少一种要素类型的要素相似度; 第二计算单元, 基于所述至少一种要素类型的要素相似度, 计算所述企业的企业名称 的相似度。 9.一种计算机可读存 储介质, 包括: 当所述计算机可读存储介质中的指令由电子设备的处理器执行时, 使得电子设备能够 执行如权利要求1 ‑7中任一项所述的名称相似度计算方法。 10.一种计算设备, 包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 其中, 所述处理器被配置为执行所述可执行指令, 以实现如权利要求1 ‑7中任一项所述 的名称相似度计算方法。权 利 要 求 书 2/2 页 3 CN 114444441 A 3

PDF文档 专利 名称相似度计算方法、装置、存储介质和计算设备

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 名称相似度计算方法、装置、存储介质和计算设备 第 1 页 专利 名称相似度计算方法、装置、存储介质和计算设备 第 2 页 专利 名称相似度计算方法、装置、存储介质和计算设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:02上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。