专利 一种领域语义网自动构建方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210115578.6 (22)申请日 2022.02.07 (65)同一申请的已公布的文献号申请公布号 CN 114154513 A (43)申请公布日 2022.03.08 (73)专利权人杭州远传新业科技股份有限公司地址 311611 浙江省杭州市滨江区浦沿街道信诚路857号悦江商业中心 23011室 (72)发明人嵇望　陈默　梁青　 (74)专利代理机构杭州创智卓英知识产权代理事务所(普通合伙) 33324 专利代理师张迪 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/35(2020.01) G06F 40/295(2020.01)G06F 40/242(2020.01) G06F 40/194(2020.01) (56)对比文件 CN 112100344 A,2020.12.18 US 2019384810 A1,2019.12.19 JP 201024 4498 A,2010.10.28 胡家珩等.基于深度学习的领域情感词典自动构建― ―以金融领域为例. 《数据分析与知识发现》 .2018,(第10期), Tao Jiang;Xi n Wang;Yo ng Yu.“A formal definition of the structural semantics of Domain-Specific Model ing langua ges”. 《IEEE》 .2011, 王常亮等.基于XML的智能答疑系统研究. 《赤峰学院学报(自然科学版)》 .20 08,(第09期), 审查员景京 (54)发明名称一种领域语义网自动构建方法及系统 (57)摘要本发明提供一种领域语义网自动构建方法及系统，其中，方法包括：获取待构建的领域的问答数据；获取待构建的领域所对应的专业词典集；识别问答数据中的第一实体；基于第一实体和专业词典集，构建领域词语集；解析问答数据，确定标准问题和相似问题；基于标准问题和相似问题，从领域词语集中确定相似词语；基于相似词语，构建领域语义网。本发明的领域语义网自动构建方法，自动从问题中构建领域语义网可以降低人力成本，提升智能交互体验。权利要求书4页说明书11页附图2页 CN 114154513 B 2022.07.26 CN 114154513 B 1.一种领域语义网自动构建方法，其特征在于，包括：获取待构建的领域的问答数据；获取待构建的领域所对应的专业词典集；识别所述问答数据中的第一实体；基于所述第一实体和所述专业词典集，构建领域词语集；解析所述问答数据，确定标准问题和相似问题；基于所述标准问题和相似问题，从所述领域词语集中确定相似词语；基于所述相似词语，构建领域语义网；获取所述领域对应的预设的数据库内的更新数据；解析所述更新数据，确定多个第二实体；分别将所述第二实体与所述领域词语集中的词语进行一一匹配，确定所述领域词语集是否收录所述第二实体；当未收录所述第二实体时，对所述更新数据的可靠性进行验证，当验证通过时，将所述第二实体添加进所述领域词语集并再次解析所述更新数据，确定所述第二实体与其他的已被收录在所述领域词语集内的所述第二实体之间的第二关联关系；基于所述第二实体和所述第二关联关系，对所述领域语义网进行更新；所述对所述更新数据的可靠性进行验证，包括：确定被收录在所述领域词语集内的所述第二实体的第一数量；确定未被收录在所述领域词语集内的所述第二实体的第二数量；基于所述第一数量和所述第二数量，确定未被收录的第二实体的第一占比；当所述第一占比大于预设的占比阈值时，验证不通过；和/或，获取所述更新数据的原始来源；确定所述原始来源的第一权威值；当所述第一权威值小于预设的第一权威阈值时，验证不通过；和/或，获取所述更新数据对应关联的公众认同采集数据；解析所述公众认同采集数据，确定认同度和不认同度；当所述认同度小于所述不认同度或所述认同度与所述不认同度的差值小于预设的差值阈值时，验证不通过；对所述更新数据的可靠性进行验证，还包括：确定所述领域词语集收录的所述第二实体在所述更新数据中的所述第二实体的第二占比；基于预设的占比与第一评价值对应的第一评价表和所述第二占比，确定第一评价值；基于所述第一权威值和预设的权威值与第二评价值对应的第二评价表，确定第二评价值；基于所述认同度、所述不认同度和预设的第三评价表，确定第三评价值；所述第三评价表中所述认同度、所述不认同度与所述第三评价值对应关联；基于所述第一评价值、所述第二评价值和所述第三评价值，确定评价度；权　利　要　求　书 1/4 页 2 CN 114154513 B 2当所述评价度大于预设的验证阈值时，验证通过。 2.如权利要求1所述的领域语义网自动构建方法，其特征在于，所述获取待构建的领域的问答数据，包括：提取目标问答系统的问答数据库；对所述问答数据库中的问答数据进行关键词提取，获取多个关键词；分别对多个所述关键词进行量化，获取多个参数值；基于多个所述参数值，构建表示参数集；获取预设的知识领域判断库；所述知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联；将所述表示参数集与所述知识领域判断库中各个所述判断参数集进行匹配，获取匹配符合的所述判断参数集对应关联的所述知识领域判断结果；将所述问答数据库中的各个问答数据对应的所述知识领域判断结果进行合并去重，构建知识领域列表并输出第一问询；接收用户对应第一问询输入的第一反馈；解析所述第一反馈，确定目标领域；基于目标领域和所述问答数据库内各个问答数据对应的所述知识领域判断结果，提取待构建的领域的问答数据。 3.如权利要求1所述的领域语义网自动构建方法，其特征在于，所述识别所述问答数据中的第一实体之后，还包括：确定问答数据中的第一实体个数；当所述第一实体个数不为一时，确定所述问答数据中第一实体与第一实体之间的第一关联关系；基于所述第一关联关系和所述问答数据中的所述第一实体，完善所述领域语义网。 4.如权利要求1所述的领域语义网自动构建方法，其特征在于，所述解析所述公众认同采集数据，确定认同度和不认同度，包括：将所述公众认同采集数据逐条输入预设的神经网络模型中，进行分组判断，将数据分为认同数据集和不认同数据集；获取所述认同数据集和所述不认同数据集的各个数据对应的用户的权威值集合；确定所述更新数据对应的领域；基于所述领域从所述权威值集合中提取所述用户在所述领域的第二权威值；基于所述第二权威值的从大到小的顺序，对所述用户进行排序，形成排序表；当最大的所述第二权威值大于预设的权威阈值时，提取所述排序表中的前预设个数的所述用户的所述第二权威值作为所述认同度和所述不认同度的计算数据并基于提取的所述第二权威值计算所述认同度和所述不认同度，计算公式如下： ;权　利　要　求　书 2/4 页 3 CN 114154513 B 3

专利 一种领域语义网自动构建方法及系统

专利一种领域语义网自动构建方法及系统