(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210115578.6
(22)申请日 2022.02.07
(65)同一申请的已公布的文献号
申请公布号 CN 114154513 A
(43)申请公布日 2022.03.08
(73)专利权人 杭州远传新 业科技股份有限公司
地址 311611 浙江省杭州市滨江区浦沿街
道信诚路857号悦江商业中心 23011室
(72)发明人 嵇望 陈默 梁青
(74)专利代理 机构 杭州创智卓英知识产权代理
事务所(普通 合伙) 33324
专利代理师 张迪
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/35(2020.01)
G06F 40/295(2020.01)G06F 40/242(2020.01)
G06F 40/194(2020.01)
(56)对比文件
CN 112100344 A,2020.12.18
US 2019384810 A1,2019.12.19
JP 201024 4498 A,2010.10.28
胡家珩等.基 于深度学习的领域情感词典自
动构建― ―以金融领域 为例. 《数据分析与知识
发现》 .2018,(第10期),
Tao Jiang;Xi n Wang;Yo ng Yu.“A formal
definition of the structural semantics of
Domain-Specific Model ing langua ges”.
《IEEE》 .2011,
王常亮等.基 于XML的智能答疑系统研究.
《赤峰学院学报(自然科 学版)》 .20 08,(第09期),
审查员 景京
(54)发明名称
一种领域语义网自动构建方法及系统
(57)摘要
本发明提供一种领域语义网自动构建方法
及系统, 其中, 方法包括: 获取待构建的领域的问
答数据; 获取待构建的领域所对应的专业词典
集; 识别问答数据中的第一实体; 基于第一实体
和专业词典集, 构建领域词语集; 解析问答数据,
确定标准问题和相似问题; 基于标准问题和相似
问题, 从领域词语集中确定相似词语; 基于相似
词语, 构建领域语义网。 本发明的领域语义网自
动构建方法, 自动从问题中构建领域语义网可以
降低人力成本, 提升智能交 互体验。
权利要求书4页 说明书11页 附图2页
CN 114154513 B
2022.07.26
CN 114154513 B
1.一种领域语义网自动构建方法, 其特 征在于, 包括:
获取待构建的领域的问答数据;
获取待构建的领域所对应的专业词典集;
识别所述问答数据中的第一实体;
基于所述第一实体和所述专业词典集, 构建领域词语集;
解析所述问答数据, 确定标准问题和相似问题;
基于所述标准问题和相似问题, 从所述领域词语集中确定相似词语;
基于所述相似词语, 构建领域语义网;
获取所述领域对应的预设的数据库内的更新数据;
解析所述更新数据, 确定多个第二实体;
分别将所述第 二实体与所述领域词语集中的词语进行一一匹配, 确定所述领域词语集
是否收录所述第二实体;
当未收录所述第 二实体时, 对所述更新数据的可靠性进行验证, 当验证通过时, 将所述
第二实体添加进 所述领域词语集并再次解析所述更新数据, 确定所述第二实体与其他的已
被收录在所述领域词语集内的所述第二实体之间的第二关联关系;
基于所述第二实体和所述第二关联关系, 对所述领域语义网进行 更新;
所述对所述更新数据的可靠性进行验证, 包括:
确定被收录在所述领域词语集内的所述第二实体的第一数量;
确定未被收录在所述领域词语集内的所述第二实体的第二数量;
基于所述第一数量和所述第二数量, 确定未被收录的第二实体的第一占比;
当所述第一占比大于预设的占比阈值时, 验证不 通过;
和/或,
获取所述更新数据的原 始来源;
确定所述原 始来源的第一权威 值;
当所述第一权威 值小于预设的第一权威阈值时, 验证不 通过;
和/或,
获取所述更新数据对应关联的公众认同采集数据;
解析所述公众认同采集数据, 确定认同度和不认同度;
当所述认同度小于所述不认同度或所述认同度与所述不认同度的差值小于预设的差
值阈值时, 验证不 通过;
对所述更新数据的可靠性进行验证, 还 包括:
确定所述领域词语集收录的所述第二实体在所述更新数据中的所述第二实体的第二
占比;
基于预设的占比与第一评价 值对应的第一评价表和所述第二占比, 确定第一评价 值;
基于所述第 一权威值和预设的权威值与第 二评价值对应的第 二评价表, 确定第 二评价
值;
基于所述认同度、 所述不认同度和预设的第三评价表, 确定第三评价值; 所述第 三评价
表中所述认同度、 所述 不认同度与所述第三评价 值对应关联;
基于所述第一评价 值、 所述第二评价 值和所述第三评价 值, 确定评价度;权 利 要 求 书 1/4 页
2
CN 114154513 B
2当所述评价度大于预设的验证阈值时, 验证通过。
2.如权利要求1所述的领域语义网自动构建方法, 其特征在于, 所述获取待构建的领域
的问答数据, 包括:
提取目标问答系统的问答数据库;
对所述问答数据库中的问答数据进行关键词提取, 获取多个关键词;
分别对多个所述关键词进行量 化, 获取多个参数值;
基于多个所述 参数值, 构建表示 参数集;
获取预设的知识领域判断库; 所述知识领域判断库中判断参数集与知识领域判断结果
一一对应且相互关联;
将所述表示参数集与 所述知识领域判断库中各个所述判断参数集进行匹配, 获取匹配
符合的所述判断参数集对应关联的所述知识领域判断结果;
将所述问答数据库中的各个问答数据对应的所述知识领域判断结果进行合并去重, 构
建知识领域列表并输出第一问询;
接收用户对应第一问询输入的第一反馈;
解析所述第一反馈, 确定目标 领域;
基于目标领域和所述问答数据库内各个问答数据对应的所述知识领域判断结果, 提取
待构建的领域的问答数据。
3.如权利要求1所述的领域语义网自动构建方法, 其特征在于, 所述识别所述问答数据
中的第一实体之后, 还 包括:
确定问答数据中的第一实体 个数;
当所述第一实体个数不为一 时, 确定所述问答数据中第 一实体与第 一实体之间的第 一
关联关系;
基于所述第一关联关系和所述问答数据中的所述第一实体, 完 善所述领域语义网。
4.如权利要求1所述的领域语义网自动构建方法, 其特征在于, 所述解析所述公众认同
采集数据, 确定认同度和不认同度, 包括:
将所述公众认同采集数据逐条输入预设的神经网络模型中, 进行分组判断, 将数据分
为认同数据集和不认同数据集;
获取所述认同数据集和所述 不认同数据集的各个数据对应的用户的权威 值集合;
确定所述更新数据对应的领域;
基于所述领域从所述权威 值集合中提取 所述用户在所述领域的第二权威 值;
基于所述第二权威 值的从大到小的顺序, 对所述用户进行排序, 形成排序表;
当最大的所述第二权威值大于预设的权威阈值 时, 提取所述排序表中的前预设个数的
所述用户的所述第二权威值作为所述认同度和所述不认同度的计算数据并基于提取的所
述第二权威 值计算所述认同度和所述 不认同度, 计算公式如下:
;权 利 要 求 书 2/4 页
3
CN 114154513 B
3
专利 一种领域语义网自动构建方法及系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:39上传分享