standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210011124.4 (22)申请日 2022.01.05 (71)申请人 重庆大学 地址 400030 重庆市沙坪坝区沙正 街174号 (72)发明人 林英撑 梅秀九 刘炳胜 何伟  张玲 梅紫华 韩劲锋 宋万年  (74)专利代理 机构 重庆华科专利事务所 5 0123 代理人 谭小琴 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/25(2019.01) G06F 40/253(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 基于知识图谱的法律文书结构化入库方法 及系统 (57)摘要 本发明公开的一种基于知识图谱的法律文 书结构化入库方法及系统, 包括以下步骤: 步骤 1.获取相关法律文书; 步骤2.对法律文书进行预 处理; 步骤3.根据候选语句对法律文书进行语句 分类并标注; 步骤4.对分类标注完成后的语句做 语义分析, 并对分析后的结果通过三元组抽取模 型生成法律要素三元组, 将法律要素三元组构建 成法律文书知识图谱; 步骤5.将已构建的法律文 书知识图谱入库存储。 本发明能够将法律文书非 结构化的文本信息结构化, 提高了获取法律文书 中信息的效率。 权利要求书2页 说明书6页 附图3页 CN 114372153 A 2022.04.19 CN 114372153 A 1.一种基于知识图谱的法律文 书结构化入库方法, 其特 征在于, 包括: 步骤1.获取相关法律文 书; 步骤2.对法律文 书进行预处理; 步骤3.根据候选语句对法律文 书进行语句分类并标注; 步骤4.对分类标注完成后的语句做语义分析, 并对分析后的结果通过三元组抽取模型 生成法律要素三元组, 将法律要素三元组构建成法律文 书知识图谱; 步骤5.将已构建的法律文 书知识图谱 入库存储。 2.根据权利要求1所述的基于知识图谱的法律文书结构化入库 方法, 其特征在于, 所述 步骤2具体为: 对法律文书文本进行分句, 其中, 分句是按照中文标点符号里的句号、 问号、 感叹号为 标志将段落文本分为语句, 将文 书的内容按照文本的顺序分成若干语句; 去除分句完成后的法律文书中的辅助句子, 辅助句子具有如下特征: 形式上是句子的 句首与句尾有括 号, 内容上 是附录的内容。 3.根据权利要求2所述的基于知识图谱的法律文书结构化入库 方法, 其特征在于, 所述 步骤3具体为: 步骤31, 设置特征字符语句标注模板集, 该特征字符语句标注模板集包括有至少一个 特征字符, 其中, 所述特征字符为法律文件的句首部分文字; 对预处理后的法律文书, 通过 与特征字符语句标注模板集中的各特征字符进行文本匹配, 若匹配成功, 则对含有特征字 符的句子进行 标注; 步骤32, 设置正则表达式语句标注模板集, 该正则表达式语句标注模板集包括有至少 一个正则表达式, 其中, 所述正则表达式由数字和特征字符构成; 将未被步骤31标注的部 分, 与正则表达式语句标注模板集中的各正则表达式进 行匹配, 若匹配成功, 则对法律文中 匹配到的语句进行 标注; 步骤33, 利用PKU98语料库来训练词性分析标注模型, 得到词性分析标注模型的参数; 通过训练好的词性分析标注模型对未被步骤31和步骤32标注的部分进行词性和命名实体 的联合标注。 4.根据权利要求1至3任一所述的基于知识图谱的法律文书结构化入库方法, 其特征在 于, 所述步骤4包括: 步骤41.获取 标注完成的文本; 步骤42.深度学习训练与语义分析; 步骤43.由三元组抽取模型生成法律要素三元组; 步骤44.构建知识图谱。 5.根据权利要求4所述的基于知识图谱的法律文书结构化入库 方法, 其特征在于, 所述 步骤42具体包括: 采用ChineseStanfordDependencies依存关系标注集制 作的语料库训练Bert深度学习 模型来分析语句中的词与词的语法关系, 语句中的语法关系由 ChineseStanfordDependencies依存关系标注集构成。 6.根据权利要求5所述的基于知识图谱的法律文书结构化入库 方法, 其特征在于, 所述 步骤43具体包括:权 利 要 求 书 1/2 页 2 CN 114372153 A 2建立三元组抽取模型; 按照三元组抽取模型抽取深度学习训练与语义分析的语义关系获得法律文书的三元 组信息, 即获得法律文书要素之间的关系; 其中, 三元 组由 (实体1, 关系, 实体2) 和 (实体, 属 性, 属性值) 构成。 7.根据权利要求6所述的基于知识图谱的法律文书结构化入库 方法, 其特征在于, 所述 步骤44具体包括: 将每个语句中的三元组以对应的语句主题词为中心构建语句级知识图谱, 知识图谱的 节包含三元组实体和 属性值, 知识图谱的边由三元组关系和 属性构成; 将语句级知识图谱构建成篇章级知识图谱, 篇章级知识图谱的框架由语句级知识图谱 的语句标签构成。 8.根据权利要求5至7任一所述的基于知识图谱的法律文书结构化入库方法, 其特征在 于, 所述步骤5中, 将法律文书知识图谱以一个N叉树的存储 结构进行存储, 并将存储节 点与 存储节点之间的节点关系设置为 查询时的链接 。 9.一种基于知识图谱的法律文书结构化入库系统, 其特征在于, 包括存储器和控制器, 所述存储器内存储有计算机可读程序, 所述计算机可读程序被控制器调用时能执行如权利 要求1至8任一所述的基于知识图谱的法律文 书结构化入库方法的步骤。权 利 要 求 书 2/2 页 3 CN 114372153 A 3

PDF文档 专利 基于知识图谱的法律文书结构化入库方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识图谱的法律文书结构化入库方法及系统 第 1 页 专利 基于知识图谱的法律文书结构化入库方法及系统 第 2 页 专利 基于知识图谱的法律文书结构化入库方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。