(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211062299.4 (22)申请日 2022.08.31 (71)申请人 西南科技大 学 地址 621000 四川省绵阳市涪城区青龙 大 道中段59号 (72)发明人 唐岳川 袁海 杨春明 张晖  (74)专利代理 机构 成都九鼎天元知识产权代理 有限公司 51214 专利代理师 阳佑虹 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/211(2020.01) G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种自动构建试验标准知识图谱的方法 (57)摘要 本发明涉及一种自动构建试验标准知识图 谱的方法, 涉及试验标准规范审查技术领域, 包 括以下步骤: 根据试验 标准文档提取知识图谱概 念, 确定概念极其之间的关系; 对现有的试验标 准文档进行规范处理和BIO标注, 得到标注数据 集; 使用标注数据集训练基于BERT+BiLSTM+CRF 的神经网络模 型, 得到标准文档实体属性提取模 型; 将单个文档输入模型, 经解码并进行实体属 性抽取, 得到该文档实体属性数据集; 将提取的 数据整理后形成三元组, 存入MYSQL数据库中保 存; 构建试验标准知 识图谱系统, 利用ECHARTS可 视化知识图谱。 本发明能自动构建标准文档知识 图谱, 解决了试验标准文档中因文档相互引用不 易查阅的问题, 提高了相关工作人员查阅标准的 效率。 权利要求书3页 说明书7页 附图3页 CN 115470359 A 2022.12.13 CN 115470359 A 1.一种自动构建试验标准知识图谱的方法, 其特 征在于, 具体包括以下步骤: S1, 根据试验标准文档提取知识图谱概念, 确定概念极其之间的关系; S2, 对现有的试验标准文档进行规范处 理和BIO标注, 得到标注数据集; S3, 使用标注数据集训练基于BERT+BiLSTM+CRF的神 经网络模型, 得到标准文档 实体‑ 属性提取模型; S4, 选取标准文档以提取内容, 将文档中的文本数据进行整理得到较短的单个句子; 将 所得句子输入模型, 得到单个字 符的标注类别概率; 经解码后得到每个字 符的标注类别, 对 每个句子进行实体抽取, 得到该文档实体 ‑属性数据集; S5, 对步骤S4中获取的实体 ‑属性数据集, 遍历数据集获取每条数据, 一条数据即为一 个实体, 其属性即为该实体的类型; 在标准文档中定位 实体出现在 文本中的位置, 以该位置 为中心在句子中 向左或向右 查找该实体的所遵循的标准; 将文档名称作为一个实体与提取 的每个实体及文档与提取实体之间的关系整理并构成三元组, 将 每个实体与其标准编号及 其引用关系整理后形成多个三元组; 设计数据库将三元组存入MYSQL数据库中以供查询使 用; S6, 构建试验标准知识图谱系统, 利用E CHARTS可视化知识图谱。 2.根据权利要求1所述的一种自动构建试验标准知识图谱的方法, 其特征在于, 所述步 骤S1中: 构建知识图谱首先要明确知识图谱所拥有的概念、 其次确定概念之间的关系, 对于 步骤S1中确定知识图谱概念及概念之 间的关系, 试验标准文档中关于一种试验的标准文档 被分成八个部 分它们分别为: 适用范围、 引用文件、 方法原理、 试剂和材料、 仪器设备和实验 装置、 试验准备、 试验程序、 结果的说明, 根据以上八个部 分的内容, 可以提取出知识图谱的 几个概念: 方法、 性能、 材 料、 标准、 设备、 公式。 3.根据权利要求1所述的一种自动构建试验标准知识图谱的方法, 其特征在于, 所述步 骤S2中数据集形成与Bi o标注具体步骤 包括: S2.1、 对试验标准文档进行格式处理, 将标题、 图片等无用信息去除, 将文本中的长句 转化为单句, 一行只保留一个单句; S2.2、 根据BIO标注规则, 对每个单句中每个字符进行人工标注; 标注的标签有 “B‑*”、 “I‑*”、“O”, 其中,“B‑*”表示该字符在一个实体的开头位置并且该实体属于 “*”所代表的实 体类型,“I‑*”表明该字 符在一个实体的中间或末 尾位置并且 该实体属于 “*”所代表的实体 类型,“O”代表与实体无关的字符; “*”代表实体的类型; 在标准数据集文本 中, 一个条标准数据占用两行; 第 一行为句子 中每个字的标签, 第二 行为该单句, 其中每 个字符和标签都用空格隔开, 字符和标签一 一对应。 4.根据权利要求3所述的一种自动构建试验标准知识图谱的方法, 其特征在于, 所述实 体的类型包括设备、 性能、 材 料或公式。 5.根据权利要求1所述的一种自动构建试验标准知识图谱的方法, 其特征在于, 所述步 骤S3中基于BERT+Bi LSTM+CRF的神经网络模型训练过程具体步骤 包括: S3.1, 将标准数据集划分为训练集、 测试集和验证集, 其划分比例为8: 1: 1; S3.2, 建立基于BERT+BiLSTM+CRF的神经网络模型, 其模型以训练集中每个句子作为输 入, 以每个字符最大概 率标签为输出; BERT为输入层, 用于产生词向量, 其过程为: 读取每行数据得到token列表, token中需权 利 要 求 书 1/3 页 2 CN 115470359 A 2要加入[CLS]、 [ SEP]等标志性符号, 其 最终结果 为: tokens=[[CLS],W1,W2,...,Wn,[SEP]] 将分词列表中的每个字元素按照中文词表数据转换为词表编码向量, 构 成词表编码向 量表, 其结果 为: tokenEmbe={E1,E2,...,En}; 其中En 为Wn的词表编码向量; 将分词列表中的每个字元素按照 其索引采用独热编码转换为位置嵌入向量, 构 成位置 嵌入向量表: positi onEmbe={P1,P2,...Pn}; 其中Pn 为Wn的位置嵌入向量; 对这些表示进行元素求和, 最终的embedding向量是将上述词表编码 向量直接做加和 的结果, 这是传递给BERT的编码器层的输入表示, 经 过BERT预处 理后得到句子的嵌入表示; 将位置嵌入向量输入BiLSTM编码层和CRF输出层, 最终得到输入句子中每个字符所属 标签的最大概 率; S3.3, 对于BiLSTM编码层, 其输出维度为标签个数, 表明每个词Wi映射到标签的发射概 率, 设BiLSTM的输出矩阵为P, 其中Pij代表词Wi映射到标签j的非归一 化概率; 对于CRF输出层来说, 假定存在一个转移矩阵A, 则Ai,j代表标签i转移到标签j的转移 概率, 对于输入序列X对应的输出 标签序列y, 定义 其评分公式为: 利用Softmax函数, 为每一个正确的标签序列y定义一个概率值, 其中, Yx代表所有的标 签序列, 公式为: 将损失函数定义 为‑log(p(y|X) ): S3.4, 采用十则交叉验证训练模型, 在得到的多个结果中选取F1值得分最高的模型作 为标准文档实体 ‑属性提取模型。 6.根据权利要求1所述的一种自动构建试验标准知识图谱的方法, 其特征在于, 所述步 骤S5具体为: 遍历S4中获取的实体 ‑属性数据集, 一条数据即为一个实体, 其属性即为该实 体的类型; 在标准文档中定位实体出现在文本中的位置, 以该位置为中心在句 子中向左或 向右查找该实体的所遵循的标准, 在标准文档中出现的实体若存在遵循标准的情况, 则在 文本中实体出现位置前或后会明确指出; 将文档名称作为一个实体设为DE, 提取的实体集 合E={E1, E2, …,En},DE与每个提取的实体的关系集合为R={R1,R2, …,Rn}, 则构成的三 元组为(DE,Ri,Ei), 其中i=1,2,3,..,n, R的可选关系为: “适用”、“使用”、“应用”; 对于每 个实体对应的标准集合SE={SE1,SE2, …,SEn}, 构建三元组为(Ei, “引用”, SEi), SEi可以 为空, 表明该实体无遵循标准; 设计数据库将三元组存 入MYSQL数据库中以供查询使用。 7.根据权利要求1所述的一种自动构建试验标准知识图谱的方法, 其特征在于, 所述步 骤S6构建试验标准知识图谱系统, 其工作流程如下: 页面中上传标准文档; 后台获取标准文 档, 提取文档文字内容, 将内容转化为特定格式; 将特定格式数据放入步骤S 3所述标准文档权 利 要 求 书 2/3 页 3 CN 115470359 A 3

.PDF文档 专利 一种自动构建试验标准知识图谱的方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种自动构建试验标准知识图谱的方法 第 1 页 专利 一种自动构建试验标准知识图谱的方法 第 2 页 专利 一种自动构建试验标准知识图谱的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:40:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。