(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210094947.8
(22)申请日 2022.01.26
(71)申请人 北京博瑞彤芸科技股份有限公司
地址 100020 北京市朝阳区东 三环北路甲
26号楼17层1702室
(72)发明人 李响 胡鑫平 刘沛丰 李井娜
程佩玉
(74)专利代理 机构 北京轻创知识产权代理有限
公司 11212
专利代理师 徐琪琦
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G16H 20/90(2018.01)
G16H 70/20(2018.01)
(54)发明名称
构建中医知识图谱的方法及装置
(57)摘要
本发明提供了构建中医知识图谱的方法及
装置, 该方法包括: 预先建立中医实体关系抽取
模型, 其中, 所述中医实体关系抽取模型用于将
输入的一个中医知识文本拆分为三个文本段, 每
个所述文本段中均包含已标记出的两个中医实
体, 从所述三个文本段中识别出包含 所述两个中
医实体的实体 关系的语义信息; 对 所述中医实体
关系抽取模 型进行训练, 生 成训练后的中医实体
关系抽取模 型; 利用训练后的所述中医实体关系
抽取模型, 对多个中医知识文本进行实体关系抽
取, 生成各个中医实体之间的实体关系; 根据各
个中医实体之间的实体关系, 生成中医知识图
谱。 本发明提供了构建中医知识图谱的方法及装
置, 能够提升中医知识图谱中中医实体 关系的可
靠性。
权利要求书3页 说明书9页 附图1页
CN 114579755 A
2022.06.03
CN 114579755 A
1.构建中 医知识图谱的方法, 其特 征在于, 该 方法包括:
预先建立中医实体关系抽取模型, 其中, 所述中医实体关系抽取模型用于将输入的一
个中医知识文本拆分为三个文本段, 每个所述文本段中均包含已标记出 的两个中医实体,
从所述三个文本段中识别出包 含所述两个中 医实体的实体关系的语义信息;
对所述中 医实体关系抽取模型进行训练, 生成训练后的中 医实体关系抽取模型;
利用训练后的所述中医实体关系抽取模型, 对多个中医知识文本进行实体关系抽取,
生成各个中 医实体之间的实体关系;
根据各个中 医实体之间的实体关系, 生成中 医知识图谱。
2.根据权利要求1所述的方法, 其特 征在于,
所述利用训练后的所述中医实体关系抽取模型, 对多个中医知识文本进行实体关系抽
取, 生成各个中 医实体之间的实体关系, 包括:
针对任一中医知识文本, 均执 行:
从所述中医知识文本中拆分出三个文本段, 其中, 每个文本段中均包含已标记出的两
个中医实体;
确定每个文本段的特 征向量;
根据所述 三个文本段的特 征向量, 生成所述中 医知识文本的特 征矩阵;
对所述特 征矩阵进行 卷积运算, 生成所述中 医知识文本的特 征图;
对所述特 征图进行池化 运算, 生成所述中 医知识文本的池化后向量;
将所述池化后向量输入到所述中医实体关系抽取模型的输出层, 抽取出所述中医知识
文本中两个中 医实体之间的实体关系。
3.根据权利要求2所述的方法, 其特 征在于,
所述根据所述 三个文本段的特 征向量, 生成所述中 医知识文本的特 征矩阵, 包括:
针对任一文本段的特 征向量, 均执 行:
根据第一公式和所述文本段的特征向量, 确定所述文本段的特征矩阵, 所述第一公式
为:
其中, Zq为第q个文本段的特征矩阵, Cq为第q个文本段的特征向量, B为预设的初始矩
阵, D为所述中 医知识文本中两个中 医实体的实体向量之差, Cr为第r个文本段的特 征向量;
根据所述 三个文本段的特 征矩阵, 生成所述中 医知识文本的特 征矩阵。
4.根据权利要求2所述的方法, 其特 征在于,
所述对所述特 征图进行池化 运算, 生成池化后向量, 包括:
利用最大值池化 算法对所述特 征图进行池化, 生成第一向量;
利用平均值池化 算法对所述特 征图进行池化, 生成第二向量;
根据所述第一向量和所述第二向量, 生成所述池化后向量。
5.根据权利要求2所述的方法, 其特 征在于,
所述对所述中 医实体关系抽取模型进行训练, 包括:
利用第一损 失函数对所述中医实体关系抽取模型进行训练, 其中, 所述第一损 失函数权 利 要 求 书 1/3 页
2
CN 114579755 A
2为:
L=(1‑softmax(dm+h) )(|| δ||2+lg(softmax(dm+h) )‑τ)
其中, L为第一损失函数的值, δ为所述中医实体关系抽取模型的超参数, τ为预设的样
本的调节参数, d为预设的第一比例系数, h为预设的第二比例系数, m为样本的池化后向量。
6.构建中 医知识图谱的装置, 其特 征在于, 该装置包括:
训练模块, 用于对预先建立的中医实体关系抽取模型进行训练, 生成训练后的中医实
体关系抽取模型, 其中, 所述中医实体关系抽取模型用于将输入的一个中医知识文本拆分
为三个文本段, 每个所述文本段中均包含已标记出 的两个中医实体, 从所述三个文本段中
识别出包 含所述两个中 医实体的实体关系的语义信息;
抽取模块, 用于利用训练后的所述中医实体关系抽取模型, 对多个中医知识文本进行
实体关系抽取, 生成各个中 医实体之间的实体关系;
生成模块, 用于根据各个中 医实体之间的实体关系, 生成中 医知识图谱。
7.根据权利要求6所述的装置, 其特 征在于,
所述抽取模块, 具体用于:
针对任一中医知识文本, 均执 行:
从所述中医知识文本中拆分出三个文本段, 其中, 每个文本段中均包含已标记出的两
个中医实体;
确定每个文本段的特 征向量;
根据所述 三个文本段的特 征向量, 生成所述中 医知识文本的特 征矩阵;
对所述特 征矩阵进行 卷积运算, 生成所述中 医知识文本的特 征图;
对所述特 征图进行池化 运算, 生成所述中 医知识文本的池化后向量;
将所述池化后向量输入到所述中医实体关系抽取模型的输出层, 抽取出所述中医知识
文本中两个中 医实体之间的实体关系。
8.根据权利要求7 所述的装置, 其特 征在于,
所述抽取模块, 在执行所述根据所述三个文本段的特征向量, 生成所述中医知识文本
的特征矩阵时, 具体用于:
针对任一文本段的特 征向量, 均执 行:
根据第一公式和所述文本段的特征向量, 确定所述文本段的特征矩阵, 所述第一公式
为:
其中, Zq为第q个文本段的特征矩阵, Cq为第q个文本段的特征向量, B为预设的初始矩
阵, D为所述中 医知识文本中两个中 医实体的实体向量之差, Cr为第r个文本段的特 征向量;
根据所述 三个文本段的特 征矩阵, 生成所述中 医知识文本的特 征矩阵。
9.一种构建中医知识图谱的装置, 其特征在于, 包括: 至少一个存储器和至少一个处理
器;
所述至少一个存 储器, 用于存 储机器可读程序;
所述至少一个处理器, 用于调用所述机器可读程序, 执行权利要求1至5中任一所述的权 利 要 求 书 2/3 页
3
CN 114579755 A
3
专利 构建中医知识图谱的方法及装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:43上传分享