standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210123929.8 (22)申请日 2022.02.10 (71)申请人 北京工业大 学 地址 100124 北京市朝阳区平乐园10 0号 (72)发明人 杜金莲 杨金昭 金雪云 杜晓林  王丹  (74)专利代理 机构 北京思海天达知识产权代理 有限公司 1 1203 专利代理师 沈波 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01) G06F 16/35(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种中文电子病例医疗实体词类标注方法 (57)摘要 本发明公开了一种中文电子病例医疗实体 词类标注方法, 该方法包括两部分, 第一部分为 细粒度中文电子病历医疗实体类别划分规则制 定与语料数据集构建; 第二部分为基于结合门控 注意力机制的中文电子病历医疗实体词类标注 方法; 根据中文电子病历 文本特点制定了一种细 粒度中文电子病历医疗实体标注 规则, 同时依照 此规则构建了中文电子病历医疗实体语料数据 集, 并且基于中文电子病历行文特点发明了一种 结合门控注意力机制的GATTLCN模型, 通过门控 注意力网络动态选择需要重点关注的上下文元 素来增强文本聚焦, 提升模型效果。 运用此发明 解决了中文电子病历细粒度医疗实体词类标注 方面存在的不足。 权利要求书2页 说明书7页 附图3页 CN 114492444 A 2022.05.13 CN 114492444 A 1.一种中文电子病例医疗实体词类标注方法, 其特征在于: 实现该标注方法主要包括 两部分: 第一部分细粒度中文电子病历医疗实体类别划分规则制定与语料数据集构建包括以 下步骤: 步骤一: 制定中文电子病历医疗实体 类别划分规则; 参考UMLS语义类型中对医疗实体类别的定义, 将中文电子病历医疗实体划分为六大基 本实体类别: 人体部位、 症状、 药物、 治疗、 疾病与检验; 在基本类别的基础上制定了十种延 伸类别: 时间点、 时间段、 具体情景、 医学指标、 病史、 非患者本人、 否定词、 高程度、 低程度和 机构; 最后设定 “无具体类别”用于标注不属于上述类别的实体; 步骤二: 人工标注, 构建中文电子病历医疗实体标注语料 数据集; 步骤二中标注工作完全按照定义的医疗实体划分类别进行, 步骤二中标注工作分为两 个阶段进行; 第一阶段在专业人员的全程指导下进行; 第二阶段 由专业人员对标注结果进 行统一抽样检查与修 正; 第二部分为基于结合门控注意力机制的中文电子病历医疗实体词类标注方法包括以 下步骤: 步骤一: 获取中文电子病历词向量, 采用word2vec的skip ‑gram模型对分词后的中文电 子病历文本进行训练获取中文电子病历的低维稠密向量; 步骤二: 获取中文电子病历上下文语义信 息, 将步骤一中获得的词向量作为输入向量, 输入到双向长短期记忆网络中, 提取输入文本的上下文语义信息, 捕获中文电子病历文本 的序列信息与中远程依赖信息; 步骤三: 使用门控注意力层提取中文电子病历文本语义聚焦 向量, 将步骤二输出的隐 向量作为输入向量, 输入到门控注意力网络中, 从文本全局 来聚焦关注那些对于当前任务 更关键的信息, 过滤掉与当前任务无关的信息; 通过将门控注意力机制应用到模 型当中, 使 得模型动态的计算电子病历文本中词的权重, 得出每个词对不同医疗实体的重要性, 过滤 掉那些无关紧要的信息, 增强模型的动态语义聚焦能力; 步骤四: 使用条件随机场充分考虑医疗实体标签之间的约束与依赖关系, 将步骤三输 出的文本语义聚焦向量作为输入向量, 输入到CRF层中根据上下文医疗实体句 子级别标签 信息来预测得到最佳医疗实体词类标签; 步骤五: 用训练好的GAT TLCN联合网络模型对测试 数据集进行医疗实体词类标注。 2.根据权利要求1所述的一种中文电子病例医疗实体词类标注方法, 其特征在于: 第 二 部分的步骤一中, 使用已经分好词的中文电子病历训练词向量, 采用word2v ec的skip ‑gram 模型来获取中文电子病历的低维稠 密词向量, 词向量 维度设置为 100维; 得到每个单词向量 为: X={x1,x2,……,x100}, 每个句子的文本向量为: S={X1,X2,……,Xn}, 其中n为每个句子 长度, 每个单词向量的维度为10 0。 3.根据权利要求1所述的一种中文电子病例医疗实体词类标注方法, 其特征在于: 第 二 部分的步骤二中, Bi ‑LSTM层使用步骤一中输出的词向量Xt作为输入; LSTM神经网络单元对 隐藏层进 行了巧妙的门结构设计, 其使用三个逻辑门输入门、 输出门、 遗忘门来控制输入数 据传输到记忆单元的比例, 以及遗 忘先前状态的比例, 提取病历文本的上 下文语义信息; 为了能够同时考虑电子病历上下文语义信息, 采用双向LSTM来从全局上下文信息中学权 利 要 求 书 1/2 页 2 CN 114492444 A 2习句子的隐藏表示。 4.根据权利要求1所述的一种中文电子病例医疗实体词类标注方法, 其特征在于: 第 二 部分的步骤三中, 门控注意力层使用步骤二输出的隐向量ht作为输入; 在模型中添加了门 控注意力机制, 这样对文本序列关系的编码建模就突破了电子病历文本序列长距离的限 制, 从文本全局来聚焦关注那些重要语义信息, 过滤掉那些不重要信息; 将门控注意力机制 应用到模型当中, 使得模型动态的计算电子病历文本中词的权重, 得出每个词对不同医疗 实体的重要性, 过 滤掉无关信息; 门控注意力网络使用辅助门结构动态选择需要重点关注的元素子集, 并计算其注意力 权重然后根据其注意力权重对相应元素隐向量计算加权平均; 门控注意力网络包含一系列 辅助门结构与一个主干注意力网络; 辅助门结构生成一组与输入相关的二进制门, 以确定 每个单词在当前任务中是否需要被关注; 主干网络是一个注意力网络, 其通过计算选定重 要病历文本中单词的注意力权重值来聚合相应单词的隐向量, 然后计算选择隐向量的累加 和来获取文本聚焦向量。 5.根据权利要求1所述的一种中文电子病例医疗实体词类标注方法, 其特征在于: 第 二 部分的步骤三中门控注意力层使用辅助门结构动态选择关注元素子集过程中二进制门函 数将变量离散化导致函数不可微这一问题, 采用Gumbel  Softmax方法对离散变量采样过程 进行连续化, 这样就可以使用正常反向传播 算法对模型进行优化。 6.根据权利要求1所述的一种中文电子病例医疗实体词类标注方法, 其特征在于: 第 二 部分的步骤四中CRF层使用步骤三输出的文本聚焦向量Ct作为输入; 条件 随机场能够通过 转移矩阵来描述输出标签之 间的相互依赖 关系, 充分考虑医疗实体标签之 间的约束与 依赖 关系; 在预测最优医疗实体类时基于维特比算法, 计算每个单词的最大概率标签序列, 作为 该单词医疗实体 类别识别的结果, 完成医疗实体标注。 7.根据权利要求1所述的一种中文电子病例医疗实体词类标注方法, 其特征在于: doer 部分的步骤五在训练模型过程中采用负对数似然函数作为损失函数, 通过最小化损失函数 来对参数进行优化。权 利 要 求 书 2/2 页 3 CN 114492444 A 3

PDF文档 专利 一种中文电子病例医疗实体词类标注方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种中文电子病例医疗实体词类标注方法 第 1 页 专利 一种中文电子病例医疗实体词类标注方法 第 2 页 专利 一种中文电子病例医疗实体词类标注方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:37上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。