(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210102358.X
(22)申请日 2022.01.27
(71)申请人 人和未来 生物科技 (长 沙) 有限公司
地址 410000 湖南省长 沙市长沙高新开发
区文轩路27号麓谷 钰园C2栋1 101号
(72)发明人 张少伟 蒋艳凰 余硕军 万斌
彭厘旻 康佳琪 雷鹏 杨淼
(74)专利代理 机构 湖南兆弘专利事务所(普通
合伙) 43008
专利代理师 邹大坚
(51)Int.Cl.
G16H 10/60(2018.01)
G16H 50/20(2018.01)
G06F 40/289(2020.01)
G06F 40/295(2020.01)G06F 40/30(2020.01)
G06N 3/04(2006.01)
(54)发明名称
一种中文电子病历识别中否 定域判定方法
(57)摘要
本发明公开了一种中文电子病历识别中否
定域判定方法,其包括: 对中文病历进行分句处
理; 利用规则集合对病历分句结果进行处理, 删
除与症状无关的分句结果; 利用深度神经网络识
别规则集无法判定的否定域; 剩下与疾病症状相
关的异常症状描述的病历语句, 用于后续疾病表
型获取。 本发明具有原理简单、 智能化程度高、 精
确性好、 实用性强等优点。
权利要求书1页 说明书5页 附图2页
CN 114613460 A
2022.06.10
CN 114613460 A
1.一种中文电子病历识别中否 定域判定方法,其特 征在于, 包括:
对中文病历进行分句处 理;
利用规则集 合对病历分句结果进行处 理, 删除与症状无关的分句结果;
利用深度神经网络识别规则集无法判定的否 定域;
剩下与疾病症状相关的异常症状描述的病历语句, 用于后续疾病表型获取。
2.根据权利要求1所述的中文电子病历识别中否定域判定方法,其特征在于, 在对中文
病历进行分句处理时, 以[, ,! ! ? ? ; ; .。 ]作为句子边界的标志, 按照上述标点符号对段落进
行分句。
3.根据权利要求2所述的中文电子病历识别中否定域判定方法,其特征在于, 对分句结
果进行否 定域判定, 按照语句特点分为两类:
有明显的否 定词, 否定域结构固定, 使用规则进行精准识别;
不包含否定词, 采用深度神经网络模型 结合语义进行识别。
4.根据权利要求3所述的中文电子病历识别中否定域判定方法,其特征在于, 采用深度
神经网络模型结合语义进 行识别包括基于规则的否定域识别: 用于判定具有明显特征的否
定域, 依次使用两种规则集实现否定域的识别, 一种是候选否定域规则集, 一种异常规则
集; 候选否定域规则集, 用于匹配有明确特征, 病历分句如果被候选否定域规则集中某一规
则匹配, 则表明该病历分句明确符合否定域的组成特点, 使用异常规则集判定该分句是否
为真正的否 定域。
5.根据权利要求4所述的中文电子病历识别中否定域判定方法,其特征在于, 采用深度
神经网络模型结合语义进 行识别包括异常规则集, 用于识别字符在句法上符合否定域的组
成特点, 描述的是患者异常症状, 要进行保留; 异常规则集是对候选规则集的补充, 用于识
别包含否定词但实际是描述患者异常表型的语句。
6.根据权利要求3所述的中文电子病历识别中否定域判定方法,其特征在于, 采用深度
神经网络模型结合语义进 行识别包括基因深度学习的否定域识别: 除了带有 上述否定词的
否定域, 还有较多的否定域无法通过上述规则集判定, 包括: (1)否定域是 “无+症状”的模
式; (2)不带否 定词的否 定域; (3)否 定词不足以判断其是否为否 定域。
7.根据权利要求1 ‑6中任意一项所述的中文电子病历识别 中否定域判定方法,其特征
在于, 采用BIO标注法作为语料的标注方法, 其中B代表目标实体的起始字符; I代表目标实
体词中的字符, 包 含实体词末尾位置; O代 表不在目标实体中的字符。权 利 要 求 书 1/1 页
2
CN 114613460 A
2一种中文电子病历识别中 否定域判定方 法
技术领域
[0001]本发明主要涉及到医疗信息化技术领域, 特指一种中文电子病历识别中否定域判
定方法。
背景技术
[0002]疾病辅助诊断软件利用计算机分析处理医学检测数据, 能够提高医生诊断疾病的
效率, 在医疗领域 发展迅速。 疾病辅助诊断软件通常需要输入患者的症状, 尤其是症状的标
准化表型(HPO,Human Phenotype Ontology), 以方便计算机进行分析处理。 然而, 在实际应
用中, 用户常常只能提供患者的中文病历, 如何从患者病历 中自动化地提取症状的标准化
表型, 是提高疾病辅助诊断系统使用效率的一个关键环 节。
[0003]一份详尽的临床病历通常包含病患病史特点、 身体状况、 检查结果、 诊断结论、 用
药建议以及治疗方式等信息, 其中患者当前的身体状态(症状), 是医生进行临床诊断的重
要依据, 也是疾病辅助诊断软件的重要输入, 因此高效准确的从临床病历 中提取出症状信
息意义重大。 中文临床病历的特点有: (1)篇幅较长; (2)不同地区、 机构的病历组织结构各
异, 表达方式也不尽相同; (3)充斥着大量的否定用语; (4)症状表述各异。 病历描述中患者
的症状, 是医生进 行临床诊断的重要依据, 也是计算机进行疾病辅助诊断的关键, 通常为了
提高辅助诊断的效率, 软件的输入是标准化的疾病表型。 中文病历的特点使得软件的使用
者很难通过人工的方法从病历 中获取准确的标准表型, 导致表型 的输入很不准确, 这大大
影响了疾病辅助诊断类软件的诊断效率。
[0004]中文病历的上述特点导致人工从病历中提取症状较为困难, 特别的, 由于临床病
历中大量否定域的存在(例: 无呕吐、 头晕), 人工提取时需要对这些否定域进行剔除, 费时
费力。 此外, 如果要将提取结果(症状)用于疾病辅助诊断分析软件, 则还需将提取结果转化
为标准的表型术语(HPO)。 软件的使用者很难通过人工的方法从病历中获取准确的标准表
型, 导致表型的输入很不 准确, 这大 大影响了疾病辅助诊断软件的诊断效率。
[0005]从病历中自动化地提取标准表型拱用户选择, 则能够大大方便用户输入患者标准
表型, 是提高疾病辅助诊断系统应用效率的关键一环。 在自动化表型提取 的过程中需要将
病历中与疾病 无关的正常症状剔除。 为此, 否定域剔除的准确 性直接影响着最终标准化表
型的结果。 因此, 如何判定否定域, 成为自动化表型提取 的关键环节。 否定域是指临床病历
中存在的与患者疾病症状无关的词语或语句, 否定域在病历 中大量存在, 这些描述属于非
疾病态的正常描述, 如下 所示。
[0006]病历1:
[0007]患者: 男, 缘于 1天前进食后出现恶心、 呕 吐, 呕吐物为胃内容物, 伴腹胀, 呕 吐后腹
胀缓解, 无呕血、 便血。 无腹痛, 无反酸、 烧心, 无发热。 当时未行任何处理, 今日来我院。 急诊
检查后以: 消化道穿 孔, 肠梗阻, 心律失常收入我科。
[0008]病历2:
[0009]患儿, 男, 6岁8月龄, 因 “2月内反复晕 厥3次”就诊。 每次晕 厥发作于运动后出现, 发说 明 书 1/5 页
3
CN 114613460 A
3
专利 一种中文电子病历识别中否定域判定方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:42上传分享