(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210102354.1
(22)申请日 2022.01.27
(71)申请人 人和未来 生物科技 (长 沙) 有限公司
地址 410000 湖南省长 沙市长沙高新开发
区文轩路27号麓谷 钰园C2栋1 101号
(72)发明人 张少伟 蒋艳凰 余硕军 彭厘旻
康佳琪 万斌 雷鹏 孙朝晖
(74)专利代理 机构 湖南兆弘专利事务所(普通
合伙) 43008
专利代理师 邹大坚
(51)Int.Cl.
G16H 50/70(2018.01)
G06F 40/295(2020.01)
G06F 40/205(2020.01)
G06F 40/30(2020.01)G06N 3/04(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种中文临床病历中有效症状实体提取方
法
(57)摘要
本发明公开了一种中文临床病历中有效症
状实体提取方法,其包括: 否定域剔除, 对临床病
历中描述病患没有哪些症状的语句进行剔除; 症
状类实体提取, 利用神经网络的方法进行症状类
实体的自动提取, 得到实体词; 实体组合与标准
化, 将上述得到的实体词通过组合后成为一个完
整的症状表 述, 将完整的症状表 述与标准表型术
语相关联。 本发明具有原理简单、 智能化程度高、
精确性好、 实用性强等优点。
权利要求书1页 说明书6页 附图2页
CN 114550944 A
2022.05.27
CN 114550944 A
1.一种中文临床病历中有效症状实体提取 方法,其特 征在于, 包括:
否定域剔除, 对临床病历中描述病患没有哪些症状的语句进行剔除;
症状类实体提取, 利用神经网络的方法进行症状 类实体的自动提取, 得到实体词;
实体组合与标准化, 将上述得到的实体词通过组合后成为一个完整的症状表述, 将完
整的症状表述与标准表型术语相关联。
2.根据权利要求1所述的中文临床病历中有效症状实体提取方法,其特征在于, 在进行
否定域剔除过程中, 使用黑名单正则式和白名单正则式组合来完成否定域的识别与剔除操
作。
3.根据权利要求2所述的中文临床病历中有效症状实体提取方法,其特征在于, 所述黑
名单正则式和白名单正则式的内容是根据临床病历的常见用语来整理并建库, 并通过机器
学习的方式不断训练计算机来实现数据库的更新和完 善。
4.根据权利要求1 ‑3中任意一项所述的中文临床病历中有效症状实体提取方法,其特
征在于, 在进行症状类实体提取过程中, 将临床病历中的症状类实体分为形容词ADJ、 部位
BODY以及表征SYM三个细分种类, 一个完整的症状类实体由表证词加上形容词ADJ、 部位
BODY组成。
5.根据权利要求4所述的中文临床病历中有效症状实体提取方法,其特征在于, 在进行
症状类实体提取过程中, 使用 词嵌入方法将临床病历文本 向量化为输入特征, 利用训练好
的神经网络模型, 对输入特征的类型判断, 并将识别结果输出, 实现症状类实体的自动提
取。
6.根据权利要求4所述的中文临床病历中有效症状实体提取方法,其特征在于, 所述症
状类实体提取 过程的流 程包括:
步骤S10: 模型选择; 采用双向长短时记 忆网络‑条件随机场模型 结构;
步骤S20: 语料标注; 采用BIO标注法作为语料的标注方法, 其中B代表 目标实体的起始
字符; I代 表目标实体词中的字符, 包 含实体词末尾位置; O代 表不在目标实体中的字符;
步骤S30: 训练; 按照预设比例将标注文本分为训练集、 测试集和验证集; 以句为单位对
标注文本进行划分, 标注文本送入模型训练前需经过向量化, 将文字与标注转化为计算机
能够识别的字符代号, 完成向量 化, 而后进行模型训练。
7.根据权利要求1 ‑3中任意一项所述的中文临床病历中有效症状实体提取方法,其特
征在于, 所述实体组合与标准 化的流程包括:
步骤S100: 实体组合; 根据中文表述方法及语料标注特点进行实体组合, 临床病历以句
为单位经过实体提取后, 得到实体的组合序列, 按照规则对实体重组后得到最终的症状实
体;
步骤S200: 对症状实体进行 标准化, 将症状实体转 化为标准术语。
8.根据权利要求7所述的中文临床病历中有效症状实体提取方法,其特征在于, 采用字
符编辑距离算法进行标准化, 用来进行症状实体与标准术语相似度的计算方法, 同时采用
numpy包对计算过程进行向量 化并行。
9.根据权利要求7所述的中文临床病历中有效症状实体提取方法,其特征在于, 对于重
组序列Crc, 标准 术语集{s1,s2,s3, ……,sn}, 取前m个最大相似度的数值, 算法如下:
MAXm(LS(Crc,51),LS(Crc,S2),LS(Crc,S3),…LS(Crc, sn) ) 。权 利 要 求 书 1/1 页
2
CN 114550944 A
2一种中文临床病历中有效症状实体提取方 法
技术领域
[0001]本发明主要涉及到医疗信息化技术领域, 特指一种中文临床病历中有效症状实体
提取方法。
背景技术
[0002]一份详尽的临床病历通常包含病患病史特点、 身体状况、 检查结果、 诊断结论、 用
药建议以及治疗方式等信息, 其中患者当前的身体状态(症状), 是医生进行临床诊断的重
要依据, 也是医疗分析软件的重要输入, 因此高效准确的从临床病历 中提取出症状信息意
义重大。 中文临床病历的特点有: (1)篇幅较长; (2)不同地区、 机构的病历组织结构各异, 表
达方式也不尽相同; (3)充斥着大量的否定用语; (4)症状表 述各异。 中文病历的上述特点导
致人工从病历中提取症状较为困难, 特别的, 由于临床病历 中大量否定域的存在(例: 无呕
吐、 头晕), 人工提取时需要对这些否定域进行剔除, 费时费力。 此外, 如果要将提取结果(症
状)用于其他分析软件, 则还需将提取结果转化为标准的表型术语(HPO), 要求医务人员对
标准表型术语有 充分的理解。
发明内容
[0003]本发明要解决的技术问题就在于: 针对现有技术存在的技术问题, 本发明提供一
种原理简单、 智能化程度高、 精确性好、 实用性强的中文临床病历中有效症状实体提取方
法。
[0004]为解决上述 技术问题, 本发明采用以下技 术方案:
[0005]一种中文临床病历中有效症状实体提取 方法,其包括:
[0006]否定域剔除, 对临床病历中描述病患没有哪些症状的语句进行剔除;
[0007]症状类实体提取, 利用神经网络的方法进行症状 类实体的自动提取, 得到实体词;
[0008]实体组合与标准化, 将上述得到 的实体词通过组合后成为一个完整的症状表述,
将完整的症状表述与标准表型术语相关联。
[0009]作为本发明的进一步改进: 在进行否定域剔除过程中, 使用黑名单正则式和白名
单正则式组合 来完成否 定域的识别与剔除操作。
[0010]作为本发明的进一步改进: 所述黑名单正则式和白名单正则式的内容是根据临床
病历的常见用语来整理并建库, 并通过机器学习的方式不断训练计算机来实现数据库的更
新和完善。
[0011]作为本发明的进一步改进: 在进行症状类实体提取过程中, 将临床病历中的症状
类实体分为形容词ADJ、 部位BODY以及表征SYM三个细分种类, 一个完整的症状类实体由表
证词加上 形容词ADJ、 部位BODY组成。
[0012]作为本发明的进一步改进: 在进行症状类实体提取过程中, 使用词 嵌入方法将临
床病历文本向量化为输入特征, 利用训练好的神经网络模型, 对输入 特征的类型判断, 并将
识别结果输出, 实现症状 类实体的自动提取。说 明 书 1/6 页
3
CN 114550944 A
3
专利 一种中文临床病历中有效症状实体提取方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:42上传分享