(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211063287.3
(22)申请日 2022.08.31
(71)申请人 翼方健数 (北京) 信息科技有限公司
地址 100037 北京市海淀区阜成路73号A座
五层507,508,509,510,51 1,512号
申请人 翼健 (上海) 信息科技有限公司
(72)发明人 李修明 张弛
(74)专利代理 机构 北京华清迪源知识产权代理
有限公司 1 1577
专利代理师 胡乐
(51)Int.Cl.
G06F 16/31(2019.01)
G06F 40/205(2020.01)
G06F 40/216(2020.01)
G06F 40/289(2020.01)G06F 16/35(2019.01)
G06N 5/04(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G16H 10/60(2018.01)
(54)发明名称
一种基于深度学习的医疗文本主题分割方
法和装置
(57)摘要
本发明公开了一种基于深度学习的医疗文
本主题分割方法和装置, 涉及机器学习技术领
域。 方法包括: 基于来自多家医院中的原始病程
文本数据建立医疗领域的语料库; 对建立的语料
库进行无监督训练得到词向量模 型, 并将语料库
中的每一个词语映射为低维稠密向量; 对得到的
低维稠密向量提取时序特征, 并进行语料库中词
语主题段落序列的标注的学习, 得到医疗文本主
题分割模型; 将待分割医疗文本依次输入到词向
量模型和医疗文本主题分割模型中, 输出主题段
落序列的预测结果。 本发明可以在存在较多噪音
和较少标注数据的医疗文本数据集上, 训练得到
一个病程文本领域特定的轻量深度学习模型, 通
过该学习模型同时对病程文本完成高效率的文
本分割和主题标注。
权利要求书2页 说明书7页 附图3页
CN 115238026 A
2022.10.25
CN 115238026 A
1.一种基于深度学习的医疗文本主题分割方法, 其特 征在于, 包括:
步骤S1, 对来自多家医院的各个病区的原始病程文本数据进行中文分词以及主题段落
序列的标签标注, 以建立医疗领域的语料库, 所述原始病程文本数据包含多个电子病程文
本;
步骤S2, 对建立的语料库进行训练, 无监督得到词向量模型, 并使用所述词向量模型将
所述语料库中的每一个词语映射 为低维稠密向量;
步骤S3, 对得到的低维稠密向量提取时序特征, 并进行语料库中词语相应主题段落序
列的标注的学习, 得到医疗文本主题分割模型;
步骤S4, 将待分割医疗文本输入到所述词向量模型中, 将待分割医疗文本中的每个词
语映射为低 维稠密向量, 并将得到的低 维稠密向量输入到所述医疗文本主题分割模型中,
输出对待分割医疗文本的主题段落序列的预测结果。
2.根据权利要求1所述的基于深度学习的医疗文本主题分割方法, 其特征在于, 所述步
骤S1包括:
将所述原始病程文本数据中的每个电子病程文本按内容分割为主题段落序列, 并对主
题段落序列中每 个主题段落的词语使用相应主题标签进行 标注;
对进行主题标签标注后的原始病程文本数据进行清洗, 并使用中文分词模型将每个电
子病程文本分成词语的线性序列;
使用序列 标注体系对每个电子病程文本的所有词语位置进行标签标注, 用于区分每个
词语在相应主题段落的位置, 从而形成医疗领域的语料库。
3.根据权利要求2所述的基于深度学习的医疗文本主题分割方法, 其特征在于, 所述主
题段落序列包括入院主诉、 既往史、 鉴别诊断、 诊断、 现病史、 诊断依据、 体格检查、 专科检
查、 诊疗计划 和辅助检查中的至少一个主题段落。
4.根据权利要求2所述的基于深度学习的医疗文本主题分割方法, 其特征在于, 所述中
文分词模型为JIEBA分词组件。
5.根据权利要求3所述的基于深度学习的医疗文本主题分割方法, 其特征在于, 所述对
每个电子病程文本的所有词语位置进行 标签标注包括:
在每个电子病程文本中, 用 B标记每个主题段落开头的词语, 用I标记每个主题段落中
间的词语, 用E标记每 个主题段落结尾的词语。
6.根据权利要求1所述的基于深度学习的医疗文本主题分割方法, 其特征在于, 在步骤
S2中, 利用FastText模型对建立的语料库进行训练。
7.根据权利要求5所述的基于深度学习的医疗文本主题分割方法, 其特征在于, 所述步
骤S3包括:
对得到的低维稠密向量, 利用BiLSTM网络提取段落间序列关系和长距离的依赖关系,
输出标签向量;
利用CRF网络学习所有低维稠密向量相应主题段落序列的标注之间的转移规则, 并基
于标签向量输出最优的标签路径, 得到医疗文本主题分割模型。
8.根据权利要求7所述的基于深度学习的医疗文本主题分割方法, 其特征在于, 在利用
CRF网络学习转移规则时, 在初始化转移矩阵的时候, 基于先验知识, 将不可能转移的边界
设为负值进行限制, 使模型 更快收敛。权 利 要 求 书 1/2 页
2
CN 115238026 A
29.根据权利要求1所述的基于深度学习的医疗文本主题分割方法, 其特征在于, 在所述
步骤S4之后还 包括:
对所述主题段落序列的预测结果进行检验和修订, 并输出经过检验和修订的主题段落
序列的预测结果。
10.一种基于深度学习的医疗文本主题分割装置, 其特 征在于, 包括:
数据预处理模块, 用于对来自多家医院的各个病区的原始病程文本数据进行中文分词
以及主题段落序列的标签标注, 以建立医疗领域的语料库, 所述原始病程文本数据包含多
个电子病程文本;
文本编码模块, 用于对建立的语料库进行训练, 无监督得到词向量模型, 并使用所述词
向量模型将所述语料库中的每一个词语映射 为低维稠密向量;
主题分割模型生成模块, 用于对得到的低维稠密 向量提取时序特征, 并进行语料库中
词语相应主题段落序列的标注的学习, 得到医疗文本主题分割模型;
主题分割模块, 用于将待分割医疗文本输入到所述词向量模型中, 将待分割医疗文本
中的每个词语映射为低维稠密向量, 并将得到的低维稠密向量输入到所述医疗文本主题分
割模型中, 输出对待分割医疗文本的主题段落序列的预测结果。权 利 要 求 书 2/2 页
3
CN 115238026 A
3
专利 一种基于深度学习的医疗文本主题分割方法和装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:11:23上传分享