专利一种基于深度学习的医疗文本主题分割方法和装置 -在线下载 -AI解读-standardlibrary.site

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211063287.3 (22)申请日 2022.08.31 (71)申请人翼方健数（北京）信息科技有限公司地址 100037 北京市海淀区阜成路73号A座五层507,508,509,510,51 1,512号申请人翼健（上海）信息科技有限公司 (72)发明人李修明　张弛　 (74)专利代理机构北京华清迪源知识产权代理有限公司 1 1577 专利代理师胡乐 (51)Int.Cl. G06F 16/31(2019.01) G06F 40/205(2020.01) G06F 40/216(2020.01) G06F 40/289(2020.01)G06F 16/35(2019.01) G06N 5/04(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G16H 10/60(2018.01) (54)发明名称一种基于深度学习的医疗文本主题分割方法和装置 (57)摘要本发明公开了一种基于深度学习的医疗文本主题分割方法和装置，涉及机器学习技术领域。方法包括：基于来自多家医院中的原始病程文本数据建立医疗领域的语料库；对建立的语料库进行无监督训练得到词向量模型，并将语料库中的每一个词语映射为低维稠密向量；对得到的低维稠密向量提取时序特征，并进行语料库中词语主题段落序列的标注的学习，得到医疗文本主题分割模型；将待分割医疗文本依次输入到词向量模型和医疗文本主题分割模型中，输出主题段落序列的预测结果。本发明可以在存在较多噪音和较少标注数据的医疗文本数据集上，训练得到一个病程文本领域特定的轻量深度学习模型，通过该学习模型同时对病程文本完成高效率的文本分割和主题标注。权利要求书2页说明书7页附图3页 CN 115238026 A 2022.10.25 CN 115238026 A 1.一种基于深度学习的医疗文本主题分割方法，其特征在于，包括：步骤S1，对来自多家医院的各个病区的原始病程文本数据进行中文分词以及主题段落序列的标签标注，以建立医疗领域的语料库，所述原始病程文本数据包含多个电子病程文本；步骤S2，对建立的语料库进行训练，无监督得到词向量模型，并使用所述词向量模型将所述语料库中的每一个词语映射为低维稠密向量；步骤S3，对得到的低维稠密向量提取时序特征，并进行语料库中词语相应主题段落序列的标注的学习，得到医疗文本主题分割模型；步骤S4，将待分割医疗文本输入到所述词向量模型中，将待分割医疗文本中的每个词语映射为低维稠密向量，并将得到的低维稠密向量输入到所述医疗文本主题分割模型中，输出对待分割医疗文本的主题段落序列的预测结果。 2.根据权利要求1所述的基于深度学习的医疗文本主题分割方法，其特征在于，所述步骤S1包括：将所述原始病程文本数据中的每个电子病程文本按内容分割为主题段落序列，并对主题段落序列中每个主题段落的词语使用相应主题标签进行标注；对进行主题标签标注后的原始病程文本数据进行清洗，并使用中文分词模型将每个电子病程文本分成词语的线性序列；使用序列标注体系对每个电子病程文本的所有词语位置进行标签标注，用于区分每个词语在相应主题段落的位置，从而形成医疗领域的语料库。 3.根据权利要求2所述的基于深度学习的医疗文本主题分割方法，其特征在于，所述主题段落序列包括入院主诉、既往史、鉴别诊断、诊断、现病史、诊断依据、体格检查、专科检查、诊疗计划和辅助检查中的至少一个主题段落。 4.根据权利要求2所述的基于深度学习的医疗文本主题分割方法，其特征在于，所述中文分词模型为JIEBA分词组件。 5.根据权利要求3所述的基于深度学习的医疗文本主题分割方法，其特征在于，所述对每个电子病程文本的所有词语位置进行标签标注包括：在每个电子病程文本中，用 B标记每个主题段落开头的词语，用I标记每个主题段落中间的词语，用E标记每个主题段落结尾的词语。 6.根据权利要求1所述的基于深度学习的医疗文本主题分割方法，其特征在于，在步骤 S2中，利用FastText模型对建立的语料库进行训练。 7.根据权利要求5所述的基于深度学习的医疗文本主题分割方法，其特征在于，所述步骤S3包括：对得到的低维稠密向量，利用BiLSTM网络提取段落间序列关系和长距离的依赖关系，输出标签向量；利用CRF网络学习所有低维稠密向量相应主题段落序列的标注之间的转移规则，并基于标签向量输出最优的标签路径，得到医疗文本主题分割模型。 8.根据权利要求7所述的基于深度学习的医疗文本主题分割方法，其特征在于，在利用 CRF网络学习转移规则时，在初始化转移矩阵的时候，基于先验知识，将不可能转移的边界设为负值进行限制，使模型更快收敛。权　利　要　求　书 1/2 页 2 CN 115238026 A 29.根据权利要求1所述的基于深度学习的医疗文本主题分割方法，其特征在于，在所述步骤S4之后还包括：对所述主题段落序列的预测结果进行检验和修订，并输出经过检验和修订的主题段落序列的预测结果。 10.一种基于深度学习的医疗文本主题分割装置，其特征在于，包括：数据预处理模块，用于对来自多家医院的各个病区的原始病程文本数据进行中文分词以及主题段落序列的标签标注，以建立医疗领域的语料库，所述原始病程文本数据包含多个电子病程文本；文本编码模块，用于对建立的语料库进行训练，无监督得到词向量模型，并使用所述词向量模型将所述语料库中的每一个词语映射为低维稠密向量；主题分割模型生成模块，用于对得到的低维稠密向量提取时序特征，并进行语料库中词语相应主题段落序列的标注的学习，得到医疗文本主题分割模型；主题分割模块，用于将待分割医疗文本输入到所述词向量模型中，将待分割医疗文本中的每个词语映射为低维稠密向量，并将得到的低维稠密向量输入到所述医疗文本主题分割模型中，输出对待分割医疗文本的主题段落序列的预测结果。权　利　要　求　书 2/2 页 3 CN 115238026 A 3

专利 一种基于深度学习的医疗文本主题分割方法和装置

专利一种基于深度学习的医疗文本主题分割方法和装置