standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210052863.8 (22)申请日 2022.01.18 (71)申请人 北京工业大 学 地址 100124 北京市朝阳区平乐园10 0号 (72)发明人 艾彭磊 杜金莲 金雪云 张潇  张津丽  (74)专利代理 机构 北京思海天达知识产权代理 有限公司 1 1203 代理人 沈波 (51)Int.Cl. G06F 40/242(2020.01) G06F 40/30(2020.01) G16H 10/60(2018.01) G06N 3/04(2006.01) (54)发明名称 一种基于深度学习的中文电子病历文本语 义分割方法 (57)摘要 本发明公开了一种基于深度学习的中文电 子病历文本语义分割方法, 主要包括语义字典构 建及文本语义特征向量表示、 整体特征融合、 深 度神经网络训练以及预测优化部分。 利用预训练 语言模型表 示文本上下文语义特征, 并加入了字 符语义位置特征, 将融合后的整体特征输入到深 度神经网络中进行模型训练。 相比于现有的语义 分割技术, 本发 明构建字 符间融合全局的上下文 语义特征, 捕获并学习序列每个字符的语义类别 特性, 最后找到每个字符的最佳语义类别标签, 从而实现精细化的文本语义分割, 在数据集较小 情况下实现了文本语义分割较高的准确性, 发展 了EMR文本语义分割的新方法。 权利要求书1页 说明书5页 附图3页 CN 114417836 A 2022.04.29 CN 114417836 A 1.一种基于深度学习的中文电子病历语义分割方法, 其特征在于: 该方法包括如下步 骤: 步骤一: 构建医学 数据集和语义字典; 选取原始数据集; 采用抽取器对原始数据集进行预处理得到若干个训练数据样本, 将 前述若干个训练数据样本作为训练数据集, 并根据规则对训练数据样本进行语义类别标 注; 统计数据字符集, 将字符输入预训练模型构建的语义字典, 将 每个字符表示为固定维度 的向量; 步骤二: 获取文本语义特 征向量; 以步骤一获得的语义字典为基础, 按 文本序列顺序生成文本特 征向量; 步骤三: 融合语义 位置特征; 将字符的文本位置特 征与步骤二得到的文本语义特 征向量合并为整体特 征; 步骤四: 将整体特 征输入到深度神经网络中进行参数训练; 步骤五: 用训练好的深度神经网络模型对测试样本进行语义分割。 2.根据权利要求1所述的一种基于深度学习的中文电子病历文本语义分割方法, 其特 征在于: 利用预训练语言模型表示文本语义特征, 并加入了字符语义位置特征构建字符间 融合全局的上下文语义特征, 捕获并学习序列每个字符的语义类别特性, 最后找到每个字 符的最佳语义类别标签, 从而实现精细化的文本语义分割; 基于深度 学习的中文电子病历语义分割方法, 包括语义字典构建及文本语义特征向量 表示、 整体特征融合、 深度神经网络训练以及预测优化部 分; 利用预训练语言模 型表示文本 上下文语义特征, 并加入了字符语义位置特征, 将融合后的整体特征输入到深度神经网络 中进行模型训练。 3.根据权利要求1所述的一种基于深度学习的中文电子病历语义分割方法, 其特征在 于: 考虑字符语义位置信息的问题, 为了更加准确的区分字符的语义特征, 给文本中的每个 位置添加一个独特的语义位置向量ei, 由转移矩阵和pi相乘得到, 其中pi为文本的每个ci对 应的one‑hot编码向量; 然后将语 义位置向量 ei与文本向量ai相加再输入 到自注意力层进行 特征学习。 4.根据权利要求1所述的一种基于深度学习的中文电子病历语义分割方法, 其特征在 于: 深度神经网络由以下部 分组成: 嵌入层 使用BERT_wwm将文本映射为向量形式, 以输入到 模型中; Transformer  Encoder层首先将 输入向量融合可学习的语义位置向量特征, 通过多 头自注意力 层来学习字符间的特征, 不再追加CLS, 而将 每个文本字向量 都看作分类预测的 有效信息, 后续经过前馈神经网络层归一化, 通过LinearScore得到每个字符的语义信息, 捕获序列每个字符的类别特性; Prediction层用于解码, 以找到每个字符的最佳语义类别 标签。权 利 要 求 书 1/1 页 2 CN 114417836 A 2一种基于深度学习的中文电子病历文本语 义分割方 法 技术领域 [0001]本发明涉及自然语言处理领域的一种基于深度学习的文本语义分割方法, 属于医 疗文本数据 挖掘技术领域, 特别是 涉及一种中文电子病历文本语义分割方法。 背景技术 [0002]当前, 以深度学习为主的方法促进了自然语言处理技术的不断发展, 并且已经成 功应用于包括文本分类、 人机对话、 智能服务、 文本翻译和自然语言推理等典型场景, 帮助 我们理解、 处 理自然语言与文本, 获取到大量有价 值的信息 。 [0003]随着自然语言处理技术与 医学的深度融合, 智 慧医疗在临床辅助诊疗、 医疗数据 挖掘、 疾病风险评估上取得了一系列新的成果。 这些成果使用的新方法高度依赖海量的真 实、 准确、 可靠的结构化诊疗数据。 病历蕴含了大量的专 业医疗知识, 但是, 临床电子病历通 常设计时以记录为主, 而不是面向科学研究, 临床的数据被原原本本地记录下来, 但却并没 有针对信息做面向研究和应用的加工处理, 医院无法直接使用电子病历 中的信息、 更无法 使其服务于临床诊疗。 因此, 将非结构化的医疗数据进行结构化成为一个必要而关键的步 骤。 考虑到数据量巨大, 若依靠人工来进 行结构化, 其经济成本无疑将十 分高昂。 所以, 利用 自然语言处 理技术自动的从电子病历中提取 结构化的临床信息是一种理想的选择。 [0004]医学文本语义分割方法及系统是一种可以自动将描述症状、 检查、 病人状态、 治疗 诊断的语句段分割提取出来的系统, 对于电子病历结构化系统的性能有重大影响。 信息分 割的准确 性对于后续医疗数据分析流程有着基础性的影响。 因此, 一个好的语义分割系统 可以帮助提高病历结构化的准确性, 也能更高效和准确 地服务于医学数据挖掘、 临床决策 支持、 临床风险评估等。 目前尚无针对电子病历进行专门优化的语义分割的方法和系统。 [0005]另一方面, 在语义分割领域, 图像语义分割是 图像处理和是机器视觉技术中关于 图像理解的重要一环, 也是AI领域中一个重要的分支。 语义分割即是对图像中每一个像素 点进行分类, 确定每个点的类别(如属于背景、 人或车等), 从而进 行区域划分。 目前, 语义分 割已经被广泛应用于自动驾驶、 无 人机落点判定等场景中。 [0006]Fully Convolut ional Networks(FCN)的提出是图像语义分割领域当中出众的模 型之一, 该模型把CNN后面几个全连接都换成卷积, 这样就可以获得一张2维的feature   map, 后接softmax获得每个像素点的分类信息, 从而解决了分割问题, FCN成为语义分割的 基本框架。 这些相关研究对把FCN用于文本语义分割提供了 很好的借鉴和启示作用。 [0007]基于FCN架构的语义分割无法摆脱编码器需要对输入特征图进行降采样的操作, 而Transformer的一个特性便是能够保持输入和输出的空间分辨率不变, 同时还 能够有效 的捕获全局的上下文信息。 因此, 采用类似的结构来进行特征提取进行语义分割 逐渐浮出 水面。 本文为了解决文本语义分割问题, 针对目前研究中存在的局部感受野、 上下文语义表 达不准确的问题, 设计了适用于文本语义分割的算法及模型, 对于病历文本研究具有重要 意义。说 明 书 1/5 页 3 CN 114417836 A 3

PDF文档 专利 一种基于深度学习的中文电子病历文本语义分割方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的中文电子病历文本语义分割方法 第 1 页 专利 一种基于深度学习的中文电子病历文本语义分割方法 第 2 页 专利 一种基于深度学习的中文电子病历文本语义分割方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。