(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210121004.X
(22)申请日 2022.02.09
(65)同一申请的已公布的文献号
申请公布号 CN 114154502 A
(43)申请公布日 2022.03.08
(73)专利权人 浙江太美医疗科技股份有限公司
地址 314001 浙江省嘉兴 市昌盛南路3 6号
智慧产业创新园9号楼3层
(72)发明人 张凯
(74)专利代理 机构 北京布瑞知识产权代理有限
公司 11505
专利代理师 周达
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/30(2020.01)G06F 16/35(2019.01)
G06F 16/36(2019.01)
(56)对比文件
CN 112949303 A,2021.0 6.11
CN 109190125 A,2019.01.1 1
CN 109509556 A,2019.0 3.22
CN 111581976 A,2020.08.25
CN 111950283 A,2020.1 1.17
CN 111274806 A,2020.0 6.12
陈德华等.病理镜 检文本数据的结构化处 理
方法. 《计算机与现代化》 .2016,(第04期),第5 -
10页.
熊健等.基于词性标注与分词消歧的中文分
词方法. 《广州大 学学报(自然科 学版)》 .2019,
(第05期),第31- 37页.
审查员 李楠楠
(54)发明名称
医学文本的分词方法、 装置、 计算机设备和
存储介质
(57)摘要
本说明书实施方式提供了一种医学文本的
分词方法、 装置、 计算机设备和存储介质。 包括:
获取所述医学文本中的医学基础词和 医学复合
词; 其中, 所述医学基础词不能被切分出医学子
词; 按照构成所述医学复合词的文字顺序, 将所
述医学复合词切分成多个非复合的医学子词; 其
中, 所述医学复合词中的一个文字被 分入一个医
学子词; 其中, 所述非复合的医学子词不能被进
一步切分出医学子词; 标注所述医学基础词、 所
述医学复合词和所述医学子词的词性, 得到所述
医学文本的医学词分词结果。 通过对医学文本采
用多维词典匹配、 模型预测和词语联想的方法,
实现一款能提高医学文本分词准确性的医学分
词工具。
权利要求书3页 说明书9页 附图4页
CN 114154502 B
2022.05.24
CN 114154502 B
1.一种医学文本的分词方法, 其特 征在于, 应用于计算机设备, 所述方法包括:
获取所述医学文本中的医学基础词和医学复合词; 其中, 所述医学基础词不能被切分
出医学子词; 其中, 包括: 使用预设医学词典在所述医学文本中匹配得出所述医学文本包括
的医学词语; 使用动态规划分词法对所述医学词语进行处理, 得出所述医学文本的医学基
础词和医学复合词; 其中, 将能被进一 步切分出医学子词的医学词语确定为医学复合词;
按照构成所述医学复合词的文字顺序, 将所述医学复合词切分成多个非复合的医学子
词; 其中, 所述医学复合词中的一个文字被分入一个医学子词; 其中, 所述非复合的医学子
词不能被进一 步切分出医学子词;
分别获取所述医学基础词的词性、 所述医学复合词的词性和所述医学子词的词性; 其
中, 所述医学基础词的词性、 所述医学复合词的词性和所述医学子词的词性在预设医学词
典中记录有频 数;
分别基于所述医学基础词在所述医学词典中的频数、 所述医学复合词在所述医学词典
中的频数和所述医学子词在所述医学词典中的频数, 以及所述医学基础词在所述医学文本
中的上下文、 所述医学复合词在所述医学文本中的上下文和所述医学子词在所述医学文本
中的上下文, 确定所述医学基础词、 所述医学复合词和所述医学子词的词性的顺序;
按照所述医学词、 所述医学复合词、 所述医学子词的词性的顺序, 标注所述医学基础
词、 所述医学复合词和所述医学子词在所述医学文本中的词性;
获取所述医学文本中的非医学标准词; 其中, 所述非医学标准词属于预设的常用词词
典;
标注所述非医学标准词的词性, 得到所述医学文本的非医学标准词分词结果; 其中, 所
述医学文本的分词结果包括所述医学词分词结果和所述非医学 标准词分词结果;
获取与所述医学子词和所述医学基础词有关的医学知识图谱;
从所述医学知识图谱中检索所述医学子词的扩展词和所述医学基础词的扩展词;
将所述扩展词作为所述医学文本的补充分词结果。
2.根据权利要求1所述的方法, 其特征在于, 使用动态规划分词法对所述医学词语进行
处理, 得出所述医学文本的医学基础词和医学复合词的步骤, 包括:
根据所述医学文本构造所述医学词语的字典树结构;
在所述字典树中使用所述动态规划分词法确定所述医学文本的医学基础词和医学复
合词。
3.根据权利要求1所述的方法, 其特征在于, 使用动态规划分词法对所述医学词语进行
处理, 得出所述医学文本的医学基础词和医学复合词的步骤, 包括:
生成所述医学词语在所述医学文本中的位置坐标;
基于所述医学词语的位置坐标采用动态规划分词法确定所述医学文本的医学基础词
和医学复合词。
4.根据权利要求1所述的方法, 其特征在于, 获取所述医学文本中的非医学标准词的步
骤, 包括:
使用预设常用词词典在所述医学文本中匹配得出所述医学文本包括的非医学标准词
语;
使用动态规划分词法对所述非医学标准词语进行处理, 得出所述医学文本的目标非医权 利 要 求 书 1/3 页
2
CN 114154502 B
2学标准词语。
5.根据权利要求1所述的方法, 其特征在于, 所述医学文本包括预设医学词典和预设常
用词词典中未 出现的词语, 所述词语为未登录词; 所述方法还 包括:
采用指定分词工具确定所述未登录词的词性; 得到所述医学文本的未登录词分词结
果。
6.根据权利要求1所述的方法, 其特征在于, 在获取所述医学文本 中的医学基础词和医
学复合词; 其中, 所述医学基础词不能被切分出医学子词的步骤前, 包括:
从数据和/或文件中加载词典; 其中, 所述词典中包括词语、 词语的词性、 词语的词频;
生成医学词典和常用词词典, 将所述词典中的医学词语、 所述医学词语的词性和所述
医学词语的词 频加载到所述医学词典中, 将所述词典中的非医学标准词语、 所述非医学标
准词语的词性和所述非医学 标准词语的词频加载到所述常用词 词典中。
7.一种医学文本的分词装置, 其特 征在于, 包括:
医学词语获取模块, 用于获取所述医学文本中的医学基础词和医学复合词; 其中, 所述
医学基础词不能被切分出医学子词; 其中, 包括: 使用预设医学词典在所述医学文本中匹配
得出所述医学文本包括的医学词语; 使用动态规划分词法对所述医学词语进行处理, 得出
所述医学文本的医学基础词和医学复合词; 其中, 将能被进一步切分出医学子词的医学词
语确定为医学复合词;
医学复合词切分模块, 用于按照构成所述医学复合词的文字顺序, 将所述医学复合词
切分成多个非复合的医学子词; 其中, 所述医学复合词中的一个文字被 分入一个医学子词;
其中, 所述非复合的医学子词不能被进一 步切分出医学子词;
医学词语词性获取模块, 用于分别获取所述医学基础词的词性、 所述医学复合词的词
性和所述医学子词的词性; 其中, 所述医学基础词的词性、 所述医学复合词的词性和所述医
学子词的词性在预设医学词典中记录有频 数;
医学词语词性确定模块, 用于分别基于所述医学基础词在所述医学词典中的频数、 所
述医学复合词在所述医学词典中的频数和所述医学子词在所述医学词典中的频数, 以及所
述医学基础词在所述医学文本中的上下文、 所述医学复合词在所述医学文本中的上下文和
所述医学子词在所述医学文本中的上下文, 确定所述医学基础词、 所述医学复合词和所述
医学子词的词性的顺序;
医学词语词性标注模块, 用于按照所述医学词、 所述医学复合词、 所述医学子词的词性
的顺序, 标注所述医学基础词、 所述医学复合词和所述医学子词在所述医学文本中的词性;
非医学标准词获取模块, 用于获取所述医学文本中的非医学标准词; 其中, 所述非医学
标准词属于预设的常用词 词典;
非医学标准词词性标注模块, 用于标注所述非医学标准词的词性, 得到所述医学文本
的非医学标准词分词结果; 其中, 所述医学文本的分词 结果包括所述医学词分词 结果和所
述非医学 标准词分词结果;
医学知识图谱获取模块, 用于获取与所述医学子词和所述医学基础词有关的医学知识
图谱;
扩展词确定模块, 用于从所述医学知识图谱中检索所述医学子词的扩展词和所述医学
基础词的扩展词;权 利 要 求 书 2/3 页
3
CN 114154502 B
3
专利 医学文本的分词方法、装置、计算机设备和存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:38上传分享