(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210116011.0
(22)申请日 2022.02.07
(65)同一申请的已公布的文献号
申请公布号 CN 114154514 A
(43)申请公布日 2022.03.08
(73)专利权人 北京三子健康科技有限公司
地址 100176 北京市大兴区北京经济技 术
开发区同济中路甲7号 18幢A座4层422
室
(72)发明人 单梁 孟志国 李玉强 丁文静
(74)专利代理 机构 北京秉文同创知识产权代理
事务所(普通 合伙) 11859
代理人 陈少丽 张文武
(51)Int.Cl.
G06F 40/30(2020.01)G06F 40/289(2020.01)
G06F 40/247(2020.01)
G06F 40/194(2020.01)
G06F 16/35(2019.01)
审查员 王宇莉
(54)发明名称
一种中医证型识别方法及系统
(57)摘要
本发明涉及一种中医证型识别方法及系统,
所述方法包括: 通过预先建立的证型分词模型对
待识别文本进行处理得到待识别证型缩写, 在组
成模型表中查找到对应的初步证型名称, 根据初
步证型名 称从预先建立的元素向量矩 阵中获取
相应的证型向量V, 在预先建立的证型向量矩阵
中遍历每一条向量记录, 当找到与证型向量V的
余弦相似度满足预设相似度阈值的证型向量R,
则将证型向量R对应的证型名称作为证型向量V
的最终的目标证型名称, 该方法能够对中医证型
进行有效切分, 满足了中 医药行业的专业需求。
权利要求书2页 说明书11页 附图4页
CN 114154514 B
2022.04.12
CN 114154514 B
1.一种中 医证型识别方法, 其特 征在于, 包括:
获取待识别文本;
利用预先建立的证型分词模型对所述待识别文本进行分词处理得到匹配的多个标准
词和与所述多个标准词对应的多个类别语义符, 并根据多个所述类别语义符按照所述待识
别文本中词的顺序组合得到待识别证型缩写;
如果在组成模型表中查找到所述待识别证型缩写, 则将多个所述标准词按照所述待识
别文本中词的顺序组合得到初步证型名称; 如果在所述组成模型表中未查找到所述待识别
证型缩写, 则认为所述待识别文本中不存在中 医证型的文本;
根据所述初步证型名称从预 先建立的元 素向量矩阵中获取相应的证型向量V;
如果在预先建立的证型向量矩阵中遍历到与所述证型向量V的余弦相似度满足预设相
似度阈值的证型向量R, 则将所述证型向量R对应的证型名称作为所述证型向量V的目标证
型名称;
如果在预先建立的证型向量矩阵中遍历到的所述证型向量R与所述证型向量V 的余弦
相似度不满足预设相似度阈值, 则计算所述证型向量 R的单位向量与所述证型向量V之差得
到差异向量D;
如果所述差异向量D的坐标中不存在负值, 则将所述证型向量R对应的证型名称作为所
述证型向量V的相似证型名称。
2.根据权利要求1所述的一种中医证型识别方法, 其特征在于, 所述获取待识别文本的
步骤之前还 包括:
对已知中 医证型进行 元素切分得到多个 证型元素;
对每个所述证型 元素进行分类标注;
根据所述证型元素的分类标注信息对多个所述证型元素进行分类整理并建立多个类
别元素表, 所述类别元 素表中包括每 个证型元素的标准词和对应的同义词;
整合多个所述类别元素表得到所述元素向量矩阵, 其中, 所述元素向量矩阵中用1标识
证型元素所处的位置 。
3.根据权利要求2所述的一种中医证型识别方法, 其特征在于, 所述类别元素表包括病
位元素表、 物质基础元 素表、 物质基础状态元 素表、 影响因素 元素表和影响方式元 素表。
4.根据权利要求2所述的一种中医证型识别方法, 其特征在于, 所述根据 所述证型元素
的分类标注信息对多个所述证型元素进行分类整理并建立多个类别元素表的步骤之后还
包括:
根据所述证型 元素的分类标注信息为每 个所述证型 元素分配相应的类别语义符;
基于多个所述类别元素表和每个所述证型元素分配的类别语义符建立所述证型分词
模型。
5.根据权利要求4所述的一种中医证型识别方法, 其特征在于, 所述根据 所述初步证型
名称从预 先建立的元 素向量矩阵中获取相应的证型向量V的步骤 包括:
在所述元 素向量矩阵中查找所述初步证型名称所包 含的每个证型元素对应的向量;
将查找到的每 个所述证型 元素对应的向量相加得到所述证型向量V。
6.根据权利要求5所述的一种中医证型识别方法, 其特征在于, 所述如果在预先建立的
证型向量矩阵中遍历 到与所述证型向量V的余弦相似度满足预设相似度阈值的证型向量 R,权 利 要 求 书 1/2 页
2
CN 114154514 B
2则将所述证型向量R对应的证型名称作为所述证型向量V的目标证型名称的步骤之后还包
括:
将所述待识别文本更新至所述证型向量R的原始文本列表中, 并将所述目标证型名称
对应的向量更新 为所述证型向量R和所述证型向量V相加的和。
7.一种中 医证型识别系统, 其特 征在于, 包括:
文本获取模块, 被 配置为获取待识别文本;
证型分词模型模块, 被配置为利用预先建立的证型分词模型对所述待识别文本进行分
词处理得到匹配的多个标准词和与所述多个标准词对应的多个类别语义符, 并根据多个所
述类别语义符按照所述待识别文本中词的顺序组合输出待识别证型缩写;
组成模型模块, 被配置为如果在组成模型表中查找到所述待识别证型缩写, 则将多个
所述标准词按照所述待识别文本中词的顺序组合得到初步证型名称; 如果在所述组成模型
表中未查找到所述待识别证型缩写, 则认为所述待识别文本中不存在中 医证型的文本;
证型向量获取模块, 被配置为根据 所述初步证型名称 从预先建立的元素向量矩阵中获
取相应的证型向量V;
以及, 证型识别模块, 被配置为如果在预先建立的证型向量矩阵中遍历到与所述证型
向量V的余弦相似度满足预设相似度阈值的证型向量R, 则将所述证型向量R对应的证型名
称作为所述证型向量V的目标证型名称;
如果在预先建立的证型向量矩阵中遍历到的所述证型向量R与所述证型向量V 的余弦
相似度不满足预设相似度阈值, 则计算所述证型向量 R的单位向量与所述证型向量V之差得
到差异向量D;
如果所述差异向量D的坐标中不存在负值, 则将所述证型向量R对应的证型名称作为所
述证型向量V的相似证型名称。
8.一种电子设备, 其特征在于, 包括: 处理器和存储器, 所述存储器上存储有计算机可
读指令, 所述计算机可读指 令被所述处理器执行时实现如权利要求 1至6中任一项 所述的一
种中医证型识别方法。
9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被
处理器执行时实现如权利要求1至 6中任一项所述的一种中 医证型识别方法。权 利 要 求 书 2/2 页
3
CN 114154514 B
3
专利 一种中医证型识别方法及系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:39上传分享