(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210043407.7
(22)申请日 2022.01.14
(71)申请人 中国平安人寿保险股份有限公司
地址 518000 广东省深圳市福田区益田路
5033号平安金融中心14、 15、 16、 37、
41、 44、 45、 46层
(72)发明人 任俊松 侯晓龙
(74)专利代理 机构 深圳众鼎专利商标代理事务
所(普通合伙) 44325
代理人 谭果林
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
未知意图的识别方法、 装置、 计算机设备及
存储介质
(57)摘要
本发明公开了一种未知意图的识别方法, 应
用于人工智能领域, 用于提高未知意图的分类准
确率。 本发明提供的方法包括: 获取已知意图数
据和未知意图数据; 将已知意图数据输入到预训
练模型中进行训练, 得到初始语义表征模型, 并
基于初始 语义表征模型, 对未知意图数据进行特
征提取, 得到语义表征向量; 对语义表征向量进
行聚类处理, 得到层次聚类树; 对层次聚类树进
行异常检测, 得到检测结果; 当检测结果为异常
时, 则基于预设的剪枝方法, 对层次聚类树进行
剪枝处理, 并根据剪枝 得到的结果更新层次聚类
树; 将层次聚类树输入到初始 语义表征模型进行
训练, 得到语义表征模型; 将未知意图数据输入
语义表征模型, 得到识别结果。
权利要求书3页 说明书11页 附图3页
CN 114385818 A
2022.04.22
CN 114385818 A
1.一种未知意图的识别方法, 其特 征在于, 包括:
获取已知意图数据和未知意图数据;
将所述已知意图数据输入到预训练模型中进行训练, 得到初始语义表征模型, 并基于
所述初始语义表征模型, 对所述未知意图数据进行 特征提取, 得到语义表征向量;
对所述语义表征向量进行聚类处 理, 得到层次聚类树;
对所述层次聚类树进行异常检测, 得到检测结果;
当所述检测结果为异常时, 则基于预设的剪枝方法, 对所述层次聚类树进行剪枝处理,
并根据剪枝得到的结果更新所述层次聚类树;
将所述层次聚类树输入到所述初始语义表征模型进行训练, 得到语义表征模型;
将所述未知意图数据输入所述语义表征模型, 得到识别结果。
2.根据权利要求1所述的方法, 其特征在于, 所述当所述检测结果为异常时, 则基于预
设的剪枝方法, 对所述层次聚类树进行剪枝处理, 并根据剪枝得到的结果更新所述层次聚
类树的步骤 包括:
按照预设的顺序, 依次从所述层次聚类树中选取出一个簇作为待识别簇, 并对所述待
识别簇进行奇异点识别, 得到第一识别结果;
若存在所述第 一识别结果为所述待识别簇存在奇异点, 则对所述待识别簇进行剪枝处
理, 并将剪枝处理后得到的簇加入第一剪枝簇集合中, 直到所述层次聚类树中的所有簇选
取完毕;
将所述第一剪枝簇集合中的所有簇和所有所述第一识别结果为所述待识别簇不存在
奇异点对应的簇进行合并处 理, 得到第一 合并树;
对所述第一 合并树进行奇异簇识别, 得到第二识别结果;
若所述第二识别结果为所述第一合并树存在奇异簇, 则对所述奇异簇进行剪枝处理,
将剪枝处 理后得到的簇加入第二剪枝簇集 合中;
将所述第二剪枝簇集 合中的所有簇和非奇异簇进行合并处 理, 得到第二 合并树;
将所述第二合并树作为层次聚类树, 返回按照预设的顺序, 依次从所述层次聚类树中
选取出一个簇作为待识别簇, 并对所述待识别簇进行奇异点识别, 得到第一识别结果的步
骤继续执行, 直到所述第一识别结果为所述待识别簇不存在奇异点和所述第二识别结果为
所述第一 合并树不存在奇异簇 。
3.根据权利要求2所述的方法, 其特征在于, 所述按照预设的顺序, 依次从所述层次聚
类树中选取出一个簇作为待识别簇, 并对所述待识别簇进行奇异点识别, 得到第一识别结
果的步骤 包括:
按照预设的顺序, 依次从所述层次聚类树中选取 出一个簇作为待识别簇;
基于所述待识别簇的父节点, 将所述待识别簇划分为左子树和右子树, 其中, 所述父节
点为用于划分待识别簇对应的左子树和右子树的节点;
分别计算所述左子树和所述右子树的节点数量, 得到左 子树节点个数和 右子树节点个
数;
计算所述左子树节点个数和所述右子树节点个数之差, 得到个数差值, 并将所述个数
差值与预设阈值相比, 得到第一对比结果;
若所述第一对比结果为所述个数差值大于所述预设阈值, 则第 一识别结果为所述待识权 利 要 求 书 1/3 页
2
CN 114385818 A
2别簇存在奇异点;
若所述第一对比结果为所述个数差值不大于所述预设阈值, 则第 一识别结果为所述待
识别簇不存在奇异点。
4.根据权利要求2至3任一项所述的方法, 其特征在于, 所述若存在所述第一识别结果
为所述待识别簇存在奇异点, 则对所述待识别簇进行剪枝处理, 并将剪枝处理后得到的簇
加入第一剪枝簇集 合中, 直到所述层次聚类树中的所有簇 选取完毕的步骤 包括:
若存在所述第 一识别结果为所述待识别簇存在奇异点, 则获取所述待识别簇对应的父
节点;
基于所述父节点, 对所述待识别簇进行剪枝处理, 并将剪枝得到的左子树和右子树加
入第一剪枝簇集 合中, 直到所述层次聚类树中的所有簇 选取完毕。
5.根据权利要求2所述的方法, 其特征在于, 所述对所述第一合并树进行奇异簇识别,
得到第二识别结果的步骤 包括:
获取所述第一 合并树对应的簇个数以及节点总数;
对所述簇个数和所述节点总数进行平均值计算, 得到平均样本个数;
将所述平均样本个数与预设乘数系数进行相乘计算, 得到 簇内平均样本个数;
按照预设的顺序, 依次从所述第一 合并树中选取一个簇, 作为待判断簇;
获取所述待判断簇对应的节点个数;
若存在所述待判断簇对应的节点个数大于所述簇 内平均样本个数, 则将所述待判断簇
加入到奇异簇集 合中, 并确定所述第二识别结果 为所述第一 合并树存在奇异簇;
若不存在所述待判断簇对应的节点数量大于所述簇内平均样本个数, 则确定所述第 二
识别结果 为所述第一 合并树不存在奇异簇 。
6.根据权利要求2所述的方法, 其特征在于, 所述若所述第 二识别结果为所述第 一合并
树存在奇异簇, 则对所述奇异簇进行剪枝处理, 将剪枝处理后得到的簇加入第二剪枝簇集
合中的步骤 包括:
若所述第二识别结果为所述第一合并树存在奇异簇, 则依次获取所述奇异簇, 并将所
述奇异簇作为待剪枝奇异簇;
获取所述待剪枝奇异簇对应的父节点;
基于所述待剪枝奇异簇对应的父节点, 将所述待剪枝奇异簇进行剪枝处理, 并将剪枝
得到的左子树和右子树加入第二剪枝簇集 合中, 直到所有所述奇异簇 选取完毕。
7.根据权利要求1所述的方法, 其特征在于, 所述将所述层次聚类树输入到所述初始语
义表征模型进行训练, 得到语义表征模型的步骤 包括:
将所述层次聚类树输入到所述初始语义表征模型;
获取所述层次聚类树所有簇, 并对所述所有簇进行聚类 计算, 得到聚类评价指数;
基于所述聚类评价指数和所述层次聚类树中所有簇对所述初始语义表征模型进行训
练, 得到语义表征模型。
8.一种未知意图的识别装置, 其特 征在于, 包括:
意图数据获取模块, 用于获取已知意图数据和未知意图数据;
语义表征向量获取模块, 用于将所述已知意图数据输入到预训练模型中进行训练, 得
到初始语义表征模型, 并基于所述初始语义表征模 型, 对所述未知意图数据进 行特征提取,权 利 要 求 书 2/3 页
3
CN 114385818 A
3
专利 未知意图的识别方法、装置、计算机设备及存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:55上传分享