(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210142076.2
(22)申请日 2022.02.16
(71)申请人 中南大学
地址 410000 湖南省长 沙市岳麓区麓山 南
路932号
(72)发明人 李芳芳 汤达夫 张健 段俊文
(74)专利代理 机构 长沙轩荣专利代理有限公司
43235
专利代理师 李崇章
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06F 40/216(2020.01)
G06K 9/62(2022.01)
(54)发明名称
基于Xlnet模型的类案检索方法、 系统及设
备
(57)摘要
本公开实施例中提供了一种基于Xlnet模型
的类案检索方法、 系统及设备, 属于数据处理技
术领域, 具体包括: 将目标案件文本与案件检索
数据库内的文本进行预处理; 根据预设算法计算
预处理后的目标案件文本与案件检索数据库内
文本的案件文本相似度特征, 以及, 利用Xlnet模
型提取语义特征; 将案件文本相似度特征与语义
特征融合后输入全连接神经网络, 输出检索结
果。 通过本公开的方案, 对案件文本数据预处理
时进行数据清洗, 使原始数据包含的信息更加规
范精确, 然后计算案件文本相似度特征, 以及, 利
用Xlnet模型将文本转为词向量, 得到语义特征
并进行融合, 输入全连接神经网络得到检索结
果, 提高了 类案检索的效率、 精准度和适应性。
权利要求书2页 说明书11页 附图5页
CN 114490946 A
2022.05.13
CN 114490946 A
1.一种基于Xl net模型的类案检索方法, 其特 征在于, 包括:
将目标案件文本与案件检索数据库内的文本进行 预处理;
根据预设算法计算预处理后的目标案件文本与案件检索数据库内文本的案件文本相
似度特征, 以及, 利用Xlnet模 型提取预 处理后的目标案件文本与案件检索数据库内文本的
语义特征;
将所述案件文本相似度 特征与所述语义特征融合后输入全连接神经网络, 输出检索结
果。
2.根据权利要求1所述的方法, 其特征在于,所述将目标案件文本与案件检索数据库内
的文本进行 预处理的步骤, 包括:
将所述目标案件文本与所述案件检索数据库内文本的字符进行统一;
将统一字符后的目标案件文本与案件检索数据库内文本进行去停用词操作;
将进行所述去停用词操作后的目标案件文本与案件检索数据库内文本进行分词处理,
并对每个分词进行词性标注。
3.根据权利要求1所述的方法, 其特征在于,所述根据预设算法计算预处理后的目标案
件文本与案件检索数据库内文本的案件文本相似度特 征的步骤, 包括:
计算预处理后的目标案件文本与预处理后的案件检索数据库内每个案件文本的
jaccard相似度;
计算预处理后的目标案件文本与预处理后的案件检索数据库内每个案件文本的编辑
距离;
计算预处理后的目标案件文本与预处理后的案件检索数据库内每个案件文本的tf ‑
idf余弦距离;
将所述jaccard相似度、 所述编辑距离和所述tf ‑idf余弦距离作为所述案件文本相似
度特征。
4.根据权利要求1所述的方法, 其特征在于,所述Xlnet模型包括排序语言模型、
Attention Mask机制和双流自注意机制。
5.根据权利要求4所述的方法, 其特征在于,所述利用Xlnet模型提取预处理后的目标
案件文本与案件检索数据库内文本的语义特 征的步骤, 包括:
分别对预处理后的目标案件文本与预处理后的案件检索数据库内每个案件文本进行
语序排列, 并对排序结果进行随机采样和预测;
根据预测结果对预处理后的目标案件文本与预处理后的案件检索数据库内每个案件
文本构建掩码矩阵;
根据所述掩码矩阵和双流自注意机制预训练AR语言模型, 生成所述语义特 征。
6.根据权利要求3所述的方法, 其特征在于,所述将所述案件文本相似度 特征与所述语
义特征融合后输入 全连接神经网络, 输出检索结果的步骤之前, 所述方法还 包括:
构建所述全连接神经网络, 其中, 所述全连接神经网络包括输入层、 隐藏层和输出层,
所述输入层和所述隐藏层之间采用ReLu函数作为激活函数。
7.根据权利要求6所述的方法, 其特征在于,所述将所述案件文本相似度 特征与所述语
义特征融合后输入 全连接神经网络, 输出检索结果的步骤, 包括:
将所述jac card相似度、 所述编辑距离和所述tf ‑idf余弦距离拼接为统计特 征向量;权 利 要 求 书 1/2 页
2
CN 114490946 A
2将所述统计特 征向量和所述语义特 征拼接为与所述输入层尺寸相同的融合特 征向量;
将所述融合特征向量输入所述输入层和所述 隐藏层, 采用随机失活方法进行拟合, 通
过所述输出层得到 输出向量;
对所述输出向量进行归一 化并利用预设函数进行处 理, 得到所述检索结果。
8.一种基于Xl net模型的类案检索系统, 其特 征在于, 包括:
预处理模块, 用于将目标案件文本与案件检索数据库内的文本进行 预处理;
计算模块, 用于根据 预设算法计算预处理后的目标案件文本与案件检索数据库内文本
的案件文本相似度特征, 以及, 利用Xlnet模 型提取预处理后的目标案件文本与案件检索数
据库内文本的语义特 征;
融合模块, 用于将所述案件文本相似度特征与 所述语义特征融合后输入全连接神经网
络, 输出检索结果。
9.一种电子设备, 其特 征在于, 所述电子设备包括:
至少一个处 理器; 以及,
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处
理器执行, 以使 所述至少一个处理器能够执行前述权利要求1 ‑7中任一项所述的基于Xlnet
模型的类案检索方法。权 利 要 求 书 2/2 页
3
CN 114490946 A
3
专利 基于Xlnet模型的类案检索方法、系统及设备
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:34上传分享