(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210124252.X
(22)申请日 2022.02.10
(71)申请人 河海大学
地址 210024 江苏省南京市 鼓楼区西康路1
号
(72)发明人 张涛 徐良 张燕
(74)专利代理 机构 江苏圣典律师事务所 32 237
专利代理师 胡建华 于瀚文
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/34(2019.01)
G06F 40/157(2020.01)
G06F 40/242(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06Q 10/04(2012.01)
G06Q 50/18(2012.01)
(54)发明名称
一种多罪名预测方法
(57)摘要
本发明提供了一种多罪名预测方法, 包括:
步骤1, 对文本摘要模型进行训练, 得到案情摘
要; 步骤2, 将案情描述与案情摘要拼接, 得到当
前时间步的案情编码向量; 步骤3, 采用UniLM模
型的双向语言模 型对向量序列进行编码, 取编码
后所有位置的输出向量; 步骤4, 计算得到当前时
间步的案情和罪名注意力编码向量; 步骤5, 得到
当前时间步预测出的罪名。 本发 明能够获取各罪
名的语义信息以及罪名之间的相互关系, 最后 在
解码过程中加入案情 ‑罪名注意力机制, 计算解
码过程中隐藏状态和所有罪名的相关性, 显著提
升了多罪名预测的准确率。
权利要求书2页 说明书7页 附图2页
CN 114519103 A
2022.05.20
CN 114519103 A
1.一种多罪名预测方法, 其特 征在于, 包括如下步骤:
步骤1, 对文本摘要模型进行训练, 将案情描述输入训练好的文本摘要模型, 得到案情
摘要;
步骤2, 将案情描述与案情摘要拼接;
步骤3, 将所有罪名精简为长度为X1的字符串;
步骤4, 取步骤2得到的案情编码向量作为解码过程中的当前隐藏状态, 计算得到当前
时间步的案情和罪名注意力编码向量;
步骤5, 将案情编码向量与案情和罪名注意力编码向量拼接作为解码过程中的当前时
间步的输入, 将所述输入经过全连接层映射到中文字典的维度, 取概率最大 的位置对应的
罪名即当前时间步预测出的罪名。
2.根据权利 要求1所述的方法, 其特征在于, 步骤1包括: 文本摘要模型选择UniLM模型,
在训练文本摘要模型时, 输入内容包括: [CLS]新闻内容[SEP]新闻摘要[SEP], 其中[CLS]为
开始标记, [SEP]为结束标记, 通过UniLM模型的掩码机制掩盖新闻摘要中的字, 让UniLM模
型学习逐个恢复被掩盖的字, 训练目标是基于上下文最大化被掩盖字的似然度, 结束标记
[SEP]也能够被掩盖, 模型 预测到结束标记即结束预测。
3.根据权利要求2所述的方法, 其特征在于, 步骤2包括: 案情描述与案情摘要之间加
入@@@作为分 隔符, 通过字级分词器和中文字典分别进 行分词和词嵌入, 将输入文本转化为
向量序列, 采用UniLM模 型的双向语 言模型对向量序列进 行编码, 取输出的最后一个向量作
为当前时间步的案情编码向量。
4.根据权利要求3所述的方法, 其特征在于, 步骤2中, 训练时案情描述和对应罪名以句
子对的形式进行输入, 测试时仅输入案情描述, 格式为: [CLS]案情描述@@@案情摘要[SEP],
其中@@@用于区分案情描述和案情摘要, 每个字的表征方式由词嵌入、 位置嵌入和分段嵌入
组合而成。
5.根据权利 要求4所述的方法, 其特征在于, 步骤2中, 首先由Bert的字级分词器对拼接
的案情描述和案情摘要进行分词, 返回分词后的字的数组, 再根据中文字典中字和数值的
一一对应关系将字的数组转化为值的数组, 通过深度学习pytorch框架的nn.embedding方
法将每个字的独热编码转 化为768维的稠密向量;
位置嵌入将单词的位置信息编码成特 征向量, 从而引入单词位置关系。
6.根据权利 要求5所述的方法, 其特征在于, 步骤2还包括: 对于长度512的输入, 词向量
维度为768, 位置嵌入是(512, 768)的查询表, 序列的每个位置的位置嵌入对应表 中相应的
行, 其中的值在模型训练过程中不断学习。
7.根据权利要求6所述的方法, 其特征在于, 步骤2还包括: UniLM模型的骨干网络包括
24层Trans former网络, 经过词嵌入之后, UniLM模型的输入向量
转化为由768维词向
量组成的序列H0=[x1, ..., x|x|], 送入24层Transformer网络, 在不同层融合上下文信息, 每
层Transformer使用多头注意力融合上一层输出的向量, 第l层编码输出为
表示词向量在第l层编码对应位置的输出;
对于第l层Transformer网络, Transformer网络中的自注意头Al的输出的计算方式为:
Q=Hl‑1WlQ,权 利 要 求 书 1/2 页
2
CN 114519103 A
2K=Hl‑1WlK,
V=Hl‑1WlV
上一层的输出Hl‑1通过第l层三个参数矩阵WlQ、 WlK、 WlV分别被线性的投影为查询向量Q、
键向量K和值向量V, dk为词向量的维度, 掩码矩阵M则用来控制对应位置的信息是否对上下
文可见, Mij表示掩码矩阵M中第i行第j列的值; 如果Mij值为0, 则allow to attend表示所有
字都可以访问, 如果Mij值为‑∞, 则prevent from attending表示对上 下文不可 见。
8.根据权利要求7所述的方法, 其特征在于, 步骤3包括: 通过字级分词器和中文词典分
别进行分词和词嵌入, 将 输入文本转化为向量序列, 采用UniLM模型的双向语 言模型对向量
序列进行编码, 取编码后所有位置的输出向量。
9.根据权利要求8所述的方法, 其特征在于, 步骤4包括: 取步骤2的案情编码向量作为
解码过程中的当前隐藏状态, 计算当前隐藏状态和罪名编码 中每一项的相关性系 数, 对于
首次计算注意力, 结束标记[SEP]对应的输出向量作为解码器的初始隐藏状态hidden, 对
hidden向量和步骤3罪名编码的输出序列[key1, key2,…, keyn]做点积运 算:
similarity(hid den, keyi)=hidden·keyi
其中keyi为罪名编码的输出序列中的第i项, n为罪名序列的长度, si milarity为当前隐
藏状态hidden与所有罪名之间的相关性系数, 把得到的相关性系数归一化指数函数
softmax进行归一 化:
其中similarit yi表示similarit y中第i项的值, Lx表示similarity的总长度, ai代表罪
名编码的输出序列第i项的注意力权重, 计算得到当前时间步的案情和 罪名注意力编码向
量Attention(hidden, keys)。
10.根据权利要求9所述的方法, 其特征在于, 步骤4中, 采用 如下公式计算得到当前时
间 步 的 案 情 和 罪 名 注 意 力 编 码 向 量 A t t e n t i o n ( h i d d e n ,k e y s ) :
其中keys表示 罪名编码的输出序列, keyi为keys中第i个位置的值。权 利 要 求 书 2/2 页
3
CN 114519103 A
3
专利 一种多罪名预测方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:37上传分享