专利 一种多罪名预测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210124252.X (22)申请日 2022.02.10 (71)申请人河海大学地址 210024 江苏省南京市鼓楼区西康路1 号 (72)发明人张涛　徐良　张燕　 (74)专利代理机构江苏圣典律师事务所 32 237 专利代理师胡建华　于瀚文 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/34(2019.01) G06F 40/157(2020.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 10/04(2012.01) G06Q 50/18(2012.01) (54)发明名称一种多罪名预测方法 (57)摘要本发明提供了一种多罪名预测方法，包括：步骤1，对文本摘要模型进行训练，得到案情摘要；步骤2，将案情描述与案情摘要拼接，得到当前时间步的案情编码向量；步骤3，采用UniLM模型的双向语言模型对向量序列进行编码，取编码后所有位置的输出向量；步骤4，计算得到当前时间步的案情和罪名注意力编码向量；步骤5，得到当前时间步预测出的罪名。本发明能够获取各罪名的语义信息以及罪名之间的相互关系，最后在解码过程中加入案情 ‑罪名注意力机制，计算解码过程中隐藏状态和所有罪名的相关性，显著提升了多罪名预测的准确率。权利要求书2页说明书7页附图2页 CN 114519103 A 2022.05.20 CN 114519103 A 1.一种多罪名预测方法，其特征在于，包括如下步骤：步骤1，对文本摘要模型进行训练，将案情描述输入训练好的文本摘要模型，得到案情摘要；步骤2，将案情描述与案情摘要拼接；步骤3，将所有罪名精简为长度为X1的字符串；步骤4，取步骤2得到的案情编码向量作为解码过程中的当前隐藏状态，计算得到当前时间步的案情和罪名注意力编码向量；步骤5，将案情编码向量与案情和罪名注意力编码向量拼接作为解码过程中的当前时间步的输入，将所述输入经过全连接层映射到中文字典的维度，取概率最大的位置对应的罪名即当前时间步预测出的罪名。 2.根据权利要求1所述的方法，其特征在于，步骤1包括：文本摘要模型选择UniLM模型，在训练文本摘要模型时，输入内容包括： [CLS]新闻内容[SEP]新闻摘要[SEP]，其中[CLS]为开始标记， [SEP]为结束标记，通过UniLM模型的掩码机制掩盖新闻摘要中的字，让UniLM模型学习逐个恢复被掩盖的字，训练目标是基于上下文最大化被掩盖字的似然度，结束标记 [SEP]也能够被掩盖，模型预测到结束标记即结束预测。 3.根据权利要求2所述的方法，其特征在于，步骤2包括：案情描述与案情摘要之间加入@@@作为分隔符，通过字级分词器和中文字典分别进行分词和词嵌入，将输入文本转化为向量序列，采用UniLM模型的双向语言模型对向量序列进行编码，取输出的最后一个向量作为当前时间步的案情编码向量。 4.根据权利要求3所述的方法，其特征在于，步骤2中，训练时案情描述和对应罪名以句子对的形式进行输入，测试时仅输入案情描述，格式为： [CLS]案情描述@@@案情摘要[SEP]，其中@@@用于区分案情描述和案情摘要，每个字的表征方式由词嵌入、位置嵌入和分段嵌入组合而成。 5.根据权利要求4所述的方法，其特征在于，步骤2中，首先由Bert的字级分词器对拼接的案情描述和案情摘要进行分词，返回分词后的字的数组，再根据中文字典中字和数值的一一对应关系将字的数组转化为值的数组，通过深度学习pytorch框架的nn.embedding方法将每个字的独热编码转化为768维的稠密向量；位置嵌入将单词的位置信息编码成特征向量，从而引入单词位置关系。 6.根据权利要求5所述的方法，其特征在于，步骤2还包括：对于长度512的输入，词向量维度为768，位置嵌入是(512， 768)的查询表，序列的每个位置的位置嵌入对应表中相应的行，其中的值在模型训练过程中不断学习。 7.根据权利要求6所述的方法，其特征在于，步骤2还包括： UniLM模型的骨干网络包括 24层Trans former网络，经过词嵌入之后， UniLM模型的输入向量转化为由768维词向量组成的序列H0＝[x1， ...， x|x|]，送入24层Transformer网络，在不同层融合上下文信息，每层Transformer使用多头注意力融合上一层输出的向量，第l层编码输出为表示词向量在第l层编码对应位置的输出；对于第l层Transformer网络， Transformer网络中的自注意头Al的输出的计算方式为： Q＝Hl‑1WlQ，权　利　要　求　书 1/2 页 2 CN 114519103 A 2K＝Hl‑1WlK， V＝Hl‑1WlV 上一层的输出Hl‑1通过第l层三个参数矩阵WlQ、 WlK、 WlV分别被线性的投影为查询向量Q、键向量K和值向量V， dk为词向量的维度，掩码矩阵M则用来控制对应位置的信息是否对上下文可见， Mij表示掩码矩阵M中第i行第j列的值；如果Mij值为0，则allow to attend表示所有字都可以访问，如果Mij值为‑∞，则prevent from attending表示对上下文不可见。 8.根据权利要求7所述的方法，其特征在于，步骤3包括：通过字级分词器和中文词典分别进行分词和词嵌入，将输入文本转化为向量序列，采用UniLM模型的双向语言模型对向量序列进行编码，取编码后所有位置的输出向量。 9.根据权利要求8所述的方法，其特征在于，步骤4包括：取步骤2的案情编码向量作为解码过程中的当前隐藏状态，计算当前隐藏状态和罪名编码中每一项的相关性系数，对于首次计算注意力，结束标记[SEP]对应的输出向量作为解码器的初始隐藏状态hidden，对 hidden向量和步骤3罪名编码的输出序列[key1， key2，…， keyn]做点积运算： similarity(hid den， keyi)＝hidden·keyi 其中keyi为罪名编码的输出序列中的第i项， n为罪名序列的长度， si milarity为当前隐藏状态hidden与所有罪名之间的相关性系数，把得到的相关性系数归一化指数函数 softmax进行归一化：其中similarit yi表示similarit y中第i项的值， Lx表示similarity的总长度， ai代表罪名编码的输出序列第i项的注意力权重，计算得到当前时间步的案情和罪名注意力编码向量Attention(hidden， keys)。 10.根据权利要求9所述的方法，其特征在于，步骤4中，采用如下公式计算得到当前时间步的案情和罪名注意力编码向量 A t t e n t i o n ( h i d d e n ，k e y s ) ：其中keys表示罪名编码的输出序列， keyi为keys中第i个位置的值。权　利　要　求　书 2/2 页 3 CN 114519103 A 3

专利 一种多罪名预测方法

专利一种多罪名预测方法