专利 一种少样本机器阅读理解方法、系统、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210093014.7 (22)申请日 2022.01.26 (71)申请人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人毛震东　张勇东　彭奕兴　张立成　 (74)专利代理机构北京凯特来知识产权代理有限公司 1 1260 专利代理师郑立明　韩珂 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称一种少样本机器阅读理解方法、系统、设备及存储介质 (57)摘要本发明公开了一种少样本机器阅读理解方法、系统、设备及存储介质，提示模板的构建使得训练任务和预训练任务贴近，更好地挖掘了预训练语言模型的知识，减少了训练量，少样本场景下防止了过拟合，提示模板为训练任务提供了指导，在不同数据集上的迁移性更佳；本发明提供的方案更贴合真实场景中的少样本情况，能够更有效地利用现有的预训练语言模型，发掘其潜力，应用前景非常广阔。权利要求书3页说明书8页附图2页 CN 114444488 A 2022.05.06 CN 114444488 A 1.一种少样本机器阅读理解方法，其特征在于，包括：训练阶段，将包含问题文本、带掩码的提示模板伪token和上下文文本的训练文本通过提示模板编码器，获得带有连续提示模板的输入数据；将所述输入数据输入至包含双向编码器与自回归解码器的双向自回归语言模型，通过所述双向编码器对所述输入数据进行编码，利用给定的期望输出的答案构造所述自回归解码器输入信息，通过自回归解码器的自注意力机制进行处理后，采用交互注意力机制与所述双向编码器的输出进行交互，获得解码向量；利用所述解码向量计算各个生成词的概率分布，并构建损失函数对所述提示模板编码器与双向自回归语言模型进行训练；预测阶段，将给定的包含问题文本、带掩码的提示模板伪token和上下文文本的输入文本，依次通过提示模板编码器以及双向自回归语言模型，获得答案文本。 2.根据权利要求1所述的一种少样本机器阅读理解方法，其特征在于，所述包含问题文本、带掩码的提示模板伪to ken和上下文文本的训练文本表示为： Input＝Question： xq； p1， ...， pn： [mask]； Co ntext： xc 其中， Question表示问题， xq表示问题文本； p1， ...， pn表示随机产生的提示模板伪 token， n表示token的数目， token表示词标记； [mask]为掩码符号； Context表示上下文， xc 表示上下文文本。 3.根据权利要求1或2所述的一种少样本机器阅读理解方法，其特征在于，所述训练文本通过提示模板编码器，获得带有连续提示模板的输入数据包括：先将训练文本经过tokenizer得到全部的token，再输入至输入至嵌入层，得到初始词嵌入向量Embraw： Embraw＝Embraw[0： s]； Embraw[s： e]； Embraw[e： ] 其中， s表示伪 token的起始位置， token表示词标记， e表示伪 token结束位置； Embraw[0： s]表示问题文本的初始词嵌入向量， Embraw[s： e]表示带掩码的提示模板伪token的初始词嵌入向量， Embraw[e： ]表示上下文文本的初始词嵌入向量；将带掩码的提示模板伪token的初始词嵌入向量Embraw[s： e]输入至提示模板编码器，获得新的词嵌入向量Embnew[s： e]： Embnew[s： e]＝P_Encoder(Embraw[s： e]) 其中， P_Encoder 表示提示模板编码器；利用新的词嵌入向量Embnew[s： e]替换初始词嵌入向量Embraw中的Embraw[s： e]，获得的词嵌入向量Embnew即为获得带有连续提示模板的输入数据： Embnew＝Embraw[0： s]； Embnew[s： e]； Embraw[e： ]。 4.根据权利要求1所述的一种少样本机器阅读理解方法，其特征在于，所述双向编码器由多层Transformer编码器结构堆叠而成，编码过程表示为： H＝Encoder(Embnew) 其中， Encoder 表示双向编码器， Embnew表示所述输入数据， H表示编码结果。 5.根据权利要求1所述的一种少样本机器阅读理解方法，其特征在于，所述利用给定的期望输出的答案构造所述自回归解码器输入信息，通过自回归解码器的自注意力机制进行处理后，采用交互注意力机制与所述双向编码器的输出进行交互，获得解码向量包括：将自回归解码器的期望输出y表示为：权　利　要　求　书 1/3 页 2 CN 114444488 A 2y＝Question： xq； p1， ...， pn： ya 其中， Question表示问题， xq表示问题文本； p1， ...， pn表示提示模板伪token， ya表示给定的期望输出的答案；将y右移一位并在第一位补充一个开始符号<so s>后，记为 y’， y’对应的词嵌入向量EmbD 表示为： EmbD＝Emb<sos>； Embnew[0： sm]； Embya 其中， Emb<sos>为开始符号<sos>对应的词嵌入向量， sm为带掩码的提示模板伪token中掩码符号[mask]所在的位置， Embnew[0： sm]为输入数据Embnew中包含问题文本部分 Question： xq与带掩码的提示模板伪token从第1个token到sm位置处的词嵌入向量， Embya为 ya对应的词嵌入向量；将y’对应的词嵌入向量EmbD通过自注意力机制处理为向量Y，再结合双向编码器输出的编码向量H通过交互注意力机制进行处理，最终得到解码向量HD。 6.根据权利要求1所述的一种少样本机器阅读理解方法，其特征在于，利用所述自回归解码器输出的解码向量计算各个生成词的概率分布，并构建损失函数包括：将解码向量HD经过一层线性层得到logits， logits的每个位置经过Softmax层后输出该位置的生成词的概率分布，表示为： HD＝Decoder(EmbD) logits＝lm_head(HD) P(yi)＝Softmax(l ogits[i]) 其中， Decoder表示自回归解码器， EmbD表示自回归解码器的输入信息； lm_head表示线性层， logits[i]表示logits中第i个位置的向量； P ′(yi)表示第i个位置生成词为yi的概率， yi为第i个位置生成词的真实标签；损失函数为各位置生成词的概率分布与数据集真实数据的负对数似然的均值，表示为：其中， LA表示生成词的数目。 7.根据权利要求1所述的一种少样本机器阅读理解方法，其特征在于，利用所述自回归解码器输出的解码向量计算各个生成词的概率分布，并构建损失函数包括：将解码结果HD经过一层线性层得到logits，将vocab_mask向量加到logits中，得到 logitsc， logitsc每个位置经过Softmax层后获得相应位置的生成词的概率分布，表示为： HD＝Decoder(EmbD) logits＝lm_head(HD) logitsc＝logits+vocab_mask P′(yi)＝Softmax(l ogitsc[i]) 其中， Decoder表示自回归解码器， EmbD表示自回归解码器的输入信息； lm_head表示线性层， logitsc[i]表示logitsc中第i个位置的向量； P ′(yi)表示第i个位置生成词为yi的概率， yi为第i个位置生成词的真实标签；对于训练文本， vocab_mask向量中，若上下文文本中权　利　要　求　书 2/3 页 3 CN 114444488 A 3

专利 一种少样本机器阅读理解方法、系统、设备及存储介质

专利一种少样本机器阅读理解方法、系统、设备及存储介质