(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210093014.7
(22)申请日 2022.01.26
(71)申请人 中国科学技术大学
地址 230026 安徽省合肥市包河区金寨路
96号
(72)发明人 毛震东 张勇东 彭奕兴 张立成
(74)专利代理 机构 北京凯特来知识产权代理有
限公司 1 1260
专利代理师 郑立明 韩珂
(51)Int.Cl.
G06F 40/279(2020.01)
G06F 40/30(2020.01)
G06N 20/00(2019.01)
(54)发明名称
一种少样本机器阅读理解方法、 系统、 设备
及存储介质
(57)摘要
本发明公开了一种少样本机器阅读理解方
法、 系统、 设备及存储介质, 提示模板的构建使得
训练任务和预训练任务贴近, 更好地挖掘了预训
练语言模型的知识, 减少了训练量, 少样本场景
下防止了过拟合, 提示模板为训练任务提供了指
导, 在不同数据集上的迁移性更佳; 本发明提供
的方案更贴合真实场景中的少样 本情况, 能够更
有效地利用现有的预训练语言模型, 发掘其潜
力, 应用前 景非常广阔。
权利要求书3页 说明书8页 附图2页
CN 114444488 A
2022.05.06
CN 114444488 A
1.一种少样本 机器阅读理解方法, 其特 征在于, 包括:
训练阶段, 将包含问题文本、 带掩码的提示模板伪token和上下文文本的训练文本通过
提示模板编码器, 获得带有连续提示模板的输入数据; 将所述输入数据输入至包含双向编
码器与自回归解码器的双向自回归语言模型, 通过所述双向编 码器对所述输入数据进 行编
码, 利用给定的期望输出 的答案构造所述自回归解码器输入信息, 通过自回归解码器的自
注意力机制进行处理后, 采用交互注意力机制与所述双向编码器的输出进行交互, 获得解
码向量; 利用所述解码向量计算各个生成词的概率分布, 并构建损失函数对所述提示模板
编码器与双向 自回归语言模型进行训练;
预测阶段, 将给定的包含问题文本、 带掩码的提示模板伪token和上下文文本的输入文
本, 依次通过提 示模板编码器以及 双向自回归语言模型, 获得答案文本 。
2.根据权利要求1所述的一种少 样本机器阅读理解方法, 其特征在于, 所述包含问题文
本、 带掩码的提 示模板伪to ken和上下文文本的训练文本表示 为:
Input=Question: xq; p1, ..., pn: [mask]; Co ntext: xc
其中, Question表示问题, xq表示问题文本; p1, ..., pn表示随机产生的提示模板伪
token, n表示token的数目, token表示词标记; [mask]为掩码符号; Context表示上下文, xc
表示上下文文本。
3.根据权利要求1或2所述的一种少样本机器阅读理解方法, 其特征在于, 所述训练文
本通过提 示模板编码器, 获得 带有连续 提示模板的输入数据包括:
先将训练文本经过tokenizer得到全部 的token, 再输入至输入至嵌入层, 得到初始词
嵌入向量Embraw:
Embraw=Embraw[0: s]; Embraw[s: e]; Embraw[e: ]
其中, s表示伪 token的起始位置, token表示词标记, e表示伪 token结束位置; Embraw[0:
s]表示问题文本的初始词嵌入向量, Embraw[s: e]表示带掩码的提示模板伪token的初始词
嵌入向量, Embraw[e: ]表示上 下文文本的初始词嵌入向量;
将带掩码的提示模板伪token的初始词嵌入向量Embraw[s: e]输入至提示模板编码器,
获得新的词嵌入向量Embnew[s: e]:
Embnew[s: e]=P_Encoder(Embraw[s: e])
其中, P_Encoder 表示提示模板编码器;
利用新的词嵌入向量Embnew[s: e]替换初始词嵌入向量Embraw中的Embraw[s: e], 获得 的
词嵌入向量Embnew即为获得 带有连续 提示模板的输入数据:
Embnew=Embraw[0: s]; Embnew[s: e]; Embraw[e: ]。
4.根据权利要求1所述的一种少 样本机器阅读理解方法, 其特征在于, 所述双向编码器
由多层Transformer编码器结构堆叠而成, 编码过程表示 为:
H=Encoder(Embnew)
其中, Encoder 表示双向编码器, Embnew表示所述输入数据, H表示编码结果。
5.根据权利要求1所述的一种少 样本机器阅读理解方法, 其特征在于, 所述利用给定的
期望输出的答案构 造所述自回归解码 器输入信息, 通过自回归解码 器的自注意力机制进 行
处理后, 采用交 互注意力机制与所述双向编码器的输出进行交 互, 获得解码向量包括:
将自回归解码器的期望 输出y表示 为:权 利 要 求 书 1/3 页
2
CN 114444488 A
2y=Question: xq; p1, ..., pn: ya
其中, Question表示问题, xq表示问题文本; p1, ..., pn表示提示模板伪token, ya表示给
定的期望 输出的答案;
将y右移一位并在第一位补充 一个开始符号<so s>后, 记为 y’, y’对应的词嵌入向量EmbD
表示为:
EmbD=Emb<sos>; Embnew[0: sm]; Embya
其中, Emb<sos>为开始符号<sos>对应的词嵌入 向量, sm为带掩码的提示模板伪token中
掩码符号[mask]所在的位置, Embnew[0: sm]为输入数据Embnew中包含问题文本部分
Question: xq与带掩码的提示模板伪token从第1个token到sm位置处的词嵌入向量, Embya为
ya对应的词嵌入向量;
将y’对应的词嵌入向量EmbD通过自注意力机制处理为向量Y, 再结合双向编码器输 出的
编码向量H通过交 互注意力机制进行处 理, 最终得到解码向量HD。
6.根据权利要求1所述的一种少 样本机器阅读理解方法, 其特征在于, 利用所述自回归
解码器输出的解码向量计算各个生成词的概 率分布, 并构建损失函数包括:
将解码向量HD经过一层线性层得到logits, logits的每个位置经过Softmax层后输出该
位置的生成词的概 率分布, 表示 为:
HD=Decoder(EmbD)
logits=lm_head(HD)
P(yi)=Softmax(l ogits[i])
其中, Decoder表示自回归解码器, EmbD表示自回归解码器的输入信息; lm_head表示线
性层, logits[i]表示logits中第i个 位置的向量; P ′(yi)表示第i个 位置生成词为yi的概率,
yi为第i个位置生成词的真实标签;
损失函数为各位置生成词的概率分布与数据集真实数据的负对数似然的均值, 表示
为:
其中, LA表示生成词的数目。
7.根据权利要求1所述的一种少 样本机器阅读理解方法, 其特征在于, 利用所述自回归
解码器输出的解码向量计算各个生成词的概 率分布, 并构建损失函数包括:
将解码结果HD经过一层线性层得到logits, 将vocab_mask向量加到logits中, 得到
logitsc, logitsc每个位置经 过Softmax层后获得相应位置的生成词的概 率分布, 表示 为:
HD=Decoder(EmbD)
logits=lm_head(HD)
logitsc=logits+vocab_mask
P′(yi)=Softmax(l ogitsc[i])
其中, Decoder表示自回归解码器, EmbD表示自回归解码器的输入信息; lm_head表示线
性层, logitsc[i]表示logitsc中第i个位置的向量; P ′(yi)表示第i个位置生成词 为yi的概
率, yi为第i个位置生成词的真实标签; 对于训练文本, vocab_mask向量中, 若上下文文本中权 利 要 求 书 2/3 页
3
CN 114444488 A
3
专利 一种少样本机器阅读理解方法、系统、设备及存储介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:43上传分享