专利 一种基于预训练语言模型的文本生成方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210133050.1 (22)申请日 2022.02.14 (65)同一申请的已公布的文献号申请公布号 CN 114510924 A (43)申请公布日 2022.05.17 (73)专利权人哈尔滨工业大学地址 150001 黑龙江省哈尔滨市南岗区西大直街92号 (72)发明人冯骁骋　秦兵　顾宇轩　刘挺　马思成　 (74)专利代理机构哈尔滨华夏松花江知识产权代理有限公司 23213 专利代理师岳昕 (51)Int.Cl. G06F 40/216(2020.01)G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) (56)对比文件 CN 106844345 A,2017.0 6.13 审查员薛双双 (54)发明名称一种基于预训练语言模型的文本生成方法 (57)摘要一种基于预训练语言模型的文本生成方法，它属于自然语言处理技术领域。本发明解决了现有加权解码的可控生成方法无法在保证生成文本质量的前提下达到理想风格强度的问题。本发明提出了能够动态调节控制器权重的加权解码框架，该框架使用了一个规整模块，能够根据当前解码位置的语言模型信息对控制器的行为进行约束。如果当前解码位置不适合生成包含目标风格的词语时，规整模块会抑制控制器并使其失效；如果当前解码位置可以生成与目标风格相关的词语时，规整模块会增强控制器并确保在该解码位置生成的词语包含目标风格。本发明方法可以应用于可控文本生成。权利要求书3页说明书8页附图1页 CN 114510924 B 2022.09.20 CN 114510924 B 1.一种基于预训练语言模型的文本生成方法，其特征在于，所述方法具体包括以下步骤：步骤一、获取用于文本生成的基线模型；步骤二、计算获取的基线模型中的预训练语言模型在当前解码位置下生成目标风格的倾向；所述步骤二的具体实现过程采用下述方式A或方式B；方式A的具体流程为：给定主题风格a和主题风格a所对应的词表Wa＝{w1,w2,...,wk}；其中， wk为主题风格a 中第k个主题相关的关键词；则预训练语言模型在当前解码位置i下生成目标风格的倾向tH为：其中， P(xi＝w|x＜i)为当前解码位置i下词表Wa中单词w出现概率；方式B的具体流程为：给定属于风格a的文本集合为Da，不属于风格a的文本集合为Da’， count(u,Da)为一个n ‑ gram词组u出现在文本集合Da中的次数，则词组u相对于风格a的重要程度分数score(u,a) 为：其中， ∈是用于平滑的超参数， count(u,Da’)为词组u出现在文本集合Da’中的次数；同理，分别得到各个n ‑gram词组相对于风格a的重要程度分数；根据获得的重要程度分数对文本集合中的词组进行标注，并在基线模型中引入额外的 attention层作为规整模块，规整模块的输出为： K＝Wk·HT V＝Wv·HT c＝softmax(Q ·K)·V 其中， H为预训练语言模型对于给定上文计算出的隐状态表示向量， HT为H的转置， H＝ (h1,h2,...,hi)， hi是预训练语言模型在当前解码位置i时计算出的隐状态表示， c是 attention层计算出的整体表示；则其中， Wk,Wv,W,Q均为参数矩阵， K和V为中间变量， tT为在当前解码位置下生成目标风格的倾向， softmax(W ·c)[n]代表取出softmax(W ·c)结果中的第n维数值， n代表标注的第n 类， n＝1,2,…,10， n′代表第n类所对应分数区间的中位数；所述根据获得的重要程度分数对文本集合中的词组进行标注，标注方法为：将各个n‑gram词组相对于风格a的重要程度分数正则化到(0,1]之间后，若某个n‑gram词组对应的正则化值在(0,0.1]之间，则将该n ‑gram词组标注为第1类；若某个n‑gram词组对应的正则化值在(0.1,0.2]之间，则将该n ‑gram词组标注为第2权　利　要　求　书 1/3 页 2 CN 114510924 B 2类；若某个n‑gram词组对应的正则化值在(0.2,0.3]之间，则将该n ‑gram词组标注为第3 类；若某个n‑gram词组对应的正则化值在(0.3,0.4]之间，则将该n ‑gram词组标注为第4 类；若某个n‑gram词组对应的正则化值在(0.4,0.5]之间，则将该n ‑gram词组标注为第5 类；若某个n‑gram词组对应的正则化值在(0.5,0.6]之间，则将该n ‑gram词组标注为第6 类；若某个n‑gram词组对应的正则化值在(0.6,0.7]之间，则将该n ‑gram词组标注为第7 类；若某个n‑gram词组对应的正则化值在(0.7,0.8]之间，则将该n ‑gram词组标注为第8 类；若某个n‑gram词组对应的正则化值在(0.8,0.9]之间，则将该n ‑gram词组标注为第9 类；若某个n‑gram词组对应的正则化值在(0.9,1.0]之间，则将该n ‑gram词组标注为第10 类；步骤三、根据预训练语言模型在当前解码位置下生成目标风格的倾向对控制器进行约束，得到在当前解码位置下的条件生成概率；根据条件生成概率进行目标风格的文本生成；对应于方式A，步骤三中所采取的具体过程为：其中， P(X|a)为在当前解码位置下的条件生成概率， P(xi|x＜i)为预训练语言模型在当前解码位置i时产生的概率分布， λ为超参数， f(a,P(x≤i)为在当前解码位置i时对控制器的约束函数， P(a|x＜i)为控制器在当前解码位置i时产生的概率分布， N代表总的解码位置数； f(a,P(x≤i))＝tH/ τH 其中， τH为设定的阈值， tH为预训练语言模型在当前解码位置i下生成目标风格的倾向；对应于方式B，步骤三中所采取的具体过程为：其中， P(X|a)为在当前解码位置下的条件生成概率， P(xi|x＜i)为预训练语言模型在当前解码位置i时产生的概率分布， λ为超参数， f(a,P(x≤i)为在当前解码位置i时对控制器的约束函数， P(a|x＜i)为控制器在当前解码位置i时产生的概率分布， N代表总的解码位置数； f(a,P(x≤i))＝tT/ τT 其中， τT为设定的阈值。 2.根据权利要求1所述的一种基于预训练语言模型的文本生成方法，其特征在于，所述基线模型为P PLM、 Fudge、 GeDi或DExper ts。权　利　要　求　书 2/3 页 3 CN 114510924 B 3

专利 一种基于预训练语言模型的文本生成方法

专利一种基于预训练语言模型的文本生成方法