(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210133050.1
(22)申请日 2022.02.14
(65)同一申请的已公布的文献号
申请公布号 CN 114510924 A
(43)申请公布日 2022.05.17
(73)专利权人 哈尔滨工业大 学
地址 150001 黑龙江省哈尔滨市南岗区西
大直街92号
(72)发明人 冯骁骋 秦兵 顾宇轩 刘挺
马思成
(74)专利代理 机构 哈尔滨华夏松花江知识产权
代理有限公司 23213
专利代理师 岳昕
(51)Int.Cl.
G06F 40/216(2020.01)G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
(56)对比文件
CN 106844345 A,2017.0 6.13
审查员 薛双双
(54)发明名称
一种基于预训练语言模型的文本生成方法
(57)摘要
一种基于预训练语 言模型的文本生成方法,
它属于自然语 言处理技术领域。 本发 明解决了 现
有加权解码的可控生成方法无法在保证生成文
本质量的前提下达到理想风格强度的问题。 本发
明提出了能够动态调节控制器权重的加权解码
框架, 该框架使用了一个规整模块, 能够根据当
前解码位置的语言模型信息对控制器的行为进
行约束。 如果当前解码位置不适合生成包含目标
风格的词语时, 规整模块会抑制控制器并使其失
效; 如果当前解码位置可以生 成与目标风格相关
的词语时, 规整模块会增强控制器并确保在该解
码位置生 成的词语包含目标风格。 本发明方法可
以应用于可控 文本生成。
权利要求书3页 说明书8页 附图1页
CN 114510924 B
2022.09.20
CN 114510924 B
1.一种基于预训练语言模型的文本生成方法, 其特征在于, 所述方法具体包括以下步
骤:
步骤一、 获取用于文本生成的基线模型;
步骤二、 计算获取的基线模型中的预训练语言模型在 当前解码位置下生成 目标风格的
倾向;
所述步骤二的具体实现过程采用下述方式A或方式B;
方式A的具体流 程为:
给定主题风格a和主题风格a所对应的词表Wa={w1,w2,...,wk};
其中, wk为主题风格a 中第k个主题相关的关键词;
则预训练语言模型在当前解码位置i下生成目标风格的倾向tH为:
其中, P(xi=w|x<i)为当前解码位置i下词表Wa中单词w出现概 率;
方式B的具体流 程为:
给定属于风格a的文本集合为Da, 不属于风格a的文本集合为Da’, count(u,Da)为一个n ‑
gram词组u出现在文本集合Da中的次数, 则词组u相对于风格a的重要程度分数score(u,a)
为:
其中, ∈是用于平 滑的超参数, count(u,Da’)为词组u出现在文本集 合Da’中的次数;
同理, 分别得到各个n ‑gram词组相对于风格a的重要程度分数;
根据获得的重要程度分数对文本集合中的词组进行标注, 并在基线模型中引入额外的
attention层作为规整模块, 规整模块的输出为:
K=Wk·HT
V=Wv·HT
c=softmax(Q ·K)·V
其中, H为预训练语言模型对于给定上文计算出的隐状态表示向量, HT为H的转置, H=
(h1,h2,...,hi), hi是预训练语言模型在当前解码位置i时计算出的隐状态表示, c是
attention层计算出的整体表示; 则
其中, Wk,Wv,W,Q均为参数矩阵, K和V为 中间变量, tT为在当前解码位置下生成目标风格
的倾向, softmax(W ·c)[n]代表取出softmax(W ·c)结果中的第n维数值, n代表标注的第n
类, n=1,2,…,10, n′代表第n类所对应分数区间的中位数;
所述根据获得的重要程度分数对文本集 合中的词组进行 标注, 标注方法为:
将各个n‑gram词组相对于风格a的重要程度分数正则化到(0,1]之间后,
若某个n‑gram词组对应的正则化 值在(0,0.1]之间, 则将该n ‑gram词组标注为第1类;
若某个n‑gram词组对应的正则化值在(0.1,0.2]之间, 则将该n ‑gram词组标注为第2权 利 要 求 书 1/3 页
2
CN 114510924 B
2类;
若某个n‑gram词组对应的正则化值在(0.2,0.3]之间, 则将该n ‑gram词组标注为第3
类;
若某个n‑gram词组对应的正则化值在(0.3,0.4]之间, 则将该n ‑gram词组标注为第4
类;
若某个n‑gram词组对应的正则化值在(0.4,0.5]之间, 则将该n ‑gram词组标注为第5
类;
若某个n‑gram词组对应的正则化值在(0.5,0.6]之间, 则将该n ‑gram词组标注为第6
类;
若某个n‑gram词组对应的正则化值在(0.6,0.7]之间, 则将该n ‑gram词组标注为第7
类;
若某个n‑gram词组对应的正则化值在(0.7,0.8]之间, 则将该n ‑gram词组标注为第8
类;
若某个n‑gram词组对应的正则化值在(0.8,0.9]之间, 则将该n ‑gram词组标注为第9
类;
若某个n‑gram词组对应的正则化值在(0.9,1.0]之间, 则将该n ‑gram词组标注为第10
类;
步骤三、 根据 预训练语言模型在 当前解码位置下生成 目标风格的倾向对控制器进行约
束, 得到在当前解码位置下的条件生成概 率;
根据条件生成概 率进行目标风格的文本生成;
对应于方式A, 步骤三中所采取的具体过程 为:
其中, P(X|a)为在当前解码位置下的条件生成概率, P(xi|x<i)为预训练语言模型在当
前解码位置i时产生的概率分布, λ为超参数, f(a,P(x≤i)为在当前解码位置i时对控制器的
约束函数, P(a|x<i)为控制器在当前解码位置i时产生的概 率分布, N代 表总的解码位置数;
f(a,P(x≤i))=tH/ τH
其中, τH为设定的阈值, tH为预训练语言模型在当前解码位置i下生成目标风格的倾向;
对应于方式B, 步骤三中所采取的具体过程 为:
其中, P(X|a)为在当前解码位置下的条件生成概率, P(xi|x<i)为预训练语言模型在当
前解码位置i时产生的概率分布, λ为超参数, f(a,P(x≤i)为在当前解码位置i时对控制器的
约束函数, P(a|x<i)为控制器在当前解码位置i时产生的概 率分布, N代 表总的解码位置数;
f(a,P(x≤i))=tT/ τT
其中, τT为设定的阈值。
2.根据权利要求1所述的一种基于预训练语言模型的文本生成方法, 其特征在于, 所述
基线模型为P PLM、 Fudge、 GeDi或DExper ts。权 利 要 求 书 2/3 页
3
CN 114510924 B
3
专利 一种基于预训练语言模型的文本生成方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:36上传分享