standard library
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210133050.1 (22)申请日 2022.02.14 (65)同一申请的已公布的文献号 申请公布号 CN 114510924 A (43)申请公布日 2022.05.17 (73)专利权人 哈尔滨工业大 学 地址 150001 黑龙江省哈尔滨市南岗区西 大直街92号 (72)发明人 冯骁骋 秦兵 顾宇轩 刘挺  马思成  (74)专利代理 机构 哈尔滨华夏松花江知识产权 代理有限公司 23213 专利代理师 岳昕 (51)Int.Cl. G06F 40/216(2020.01)G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) (56)对比文件 CN 106844345 A,2017.0 6.13 审查员 薛双双 (54)发明名称 一种基于预训练语言模型的文本生成方法 (57)摘要 一种基于预训练语 言模型的文本生成方法, 它属于自然语 言处理技术领域。 本发 明解决了 现 有加权解码的可控生成方法无法在保证生成文 本质量的前提下达到理想风格强度的问题。 本发 明提出了能够动态调节控制器权重的加权解码 框架, 该框架使用了一个规整模块, 能够根据当 前解码位置的语言模型信息对控制器的行为进 行约束。 如果当前解码位置不适合生成包含目标 风格的词语时, 规整模块会抑制控制器并使其失 效; 如果当前解码位置可以生 成与目标风格相关 的词语时, 规整模块会增强控制器并确保在该解 码位置生 成的词语包含目标风格。 本发明方法可 以应用于可控 文本生成。 权利要求书3页 说明书8页 附图1页 CN 114510924 B 2022.09.20 CN 114510924 B 1.一种基于预训练语言模型的文本生成方法, 其特征在于, 所述方法具体包括以下步 骤: 步骤一、 获取用于文本生成的基线模型; 步骤二、 计算获取的基线模型中的预训练语言模型在 当前解码位置下生成 目标风格的 倾向; 所述步骤二的具体实现过程采用下述方式A或方式B; 方式A的具体流 程为: 给定主题风格a和主题风格a所对应的词表Wa={w1,w2,...,wk}; 其中, wk为主题风格a 中第k个主题相关的关键词; 则预训练语言模型在当前解码位置i下生成目标风格的倾向tH为: 其中, P(xi=w|x<i)为当前解码位置i下词表Wa中单词w出现概 率; 方式B的具体流 程为: 给定属于风格a的文本集合为Da, 不属于风格a的文本集合为Da’, count(u,Da)为一个n ‑ gram词组u出现在文本集合Da中的次数, 则词组u相对于风格a的重要程度分数score(u,a) 为: 其中, ∈是用于平 滑的超参数, count(u,Da’)为词组u出现在文本集 合Da’中的次数; 同理, 分别得到各个n ‑gram词组相对于风格a的重要程度分数; 根据获得的重要程度分数对文本集合中的词组进行标注, 并在基线模型中引入额外的 attention层作为规整模块, 规整模块的输出为: K=Wk·HT V=Wv·HT c=softmax(Q ·K)·V 其中, H为预训练语言模型对于给定上文计算出的隐状态表示向量, HT为H的转置, H= (h1,h2,...,hi), hi是预训练语言模型在当前解码位置i时计算出的隐状态表示, c是 attention层计算出的整体表示; 则 其中, Wk,Wv,W,Q均为参数矩阵, K和V为 中间变量, tT为在当前解码位置下生成目标风格 的倾向, softmax(W ·c)[n]代表取出softmax(W ·c)结果中的第n维数值, n代表标注的第n 类, n=1,2,…,10, n′代表第n类所对应分数区间的中位数; 所述根据获得的重要程度分数对文本集 合中的词组进行 标注, 标注方法为: 将各个n‑gram词组相对于风格a的重要程度分数正则化到(0,1]之间后, 若某个n‑gram词组对应的正则化 值在(0,0.1]之间, 则将该n ‑gram词组标注为第1类; 若某个n‑gram词组对应的正则化值在(0.1,0.2]之间, 则将该n ‑gram词组标注为第2权 利 要 求 书 1/3 页 2 CN 114510924 B 2类; 若某个n‑gram词组对应的正则化值在(0.2,0.3]之间, 则将该n ‑gram词组标注为第3 类; 若某个n‑gram词组对应的正则化值在(0.3,0.4]之间, 则将该n ‑gram词组标注为第4 类; 若某个n‑gram词组对应的正则化值在(0.4,0.5]之间, 则将该n ‑gram词组标注为第5 类; 若某个n‑gram词组对应的正则化值在(0.5,0.6]之间, 则将该n ‑gram词组标注为第6 类; 若某个n‑gram词组对应的正则化值在(0.6,0.7]之间, 则将该n ‑gram词组标注为第7 类; 若某个n‑gram词组对应的正则化值在(0.7,0.8]之间, 则将该n ‑gram词组标注为第8 类; 若某个n‑gram词组对应的正则化值在(0.8,0.9]之间, 则将该n ‑gram词组标注为第9 类; 若某个n‑gram词组对应的正则化值在(0.9,1.0]之间, 则将该n ‑gram词组标注为第10 类; 步骤三、 根据 预训练语言模型在 当前解码位置下生成 目标风格的倾向对控制器进行约 束, 得到在当前解码位置下的条件生成概 率; 根据条件生成概 率进行目标风格的文本生成; 对应于方式A, 步骤三中所采取的具体过程 为: 其中, P(X|a)为在当前解码位置下的条件生成概率, P(xi|x<i)为预训练语言模型在当 前解码位置i时产生的概率分布, λ为超参数, f(a,P(x≤i)为在当前解码位置i时对控制器的 约束函数, P(a|x<i)为控制器在当前解码位置i时产生的概 率分布, N代 表总的解码位置数; f(a,P(x≤i))=tH/ τH 其中, τH为设定的阈值, tH为预训练语言模型在当前解码位置i下生成目标风格的倾向; 对应于方式B, 步骤三中所采取的具体过程 为: 其中, P(X|a)为在当前解码位置下的条件生成概率, P(xi|x<i)为预训练语言模型在当 前解码位置i时产生的概率分布, λ为超参数, f(a,P(x≤i)为在当前解码位置i时对控制器的 约束函数, P(a|x<i)为控制器在当前解码位置i时产生的概 率分布, N代 表总的解码位置数; f(a,P(x≤i))=tT/ τT 其中, τT为设定的阈值。 2.根据权利要求1所述的一种基于预训练语言模型的文本生成方法, 其特征在于, 所述 基线模型为P PLM、 Fudge、 GeDi或DExper ts。权 利 要 求 书 2/3 页 3 CN 114510924 B 3

PDF文档 专利 一种基于预训练语言模型的文本生成方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于预训练语言模型的文本生成方法 第 1 页 专利 一种基于预训练语言模型的文本生成方法 第 2 页 专利 一种基于预训练语言模型的文本生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:36上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。