(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210163920.X
(22)申请日 2022.02.22
(71)申请人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 陶清 王彦 马骏 王少军
(74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
专利代理师 廖慧贤
(51)Int.Cl.
G06F 16/35(2019.01)
G06K 9/62(2022.01)
G06N 5/02(2006.01)
G06F 40/30(2020.01)G06F 16/33(2019.01)
(54)发明名称
数据增强方法和装置、 电子设备、 存 储介质
(57)摘要
本发明实施例提供数据增强方法和装置、 电
子设备、 存储介质, 涉及人工智能技术领域。 该数
据增强方法, 包括: 获取原始文本样本输入到预
训练的主题模 型, 计算每个句子中每个主题词对
文本句子的贡献值, 然后根据主题词对文本句子
的贡献值得到待替换词集合, 然后在预先训练得
到的词向量集合中选取候选词, 最后利用候选词
替换待替换词, 得到数据增强文本样本。 利用主
题模型得到原始文本样本中每个句子对应的主
题分布概率信息, 从而很好的衡量句子中每个词
对文本句子主题的贡献值, 在句子主题分布不受
影响的情况下完成数据增强, 同时借助预训练词
向量, 选择与待替换词语义相近的词作为替换
词, 最大程度保证句子的语义信息 。
权利要求书2页 说明书14页 附图5页
CN 114595327 A
2022.06.07
CN 114595327 A
1.一种数据增强方法, 其特 征在于, 所述方法包括:
获取待增强的原始文本样本; 其中, 所述原始文本样本包括至少一个文本句子, 所述原
始文本样本包括至少一个主题词;
将所述原始文本样本输入到预先训练得到的主题模型, 得到每一所述文本句子对应的
主题分布概 率信息, 所述主题模型为隐形 狄利克雷分配主题模型;
根据所述主题分布概 率信息计算每一所述主题词对所述文本句子的贡献值;
根据所述主题词的贡献值计算得到所述主题词的替换概率, 并根据所述替换概率从所
述文本句子中选出待替换词, 得到待替换词集 合;
根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选
词;
利用所述 候选词替换 所述待替换词, 得到数据增强文本样本 。
2.根据权利要求1所述的数据增强方法, 其特征在于, 所述将所述原始文本样本输入到
预训练的主题模型之前, 还 包括:
获取预设领域的训练样本集, 所述训练样本集包括未标注的训练文本样本和对应的概
率标签;
将所述训练文本样本输入初始主题模型中, 根据 预设主题数得到所述训练文本样本的
预测主题分布概 率;
根据所述预测主题分布概 率和对应的所述 概率标签计算得到损失值;
利用损失函数根据所述损失值调 整所述初始主题模型的模型权值, 直至损失函数满足
收敛条件, 训练得到所述主题模型。
3.根据权利要求1所述的数据增强方法, 其特征在于, 所述主题分布概率信息包括: 主
题词的主题分布概率和文本句子的主题分布概率, 所述根据所述主题分布概率信息计算每
一所述主题词对所述文本句子的贡献值, 包括:
根据第一公式计算文本句子的主题分布概 率;
计算主题词的主题分布概 率;
将预设的平滑参数、 所述主题分布概率、 所述主题分布概率进行相乘计算, 得到所述贡
献值;
其中, 所述第一公式为:
其中, ωi表示主题词, s=s(ω1,ω2,...,ωi,...,ωN)表示文本句子, 所述文本句子中
包含N个主题词, p(t|ωi)表示主题词的主题分布概率, p(t|s)表示文本句子的主题 分布概
率。
4.根据权利要求3所述的数据增强方法, 其特征在于, 所述根据 所述主题词的贡献值计
算得到所述主题词的替换概率, 并根据所述替换概率从所述文本句 子中选出待替换词, 得
到待替换词集 合, 包括:
根据所述主题词对文本句子的贡献值计算得到所述主题词的替换概 率;
根据预设替换词数量和所述 替换概率采样得到所述待替换词;
利用所述待替换词组成所述待替换词集 合。权 利 要 求 书 1/2 页
2
CN 114595327 A
25.根据权利要求4所述的数据增强方法, 其特征在于, 所述根据 所述主题词对文本句子
的贡献值计算得到所述主题词的替换概 率, 包括:
计算文本句子中所有 主题词的最大贡献值;
计算每一所述主题词的贡献值与 所述最大贡献值之间的差值, 将所有所述差值进行求
和得到贡献值总和;
计算每一所述差值与所述贡献值总和之间的比值, 得到所述主题词的替换概 率。
6.根据权利要求1所述的数据增强方法, 其特征在于, 所述在根据 所述待替换词集合中
的待替换词从预 先训练得到的词向量 集合中筛选得到候选词之前, 还 包括:
获取预设领域的训练文本样本;
利用Word2vec工具训练所述训练文本样本得到预训练词向量;
利用所述预训练词向量构成所述词向量 集合。
7.根据权利要求1至6任一项所述的数据增强方法, 其特征在于, 所述根据所述待替换
词集合中的待替换词从预 先训练得到的词向量 集合中筛选得到候选词, 包括:
计算所述待替换词集合中待替换词与所述词向量集合中预训练词向量在向量空间中
的距离;
对所述距离进行排序得到距离排序结果;
根据所述距离排序结果, 在所述词向量集合中选取预设数量的词作为所述候选词, 所
述候选词在所述词向量 集合中的位置分布服从几何分布。
8.一种文本样本数据增强装置, 其特 征在于, 包括:
样本获取模块, 用于获取待增强的原始文本样本; 其中, 所述原始文本样本包括至少一
个文本句子, 所述原 始文本样本包括至少一个主题词;
主题分布概率计算模块, 用于将所述原始文本样本输入到预先训练得到的主题模型,
得到每一所述文本句子对应的主题分布概率信息, 所述主题模型为隐形狄利克雷分配主题
模型;
贡献值计算模块, 用于根据 所述主题分布概率信 息计算每一所述主题词对所述文本句
子的贡献值;
待替换词选取模块, 用于根据所述主题词的贡献值计算得到所述主题词的替换概率,
并根据所述 替换概率从所述文本句子中选出待替换词, 得到待替换词集 合;
候选词选取模块, 用于根据 所述待替换词集合中的待替换词从预先训练得到的词向量
集合中筛选得到候选词;
数据增强模块, 用于利用所述 候选词替换 所述待替换词, 得到数据增强文本样本 。
9.一种电子设备, 其特 征在于, 包括:
至少一个存 储器;
至少一个处 理器;
所述存储器存储有计算机程序, 处 理器执行所述计算机程序以实现:
如权利要求1至7任一项所述的方法。
10.一种存储介质, 所述存储介质为计算机可读存储介质, 其特征在于, 所述计算机可
读存储介质存 储有计算机程序, 所述计算机程序用于使计算机执 行:
如权利要求1至7任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114595327 A
3
专利 数据增强方法和装置、电子设备、存储介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:29上传分享