专利 数据增强方法和装置、电子设备、存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210163920.X (22)申请日 2022.02.22 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人陶清　王彦　马骏　王少军　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 专利代理师廖慧贤 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 5/02(2006.01) G06F 40/30(2020.01)G06F 16/33(2019.01) (54)发明名称数据增强方法和装置、电子设备、存储介质 (57)摘要本发明实施例提供数据增强方法和装置、电子设备、存储介质，涉及人工智能技术领域。该数据增强方法，包括：获取原始文本样本输入到预训练的主题模型，计算每个句子中每个主题词对文本句子的贡献值，然后根据主题词对文本句子的贡献值得到待替换词集合，然后在预先训练得到的词向量集合中选取候选词，最后利用候选词替换待替换词，得到数据增强文本样本。利用主题模型得到原始文本样本中每个句子对应的主题分布概率信息，从而很好的衡量句子中每个词对文本句子主题的贡献值，在句子主题分布不受影响的情况下完成数据增强，同时借助预训练词向量，选择与待替换词语义相近的词作为替换词，最大程度保证句子的语义信息。权利要求书2页说明书14页附图5页 CN 114595327 A 2022.06.07 CN 114595327 A 1.一种数据增强方法，其特征在于，所述方法包括：获取待增强的原始文本样本；其中，所述原始文本样本包括至少一个文本句子，所述原始文本样本包括至少一个主题词；将所述原始文本样本输入到预先训练得到的主题模型，得到每一所述文本句子对应的主题分布概率信息，所述主题模型为隐形狄利克雷分配主题模型；根据所述主题分布概率信息计算每一所述主题词对所述文本句子的贡献值；根据所述主题词的贡献值计算得到所述主题词的替换概率，并根据所述替换概率从所述文本句子中选出待替换词，得到待替换词集合；根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词；利用所述候选词替换所述待替换词，得到数据增强文本样本。 2.根据权利要求1所述的数据增强方法，其特征在于，所述将所述原始文本样本输入到预训练的主题模型之前，还包括：获取预设领域的训练样本集，所述训练样本集包括未标注的训练文本样本和对应的概率标签；将所述训练文本样本输入初始主题模型中，根据预设主题数得到所述训练文本样本的预测主题分布概率；根据所述预测主题分布概率和对应的所述概率标签计算得到损失值；利用损失函数根据所述损失值调整所述初始主题模型的模型权值，直至损失函数满足收敛条件，训练得到所述主题模型。 3.根据权利要求1所述的数据增强方法，其特征在于，所述主题分布概率信息包括：主题词的主题分布概率和文本句子的主题分布概率，所述根据所述主题分布概率信息计算每一所述主题词对所述文本句子的贡献值，包括：根据第一公式计算文本句子的主题分布概率；计算主题词的主题分布概率；将预设的平滑参数、所述主题分布概率、所述主题分布概率进行相乘计算，得到所述贡献值；其中，所述第一公式为：其中， ωi表示主题词， s＝s(ω1,ω2,...,ωi,...,ωN)表示文本句子，所述文本句子中包含N个主题词， p(t|ωi)表示主题词的主题分布概率， p(t|s)表示文本句子的主题分布概率。 4.根据权利要求3所述的数据增强方法，其特征在于，所述根据所述主题词的贡献值计算得到所述主题词的替换概率，并根据所述替换概率从所述文本句子中选出待替换词，得到待替换词集合，包括：根据所述主题词对文本句子的贡献值计算得到所述主题词的替换概率；根据预设替换词数量和所述替换概率采样得到所述待替换词；利用所述待替换词组成所述待替换词集合。权　利　要　求　书 1/2 页 2 CN 114595327 A 25.根据权利要求4所述的数据增强方法，其特征在于，所述根据所述主题词对文本句子的贡献值计算得到所述主题词的替换概率，包括：计算文本句子中所有主题词的最大贡献值；计算每一所述主题词的贡献值与所述最大贡献值之间的差值，将所有所述差值进行求和得到贡献值总和；计算每一所述差值与所述贡献值总和之间的比值，得到所述主题词的替换概率。 6.根据权利要求1所述的数据增强方法，其特征在于，所述在根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词之前，还包括：获取预设领域的训练文本样本；利用Word2vec工具训练所述训练文本样本得到预训练词向量；利用所述预训练词向量构成所述词向量集合。 7.根据权利要求1至6任一项所述的数据增强方法，其特征在于，所述根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词，包括：计算所述待替换词集合中待替换词与所述词向量集合中预训练词向量在向量空间中的距离；对所述距离进行排序得到距离排序结果；根据所述距离排序结果，在所述词向量集合中选取预设数量的词作为所述候选词，所述候选词在所述词向量集合中的位置分布服从几何分布。 8.一种文本样本数据增强装置，其特征在于，包括：样本获取模块，用于获取待增强的原始文本样本；其中，所述原始文本样本包括至少一个文本句子，所述原始文本样本包括至少一个主题词；主题分布概率计算模块，用于将所述原始文本样本输入到预先训练得到的主题模型，得到每一所述文本句子对应的主题分布概率信息，所述主题模型为隐形狄利克雷分配主题模型；贡献值计算模块，用于根据所述主题分布概率信息计算每一所述主题词对所述文本句子的贡献值；待替换词选取模块，用于根据所述主题词的贡献值计算得到所述主题词的替换概率，并根据所述替换概率从所述文本句子中选出待替换词，得到待替换词集合；候选词选取模块，用于根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词；数据增强模块，用于利用所述候选词替换所述待替换词，得到数据增强文本样本。 9.一种电子设备，其特征在于，包括：至少一个存储器；至少一个处理器；所述存储器存储有计算机程序，处理器执行所述计算机程序以实现：如权利要求1至7任一项所述的方法。 10.一种存储介质，所述存储介质为计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使计算机执行：如权利要求1至7任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114595327 A 3

专利 数据增强方法和装置、电子设备、存储介质

专利数据增强方法和装置、电子设备、存储介质