专利 数据处理方法、装置、电子设备以及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210153080.9 (22)申请日 2022.02.18 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人李硕　许韩晨玺　张巨岩　岳洪达　许海洋　 (74)专利代理机构北京市汉坤律师事务所 11602 专利代理师姜浩然　吴丽丽 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06N 3/08(2006.01) G06F 16/2458(2019.01) (54)发明名称数据处理方法、装置、电子设备以及存储介质 (57)摘要本公开提供了一种数据处理方法、装置、电子设备以及存储介质，本公开涉及计算机技术领域，尤其涉及人工智能、数据挖掘及机器学习领域。实现方案为：获取用于建模的样本数据集；从样本数据集中选择第一样本数据；响应于确定对应于第一特征维度的第一语义向量和对应于第二特征维度的第二语义向量之间的相似度满足预设条件，基于第一样本数据生成第二样本数据；以及将第二样本数据加入样本数据集。权利要求书2页说明书10页附图6页 CN 114548261 A 2022.05.27 CN 114548261 A 1.一种数据处理方法，包括：获取用于建模的样本数据集，其中，所述样本数据集中的每一个样本数据至少包括第一特征维度和第二特征维度；从所述样本数据集中选择第一样本数据，其中，在所述第一样本数据中，所述第一特征维度的特征值为第一值，所述第二特征维度的特征值为第二值；响应于确定对应于所述第一特征维度的第一语义向量和对应于所述第二特征维度的第二语义向量之间的相似度满足预设条件，基于所述第一样本数据生成第二样本数据，其中，在所述第二样本数据中，所述第二特征维度的特征值为所述第一值，并且其中，所述第二样本数据与所述第一样本数据具有相同的样本标签；以及将所述第二样本数据加入所述样本数据集。 2.如权利要求1所述的方法，其中，在所述第二样本数据中，所述第一特征维度的特征值为所述第二值。 3.如权利要求1所述的方法，其中，在所述第二样本数据中，所述第一特征维度的特征值为所述第一值。 4.如权利要求1至 3中任一项所述的方法，还包括：响应于确定在所述样本数据集中，所述第一特征维度的特征值为所述第一值的多个样本数据的个数超过阈值，从所述多个样本数据中选择第三样本数据；将所述第三样本数据的所述第一特征维度的特征值更改为所述第二值，以生成第四样本数据；以及将所述第四样本数据加入所述样本数据集。 5.如权利要求4所述的方法，其中，所述第三样本数据是从所述多个样本数据中随机选择的。 6.一种模型训练方法，包括：获取第一样本数据集；基于所述第一样本数据集，通过执行如权利要求1至5中任一项所述的方法，获取加入增强样本数据后的第二样本数据集，其中，所述第二样本数据集中的每个样本数据包括相应的样本标签；初始化所述模型的多个参数；以及对于所述第二样本数据集中的每个样本数据，执行下述操作：将该样本数据输入所述模型，以获取模型计算结果；以及基于所述模型计算结果和该样本数据相应的样本标签，调整所述模型的多个参数。 7.一种数据处理装置，包括：获取单元，被配置为获取用于建模的样本数据集，其中，所述样本数据集中的每一个样本数据至少包括第一特征维度和第二特征维度；第一选择单元，被配置为从所述样本数据集中选择第一样本数据，其中，在所述第一样本数据中，所述第一特征维度的特征值为第一值，所述第二特征维度的特征值为第二值；第一生成单元，被配置为响应于确定对应于所述第一特征维度的第一语义向量和对应于所述第二特征维度的第二语义向量之间的相似度满足预设条件，基于所述第一样本数据生成第二样本数据，其中，在所述第二样本数据中，所述第二特征维度的特征值为所述第一权　利　要　求　书 1/2 页 2 CN 114548261 A 2值，并且其中，所述第二样本数据与所述第一样本数据具有相同的样本标签；以及第一添加单元，被配置为将所述第二样本数据加入所述样本数据集。 8.如权利要求7所述的装置，其中，在所述第二样本数据中，所述第一特征维度的特征值为所述第二值。 9.如权利要求7所述的装置，其中，在所述第二样本数据中，所述第一特征维度的特征值为所述第一值。 10.如权利要求7至9中任一项所述的装置，还包括：第二选择单元，被配置为响应于确定在所述样本数据集中，所述第一特征维度的特征值为所述第一值的多个样本数据的个数超过阈值，从所述多个样本数据中选择第三样本数据；第二生成单元，被配置为将所述第三样本数据的所述第一特征维度的特征值更改为所述第二值，以生成第四样本数据；以及第二添加单元，被配置为将所述第四样本数据加入所述样本数据集。 11.如权利要求10所述的方法，其中，所述第三样本数据是从所述多个样本数据中随机选择的。 12.一种模型训练装置，包括：第一获取单元，被配置为获取第一样本数据集；第二获取单元，被配置为基于所述第一样本数据集，通过执行如权利要求1至5中任一项所述的方法，获取加入增强样本数据后的第二样本数据集，其中，所述第二样本数据集中的每个样本数据包括相应的样本标签；初始化单元，被配置为初始化所述模型的多个参数；以及执行单元，被配置为对于所述第二样本数据集中的每个样本数据，执行下述子单元的操作，所述执行单元包括：输入子单元，被配置为将该样本数据输入所述模型，以获取模型计算结果；以及调整子单元，被配置为基于所述模型计算结果和该样本数据相应的样本标签，调整所述模型的多个参数。 13.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1 ‑5或6中任一项所述的方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1 ‑5或6中任一项所述的方法。 15.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1 ‑5或6中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114548261 A 3

专利 数据处理方法、装置、电子设备以及存储介质

专利数据处理方法、装置、电子设备以及存储介质