专利 相似人群扩展模型训练方法、相似人群扩展方法和装置

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210024222.1 (22)申请日 2022.01.11 (65)同一申请的已公布的文献号申请公布号 CN 114048294 A (43)申请公布日 2022.02.15 (73)专利权人智者四海（北京）技术有限公司地址 100000 北京市海淀区学院路甲5号1 幢三层1#厂房3 -011 (72)发明人刘鹏鹤　刘欣益　薛娇　 (74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人何明伦 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01)G06F 40/30(2020.01) G06K 9/62(2022.01) 审查员刘栩宏 (54)发明名称相似人群扩展模型训练方法、相似人群扩展方法和装置 (57)摘要本发明提供一种相似人群扩展模型训练方法、相似人群扩展方法和装置，其中相似人群扩展模型训练方法包括：获取样本用户的样本历史行为信息和样本用户属性信息，以及目标人群对应的样本内容；利用相似人群扩展模型的用户分类分支，基于样本用户的感兴趣话题表示和用户属性表示对样本用户进行人群分类，得到样本用户的人群预测结果；利用相似人群扩展模型的用户内容匹配分支，基于内容表示和样本用户的感兴趣话题表示进行用户内容匹配，得到样本用户的匹配结果；基于样本用户的人群预测结果、匹配结果和人群标签，对相似人群扩展模型进行参数更新。本发明提高了相似人群扩展模型的用户分类准确性。权利要求书3页说明书13页附图4页 CN 114048294 B 2022.04.08 CN 114048294 B 1.一种相似人群扩展模型训练方法，其特征在于，包括：获取样本用户的样本历史行为信息和样本用户属性信息，以及目标人群对应的样本内容；其中，样本用户包括正样本用户，所述正样本用户的人群标签是所述目标人群；基于相似人群扩展模型的用户分类分支分别对所述样本用户的样本历史行为信息涉及的话题和所述样本用户的样本用户属性信息进行语义抽取，得到所述样本用户的感兴趣话题表示和用户属性表示，并基于所述感兴趣话题表示和用户属性表示对所述样本用户进行人群分类，得到所述样本用户的人群预测结果；基于所述相似人群扩展模型的用户内容匹配分支对所述样本内容进行语义抽取，得到所述样本内容的内容表示，并基于所述内容表示和所述样本用户的感兴趣话题表示进行用户内容匹配，得到所述样本用户的匹配结果；基于所述样本用户的人群预测结果、匹配结果和人群标签，对所述相似人群扩展模型进行参数更新；对所述样本用户的样本历史行为信息涉及的话题进行语义抽取，得到所述样本用户的感兴趣话题表示，具体包括：基于所述样本用户的样本历史行为信息对应的行为类型，对所述样本历史行为信息涉及的话题进行划分，得到不同行为类型涉及的话题；对不同行为类型涉及的话题分别进行语义抽取，得到每个行为类型涉及的话题的话题表示；基于自注意力机制，对每个行为类型涉及的话题的话题表示进行自注意力计算，得到每个行为类型涉及的话题的自注意力权重；基于每个行为类型涉及的话题的自注意力权重，对每个行为类型涉及的话题的话题表示进行加权融合，得到所述样本用户的感兴趣话题表示；所述对所述样本内容进行语义抽取，得到所述样本内容的内容表示，具体包括：获取所述样本内容的文本内容向量；获取所述样本内容涉及的话题的话题融合向量；其中，所述话题融合向量是基于所述样本内容涉及的各个话题的嵌入表示融合得到的；基于所述文本内容向量和所述话题融合向量，确定所述样本内容的内容表示。 2.根据权利要求1所述的相似人群扩展模型训练方法，其特征在于，对任一行为类型涉及的话题进行语义抽取，具体包括：基于所述任一行为类型涉及的各个话题的嵌入表示，以及与所述目标人群相关的各个目标话题的嵌入表示，确定所述任一行为类型涉及的各个话题和所述各个目标话题的相关性；基于所述任一行为类型涉及的各个话题和所述各个目标话题的相关性，确定所述任一行为类型涉及的各个话题的融合权重；基于所述任一行为类型涉及的各个话题的融合权重，对所述任一行为类型涉及的各个话题的嵌入表示进行加权融合，得到所述任一行为类型涉及的话题的话题表示。 3.根据权利要求2所述的相似人群扩展模型训练方法，其特征在于，所述基于所述任一行为类型涉及的各个话题和所述各个目标话题的相关性，确定所述任一行为类型涉及的各个话题的融合权重，具体包括：权　利　要　求　书 1/3 页 2 CN 114048294 B 2基于所述任一行为类型涉及的各个话题和所述各个目标话题的相关性，以及所述任一行为类型涉及的各个话题的点击量和/或点击率，确定所述任一行为类型涉及的各个话题的融合权重。 4.一种相似人群扩展方法，其特征在于，包括：确定待分类用户的历史行为信息和用户属性信息；利用相似人群扩展模型，基于所述待分类用户的历史行为信息和用户属性信息，对所述待分类用户进行人群分类，得到所述待分类用户的人群类型；所述人群类型用于指示所述待分类用户是否为目标人群；其中，所述相似人群扩展模型是基于如权利要求1至3任一项所述的相似人群扩展模型训练方法训练得到的。 5.根据权利要求4所述的相似人群扩展方法，其特征在于，所述利用相似人群扩展模型，基于所述待分类用户的历史行为信息和用户属性信息，对所述待分类用户进行人群分类，得到所述待分类用户的人群类型，具体包括：将所述待分类用户的历史行为信息和用户属性信息输入至所述相似人群扩展模型，得到所述相似人群扩展模型输出的所述待分类用户属于目标人群的第一得分；获取与所述待分类用户相关的多个相关内容；基于所述多个相关内容和所述目标人群对应的目标内容的重合情况，确定所述待分类用户属于所述目标人群的第二得分；基于所述待分类用户属于目标人群的第一得分和第二得分，确定所述待分类用户的人群类型。 6.一种相似人群扩展模型训练装置，其特征在于，包括：训练样本获取单元，用于获取样本用户的样本历史行为信息和样本用户属性信息，以及目标人群对应的样本内容；其中，样本用户包括正样本用户，所述正样本用户的人群标签是所述目标人群；人群分类单元，用于基于相似人群扩展模型的用户分类分支分别对所述样本用户的样本历史行为信息涉及的话题和所述样本用户的样本用户属性信息进行语义抽取，得到所述样本用户的感兴趣话题表示和用户属性表示，并基于所述感兴趣话题表示和用户属性表示对所述样本用户进行人群分类，得到所述样本用户的人群预测结果；用户内容匹配单元，用于基于所述相似人群扩展模型的用户内容匹配分支对所述样本内容进行语义抽取，得到所述样本内容的内容表示，并基于所述内容表示和所述样本用户的感兴趣话题表示进行用户内容匹配，得到所述样本用户的匹配结果；模型参数更新单元，用于基于所述样本用户的人群预测结果、匹配结果和人群标签，对所述相似人群扩展模型进行参数更新；对所述样本用户的样本历史行为信息涉及的话题进行语义抽取，得到所述样本用户的感兴趣话题表示，具体包括：基于所述样本用户的样本历史行为信息对应的行为类型，对所述样本历史行为信息涉及的话题进行划分，得到不同行为类型涉及的话题；对不同行为类型涉及的话题分别进行语义抽取，得到每个行为类型涉及的话题的话题表示；权　利　要　求　书 2/3 页 3 CN 114048294 B 3

专利 相似人群扩展模型训练方法、相似人群扩展方法和装置

专利相似人群扩展模型训练方法、相似人群扩展方法和装置