(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210024222.1
(22)申请日 2022.01.11
(65)同一申请的已公布的文献号
申请公布号 CN 114048294 A
(43)申请公布日 2022.02.15
(73)专利权人 智者四海 (北京) 技 术有限公司
地址 100000 北京市海淀区学院路甲5号1
幢三层1#厂房3 -011
(72)发明人 刘鹏鹤 刘欣益 薛娇
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
代理人 何明伦
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)G06F 40/30(2020.01)
G06K 9/62(2022.01)
审查员 刘栩宏
(54)发明名称
相似人群扩展模 型训练方法、 相似 人群扩展
方法和装置
(57)摘要
本发明提供一种相似人群扩展模型训练方
法、 相似人群扩展方法和装置, 其中相似人群扩
展模型训练方法包括: 获取样 本用户的样本历史
行为信息和样本用户属性信息, 以及目标人群对
应的样本内容; 利用相似人群扩展模 型的用户分
类分支, 基于样本用户的感兴趣话题表示和用户
属性表示对样本用户进行人群分类, 得到样本用
户的人群预测结果; 利用相似人群扩展模型的用
户内容匹配分支, 基于内容表示和样本用户的感
兴趣话题表 示进行用户内容匹配, 得到样本用户
的匹配结果; 基于样本用户的人群预测结果、 匹
配结果和人群标签, 对相似人群扩展模型进行参
数更新。 本发 明提高了相似人群扩展模型的用户
分类准确性。
权利要求书3页 说明书13页 附图4页
CN 114048294 B
2022.04.08
CN 114048294 B
1.一种相似人群扩展模型训练方法, 其特 征在于, 包括:
获取样本用户的样本历史行为信 息和样本用户属性信 息, 以及目标人群对应的样本 内
容; 其中, 样本用户包括 正样本用户, 所述 正样本用户的人群标签是 所述目标 人群;
基于相似人群扩展模型的用户分类分支分别对所述样本用户的样本历史行为信息涉
及的话题和所述样本用户的样本用户属性信息进 行语义抽取, 得到所述样本用户的感兴趣
话题表示和用户属性表示, 并基于所述感兴趣话题表示和用户属性表示对 所述样本用户进
行人群分类, 得到所述样本用户的人群预测结果;
基于所述相似人群扩展模型的用户内容匹配分支对所述样本 内容进行语义抽取, 得到
所述样本内容的内容表示, 并基于所述内容表示和所述样本用户的感兴趣话题表示进 行用
户内容匹配, 得到所述样本用户的匹配结果;
基于所述样本用户的人群预测结果、 匹配结果和人群标签, 对所述相似人群扩展模型
进行参数 更新;
对所述样本用户的样本历史行为信 息涉及的话题进行语义抽取, 得到所述样本用户的
感兴趣话题 表示, 具体包括:
基于所述样本用户的样本历史行为信 息对应的行为类型, 对所述样本历史行为信 息涉
及的话题进行划分, 得到不同行为类型 涉及的话题;
对不同行为类型涉及的话题分别进行语义抽取, 得到每个行为类型涉及的话题的话题
表示;
基于自注意力机制, 对每个行为类型涉及的话题的话题表示进行自注意力计算, 得到
每个行为类型 涉及的话题的自注意力权 重;
基于每个行为类型涉及的话题的自注意力 权重, 对每个行为类型涉及的话题的话题表
示进行加权融合, 得到所述样本用户的感兴趣话题 表示;
所述对所述样本内容进行语义抽取, 得到所述样本内容的内容表示, 具体包括:
获取所述样本内容的文本内容向量;
获取所述样本内容涉及的话题的话题融合向量; 其中, 所述话题融合向量是基于所述
样本内容涉及的各个话题的嵌入表示融合得到的;
基于所述文本内容向量和所述 话题融合向量, 确定所述样本内容的内容表示。
2.根据权利要求1所述的相似人群扩展模型训练方法, 其特征在于, 对任一行为类型涉
及的话题进行语义抽取, 具体包括:
基于所述任一行为类型涉及的各个话题的嵌入表示, 以及与 所述目标人群相关的各个
目标话题的嵌入表示, 确定所述任一行为类型涉及的各个话题和所述各个目标话题的相关
性;
基于所述任一行为类型涉及的各个话题和所述各个目标话题的相关性, 确定所述任一
行为类型 涉及的各个话题的融合权 重;
基于所述任一行为类型涉及的各个话题的融合权重, 对所述任一行为类型涉及的各个
话题的嵌入表示进行加权融合, 得到所述任一行为类型 涉及的话题的话题 表示。
3.根据权利要求2所述的相似人群扩展模型训练方法, 其特征在于, 所述基于所述任一
行为类型涉及的各个话题和所述各个目标话题的相关性, 确定所述任一行为类型涉及的各
个话题的融合权 重, 具体包括:权 利 要 求 书 1/3 页
2
CN 114048294 B
2基于所述任一行为类型涉及的各个话题和所述各个目标话题的相关性, 以及所述任一
行为类型涉及的各个话题的点击量和/或点击率, 确定所述任一行为类型涉及的各个话题
的融合权 重。
4.一种相似人群扩展方法, 其特 征在于, 包括:
确定待分类用户的历史行为信息和用户属性信息;
利用相似人群扩展模型, 基于所述待分类用户的历史行为信息和用户 属性信息, 对所
述待分类用户进行人群分类, 得到所述待分类用户的人群类型; 所述人群类型用于指示所
述待分类用户是否为目标 人群;
其中, 所述相似人群扩展模型是基于如权利要求1至3任一项所述的相似人群扩展模型
训练方法训练得到的。
5.根据权利要求4所述的相似人群扩展方法, 其特征在于, 所述利用相似人群扩展模
型, 基于所述待分类用户的历史行为信息和用户属 性信息, 对所述待分类用户进行人群分
类, 得到所述待分类用户的人群 类型, 具体包括:
将所述待分类用户的历史行为信 息和用户属性信 息输入至所述相似人群扩展模型, 得
到所述相似人群扩展模型输出的所述待分类用户属于目标 人群的第一得分;
获取与所述待分类用户相关的多个相关内容;
基于所述多个相关内容和所述目标人群对应的目标内容的重合情况, 确定所述待分类
用户属于所述目标 人群的第二得分;
基于所述待分类用户属于目标人群的第 一得分和第 二得分, 确定所述待分类用户的人
群类型。
6.一种相似人群扩展模型训练装置, 其特 征在于, 包括:
训练样本获取单元, 用于获取样本用户的样本历史行为信息和样本用户 属性信息, 以
及目标人群对应的样本内容; 其中, 样本用户包括正样本用户, 所述正样本用户的人群标签
是所述目标 人群;
人群分类单元, 用于基于相似人群扩展模型的用户分类分支分别对所述样本用户的样
本历史行为信息涉及的话题和所述样本用户的样本用户属性信息进行语义抽取, 得到所述
样本用户的感兴趣话题表示和用户属性表示, 并基于所述感兴趣话题表示和用户属性表示
对所述样本用户进行 人群分类, 得到所述样本用户的人群预测结果;
用户内容匹配单元, 用于基于所述相似人群扩展模型的用户内容匹配分支对所述样本
内容进行语义抽取, 得到所述样本内容的内容表示, 并基于所述内容表示和所述样本用户
的感兴趣话题 表示进行用户内容匹配, 得到所述样本用户的匹配结果;
模型参数更新单元, 用于基于所述样本用户的人群预测结果、 匹配结果和人群标签, 对
所述相似人群扩展模型进行参数 更新;
对所述样本用户的样本历史行为信 息涉及的话题进行语义抽取, 得到所述样本用户的
感兴趣话题 表示, 具体包括:
基于所述样本用户的样本历史行为信 息对应的行为类型, 对所述样本历史行为信 息涉
及的话题进行划分, 得到不同行为类型 涉及的话题;
对不同行为类型涉及的话题分别进行语义抽取, 得到每个行为类型涉及的话题的话题
表示;权 利 要 求 书 2/3 页
3
CN 114048294 B
3
专利 相似人群扩展模型训练方法、相似人群扩展方法和装置
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:58上传分享