(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221010764 4.5
(22)申请日 2022.01.28
(71)申请人 武汉理工大 学
地址 430070 湖北省武汉市洪山区珞狮路
122号
(72)发明人 陈冬林 吴天昊 徐书情
(74)专利代理 机构 武汉开元知识产权代理有限
公司 42104
专利代理师 李满
(51)Int.Cl.
G06F 16/9535(2019.01)
G06F 40/289(2020.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种内容过滤科技 成果推荐 方法、 模型及存
储介质
(57)摘要
本发明提供了一种内容过滤科技成果推荐
方法、 模型及存储介质, 包括以下步骤: 获取目标
用户的科技服务需求的文本数据以及相 匹配的
科技成果的文本数据, 形成科技服务数据集; 对
科技服务数据集中的文本数据进行分词处理后
合并, 形成总语料库; 对总语料库进行词向量训
练, 得到总词向量库; 提取科技服务数据集中每
项科技服务需求的文本数据和科技成果的文本
数据的关键词; 通过关键词在总词向量库中筛选
出科技成果关键词词向量库和科技服务需求关
键词词向量库; 计算每项科技服务需求与科技成
果的平均词向量; 计算每项科技服务需求与所有
科技成果的匹配度; 筛选出每项科技服务需求对
应匹配度靠前的科技成果信息输出。 本发明为科
技服务需求推荐 满足需求的科技成果。
权利要求书2页 说明书10页 附图4页
CN 114443961 A
2022.05.06
CN 114443961 A
1.一种内容过 滤科技成果推荐方法, 其特 征在于: 包括以下步骤:
获取目标用户的科技服务需求的文本数据, 并通过目标用户的科技服务需求检索获得
相匹配的科技成果的文本数据, 形成科技 服务数据集;
对科技服务数据集中的科技服务需求的文本数据和科技成果的文本数据进行分词处
理后合并, 形成总语料库;
使用word2vec对总语料库进行词向量训练, 得到总词向量库;
基于科技服务数据集中提取每项科技服务需求的关键词和每项科技成果的关键词; 通
过遍历检索在总词向量库中检索出每项科技成果和每项科技服务需求的关键词的词向量,
分别形成每项科技成果的关键词 词向量库和每项科技 服务需求的关键词 词向量库;
通过每项科技服务需求的关键词词向量库对应计算每项科技服务需求的平均词向量;
通过每项科技成果的关键词 词向量库对应 计算每项科技成果的平均词向量;
通过每项科技服务需求的平均词向量与每项科技成果的平均词向量, 分别计算每项科
技服务需求与所有科技成果的匹配度并由高至低排序;
筛选出每项科技 服务需求对应匹配度靠前的科技成果信息 输出。
2.根据权利要求1所述的一种内容过滤科技成果推荐方法, 其特征在于: 遍历科技服务
数据集中各项科技服务需求的文本数据和各项科技成果的文本数据, 并单独进行分词、 词
性标注、 剔除掉难以展现科技服务需求与科技成果的关键信息的词性和停用 词; 各项科技
服务需求的文本数据的处理结果作为各项 科技服务需求的语料库和; 各项 科技成果的文本
数据的处理结果作为各项 科技成果对应的语料库; 合并所有 科技服务需求和科技成果的语
料库作为总语料库; 最后对总语料库做数据统计, 获取每 个分词的词频。
3.根据权利要求2所述的一种内容过滤科技成果推荐方法, 其特征在于: 基于每个分词
的词频, 采用TF ‑IDF算法计算总语料库中所有词 语的TF‑IDF权重值; 分别在各项科技服务
需求对应的语料库中筛选出T F‑IDF权重值高的词语作为该项 科技服务需求的关键词; 分别
在各项科技成果对应的语料库中筛选出TF ‑IDF权重值高的词语作为该项科技成果的关键
词。
4.根据权利要求1所述的一种内容过滤科技成果推荐方法, 其特征在于: 采用下式计算
任一项科技 服务需求和任一项科技成果的平均词向量:
其中ui表示该项科技服务需求的关键词词向量库中第i个关键词的词向量, vj该项科技
成果的关键词词向量库中第j个关键词的词向量,Uk表示该项科技服务需求关键词词向量
在第k维度的平均值; Vl表示该项科技成果关键词词向量的在第l维度的平均值; P为该项科
技服务需求的关键词词向量库的关键词数量; Q为该项科技成果的关键词词向量库的的关
键词数量; i∈[1,P]; j∈[1,Q]; k,l取任意整数。
5.根据权利要求4所述的一种内容过滤科技成果推荐方法, 其特征在于: 采用下式计算
任一项科技 服务需求U与任一项科技成果V的匹配度值Sim(U, V),权 利 要 求 书 1/2 页
2
CN 114443961 A
2其中, n为向量的维度。
6.根据权利要求1所述的一种内容过滤科技成果推荐方法, 其特征在于: 基于科技服务
平台获取科技服务需求方主动上传的科技服务需求和科技服务供给方主动上传的科技成
果。
7.一种内容过滤科技成果推荐模型, 包括科技服务数据集词向量训练与处理模块和科
技成果推荐计算模块;
其中, 科技服务词向量训练与处理模块获取目标用户的科技服务需求的文本数据, 并
通过目标用户的科技服务需求检索获得相匹配的科技成果的文本数据, 形成科技服务数据
集; 对科技服务数据集中的科技服务需求的文本数据和科技成果的文本数据进行分词处理
后合并, 形成总语料库; 使用word2vec对总语料库进行词向量训练, 得到总词向量库; 基于
科技服务数据集中提取每项科技服务需求的关键词和每项 科技成果的关键词; 通过遍历 检
索在总词向量库中检索出每项 科技成果和每项科技服务需求的关键词的词向量, 分别形成
每项科技成果的关键词词向量库和每项科技服务需求的关键词词向量库; 通过每项科技服
务需求的关键词词向量库对应计算每项科技服务需求的平均词向量; 通过每项科技成果的
关键词词向量库对应 计算每项科技成果的平均词向量;
成果推荐计算模块通过每项科技服务需求的平均词向量与每项科技成果的平均词向
量, 分别计算每项科技服务需求与所有科技成果的匹配度并由高至低排序; 筛选出每项科
技服务需求对应匹配度靠前的科技成果信息并输出, 作为针对科技服务需求推荐的科技成
果。
8.一种计算机可读存储介质, 所述计算机可读存储介质上存储有内容过滤科技成果推
荐方法程序, 所述内容过滤科技成果推荐 方法程序被处理器执行时实现如权利要求 1至6任
一项所述的内容过 滤科技成果推荐方法的步骤。权 利 要 求 书 2/2 页
3
CN 114443961 A
3
专利 一种内容过滤科技成果推荐方法、模型及存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:40上传分享