(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211416854.9 (22)申请日 2022.11.14 (71)申请人 广东电网有限责任公司佛山供电局 地址 528000 广东省佛山市禅城区汾江南 路1号 (72)发明人 张殷 唐琪 李国伟 王俊波  武利会 蒋维 刘益军 范心明  李新 董镝 宋安琪 王智娇  刘少辉 吴焯军 章涛 刘昊  梁年柏 刘崧 黄静 陈邦发  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 任文生 (51)Int.Cl. G06F 16/2455(2019.01)G06F 9/48(2006.01) G06F 16/245(2019.01) G06F 16/28(2019.01) G06K 9/62(2022.01) (54)发明名称 一种基于异构计算的用户特征快速检索方 法 (57)摘要 本发明涉及大数据检索技术领域, 公开了一 种基于异构计算的用户特征快速检索方法, 其通 过对待检索数据进行缓存, 将缓存的待检索数据 转换成对应的特征向量, 获取检索库中的数据向 量, 将数据向量与特征向量分配至多个线程中, 将每个线程分配得到的数据向量与特征向量加 载至CPU缓存, 为每个线程 分配一个堆, 将所述数 据向量与特征向量进行相似度检索, 根据数据向 量的数量确定检索模式, 将检索的数据向量结果 赋值到对应的线程的堆上, 合并每个线程的堆, 得到最终的检索结果, 从而利用CPU缓存优势以 及GPU高效计算优势, 协调异构资源之间通讯和 计算的平衡, 提高了异构特性数据检索速度和效 率, 降低了 计算资源浪费。 权利要求书2页 说明书5页 附图1页 CN 115455061 A 2022.12.09 CN 115455061 A 1.一种基于异构计算的用户特 征快速检索方法, 其特 征在于, 包括以下步骤: 对待检索数据进行缓存, 当缓存的待检索数据的数量或缓存时间达到预定的要求时, 则将缓存的待检索数据转换成对应的特 征向量; 获取检索库中的数据向量, 将多个所述数据向量与特征向量分配至多个线程中, 将每 个线程分配得到的所述数据向量与特 征向量加载至 CPU缓存; 为每个线程分配一个堆, 将所述数据向量与特征向量进行相似度检索, 并根据所述数 据向量的数量确定检索模式, 其中, 若 数据向量的数量大于预设的数量时, 则检索模式为使 用GPU进行检索, 若 数据向量的数量不大于预设的数量时, 则检索模式为使用CPU和GPU进 行 协同检索, 并将检索的数据向量结果赋值到对应的线程的堆上; 赋值完成后, 合并每 个线程的堆, 得到最终的检索结果。 2.根据权利要求1所述的基于异构计算的用户特征快速检索方法, 其特征在于, 对待检 索数据进行缓存, 当缓存的待检索数据的数量或缓存时间达到预定的要求时, 则将缓存的 待检索数据转换成对应的特 征向量的步骤具体包括: 当收到检索请求时, 依次对待检索数据进行缓存; 统计放入缓存中的待检索数据的数量, 并开启定时器开始计时; 当定时器到达预设时长时, 则停止将待检索数据放入缓存, 将缓存的待检索数据转换 成对应的特 征向量; 或, 当缓存中待检索数据的数量达到预设的数量阈值 时, 停止将待检索数据放入缓存, 将缓存的待检索数据转换成对应的特 征向量。 3.根据权利要求1所述的基于异构计算的用户特征快速检索方法, 其特征在于, 还包 括: 在线程创建过程中, 通过 下式计算特 征向量的批处 理大小为: s =[L3 cache size – P/c * sizeof(fl oat)] / [d * sizeof(fl oat)] 式中, s表示批处理大小, L3  cache size为CPU三级缓存大小, sizeof(float)为float 类型的数据占用的字节数, P为检索库中的数据向量的数量, c为预设的线程数, d为特征向 量的维度。 4.根据权利要求1所述的基于异构计算的用户特征快速检索方法, 其特征在于, 获取检 索库中的数据向量, 将多个所述数据向量与特征向量分配至多个线程中, 将每个线程分配 得到的所述数据向量与特 征向量加载至 CPU缓存的步骤具体包括: 获取检索库中的数据向量, 根据预设的线程数量分别对所述数据向量与特征向量进行 切片, 并将切片结果分配至多个线程中, 将每个线程分配得到的所述数据向量与特征向量 加载至CPU三级缓存。 5.根据权利要求1所述的基于异构计算的用户特征快速检索方法, 其特征在于, 使用 GPU进行检索的步骤具体包括: 将所述数据向量与特征向量传输到GPU内存中, 通过GPU利用余弦相似度计算特征向量 与所有数据向量的第一相似度, 比较特征向量与所有数据向量的第一相似度的大小, 按照 第一相似度的大小对所有数据向量进行降序排列, 提取 前k个数据向量作为聚类中心; 通过GPU利用余弦相似度计算每个聚类中心与所有数据向量的第二相似度, 按照第二 相似度的大小对所有数据向量进行降序排列, 取前v个数据向量作为相 应的聚类中心的邻权 利 要 求 书 1/2 页 2 CN 115455061 A 2近数据向量; 通过GPU利用余弦相似度计算特征向量与所有邻近数据向量的第三相似度, 比较特征 向量与所有邻近数据向量的第三相似度的大小, 获得第三相似度的大小最高的邻近数据向 量作为检索的数据向量结果。 6.根据权利要求1所述的基于异构计算的用户特征快速检索方法, 其特征在于, 使用 CPU和GPU 进行协同检索的步骤具体包括: 将所述数据向量与特征向量传输到GPU内存中, 通过GPU利用余弦相似度计算特征向量 与所有数据向量的第一相似度, 比较特征向量与所有数据向量的第一相似度的大小, 按照 第一相似度的大小对所有数据向量进行降序排列, 提取 前k个数据向量作为聚类中心; 将多个所述聚类中心返回至CPU, 通过CPU利用余弦相似度计算每个聚类中心与所有数 据向量的第二相似度, 按照第二相似度的大小对所有 数据向量进 行降序排列, 取前v个数据 向量作为相应的聚类中心的邻近数据向量; 通过CPU利用余弦相似度计算特征向量与所有邻近数据向量的第三相似度, 比较特征 向量与所有邻近数据向量的第三相似度的大小, 获得第三相似度的大小最高的邻近数据向 量作为检索的数据向量结果。权 利 要 求 书 2/2 页 3 CN 115455061 A 3

PDF文档 专利 一种基于异构计算的用户特征快速检索方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于异构计算的用户特征快速检索方法 第 1 页 专利 一种基于异构计算的用户特征快速检索方法 第 2 页 专利 一种基于异构计算的用户特征快速检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。