(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211238044.9 (22)申请日 2022.10.10 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 苏磊 韩光耀 陈禹燊 李治平  (74)专利代理 机构 北京英赛 嘉华知识产权代理 有限责任公司 1 1204 专利代理师 王达佐 马晓亚 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/338(2019.01) G06F 16/35(2019.01) G06F 16/538(2019.01) G06F 16/55(2019.01)G06K 9/62(2022.01) (54)发明名称 查询结果向量化方法、 查询结果确定方法及 相关装置 (57)摘要 本公开提供了一种查询结果向量化方法、 查 询结果确定方法及相关装置, 涉及自然语言处 理、 深度学习、 知 识图谱等人工智能技术领域。 该 方法包括: 获取包含文本内容和图像内容的原始 查询结果; 在保持文本内容与图像内容排布顺序 不变的情况下, 将图像内容替换为图像占位符, 得到替换后查询结果; 将替换后查询结果转换为 文本内容向量、 并将图像内容转换为与文本内容 向量尺寸一致的图像内容向量; 根据图像占位符 在替换后查询结果中的位置, 将图像内容向量拼 接至文本内容向量中的相应位置, 得到拼接向 量; 根据拼接向量确定原始查询结果的向量化表 示。 应用该方法可以提升查询结果向量与原始查 询结果的接近程度, 减少向量化过程的信息损 失。 权利要求书4页 说明书16页 附图8页 CN 115510193 A 2022.12.23 CN 115510193 A 1.一种查询结果向量 化方法, 包括: 获取包含文本内容和图像内容的原 始查询结果; 在保持所述文本内容与所述图像内容排布顺序不变的情况下, 将所述图像内容替换为 图像占位符, 得到替换后查询结果; 将所述替换后查询结果转换为文本 内容向量、 并将所述图像内容转换为与 所述文本 内 容向量尺寸 一致的图像内容向量; 根据所述图像占位符在所述替换后查询结果中的位置, 将所述图像内容向量拼接至所 述文本内容向量中的相应位置, 得到拼接向量; 根据所述 拼接向量确定所述原 始查询结果的向量 化表示。 2.根据权利要求1所述的方法, 其中, 所述根据所述拼接向量确定所述原始查询结果的 向量化表示, 包括: 响应于所述拼接向量的尺寸大于预设尺寸, 对所述拼接向量进行降维处理, 得到降维 至所述预设尺寸的降维后向量; 将所述降维后向量作为所述原 始查询结果的向量 化表示。 3.根据权利要求1或2所述的方法, 其中, 所述根据所述图像占位符在所述替换后查询 结果中的位置, 将所述图像内容向量拼接至所述文本内容向量中的相应位置, 得到拼接 向 量, 包括: 根据所述图像占位符在所述替换后查询结果中的位置, 确定与 所述图像占位符对应的 向量在所述文本内容向量中的目标位置; 将所述图像内容向量 拼接至所述文本内容向量中的目标位置, 得到所述 拼接向量。 4.一种查询结果确定方法, 包括: 将获取到的查询语句转换为实际查询向量; 基于所述实际查询向量分别与知识问答库中不同的候选查询向量之间的向量相似度, 筛选出包含预设数量目标候选查询语句的目标候选查询语句序列, 所述候选查询向量为相 应候选查询语句的向量化表示, 所述候选查询语句与相应的候选查询结果之间组成了查询 结果对; 基于所述实际查询向量分别与不同的目标候选查询语句所对应的候选查询结果向量 之间的向量相似度, 调整不同的目标候选查询语句在所述目标候选查询语句序列中的排 序, 得到调整后候选查询语句序列, 所述候选查询结果向量为相应的候选查询结果按权利 要求1‑3任一项所提供的查询结果向量 化方法表示 为向量; 基于所述调 整后候选查询语句序列中不同目标候选查询语句的排序, 顺序返回相应的 候选查询结果。 5.根据权利要求4所述的方法, 其中, 所述将获取到的查询语句转换为实 际查询向量, 包括: 利用知识库或知识图谱, 确定所述 查询语句所属的类别 信息; 将所述类别 信息与所述 查询语句的文本组合, 转换为所述实际查询向量。 6.根据权利要求5所述的方法, 其中, 所述将所述类别信息与所述查询语句的文本组 合, 转换为所述实际查询向量, 包括: 将所述类别 信息补充至所述 查询语句的起始位置, 得到类别 信息补完语句;权 利 要 求 书 1/4 页 2 CN 115510193 A 2将所述类别 信息补完语句转换为所述实际查询向量。 7.根据权利要求4所述的方法, 其中, 所述将获取到的查询语句转换为实 际查询向量, 包括: 将所述查询语句作为输入数据输入预设的自然语言向量 化模型; 控制所述自然语言向量化模型的不同功能层均输出的与输入本功能层的数据对应的 语义句向量, 所述自然语言向量 化模型包 含串接的多个功能层; 控制所述自然语言 向量化模型分别确定不同功能层的加权权重, 不同功能层对应的加 权权重预先经有标注的训练样本在训练阶段 学习得到; 控制所述自然语言向量化模型基于相应功能层的加权权重对相应功能层的语义句向 量进行加权计算, 并将不同功能层的加权计算结果聚合 为目标语义句向量; 将所述自然语言向量化模型输出的目标语义句向量作为与所述查询语句对应的实际 查询向量。 8.根据权利要求4 ‑7任一项所述的方法, 其中, 所述基于所述实际查询向量分别与知识 问答库中不同的候选查询向量之间的向量相似度, 包括: 利用基于聚类算法的索引式向量计算引擎, 计算所述实际查询向量分别与 所述知识问 答库中不同的候选查询向量之间的向量相似度。 9.一种查询结果向量 化装置, 包括: 原始查询结果获取 单元, 被配置成获取包 含文本内容和图像内容的原 始查询结果; 图像内容替换单元, 被配置成在保持所述文本 内容与所述图像 内容排布顺序不变的情 况下, 将所述图像内容 替换为图像占位符, 得到替换后查询结果; 向量转换单元, 被配置成将所述替换后查询结果转换为文本内容向量、 并将所述图像 内容转换为与所述文本内容向量尺寸 一致的图像内容向量; 向量拼接单元, 被配置成根据所述图像占位符在所述替换后查询结果中的位置, 将所 述图像内容向量 拼接至所述文本内容向量中的相应位置, 得到拼接向量; 查询结果向量化单元, 被配置成根据 所述拼接向量确定所述原始查询结果的向量化表 示。 10.根据权利要求9所述的装置, 其中, 所述 查询结果向量 化单元被进一 步配置成: 响应于所述拼接向量的尺寸大于预设尺寸, 对所述拼接向量进行降维处理, 得到降维 至所述预设尺寸的降维后向量; 将所述降维后向量作为所述原 始查询结果的向量 化表示。 11.根据权利要求9或10所述的装置, 其中, 所述向量 拼接单元被进一 步配置成: 根据所述图像占位符在所述替换后查询结果中的位置, 确定与 所述图像占位符对应的 向量在所述文本内容向量中的目标位置; 将所述图像内容向量 拼接至所述文本内容向量中的目标位置, 得到所述 拼接向量。 12.一种查询结果确定装置, 包括: 查询语句向量 转换单元, 被配置成将获取到的查询语句转换为实际查询向量; 目标候选查询结果序列确定单元, 被配置成基于所述实际查询向量分别与知识问答库 中不同的候选查询向量之 间的向量相似度, 筛选出包含预设数量目标候选查询语句的目标 候选查询 语句序列, 所述候选查询向量为相应候选查询语句的向量化表示, 所述候选查询权 利 要 求 书 2/4 页 3 CN 115510193 A 3

.PDF文档 专利 查询结果向量化方法、查询结果确定方法及相关装置

文档预览
中文文档 29 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 查询结果向量化方法、查询结果确定方法及相关装置 第 1 页 专利 查询结果向量化方法、查询结果确定方法及相关装置 第 2 页 专利 查询结果向量化方法、查询结果确定方法及相关装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:15:38上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。