专利一种语义检索方法及系统、设备和计算机可读存储介质 -在线下载 -AI解读-standardlibrary.site

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211290756.5 (22)申请日 2022.10.21 (71)申请人成都数之联科技股份有限公司地址 610000 四川省成都市武侯区锦绣街8 号2层270号 (72)发明人不公告发明人　 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/338(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称一种语义检索方法及系统、设备和计算机可读存储介质 (57)摘要本发明涉及语义检索技术领域，具体而言，涉及一种语义检索方法及系统、设备和计算机可读存储介质，所述方法包括步骤：以无监督数据和有监督数据训练召回模型；以所述召回模型抽取文档的语义向量，以所述语义向量和所述文档建立语义索引库；以所述召回模型通过计算余弦相似度完成用户输入查询的召回操作，且依据所述余弦相似度以及关键字匹配进行召回粗排；进行精排模型建模且对所述粗排结果完成精排；使用了无监督数据和有监督数据训练召回模型，还进行了以关键字匹配为基础的召回，粗排和精排组合的新的完整过程能够使语义检索相比现有的效果，检索结果更准确更完整。权利要求书1页说明书8页附图3页 CN 115357691 A 2022.11.18 CN 115357691 A 1.一种语义检索方法，其特征在于，包括步骤：以无监督数据和有监督数据训练召回模型；以所述召回模型抽取文档的语义向量，以所述语义向量和所述文档建立语义索引库；以所述召回模型通过计算余弦相似度完成用户输入查询的召回操作，且依据所述余弦相似度以及关键字匹配进行召回粗排；进行精排模型建模且对所述粗排结果完成精排。 2.根据权利要求1所述的语义检索方法，其特征在于，所述无监督数据为文档的特征内容。 3.根据权利要求1所述的语义检索方法，其特征在于，所述有监督数据为用户查询数据与用户最终选中的文档数据，以及所述用户查询数据与用户最终选中的文档数据的对应关系。 4.根据权利要求1所述的语义检索方法，其特征在于，所述召回模型的训练过程中，先使用无监督数据进行数据增强训练，再使用有监督数据进行精化训练，且均通过所述余弦相似度进行反向传播更新梯度完成收敛。 5.根据权利要求1所述的语义检索方法，其特征在于，所述粗排过程中的关键字匹配包括广泛匹配、短语匹配或精确匹配。 6.根据权利要求1所述的语义检索方法，其特征在于，所述精排模型采用pair ‑wise结构。 7.根据权利要求4所述的语义检索方法，其特征在于，所述训练过程中，若干所述余弦相似度组成相似度矩阵。 8.一种语义检索系统，其特征在于，包括：模型构建模块，以无监督数据和有监督数据训练召回模型；语义索引建库模块，以所述召回模型抽取文档的语义向量，以所述语义向量和所述文档建立语义索引库；粗排模块，以所述召回模型通过计算余弦相似度完成用户输入查询的召回操作，且依据所述余弦相似度以及关键字匹配进行粗排；精排模块，进行精排模型建模且对所述粗排结果完成精排。 9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求 1‑7 中任一项所述语义检索方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1 ‑7中任一项所述语义检索方法。权　利　要　求　书 1/1 页 2 CN 115357691 A 2一种语义检索方法及系统、设备和计算机可读存储介质技术领域 [0001]本发明涉及语义检索技术领域，具体而言，涉及一种融合深度学习和特征工程的语义检索方法。背景技术 [0002]信息爆炸是当今信息社会的一大特点，当前信息检索技术面临着网络信息更新越来越快，用户检索结果要求越来越精确的严重挑战，如何快速有效地找到所需信息成为了一个关键问题。 [0003]随着自然语言处理技术的发展，语义检索研究自上世纪末以来快速发展，它可以有效解决上述问题，返回给用户要求的结果。 [0004]语义检索是通过用户输入查询识别出用户检索目的，继而向用户返回相关检索结果。检索技术主要分为两类：一是通过查询关键词，与文档建立字面文本匹配，搜索出相关文档；二是基于深度神经网络建立模型，将文本转化为向量，建模句子之间的语义相似度，即将高维稀疏的向量映射成为一个低维稠密的向量，随后在同一个向量空间中既表示用户查询又表示候选集文档，从而计算两者的相似度。尽管语义检索有不同的方法，但其本质都是对信息资源的语义处理实现效率更高的检索。 [0005]语义检索技术在取得极大进展的同时，也面临诸多难点和问题。 [0006]比如，现有技术CN114662668A 神经网络训练方法、语义相似度计算方法及语义检索系统公开方案中提到的现有方法，其具体方案为：（1）对句子进行标注；（2）将标注好的句子输入神经网络模型；（3）设置损失函数；（4）根据损失函数的损失值，对神经网络进行训练；（5）基于神经网络进行向量预测，计算余弦相似度，返回余弦相似度得分最高的前N条句子。 [0007]该方案中，通过深度神经网络的方法对句子进行深度语义联合，可以找到深度语义匹配的配对，但只有一路深度语义模型召回，召回结果较为单一，存在召回不全、准确率不高的问题。发明内容 [0008]为了解决背景技术中提到的现有技术的问题，以及优化方案本身，我们提供了一种新的语义检索方法，包括步骤：以无监督数据和有监督数据训练召回模型；以所述召回模型抽取文档的语义向量，以所述语义向量和所述文档建立语义索引库；以所述召回模型通过计算余弦相似度完成用户输入查询的召回操作，且依据所述余弦相似度以及关键字匹配进行召回粗排；进行精排模型建模且对所述粗排结果完成精排。 [0009]该方案同时使用了无监督数据和有监督数据训练召回模型，使模型进一步提升准说　明　书 1/8 页 3 CN 115357691 A 3

专利 一种语义检索方法及系统、设备和计算机可读存储介质

专利一种语义检索方法及系统、设备和计算机可读存储介质