standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210109967.8 (22)申请日 2022.01.28 (71)申请人 中国银联股份有限公司 地址 200135 上海市浦东 新区含笑路36号 银联大厦 (72)发明人 王宇 邱雪涛 王阳 佘萧寒  曾泽华  (74)专利代理 机构 中国专利代理(香港)有限公 司 72001 专利代理师 臧霁晨 李啸 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/216(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 相似问题匹配方法和户相似问题匹配系统 (57)摘要 本发明涉及一种用户相似问题匹配方法及 其系统。 该方法包括: 对于待匹配问题与目标问 题的主要子句的不同类型的问句分别进行关键 词的提取, 以获得待匹配问题的关键词以及目标 问题的关键词; 对于目标问题, 基于所述目标问 题的关键词构建文本语义网络, 计算所述关键词 的词向量 以及在所述文本语义网络中的所述关 键词的权重, 根据所述关键词的权重和所述关键 词的词向量生成目标问题的句向量; 以及基于所 述待匹配问题的关键词的词向量与所述目标问 题的句向量计算得到待匹配问题和目标问题的 相似度并基于所述相似度判断待匹配问题与 目 标问题是否相似。 根据本发明, 能够提供一种精 准度高且灵活度好的相似问题匹配方法。 权利要求书4页 说明书14页 附图2页 CN 114936277 A 2022.08.23 CN 114936277 A 1.一种相似问题匹配方法, 其特征在于, 该方法用于将待匹配问题与目标问题进行匹 配, 该方法包括: 对于待匹配问题与目标问题, 分别进行问题分解以将待 匹配问题与目标问题分解成主 要子句和次要子句; 对于待匹配问题与目标问题, 分别对于主要子句进行分类以识别待匹配问题与目标问 题的主要子句的问句类型; 对于待匹配问题与目标问题的主要子句的不同类型的问句分别进行关键词的提取, 以 获得待匹配问题的关键词以及目标问题的关键词; 对于目标问题, 基于所述目标问题的关键词构建文本语义网络, 计算所述关键词的词 向量以及在所述文本语义网络中的所述关键词的权重, 根据所述关键词的权重和所述关键 词的词向量 生成目标问题的句向量; 以及 基于所述待匹配问题的关键词的词向量与所述目标问题的句向量计算得到待匹配问 题和目标问题的相似度并基于所述相似度判断待匹配问题与目标问题是否相似。 2.如权利要求1所述的相似问题匹配方法, 其特 征在于, 所述对于待匹配问题与目标问题分别进行问题分解以将待匹配问题与目标问题分解 成主要子句和次要子句包括: 采用二分类的分类 器来识别主 要子句和次要子句。 3.如权利要求2所述的相似问题匹配方法, 其特 征在于, 作为所述 二分类的分类 器采用SVM或者XGBo ost。 4.如权利要求2所述的相似问题匹配方法, 其特 征在于, 对于所述二分类的分类器, 在分类器的训练过程中, 基于FastText分类模型进行训练, 将输入层中的词和词组构成特征向量, 再将特征向量通过线性变换映射到隐藏层, 隐藏层 通过求解最大似然函数, 根据每个类别的权重和模 型参数构建Huffman树并将 Huffman树作 为输出, 而且利用哈夫 曼编码对标签进行编码。 5.如权利要求1所述的相似问题匹配方法, 其特 征在于, 所述对于待匹配问题与目标问题分别对于所述主要子句进行分类以识别待匹配问题 与目标问题的主要子句的问句类型包括: 采用以下任意一种算法来 实现对所述主要子句的 分类: 逻辑回归、 朴素贝叶斯、 支持向量机以及XGBo ost。 6.如权利要求1所述的相似问题匹配方法, 其特 征在于, 所述对于待匹配问题与目标问题分别对于主要子句进行分类以识别待匹配问题与目 标问题的主要子句的问句类型词: 采用基于FastT ext分类模型训练成的四分类模 型将所述 主要子句分类成是非句、 特指问句、 正反问句以及选择问句。 7.如权利要求 4所述的相似问题匹配方法, 其特 征在于, 所述对于待匹配问题与目标问题的主要子句的不同类型的问句分别进行关键词的提 取词包括: 利用TF ‑IDF、 TextRank以及主题模型三种不同的关键词提取算法分别 提取关键 词并将分别提取的关键词通过求 合集进行合并。 8.如权利要求1所述的相似问题匹配方法, 其特征在于, 所述生成目标问题的句向量包 括以下子步骤: 将所述目标问题的关键词作为文本语义网络的节点 来构造文本语义网络; 计算所述文本语义网络的节点的权 重作为关键词的权 重; 以及权 利 要 求 书 1/4 页 2 CN 114936277 A 2计算所述关键词的词向量并根据所述关键词的词向量以及所述关键词的权重得到目 标问题的句向量。 9.如权利要求8所述的相似问题匹配方法, 其特征在于, 所述将目标问题的关键词作为 文本语义网络的节点 来构造文本语义网络包括: 将所述目标问题 的关键词作为文本语义网络的节点来构造文本语义网络, 其中, 相同 词语或短语在同一个句子中共同出现, 则节点间产生连边; 基于采集 跨度为1或2的方式完成节点间的连边的确立; 将各个句子所组成的网络连接, 计算各节点的语义相似度并进行合并, 构建成文本语 义网络。 10.如权利要求9所述的相似问题匹配方法, 其特征在于, 所述计算各节点的语义相似 度并进行合并包括: 计算各节点间语义相似度, 合并相同的节点和连边, 同时, 合并相似度高于预先设定的 阈值的节点和连边且在边 合并时两个边的权值相加。 11.如权利要求8所述的相似问题匹配方法, 其特征在于, 所述计算所述文本语义网络 的节点的权 重作为关键词的权 重包括: 计算所述节点的点度中心度; 计算所述节点的节点介数; 以及 基于所述节点的点度中心度和所述节点的节点介数获得关键词的权 重。 12.如权利要求8所述的相似问题匹配方法, 其特征在于, 所述计算所述关键词的词向 量并根据所述关键词的词向量以及所述关键词的权 重得到目标问题的句向量包括: 获得每个关键词的向量表示, 得到关键词的词向量; 以及 根据所述关键词的词向量以及所述关键词的权 重计算得到目标问题的句向量。 13.如权利要求12所述的相似问题匹配方法, 其特征在于, 所述基于待 匹配问题的关键 词与目标问题的句向量计算得到待匹配问题和目标问题的相似度并基于所述相似度判断 待匹配问题与目标问题是否相似 包括: 计算待匹配问题的关键词与目标问题的句向量的余弦相似度; 基于所述余弦相似度和待匹配问题的关键词的权重计算所述待匹配问题和所述目标 问题的相似度; 以及 基于所述相似度判断所述待匹配问题与所述目标问题是否相似。 14.一种相似问题匹配系统, 其特征在于, 该系统用于将待 匹配问题与目标问题进行匹 配, 包括: 问题分解模块, 对于待匹配问题与目标问题, 分别进行问题分解以将待匹配问题与目 标问题分解成主 要子句和次要子句; 句子文类模块, 对于待匹配问题与目标问题, 分别对于所述主要子句进行分类以识别 待匹配问题与目标问题的主 要子句的问句类型; 关键词提取模块, 对于待匹配问题与目标问题的主要子句的不同类型的问句分别进行 关键词的提取, 以获得待匹配问题的关键词以及目标问题的关键词; 句向量生成模块, 对于目标问题, 基于所述目标问题的关键词构建文本语义网络, 计算 所述关键词的词向量以及在所述文本语义网络中的所述关键词的权重, 根据所述关键词的权 利 要 求 书 2/4 页 3 CN 114936277 A 3

PDF文档 专利 相似问题匹配方法和户相似问题匹配系统

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 相似问题匹配方法和户相似问题匹配系统 第 1 页 专利 相似问题匹配方法和户相似问题匹配系统 第 2 页 专利 相似问题匹配方法和户相似问题匹配系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。