(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210114916.4
(22)申请日 2022.01.31
(71)申请人 一贯智服 (杭州) 技 术有限公司
地址 311121 浙江省杭州市余杭区仓前街
道海智中心1幢3层3 05室
(72)发明人 王晶 陈煜 刘恭
(74)专利代理 机构 杭州派肯 专利代理有限公司
33414
专利代理师 郭薇
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 40/211(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06Q 40/00(2012.01)
(54)发明名称
一种基于语义相似度的问答系统搜索匹配
方法及其应用
(57)摘要
本发明涉及一种基于语义相似度的问答系
统搜索匹配方法及其应用, 问答系统中包括标准
问题及答案, 对应标准问题设置若干相似问题;
构建样本集合, 对预训练模型进行调整、 训练; 将
问答系统中的问题向量化, 对新的用户问题向量
化, 进行余弦相似度计算, 根据相似度得分对问
答系统中的所有问题排序, 输出预设条数的问
题; 方法应用于税务问答系统。 本发明解决了传
统模型面临的一词多义、 单词歧义、 分词准确率
等问题, 并且能够充分的获取句子中包含的语义
信息, 大幅提升模型的性能, 训练和预测阶段全
程可并行, 提升模型预测准确度, 提升搜索推荐
指标、 增强模型的泛化能力, 提升用户体验, 减少
维护成本; 特别适用于税务咨询领域。
权利要求书2页 说明书8页 附图5页
CN 114461774 A
2022.05.10
CN 114461774 A
1.一种基于语义相似度的问答系统搜索匹配方法, 其特征在于: 所述问答系统中包括
标准问题及其对应的答案, 对应任一标准问题设置若干相似问题;
所述方法包括以下步骤:
步骤1: 构建预训练模型;
步骤2: 构建样本集合, 对所述预训练模型进行调整, 并基于所述调整的结果进行训练;
获得训练后的模型;
步骤3: 将问答系统中的所有问题向一个训练后的模型输入, 以训练后的模型将所有问
题向量化处理, 存储;
步骤4: 获得新的用户问题, 向另一个训练后的模型输入, 以训练后的模型将所述新的
用户问题进行向量 化处理;
步骤5: 以步骤4处理后的向量与步骤3中存储的所有向量进行余弦相似度计算, 根据相
似度得分对问答系统中的所有问题进行排序, 输出 预设条数的问题。
2.根据权利要求1所述的一种基于语义相似度的问答系统搜索匹配方法, 其特征在于:
所述预训练模型包括 顺次设置的:
一字符切分层, 用于对每一单句进行字符的切分并得到对应的to kens id;
一向量转化层, 用于将每一单句输出的to kens id向量化表达;
一特征提取层, 用于将向量化的tokens id与位置编码进行特征提取, 得到对应每个字
符的token的特征向量;
一平均池化层, 将每一单句的所有字符的to ken的特征向量进行平均池化;
一输出层, 用于将平均池化后的向量输出, 标识每一单句。
3.根据权利要求1所述的一种基于语义相似度的问答系统搜索匹配方法, 其特征在于:
所述步骤2中, 样本集合包括正样 本和负样 本, 正样本的标签为 1, 负样本的标签为0; 所述负
样本包括随机负 样本。
4.根据权利要求3所述的一种基于语义相似度的问答系统搜索匹配方法, 其特征在于:
所述正样本包括: 已存储的用户问题及其正确 答案所对应的标准问题、 和用户问题的相似
问题及其对应的标准问题; 所述 随机负样本包括: 任一标准问题与其他标准问题所对应的
若干相似问题或用户问题。
5.根据权利要求3所述的一种基于语义相似度的问答系统搜索匹配方法, 其特征在于:
所述负样本还包括精挑负样本, 获得 所述精挑负样本包括以下步骤:
步骤2.1.1: 以正样本与所述随机负 样本对预训练模型进行调整直至 达到预设标准;
步骤2.1.2: 以调整后的预训练模型对样本集合中的每个正样本的用户问题及其相似
问题与问答系统中的所有问题分别计算向量化表达, 计算所述用户问题及其相似问题与问
答系统中的所有问题间的相似度;
步骤2.1.3: 基于相似度由大到小重新 排列问答系统中所有已存 储问题的顺序;
步骤2.1.4: 取排序后k条相似度最大的已存储问题; 选择命中所述用户问题的第一条
已存储问题前的其他已存储问题, 以所述其他已存储问题对应的标准问题与步骤2.1.2的
相似问题和用户问题为精 挑负样本。
6.根据权利要求5所述的一种基于语义相似度的问答系统搜索匹配方法, 其特征在于:
所述步骤2.1.2中, 样本集 合为正样本和负 样本的数量比为1: 1的数据集。权 利 要 求 书 1/2 页
2
CN 114461774 A
27.根据权利要求5所述的一种基于语义相似度的问答系统搜索匹配方法, 其特征在于:
所述训练包括以下步骤:
步骤2.2.1: 计算问答系统中的任一标准问题、 对应的用户问题和相似问题的向量化表
达Vmean,
其中, i对应每一问题的每个字, maxlen每个句子
的token数;
步骤2.2.2: 分别 对任一标准问题、 对应的用户问题和相似问题的向量化表达处理后进
行平均池化, 随后进行相似度计算;
步骤2.2.3: 基于计算所得相似度和标签, 计算损失函数lossMSE, 继续损失函数调整、
训练模型。
8.根据权利要求7 所述的一种基于语义相似度的问答系统搜索匹配方法, 其特 征在于:
其中, V、 U分别表示两个 问题的句子 向量,
表示当前模型计算出 的相似度得分, yi表
示句子对的标签; wi为权重参数且wi∈[0,1]; m为batc h的大小, n 为样本的个数。
9.根据权利要求7所述的一种基于语义相似度的问答系统搜索匹配方法, 其特征在于:
模型训练时的句子向量维度为1024, 采用AdamW优化器, 学习率为2e‑5, 学习率衰减率为
0.01。
10.一种权利要求1~9之一所述的基于语义相似度的问答系统搜索匹配方法的应用,
其特征在于: 应用于税务问答系统, 所述税务问答系统基于所述问答系统搜索匹配方法对
用户问题进行 标准问题和相似问题的匹配。权 利 要 求 书 2/2 页
3
CN 114461774 A
3
专利 一种基于语义相似度的问答系统搜索匹配方法及其应用
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:39上传分享