(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210089762.8
(22)申请日 2022.01.26
(65)同一申请的已公布的文献号
申请公布号 CN 114117022 A
(43)申请公布日 2022.03.01
(73)专利权人 杭州远传新 业科技有限公司
地址 310051 浙江省杭州市滨江区信诚路
857号世贸中心 23楼
(72)发明人 嵇望 陈默 梁青 王伟凯
安毫亿
(74)专利代理 机构 杭州创智卓英知识产权代理
事务所(普通 合伙) 33324
专利代理师 张迪
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/33(2019.01)
G06F 16/335(2019.01)
G06F 16/35(2019.01)G06F 40/194(2020.01)
G06F 40/30(2020.01)
G06N 20/00(2019.01)
(56)对比文件
CN 112101423 A,2020.12.18
CN 108345 585 A,2018.07.31
CN 111046152 A,2020.04.21
US 1043783 3 B1,2019.10.08
US 2015006156 A1,2015.01.01
Natkanok Poksappaiboon, 等.Detecti ng
Text Semantic Simi larity by Siamese
Neural Netw orks with MaLSTM i n Thai
Language. 《2021 2nd I nternati onal
Conference o n Big Data Analytics and
Practices (IBDAP)》 .2021,
卜文娟, 等.基 于概念图的中文FAQ问答系
统. 《计算机 工程》 .2010,第3 6卷(第14期),
审查员 凡保磊
(54)发明名称
一种FAQ相似问题生成方法及系统
(57)摘要
本发明提供一种FA Q相似问题生 成方法及系
统, 其中, 方法包括: 构建标准FAQ数据集; 基于标
准FAQ数据集, 从大数据平台上获取相似问题数
据并构建第一相似问题数据集; 基于标准FAQ数
据集和相似问题数据集, 构建相似问题生成深度
学习模型; 获取待处理的FAQ数据; 基于相似问题
生成深度学习模型和待处理的FAQ数据, 生成对
应待处理的FAQ数据对应的第二相似问题数据
集。 本发明的FAQ相似问题生成方法及系统, 可以
依据标准FAQ批量生成高质量、 泛化性好的相似
FAQ, 用于后续的模型训练。
权利要求书4页 说明书12页 附图2页
CN 114117022 B
2022.05.06
CN 114117022 B
1.一种FAQ相似问题生成方法, 其特 征在于, 包括:
构建标准FAQ数据集;
基于所述标准FAQ数据集, 从大数据平台上获取相似问题数据并构建第一相似问题数
据集;
基于所述标准FAQ数据集和所述相似问题数据集, 构建相似问题生成深度学习模型;
获取待处 理的FAQ数据;
基于所述相似问题生成深度学习模型和所述待处理的FAQ数据, 生成对应所述待处理
的FAQ数据对应的第二相似问题数据集。
2.如权利 要求1所述的FAQ相似问题生成方法, 其特征在于, 所述基于所述标准FAQ数据
集, 从大数据平台上获取相似问题数据并构建第一相似问题数据集, 包括:
提取所述标准FAQ数据集中任一标准FAQ数据;
解析所述标准FAQ数据, 确定第一问题数据和第一 答案数据;
将所述大 数据平台上 各个存储节点存 储的FAQ数据集作为目标 数据集;
将所述第一问题数据与所述目标数据集中的各个FAQ数据中的第二问题数据进行匹
配, 获取所述目标数据集中与所述第一问题数据相匹配的所述第二问题数据作为第一待筛
选数据并构建第一待筛 选数据集;
将所述第一答案数据与所述目标数据集中的各个FAQ数据中的第二答案数据进行匹
配, 获取所述目标数据集中与所述第一答案数据相匹配的所述第二答案数据对应的所述第
二问题数据作为第二待筛 选数据并构建第二待筛 选数据集;
基于所述第一待筛选数据集和所述第二待筛选数据集, 构建所述第一相似问题数据
集。
3.如权利要求2所述的FAQ相似问题生成方法, 其特征在于, 所述基于所述第一待筛选
数据集和所述第二待筛 选数据集, 构建所述第一相似问题数据集, 包括:
将所述第 一待筛选数据集与所述第 二待筛选数据集中相同的数据作为所述标准FAQ数
据的所述第一问题数据的所述相似问题数据并构建为第一数据集;
将所述第一待筛选数据集中与所述第 一数据集中相同的数据删除, 获得第 三待筛选数
据集;
将所述第二待筛选数据集中与所述第 一数据集中相同的数据删除, 获得第四待筛选数
据集;
将所述第三待筛选数据集中的各个所述第二问题数据对应的所述第二答案数据与所
述第一数据集中各个所述第二问题数据对应的所述第二答案数据进行匹配, 当所述第一数
据集中存在匹配符合项时, 将所述第三待筛选数据集中的所述第二答案数据对应得所述第
二问题数据添加进所述第一数据集中并将其从所述第三待筛 选数据集中删除;
将所述第四待筛选数据集中的各个所述第二问题数据与所述第一数据集中各个所述
第二问题数据进行匹配, 当所述第一数据集中存在匹配符合项时, 将所述第四待筛选数据
集中的所述第二问题数据添加进所述第一数据集中并将其从所述第四待筛选数据集中删
除;
直至所述第三待筛选数据集和所述第四待筛选数据集中不存在可以添加进所述第一
数据集中的所述第二问题数据时, 将所述第一数据集作为所述第一相似问题数据集。权 利 要 求 书 1/4 页
2
CN 114117022 B
24.如权利 要求1所述的FAQ相似问题生成方法, 其特征在于, 所述基于所述标准FAQ数据
集, 从大数据平台上获取相似问题数据并构建第一相似问题数据集, 包括:
提取所述标准FAQ数据集中任一标准FAQ数据;
基于所述标准FAQ数据, 生成相似问题数据获取请求;
将所述相似问题数据获取请求发送至所述大 数据平台上的各个数据处 理节点;
接收各个所述数据处 理节点对于所述相似问题数据获取请求的反馈数据;
解析各个所述数据处 理节点的所述反馈数据, 获取多个第三待筛 选数据;
基于所述第 三待筛选数据对应的反馈的所述数据处理节点的权限值, 确定各个所述第
三待筛选数据对应的信任值, 所述信任值的计算公式如下:
;
其中,
为所述信任值,
为第
个所述反馈数据包含所述第三待筛选数据的所述数
据处理节点的权限值;
为所述反馈数据包含所述第三待筛选数据的所述数据处理节点的
数目;
基于所述信任值大于预设的信任阈值的所述第三待筛 选数据, 构建第二数据集;
基于所述信任值小于等于预设的信任阈值的所述第 三待筛选数据, 构建第五待筛选数
据集;
将所述第五待筛选数据集中的各个所述第三待筛选数据中的第三问题数据分别与所
述第二数据集中的第三问题数据以及所述标准FA Q数据中的第一问题数据匹配并且将所述
第五待筛选数据集中的各个所述第三待筛选数据对应的第三答案数据分别与所述第二数
据集中的第三问题数据对应的所述第三答案数据以及所述标准FA Q数据中的第一问题数据
对应的第一答案数据匹配, 当 同时匹配符合时, 将所述第 五待筛选数据集中的所述第三待
筛选数据添加进所述第二数据集并将其从第五待筛 选数据集中删除;
直至所述第五待筛选数据集中不存在可添加至所述第 二数据集中的数据时, 将所述第
二数据集作为所述第一相似问题数据集。
5.如权利要求1所述的FAQ相似问题生成方法, 其特 征在于, 还 包括:
获取对于所述第二相似问题数据集的异常反馈的异常数据;
对所述异常数据进行验证;
当验证通过时, 基于所述异常数据, 确定异常的相似问题数据并将其从所述第一相似
问题数据集中删除;
基于删除后的所述第一相似问题数据集和所述标准FAQ数据集, 重新构建所述相似问
题生成深度学习模型;
其中, 对所述异常数据进行验证, 包括:
基于异常数据反馈的用户的反馈值, 确定所述异常数据的效用值, 计算公式如下:
;
其中,
为所述效用值,
为所述异常数据的第
个用户的反馈值;
为所述异 常数据
的第
个用户的权限值;
为所述异常数据的反馈的用户的总数;权 利 要 求 书 2/4 页
3
CN 114117022 B
3
专利 一种FAQ相似问题生成方法及系统
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:43上传分享