专利 一种FAQ相似问题生成方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210089762.8 (22)申请日 2022.01.26 (65)同一申请的已公布的文献号申请公布号 CN 114117022 A (43)申请公布日 2022.03.01 (73)专利权人杭州远传新业科技有限公司地址 310051 浙江省杭州市滨江区信诚路 857号世贸中心 23楼 (72)发明人嵇望　陈默　梁青　王伟凯　安毫亿　 (74)专利代理机构杭州创智卓英知识产权代理事务所(普通合伙) 33324 专利代理师张迪 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 16/35(2019.01)G06F 40/194(2020.01) G06F 40/30(2020.01) G06N 20/00(2019.01) (56)对比文件 CN 112101423 A,2020.12.18 CN 108345 585 A,2018.07.31 CN 111046152 A,2020.04.21 US 1043783 3 B1,2019.10.08 US 2015006156 A1,2015.01.01 Natkanok Poksappaiboon，等.Detecti ng Text Semantic Simi larity by Siamese Neural Netw orks with MaLSTM i n Thai Language. 《2021 2nd I nternati onal Conference o n Big Data Analytics and Practices (IBDAP)》 .2021, 卜文娟，等.基于概念图的中文FAQ问答系统. 《计算机工程》 .2010,第3 6卷(第14期), 审查员凡保磊 (54)发明名称一种FAQ相似问题生成方法及系统 (57)摘要本发明提供一种FA Q相似问题生成方法及系统，其中，方法包括：构建标准FAQ数据集；基于标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集；基于标准FAQ数据集和相似问题数据集，构建相似问题生成深度学习模型；获取待处理的FAQ数据；基于相似问题生成深度学习模型和待处理的FAQ数据，生成对应待处理的FAQ数据对应的第二相似问题数据集。本发明的FAQ相似问题生成方法及系统，可以依据标准FAQ批量生成高质量、泛化性好的相似 FAQ，用于后续的模型训练。权利要求书4页说明书12页附图2页 CN 114117022 B 2022.05.06 CN 114117022 B 1.一种FAQ相似问题生成方法，其特征在于，包括：构建标准FAQ数据集；基于所述标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集；基于所述标准FAQ数据集和所述相似问题数据集，构建相似问题生成深度学习模型；获取待处理的FAQ数据；基于所述相似问题生成深度学习模型和所述待处理的FAQ数据，生成对应所述待处理的FAQ数据对应的第二相似问题数据集。 2.如权利要求1所述的FAQ相似问题生成方法，其特征在于，所述基于所述标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集，包括：提取所述标准FAQ数据集中任一标准FAQ数据；解析所述标准FAQ数据，确定第一问题数据和第一答案数据；将所述大数据平台上各个存储节点存储的FAQ数据集作为目标数据集；将所述第一问题数据与所述目标数据集中的各个FAQ数据中的第二问题数据进行匹配，获取所述目标数据集中与所述第一问题数据相匹配的所述第二问题数据作为第一待筛选数据并构建第一待筛选数据集；将所述第一答案数据与所述目标数据集中的各个FAQ数据中的第二答案数据进行匹配，获取所述目标数据集中与所述第一答案数据相匹配的所述第二答案数据对应的所述第二问题数据作为第二待筛选数据并构建第二待筛选数据集；基于所述第一待筛选数据集和所述第二待筛选数据集，构建所述第一相似问题数据集。 3.如权利要求2所述的FAQ相似问题生成方法，其特征在于，所述基于所述第一待筛选数据集和所述第二待筛选数据集，构建所述第一相似问题数据集，包括：将所述第一待筛选数据集与所述第二待筛选数据集中相同的数据作为所述标准FAQ数据的所述第一问题数据的所述相似问题数据并构建为第一数据集；将所述第一待筛选数据集中与所述第一数据集中相同的数据删除，获得第三待筛选数据集；将所述第二待筛选数据集中与所述第一数据集中相同的数据删除，获得第四待筛选数据集；将所述第三待筛选数据集中的各个所述第二问题数据对应的所述第二答案数据与所述第一数据集中各个所述第二问题数据对应的所述第二答案数据进行匹配，当所述第一数据集中存在匹配符合项时，将所述第三待筛选数据集中的所述第二答案数据对应得所述第二问题数据添加进所述第一数据集中并将其从所述第三待筛选数据集中删除；将所述第四待筛选数据集中的各个所述第二问题数据与所述第一数据集中各个所述第二问题数据进行匹配，当所述第一数据集中存在匹配符合项时，将所述第四待筛选数据集中的所述第二问题数据添加进所述第一数据集中并将其从所述第四待筛选数据集中删除；直至所述第三待筛选数据集和所述第四待筛选数据集中不存在可以添加进所述第一数据集中的所述第二问题数据时，将所述第一数据集作为所述第一相似问题数据集。权　利　要　求　书 1/4 页 2 CN 114117022 B 24.如权利要求1所述的FAQ相似问题生成方法，其特征在于，所述基于所述标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集，包括：提取所述标准FAQ数据集中任一标准FAQ数据；基于所述标准FAQ数据，生成相似问题数据获取请求；将所述相似问题数据获取请求发送至所述大数据平台上的各个数据处理节点；接收各个所述数据处理节点对于所述相似问题数据获取请求的反馈数据；解析各个所述数据处理节点的所述反馈数据，获取多个第三待筛选数据；基于所述第三待筛选数据对应的反馈的所述数据处理节点的权限值，确定各个所述第三待筛选数据对应的信任值，所述信任值的计算公式如下： ; 其中，为所述信任值，为第个所述反馈数据包含所述第三待筛选数据的所述数据处理节点的权限值；为所述反馈数据包含所述第三待筛选数据的所述数据处理节点的数目；基于所述信任值大于预设的信任阈值的所述第三待筛选数据，构建第二数据集；基于所述信任值小于等于预设的信任阈值的所述第三待筛选数据，构建第五待筛选数据集；将所述第五待筛选数据集中的各个所述第三待筛选数据中的第三问题数据分别与所述第二数据集中的第三问题数据以及所述标准FA Q数据中的第一问题数据匹配并且将所述第五待筛选数据集中的各个所述第三待筛选数据对应的第三答案数据分别与所述第二数据集中的第三问题数据对应的所述第三答案数据以及所述标准FA Q数据中的第一问题数据对应的第一答案数据匹配，当同时匹配符合时，将所述第五待筛选数据集中的所述第三待筛选数据添加进所述第二数据集并将其从第五待筛选数据集中删除；直至所述第五待筛选数据集中不存在可添加至所述第二数据集中的数据时，将所述第二数据集作为所述第一相似问题数据集。 5.如权利要求1所述的FAQ相似问题生成方法，其特征在于，还包括：获取对于所述第二相似问题数据集的异常反馈的异常数据；对所述异常数据进行验证；当验证通过时，基于所述异常数据，确定异常的相似问题数据并将其从所述第一相似问题数据集中删除；基于删除后的所述第一相似问题数据集和所述标准FAQ数据集，重新构建所述相似问题生成深度学习模型；其中，对所述异常数据进行验证，包括：基于异常数据反馈的用户的反馈值，确定所述异常数据的效用值，计算公式如下： ; 其中，为所述效用值，为所述异常数据的第个用户的反馈值；为所述异常数据的第个用户的权限值；为所述异常数据的反馈的用户的总数；权　利　要　求　书 2/4 页 3 CN 114117022 B 3

专利 一种FAQ相似问题生成方法及系统

专利一种FAQ相似问题生成方法及系统