standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210158516.3 (22)申请日 2022.02.21 (71)申请人 京东科技信息技 术有限公司 地址 100176 北京市大兴区北京经济技 术 开发区科创十一街18号院2号楼6层 601 (72)发明人 袁韶祖 陈蒙 祝天刚  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 王治东 (51)Int.Cl. G06F 16/242(2019.01) G06F 16/22(2019.01) G06K 9/62(2022.01) G06F 40/30(2020.01) (54)发明名称 结构化查询语 言语句处理方法和系统、 设备 和介质 (57)摘要 本公开提供一种结构化查询语言语句处理 方法和系统、 设备和介质, 所述结构化查询语言 语句处理方法包括: 获取表格信息, 将表格信息 输入至结构化查询语言语句处理模 型, 输出结构 化查询语言语句, 其中, 将第一训练样本分别输 入第一老师模型和第一学生模型中进行蒸馏训 练, 得到第二学生模型; 将第二训练样本分别输 入第二老师模型和第二学生模型中进行蒸馏训 练, 得到训练好的第二学生模型; 结构化查询语 言语句处理模 型是基于训练好的第二学生模型、 表格样本以及预先确定的语言标签进行训练后 得到, 从而可以实现在保证结构化查询语言语句 的准确率和精度的基础上, 克服了线上部署时内 存不足和推理时间过慢的缺陷。 权利要求书2页 说明书12页 附图2页 CN 114610743 A 2022.06.10 CN 114610743 A 1.一种结构化 查询语言语句处 理方法, 其特 征在于, 包括: 获取表格信息, 将所述表格信息输入至所述结构化查询语言语句处理模型, 输出结构 化查询语言语句; 其中, 将第一训练样本分别输入第一老师模型和第一学生模型中进行蒸馏训练, 得到 第二学生模型, 所述第一老师模型为基于所述第一训练样本经 过预先训练获得的; 将第二训练样本分别 输入第二老师模型和所述第 二学生模型中进行蒸馏训练, 得到训 练好的第二学生模型, 所述第二老师模型为基于所述第二训练样本经 过预先训练获得的; 所述结构化查询语言语句处理模型是基于训练好的第 二学生模型、 表格样本以及预先 确定的语言标签进行训练后得到 。 2.根据权利要求1所述的结构化查询语言语句处理方法, 其特征在于, 所述第 一训练样 本包括未标记的中文训练语料样本以及预先确定的句子表征标签, 所述第一学生模型在训 练过程中采用的损失函数为: 其中, 表示预先确定的句子表征标签, 表示第一学生模型训练时的输出结果, n1表 示第一学生模型输出 结果的分类数。 3.根据权利要求1所述的结构化查询语言语句处理方法, 其特征在于, 所述第 二训练样 本包括带标记的文本和结构化查询语言语句样本以及预先确定的表征配对标签, 所述第二 学生模型在训练过程中采用的损失函数为: 其中, 表示预先确定的表征配对标签, 表示第二学生模型训练时的输出结果, n2表 示第二学生模型输出 结果的分类数。 4.根据权利要求1所述的结构化查询语言语句处理方法, 其特征在于, 所述第 二训练样 本的构造方法包括: 获取带标记的文本; 基于所述带标记的文本, 构造包含数据集表中的表头、 运算和表值的第 一范式, 将所述 第一范式改写成正结构化 查询语言语句样本; 将所述带标记的文本与正结构化查询语言语句样本相匹配的标签作为表征配对成功 标签; 将所述数据集表中的其他表头和表值以及所述运算构造成第 二范式, 将所述第 二范式 改写成负结构化 查询语言语句样本; 将所述带标记的文本与负结构化查询语言语句样本不匹配的标签作为表征配对失败 标签。 5.根据权利要求1所述的结构化查询语言语句处理方法, 其特征在于, 所述获取表格信 息, 将所述表格信息输入至所述结构化查询语言语句处理模型, 输出结构化查询语 言语句,权 利 要 求 书 1/2 页 2 CN 114610743 A 2包括: 将所述表格信 息输入至所述结构化查询语言语句处理模型, 输出若干个子任务对应的 结构化查询语言语句; 所述输出若干个子任务对应的结构化 查询语言语句之后, 包括: 将若干个子任务对应的结构化查询语言语句进行拼接, 形成目标结构化查询语言语 句。 6.根据权利要求1所述的结构化查询语言语句处理方法, 其特征在于, 所述结构化查询 语言语句处 理模型在训练过程中采用的损失函数为: 其中, yi表示预先确定的语言标签, 表示输出的结构化查询语言语句, n表示输出的结 构化查询语言语句的类别数。 7.一种结构化 查询语言语句处 理系统, 其特 征在于, 包括: 结构化查询语言语句处理模块, 用于获取表格信息, 将所述表格信息输入至所述结构 化查询语言语句处 理模型, 输出 结构化查询语言语句; 其中, 所述系统还包括: 第 一蒸馏训练模块, 用于将第 一训练样本分别输入第 一老师模 型和第一学生模型中进行蒸馏训练, 得到第二学生模型, 所述第一老师模型为基于所述第 一训练样本经 过预先训练获得的; 第二蒸馏训练模块, 用于将第 二训练样本分别输入第 二老师模型和所述第 二学生模型 中进行蒸馏训练, 得到训练好的第二学生模型, 所述第二老师模型为基于所述第二训练样 本经过预先训练获得的; 所述结构化查询语言语句处理模型是基于训练好的第 二学生模型、 表格样本以及预先 确定的语言标签进行训练后得到 。 8.根据权利要求7所述的结构化查询语言语句处理系统, 其特征在于, 所述结构化查询 语言语句处 理模块还用于: 将所述表格信 息输入至所述结构化查询语言语句处理模型, 输出若干个子任务对应的 结构化查询语言语句; 所述系统还包括: 拼接模块, 用于在输出若干个子任务对应的结构化查询语言语句之 后, 将若干个子任务对应的结构化 查询语言语句进行拼接, 形成目标 结构化查询语言语句。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至6任一项所述的结构 化查询语言语句处 理方法的步骤。 10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机 程序被处理器执行时实现如权利要求1至6任一项所述的结构化查询语言语句处理方法的 步骤。权 利 要 求 书 2/2 页 3 CN 114610743 A 3

PDF文档 专利 结构化查询语言语句处理方法和系统、设备和介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 结构化查询语言语句处理方法和系统、设备和介质 第 1 页 专利 结构化查询语言语句处理方法和系统、设备和介质 第 2 页 专利 结构化查询语言语句处理方法和系统、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:31上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。