(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210117994.X
(22)申请日 2022.02.08
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 颜璟 陈艳 刘璟
(74)专利代理 机构 北京英赛 嘉华知识产权代理
有限责任公司 1 1204
专利代理师 王达佐 马晓亚
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)
(54)发明名称
语义匹配模 型训练、 语义匹配方法及相关装
置
(57)摘要
本公开提供了一种语义匹配模 型训练、 语义
匹配方法、 装置、 电子设备、 计算机可读 存储介质
及计算机程序产品, 涉及深度学习、 自然语言处
理和语言识别等人工智能技术领域。 该方法的一
具体实施方式包括: 获取训练样本集合后, 基于
训练样本中所包括的样本共有词确定训练样本
集合中的有偏训练样本, 连续使用该训练样本集
合中的训练样本对初始语义匹配模型进行连续
训练, 其中, 在训练的前预设轮次内非有偏训练
样本被抽取的概率高于该有偏训练样本, 该非有
偏训练样本为该训练样本集合中该有偏训练样
本之外的训练样本, 最后训练轮次达到预设目标
轮次时进行响应, 生成语义匹配模型。 应用该实
施方式提供的语义匹配模型可以更准确的生成
语义相似匹配结果。
权利要求书3页 说明书12页 附图5页
CN 114444514 A
2022.05.06
CN 114444514 A
1.一种语义匹配模型训练方法, 包括:
获取训练样本集 合;
将所述训练样本集合中包括目标关键词的训练样本确定为有偏训练样本, 其中, 所述
目标关键词基于所述训练样本中所包括的样本共有词确定;
获取初始语义匹配模型, 并连续使用所述训练样本集合中的训练样本对所述初始语义
匹配模型进行连续训练, 其中, 在训练的前预设轮次内非有偏训练样本被抽取 的概率高于
所述有偏训练样本, 所述 非有偏训练样本为所述训练样本集合中所述有偏训练样本之外的
训练样本;
响应于训练轮次达 到预设目标轮次, 生成语义匹配模型。
2.根据权利要求1所述的方法, 其中, 所述训练样本为标记有语义相似或不相似的标识
的成对语句, 以及
所述将所述训练样本集 合中包括目标关键词的训练样本确定为有偏训练样本, 包括:
对所述训练样本集合中所包括的各训练样本进行切词处理, 并收集各所述训练样本的
切词结果后生成切词结果 集合;
响应于所述切词结果集合中存在出现次数超过预设频次阈值的样本共有词, 生成包括
所述样本共有词的第一训练样本和第二训练样本之间的数量比例, 其中, 所述第一训练样
本被标记有所述语义相似标识, 所述第二训练样本被标记有所述语义 不相似标识;
响应于所述数量比例超过预设比例阈值, 将所述样本共有词确定为目标关键词, 并将
包括所述目标关键词的训练样本确定为有偏训练样本 。
3.根据权利要求1所述的方法, 其中, 所述获取初始语义匹配模型, 并连续使用所述训
练样本集 合中的训练样本对所述初始语义匹配模型进行 连续训练, 包括:
获取初始语义匹配模型;
将所述训练样本集 合分为有偏训练样本集 合和非有偏训练样本集 合;
基于预设的集合抽取函数生成集合选取序列, 其中, 所述集合选取序列前预设序位中
所包括所述非有偏训练样本集 合的数量多于所述有偏训练样本集 合;
依据所述集合选取序列连续从所述有偏训练样本集合和所述有偏训练样本集合提取
所述训练样本作为输入, 以所述训练样本对应的标识作为输出, 对所述初始语义匹配模型
进行连续训练。
4.根据权利要求3所述的方法, 还 包括:
响应于接收到集合选取序列查询 请求, 针对所述集合选取序列查询 请求反馈所述集合
选取序列。
5.根据权利要求1所述的方法, 还 包括:
响应于所述训练样本集合中所包括的训练样本数量低于所述预设目标轮次, 在完成所
述训练样本集 合中所有的训练样本的抽取后, 重 置所述训练样本集 合。
6.根据权利要求5所述的方法, 响应于所述训练样本集 合被重置, 还包括:
使用同等概率连续从所述训练样本集合中抽取所述训练样本作为输入, 所述训练样本
对应的标识作为输出, 对所述初始语义匹配模型进行 连续训练。
7.一种语义匹配方法, 包括:
获取第一待匹配 语句和第二待匹配 语句;权 利 要 求 书 1/3 页
2
CN 114444514 A
2将所述第一待匹配语句和第二待匹配语句输入至语义匹配模型中进行处理, 其中, 所
述语义匹配模型基于包括有偏训练样本的训练样本集合训练得到, 所述有偏训练样本基于
所述训练样本集合中包括目标关键词的训练样本确定, 所述目标关键词基于所述训练样本
中所包括的样本共有词确定;
根据所述语义匹配模型输出的语义匹配结果, 生成所述第 一待匹配语句和第 二待匹配
语句的语义匹配结果。
8.一种语义匹配模型训练装置, 包括:
训练样本集 合获取单元, 被配置成获取训练样本集 合;
有偏训练样本确定单元, 被配置成将所述训练样本集合中包括目标关键词的训练样本
确定为有偏训练样本, 其中, 所述 目标关键词基于所述训练样本中所包括的样本共有词确
定;
语义匹配模型训练单元, 被配置成获取初始语义匹配模型, 并连续使用所述训练样本
集合中的训练样本对所述初始语义匹配模型进行连续训练, 其中, 在训练的前预设轮次内
非有偏训练样本被抽取的概率高于所述有偏训练样本, 所述 非有偏训练样本为所述训练样
本集合中所述有偏训练样本之外的训练样本;
语义匹配模型生成单元, 被配置成响应于训练轮次达到预设目标轮次, 生成语义匹配
模型。
9.根据权利要求8所述的装置, 其中, 所述训练样本为标记有语义相似或不相似的标识
的成对语句, 以及
所述有偏训练样本确定单 元, 包括:
切词结果集合生成子单元, 被配置成对所述训练样本集合中所包括的各训练样本进行
切词处理, 并收集各 所述训练样本的切词结果后生成切词结果 集合;
样本数量比例生成子单元, 被配置成响应于所述切词结果集合中存在出现次数超过预
设频次阈值的样本共有词, 生成包括所述样本共有词的第一训练样本和第二训练样本之间
的数量比例, 其中, 所述第一训练样本被标记有语义相似标识, 所述第二训练样本被标记有
语义不相似标识;
有偏训练样本确定子单元, 被配置成响应于所述数量比例超过预设比例阈值, 将所述
样本共有词确定为目标关键词, 并将包括所述目标关键词的训练样本确定为有偏训练样
本。
10.根据权利要求8所述的装置, 其中, 所述语义匹配模型训练单 元, 包括:
初始语义匹配模型获取子单 元, 被配置成获取初始语义匹配模型;
样本集合分类子单元, 被配置成将所述训练样本集合分为有偏训练样本集合和非有偏
训练样本集 合;
集合选取序列生成子单元, 被配置成基于预设的集合抽取函数生成集合选取序列, 其
中, 所述集合选取序列前预设序位中所包括所述 非有偏训练样本集合的数量多于所述有偏
训练样本集 合;
语义匹配模型训练子单元, 被配置成依据 所述集合选取序列 连续从所述有偏训练样本
集合和所述有偏训练样本集合提取所述训练样本作为输入, 以所述训练样本对应的标识作
为输出, 对所述初始语义匹配模型进行 连续训练。权 利 要 求 书 2/3 页
3
CN 114444514 A
3
专利 语义匹配模型训练、语义匹配方法及相关装置
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:38上传分享