(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210063403.5
(22)申请日 2022.01.19
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 刘海涛 田宏韬 苏义伟
(74)专利代理 机构 中科专利商标代理有限责任
公司 11021
代理人 王江选
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06K 9/62(2022.01)
(54)发明名称
文本匹配方法、 文本匹配模 型的训练方法和
装置
(57)摘要
本公开提供了一种文本匹配方法、 文本匹配
模型的训练方法、 装置、 设备、 介质和产品, 涉及
人工智能技术领域, 具体为自然语言处理、 深度
学习技术领域。 文本匹配方法包括: 对目标文本
进行分词处理, 得到初始字词; 处理初始字词, 得
到目标字词, 其中, 目标字词包含的文本语义信
息量低于初始字词包含的文本语义信息量; 提取
目标字词的字词特征; 基于目标字词的字词特
征, 得到针对目标文本的文本特征; 将目标文本
的文本特征和候选文本的文本特征进行匹配, 得
到目标文本和候选文本之间的相似度。
权利要求书4页 说明书11页 附图8页
CN 114417862 A
2022.04.29
CN 114417862 A
1.一种文本匹配方法, 包括:
对目标文本进行分词处 理, 得到初始字词;
处理所述初始字词, 得到目标字词, 其中, 所述目标字词包含的文本语义信息量低于所
述初始字词包 含的文本语义信息量;
提取所述目标字词的字词特 征;
基于所述目标字词的字词特 征, 得到针对所述目标文本的文本特 征; 以及
将所述目标文本的文本特征和候选文本的文本特征进行匹配, 得到所述目标文本和所
述候选文本之间的相似度。
2.根据权利要求1所述的方法, 其中, 所述初始字词包括多个初始字词; 所述处理所述
初始字词, 得到目标字词包括:
利用掩膜Mask结构从所述多个初始字词中确定至少一个初始字词, 作为所述目标字
词。
3.根据权利要求1所述的方法, 其中, 所述目标字词的字词特 征包括以下至少一项:
所述目标字词的基础特征、 所述目标字词在所述目标文本中的位置特征、 所述目标字
词所属句子在所述目标文本中的句子特 征、 所述目标字词在所属句子中的属性特 征。
4.根据权利要求1所述的方法, 其中, 所述候选文本包括多个候选文本; 所述将所述目
标文本的文本特征和候选文本的文本特征进 行匹配, 得到所述目标文本和所述候选文本之
间的相似度包括:
基于所述多个候选文本的文本特征, 构建文本搜索树结构, 其中, 所述文本搜索树结构
包括多个节点;
基于所述目标文本的文本特征, 从所述多个节点中确定针对所述目标文本的目标节
点;
基于所述目标节点, 从所述多个候选文本 中确定至少一个候选文本, 其中, 所述至少一
个候选文本与所述目标文本之间的相似度满足相似度条件; 以及
将所述目标文本的文本特征与所述至少一个候选文本的文本特征进行比较, 得到所述
目标文本和所述至少一个候选文本之间的相似度。
5.根据权利要求4所述的方法, 其中, 所述多个节点被划分为至少一个层级; 所述基于
所述多个候选文本的文本特 征, 构建文本 搜索树结构包括:
针对所述多个候选文本 中的每个候选文本, 将所述候选文本的文本特征划分为至少一
个子特征, 所述至少一个子特 征与所述至少一个层级一 一对应; 以及
将所述至少一个子特 征分别关联至所述至少一个层级, 得到所述文本 搜索树结构。
6.根据权利要求1 ‑5中任意一项所述的方法, 其中:
所述提取所述目标字词的字词特征包括: 利用文本匹配模型中的字词特征搜索网络提
取所述目标字词的字词特 征;
所述基于所述目标字词的字词特征, 得到针对所述目标文本的文本特征包括: 利用文
本匹配模型中的丈本特征搜索网络基于所述目标字词的字词特征, 得到针对所述目标文本
的文本特 征。
7.一种文本匹配模型的训练方法, 包括:
对第一文本样本进行分词处 理, 得到初始样本 字词;权 利 要 求 书 1/4 页
2
CN 114417862 A
2处理所述初始样本字词, 得到目标样本字词, 其中, 所述目标样本字词包含的文本语义
信息量低于所述初始样本 字词包含的文本语义信息量;
利用待训练的文本匹配模型提取 所述目标样本 字词的字词特 征;
利用所述待训练 的文本匹配模型基于所述目标样本字词的字词特征, 得到针对所述第
一文本样本的文本特 征;
将所述第一文本样本的文本特征和第 二文本样本的文本特征进行匹配, 得到所述第 一
文本样本和所述第二文本样本之间的样本相似度; 以及
基于所述样本相似度以及所述第 一文本样本和所述第 二文本样本之间的相似度标签,
调整所述待训练的文本匹配模型的模型参数。
8.根据权利要求7所述的方法, 其中, 所述初始样本字词包括多个初始样本字词; 所述
处理所述初始样本 字词, 得到目标样本 字词包括:
利用掩膜Mask结构从所述多个初始样本字词中确定至少一个初始样本字词, 作为所述
目标样本 字词。
9.根据权利要求7所述的方法, 其中, 所述目标样本字词的字词特征包括以下至少一
项:
所述目标样本字词的基础特征、 所述目标样本字词在所述第一文本样本中的位置特
征、 所述目标样本字词 所属句子在所述第一文本样本中的句 子特征、 所述 目标样本字词在
所属句子中的属性特 征。
10.根据权利要求7 ‑9中任意一项所述的方法, 其中, 所述待训练的文本匹配模型包括
字词特征搜索网络和文本特 征搜索网络;
其中, 所述利用所述待训练的文本匹配模型提取所述目标样本字词的字词特征包括:
利用所述字词特 征搜索网络提取 所述目标样本 字词的字词特 征;
其中, 所述基于所述目标样本字词的字词特征, 得到针对所述第一文本样本的文本特
征包括: 利用所述文本特征搜索网络基于所述 目标样本字词的字词 特征, 得到针对所述第
一文本样本的文本特 征。
11.根据权利要求7所述的方法, 其中, 所述第一文本样本和所述第二文本样本之间的
相似度标签是基于以下 方式得到的:
对所述第一文本样本进行分词处 理, 得到第一样本 字词;
对所述第二文本样本进行分词处 理, 得到第二样本 字词;
确定所述第一样本 字词和所述第二样本 字词的交集;
确定所述第一样本 字词和所述第二样本 字词的并集; 以及
基于所述交集和所述并集之间的比值, 确定所述第 一文本样本和所述第 二文本样本之
间的相似度标签。
12.一种文本匹配装置, 包括:
第一处理模块, 用于对目标文本进行分词处 理, 得到初始字词;
第二处理模块, 用于处理所述初始字词, 得到目标字词, 其中, 所述目标字词包含的文
本语义信息量低于所述初始字词包 含的文本语义信息量;
第一提取模块, 用于提取 所述目标字词的字词特 征;
第一获得模块, 用于基于所述目标字词的字词特征, 得到针对所述目标文本的文本特权 利 要 求 书 2/4 页
3
CN 114417862 A
3
专利 文本匹配方法、文本匹配模型的训练方法和装置
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:51上传分享