(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210134552.6
(22)申请日 2022.02.14
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 程鸣权 刘欢 王述 王海威
李雅楠 陈坤斌 和为
(74)专利代理 机构 北京博浩百 睿知识产权代理
有限责任公司 1 1134
专利代理师 宫传芝
(51)Int.Cl.
G06F 16/31(2019.01)
G06F 16/38(2019.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)G06N 5/02(2006.01)
(54)发明名称
标签抽取方法、 装置、 存储介质以及电子设
备
(57)摘要
本公开提供了一种标签抽取方法、 装置、 存
储介质以及电子设备, 涉及智 能识别技术领域,
尤其涉及字符搜索、 语义识别、 无监督识别技术
领域。 具体实现方案为: 获取目标文档的文本内
容和文本路径; 采用多种识别方式对 上述文本内
容和上述文本路径进行标签识别, 得到目标候选
标签集合; 获取上述目标候选标签集合中的候选
标签与上述文本内容的第一语义相似度; 确定上
述第一语义相似度大于第一预定阈值的候选标
签为上述目标文档的目标 标签。
权利要求书4页 说明书12页 附图6页
CN 114461748 A
2022.05.10
CN 114461748 A
1.一种标签抽取 方法, 其中, 包括:
获取目标文档的文本内容和文本路径;
采用多种识别方式对所述文本内容和所述文本路径进行标签识别, 得到目标候选标签
集合;
获取所述目标候选标签集 合中的候选标签与所述文本内容的第一语义相似度;
确定所述第一语义相似度大于第一预定阈值的候选标签为所述目标文档的目标 标签。
2.根据权利要求1所述的方法, 其中, 所述采用多种识别方式对所述目标文档进行标签
识别, 得到目标候选标签集 合, 包括:
对所述文本 内容和所述文本路径进行命名实体识别, 得到所述目标文档的第 一候选标
签集合;
对所述文本内容和所述文本路径进行字符搜索, 得到搜索结果, 基于所述搜索结果与
预定标签集 合, 确定所述目标文档的第二 候选标签集 合;
对所述文本 内容和所述文本路径采用无监督标签识别方法进行识别, 得到所述目标文
档的第三 候选标签集 合;
基于所述第一候选标签集合、 所述第二候选标签集合和所述第三候选标签集合, 确定
所述目标候选标签集 合。
3.根据权利要求2所述的方法, 其中, 所述对所述文本 内容和所述文本路径的文本 内容
进行命名实体识别, 得到所述目标文档的第一 候选标签集 合, 包括:
对所述文本内容进行切词处 理, 得到切词结果;
对所述切词结果进行 标注处理, 得到标注后的切词结果;
将所述标注后的切词结果中的目标词语作为所述候选标签, 并将所述候选标签添加至
所述第一 候选标签集 合中。
4.根据权利要求3所述的方法, 其中, 所述基于所述搜索结果与预定标签集合, 确定所
述目标文档的第二 候选标签集 合, 包括:
将所述搜索结果中出现在所述预定标签集 合中的搜索字符确定为待定候选标签;
根据与所述切词结果匹配的所述待定候选标签确定目标候选标签;
基于所述目标候选标签确定所述目标文档的所述第二 候选标签集 合。
5.根据权利要求3所述的方法, 其中, 对所述文本 内容和所述文本路径采用无监督标签
识别方法进行识别, 得到所述目标文档的第三 候选标签集 合, 包括:
按照所述切词结果中每个切词的出现顺序构建有向图, 其中, 每两个切词形成所述有
向图的一条边, 每 个切词对应于所述有向图中的一个节点;
对所述有向图中的节点进行缩 减处理, 得到缩 减后的有向图;
计算所述缩 减后的有向图中每 个切词对应的第一节点介数;
根据所述第 一节点介数确定第 一合并切词对应的第 二节点介数, 以及第 二合并切词对
应的第三节点介数, 其中, 所述第一合并切词是由相 邻两个切词合并组成的, 所述第二合并
切词是由相邻三个切词合并组成的;
对所述第一节点介数、 所述第二节点介数以及所述第三节点介数进行降序排序处理,
将节点介数排在前列的目标数量个切词作为所述候选标签, 并将所述候选标签添加至所述
第三候选标签集 合中。权 利 要 求 书 1/4 页
2
CN 114461748 A
26.根据权利要求2所述的方法, 其中, 所述基于所述第一候选标签集合, 所述第二候选
标签集合和所述第三 候选标签集 合, 确定所述目标候选标签集 合, 包括:
判断所述第一 候选标签集 合和所述第二 候选标签集 合中是否存在所述 候选标签;
若所述第一候选标签集合和所述第 二候选标签集合中均不存在所述候选标签, 则将所
述第三候选标签集 合作为所述目标候选标签集 合。
7.根据权利要求1所述的方法, 其中, 所述获取 所述目标文档的文本路径, 包括:
获取所述目标文档的存 储路径;
将所述存 储路径按照文件夹名称拆分为多个元 素;
计算每一个所述元 素与所述文本内容之间的第二语义相似度;
将所述第二语义相似度大于第二预设阈值的元 素作为所述文本路径。
8.根据权利要求1所述的方法, 其中, 所述方法还 包括:
获取用户行为日志中的用户新增标签, 其中, 所述用户新增标签为用户最新加入的自
定义标签;
计算所述用户新增标签与所述文本内容之间的第三语义相似度;
判断所述第三语义相似度是否大于第三预设阈值;
若所述第三语义相似度 大于所述第 三预设阈值, 并且所述用户新增标签的添加次数大
于第一预设次数, 则将所述用户新增标签添加至预定标签集 合中。
9.根据权利要求1所述的方法, 其中, 所述方法还 包括:
获取用户行为日志中的用户删除标签;
计算所述用户删除标签与所述文本内容之间的第四语义相似度;
判断所述第四语义相似度是否大于第四预设阈值;
若所述第四语义相似度 大于所述第四预设阈值, 并且所述用户删除标签的删除次数大
于第二预设次数, 则将所述用户删除标签从预定标签集 合中删除。
10.一种标签抽取装置, 其中, 包括:
第一获取模块, 用于获取目标文档的文本内容和文本路径;
识别模块, 用于采用多种识别方式对所述文本内容和所述文本路径进行标签识别, 得
到目标候选标签集 合;
第二获取模块, 用于获取所述目标候选标签集合中的候选标签与所述文本 内容的第 一
语义相似度;
确定模块, 用于确定所述第 一语义相似度 大于第一预定阈值的候选标签为所述目标文
档的目标 标签。
11.根据权利要求10所述的装置, 其中, 所述识别模块, 包括:
第一识别子模块, 用于对所述文本内容和所述文本路径进行命名实体识别, 得到所述
目标文档的第一 候选标签集 合;
第一确定子模块, 用于对所述文本内容和所述文本路径进行字符搜索, 得到搜索结果,
基于所述搜索结果与预定标签集 合, 确定所述目标文档的第二 候选标签集 合;
第二识别 子模块, 用于对所述文本 内容和所述文本路径采用无监督标签识别装置进行
识别, 得到所述目标文档的第三 候选标签集 合;
第二确定子模块, 用于基于所述第一候选标签集合、 所述第二候选标签集合和所述第权 利 要 求 书 2/4 页
3
CN 114461748 A
3
专利 标签抽取方法、装置、存储介质以及电子设备
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:35上传分享