standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210113963.7 (22)申请日 2022.01.30 (71)申请人 百度在线网络技 术 (北京) 有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦三层 (72)发明人 侯柳平  (74)专利代理 机构 北京同立钧成知识产权代理 有限公司 1 1205 专利代理师 李国祥 黄健 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 目标信息识别方法、 装置、 设备、 可读存储介 质及产品 (57)摘要 本公开提供了目标信息识别方法、 装置、 设 备、 可读存储介质及产品, 涉及人工智能中的 NLP。 具体实现方案为: 获取识别请求, 其中, 所述 识别请求中包括待识别隐私 政策文件; 根据所述 识别请求, 将所述待识别隐私 政策文件与预设的 目标信息词表进行比对操作, 确定待识别隐私 政 策文件与目标信息词表的交集词汇集合, 其中, 所述目标信息词表中包括符合预设规定的标准 目标信息词汇, 以及不符合预设规定的非标准目 标信息词汇; 将交集词汇集合中的词汇确定为待 识别隐私 政策文件对应的目标信息。 从而能够快 速地实现对待识别隐私政策文件中符合预设规 定以及不符合预设规定的目标信息的识别操作, 提高了目标信息识别的效率以及准确度。 权利要求书4页 说明书12页 附图4页 CN 114444503 A 2022.05.06 CN 114444503 A 1.一种目标信息识别方法, 包括: 获取识别请求, 其中, 所述识别请求中包括待识别隐私政策文件; 根据所述识别请求, 将所述待识别隐私政策文件与预设的目标信息词表进行比对操 作, 确定待识别隐私政策文件与目标信息词表的交集词汇集合, 其中, 所述目标信息词表中 包括符合预设规定的标准目标信息词汇, 以及不符合预设规定的非标准目标信息词汇; 将交集词汇集 合中的词汇确定为待识别隐私政策文件 对应的目标信息 。 2.根据权利要求1所述的方法, 所述根据所述识别请求, 将所述待识别隐私政策文件与 预设的目标信息词表进行比对操作之前, 还 包括: 获取待处理隐私政策文件集合, 其中, 所述待处理隐私政策文件集合中包括多个待处 理隐私政策文件; 对各所述待处理隐私政策文件进行数据处理, 获得与 各待处理隐私政策文件对应的多 个名词性短语; 根据各名词性短语在多个待处理隐私政策文件中使用频率将所述名词性短语按照所 述使用频率由大到小的顺序进行排序, 获得排序后的名词性短语; 根据所述 排序后的名词性短语生成所述目标信息词表。 3.根据权利要求2所述的方法, 其中, 所述对各所述待处理隐私政策文件进行数据处 理, 获得与各待处 理隐私政策文件 对应的多个名词性短语, 包括: 针对各待处理隐私政策文件, 根据 所述待处理隐私政策文件中的标点符号对待处理隐 私政策文件进行分句操作, 获得与所述待处 理隐私政策文件 对应的多个待处 理语句; 针对各待处理语句, 将所述待处理语句输入至预设的语言分析工具, 获得所述待处理 语句对应的多个分词、 任意两个分词之 间的依存关系以及各分词对应的词性信息, 其中, 所 述语言分析工具为自然语言处 理工具; 根据所述待处理语句对应的多个分词、 任意两个分词之间的依存关系以及各分词对应 的词性信息, 确定所述待处 理语句对应的至少一个名词性短语。 4.根据权利要求3所述的方法, 其中, 所述根据所述待处理语句对应的多个分词、 任意 两个分词之 间的依存关系以及各分词对应的词性信息, 确定所述待处理语句对应的至少一 个名词性短语, 包括: 根据所述待处理语句对应的多个分词及各分词的词性信 息, 确定所述待处理语句对应 的名词分词; 针对各名词分词, 根据 所述任意两个分词之间的依存关系确定所述名词分词对应的修 饰性分词; 将所述名词分词以及所述 修饰性分词确定为所述名词性短语。 5.根据权利要求2所述的方法, 其中, 所述根据所述排序后的名词性短语生成所述目标 信息词表, 包括: 按照所述排序后的名词性短语的顺序, 依次将所述名词性短语与 标准目标信 息词表中 的各词汇进行比对操作, 获得比对结果; 根据所述比对结果对所述 排序后的名词性短语进行 标注操作; 剔除所述 排序后的名词性短语中未被标注的名词性短语, 获得 所述目标信息词表。 6.根据权利要求5所述的方法, 其中, 所述根据所述比对结果对所述排序后的名词性短权 利 要 求 书 1/4 页 2 CN 114444503 A 2语进行标注操作, 包括: 若所述比对结果为所述标准目标信 息词表中包括所述名词性短语, 则将所述名词性短 语标注为标准目标信息词汇; 若所述比对结果为所述标准目标信 息词表中不包括所述名词性短语, 则计算所述名词 性短语与所述标准目标信息词表中词汇的相似度; 若所述名词性短语与所述标准目标信息词表中相似度最高的标准目标信息词汇的相 似度超过 预设的相似度阈值, 则自动将所述名词性短语标注为非标准目标信息词汇。 7.根据权利要求6所述的方法, 所述将所述名词性短语标注为非标准目标信息词汇之 后, 还包括: 建立所述非标准目标信息词汇与所述相似度最高的标准目标信息词汇之间的映射关 系。 8.根据权利要求7所述的方法, 其中, 所述若所述名词性短语与 所述标准目标信 息词表 中相似度最高的词汇的相似度超过预设的相似度阈值, 则自动 将所述名词性短语标注为 非 标准目标信息词汇之后, 还 包括: 若所述比对结果为所述标准目标信 息词表中不包括所述名词性短语, 所述名词性短语 与所述标准目标信息词表中相似度最高的词汇的相似度不超过预设的相似度阈值, 且所述 名词性短语在排序中的位置超过预设的位置阈值, 则将所述名词性短语发送至技术人员的 终端设备, 使得 所述技术人员对所述名词性短语进行手动标注操作; 接收技术人员的终端设备发送的手动标注的非标准目标信息词汇; 将自动标注的非标准目标信息词汇以及手动标注的非标准目标信息词汇确定为非标 准目标信息词汇。 9.根据权利要求7所述的方法, 其中, 所述根据所述识别请求, 将所述待识别隐私政策 文件与预设的目标信息词表进 行比对操作, 确定待识别隐私政策文件与目标信息词表的交 集词汇集 合之后, 还 包括: 若检测到所述待识别隐私政策文件中存在非标准目标信 息词汇, 则根据 所述非标准目 标信息词汇与标准目标信息词汇之 间的映射关系, 将所述待识别隐私政策文件中的非标准 目标信息词汇替换为所述标准目标信息词汇。 10.根据权利要求2 ‑8任一项所述的方法, 其中, 所述获取待处理隐私政策文件集合, 包 括: 通过网络 爬虫从互联网上获取待处 理隐私政策文件集 合。 11.一种目标信息识别装置, 包括: 获取模块, 用于获取识别请求, 其中, 所述识别请求中包括待识别隐私政策文件; 处理模块, 用于根据所述识别请求, 将所述待识别隐私政策文件与预设的目标信息词 表进行比对操作, 确定待识别隐私政策文件与目标信息词表的交集词汇集合, 其中, 所述目 标信息词表中包括符合预设规定的标准目标信息词汇, 以及不符合预设规定的非标准目标 信息词汇; 确定模块, 用于将交集词汇集合中的词汇确定为待识别隐私政策文件对应的目标信 息。 12.根据权利要求1 1所述的装置, 所述装置还 包括:权 利 要 求 书 2/4 页 3 CN 114444503 A 3

PDF文档 专利 目标信息识别方法、装置、设备、可读存储介质及产品

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 目标信息识别方法、装置、设备、可读存储介质及产品 第 1 页 专利 目标信息识别方法、装置、设备、可读存储介质及产品 第 2 页 专利 目标信息识别方法、装置、设备、可读存储介质及产品 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:39上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。