standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210113963.7 (22)申请日 2022.01.30 (71)申请人 百度在线网络技 术 (北京) 有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦三层 (72)发明人 侯柳平 (74)专利代理 机构 北京同立钧成知识产权代理 有限公司 1 1205 专利代理师 李国祥 黄健 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 目标信息识别方法、 装置、 设备、 可读存储介 质及产品 (57)摘要 本公开提供了目标信息识别方法、 装置、 设 备、 可读存储介质及产品, 涉及人工智能中的 NLP。 具体实现方案为: 获取识别请求, 其中, 所述 识别请求中包括待识别隐私 政策文件; 根据所述 识别请求, 将所述待识别隐私 政策文件与预设的 目标信息词表进行比对操作, 确定待识别隐私 政 策文件与目标信息词表的交集词汇集合, 其中, 所述目标信息词表中包括符合预设规定的标准 目标信息词汇, 以及不符合预设规定的非标准目 标信息词汇; 将交集词汇集合中的词汇确定为待 识别隐私 政策文件对应的目标信息。 从而能够快 速地实现对待识别隐私政策文件中符合预设规 定以及不符合预设规定的目标信息的识别操作, 提高了目标信息识别的效率以及准确度。 权利要求书4页 说明书12页 附图4页 CN 114444503 A 2022.05.06 CN 114444503 A 1.一种目标信息识别方法, 包括: 获取识别请求, 其中, 所述识别请求中包括待识别隐私政策文件; 根据所述识别请求, 将所述待识别隐私政策文件与预设的目标信息词表进行比对操 作, 确定待识别隐私政策文件与目标信息词表的交集词汇集合, 其中, 所述目标信息词表中 包括符合预设规定的标准目标信息词汇, 以及不符合预设规定的非标准目标信息词汇; 将交集词汇集 合中的词汇确定为待识别隐私政策文件 对应的目标信息 。 2.根据权利要求1所述的方法, 所述根据所述识别请求, 将所述待识别隐私政策文件与 预设的目标信息词表进行比对操作之前, 还 包括: 获取待处理隐私政策文件集合, 其中, 所述待处理隐私政策文件集合中包括多个待处 理隐私政策文件; 对各所述待处理隐私政策文件进行数据处理, 获得与 各待处理隐私政策文件对应的多 个名词性短语; 根据各名词性短语在多个待处理隐私政策文件中使用频率将所述名词性短语按照所 述使用频率由大到小的顺序进行排序, 获得排序后的名词性短语; 根据所述 排序后的名词性短语生成所述目标信息词表。 3.根据权利要求2所述的方法, 其中, 所述对各所述待处理隐私政策文件进行数据处 理, 获得与各待处 理隐私政策文件 对应的多个名词性短语, 包括: 针对各待处理隐私政策文件, 根据 所述待处理隐私政策文件中的标点符号对待处理隐 私政策文件进行分句操作, 获得与所述待处 理隐私政策文件 对应的多个待处 理语句; 针对各待处理语句, 将所述待处理语句输入至预设的语言分析工具, 获得所述待处理 语句对应的多个分词、 任意两个分词之 间的依存关系以及各分词对应的词性信息, 其中, 所 述语言分析工具为自然语言处 理工具; 根据所述待处理语句对应的多个分词、 任意两个分词之间的依存关系以及各分词对应 的词性信息, 确定所述待处 理语句对应的至少一个名词性短语。 4.根据权利要求3所述的方法, 其中, 所述根据所述待处理语句对应的多个分词、 任意 两个分词之 间的依存关系以及各分词对应的词性信息, 确定所述待处理语句对应的至少一 个名词性短语, 包括: 根据所述待处理语句对应的多个分词及各分词的词性信 息, 确定所述待处理语句对应 的名词分词; 针对各名词分词, 根据 所述任意两个分词之间的依存关系确定所述名词分词对应的修 饰性分词; 将所述名词分词以及所述 修饰性分词确定为所述名词性短语。 5.根据权利要求2所述的方法, 其中, 所述根据所述排序后的名词性短语生成所述目标 信息词表, 包括: 按照所述排序后的名词性短语的顺序, 依次将所述名词性短语与 标准目标信 息词表中 的各词汇进行比对操作, 获得比对结果; 根据所述比对结果对所述 排序后的名词性短语进行 标注操作; 剔除所述 排序后的名词性短语中未被标注的名词性短语, 获得 所述目标信息词表。 6.根据权利要求5所述的方法, 其中, 所述根据所述比对结果对所述排序后的名词性短权 利 要 求 书 1/4 页 2 CN 114444503 A 2语进行标注操作, 包括: 若所述比对结果为所述标准目标信 息词表中包括所述名词性短语, 则将所述名词性短 语标注为标准目标信息词汇; 若所述比对结果为所述标准目标信 息词表中不包括所述名词性短语, 则计算所述名词 性短语与所述标准目标信息词表中词汇的相似度; 若所述名词性短语与所述标准目标信息词表中相似度最高的标准目标信息词汇的相 似度超过 预设的相似度阈值, 则自动将所述名词性短语标注为非标准目标信息词汇。 7.根据权利要求6所述的方法, 所述将所述名词性短语标注为非标准目标信息词汇之 后, 还包括: 建立所述非标准目标信息词汇与所述相似度最高的标准目标信息词汇之间的映射关 系。 8.根据权利要求7所述的方法, 其中, 所述若所述名词性短语与 所述标准目标信 息词表 中相似度最高的词汇的相似度超过预设的相似度阈值, 则自动 将所述名词性短语标注为 非 标准目标信息词汇之后, 还 包括: 若所述比对结果为所述标准目标信 息词表中不包括所述名词性短语, 所述名词性短语 与所述标准目标信息词表中相似度最高的词汇的相似度不超过预设的相似度阈值, 且所述 名词性短语在排序中的位置超过预设的位置阈值, 则将所述名词性短语发送至技术人员的 终端设备, 使得 所述技术人员对所述名词性短语进行手动标注操作; 接收技术人员的终端设备发送的手动标注的非标准目标信息词汇; 将自动标注的非标准目标信息词汇以及手动标注的非标准目标信息词汇确定为非标 准目标信息词汇。 9.根据权利要求7所述的方法, 其中, 所述根据所述识别请求, 将所述待识别隐私政策 文件与预设的目标信息词表进 行比对操作, 确定待识别隐私政策文件与目标信息词表的交 集词汇集 合之后, 还 包括: 若检测到所述待识别隐私政策文件中存在非标准目标信 息词汇, 则根据 所述非标准目 标信息词汇与标准目标信息词汇之 间的映射关系, 将所述待识别隐私政策文件中的非标准 目标信息词汇替换为所述标准目标信息词汇。 10.根据权利要求2 ‑8任一项所述的方法, 其中, 所述获取待处理隐私政策文件集合, 包 括: 通过网络 爬虫从互联网上获取待处 理隐私政策文件集 合。 11.一种目标信息识别装置, 包括: 获取模块, 用于获取识别请求, 其中, 所述识别请求中包括待识别隐私政策文件; 处理模块, 用于根据所述识别请求, 将所述待识别隐私政策文件与预设的目标信息词 表进行比对操作, 确定待识别隐私政策文件与目标信息词表的交集词汇集合, 其中, 所述目 标信息词表中包括符合预设规定的标准目标信息词汇, 以及不符合预设规定的非标准目标 信息词汇; 确定模块, 用于将交集词汇集合中的词汇确定为待识别隐私政策文件对应的目标信 息。 12.根据权利要求1 1所述的装置, 所述装置还 包括:权 利 要 求 书 2/4 页 3 CN 114444503 A 3
专利 目标信息识别方法、装置、设备、可读存储介质及产品
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:39
上传分享
举报
下载
原文档
(770.7 KB)
分享
友情链接
GB-T 16838-2021 消防电子产品环境试验方法及严酷等级.pdf
DB52-T1239.3-2019 政府数据 核心元数据 第3部分:空间地理数据 贵州省.pdf
GB-T 22939.6-2008 家用和类似用途电器包装 电冰箱的特殊要求.pdf
GB-T 21709.1-2008 针灸技术操作规范 第1部分 艾灸.pdf
GB-T 18226-2015 公路交通工程钢构件防腐技术条件.pdf
GB-T 36630.3-2018 信息安全技术 信息技术产品安全可控评价指标 第3部分:操作系统.pdf
DB41-T 1047-2015 锅炉风机节能潜力评估导则 河南省.pdf
ISO 27001 信息安全管理体系实施案例及文件集 .pdf
GB-T 1028-2018 工业余能资源评价方法.pdf
GB-T 22485-2021 出租汽车运营服务规范.pdf
GB-T 230.1-2018 金属材料 洛氏硬度试验 第1部分 试验方法.pdf
法律法规 中华人民共和国反恐怖主义法.pdf
GB-T 31014-2014 声学 水声目标强度测量实验室方法.pdf
GB-T 42767-2023 城市垃圾收集装置设置通用要求.pdf
GM-T 0098-2020 基于IP网络的加密语音通信密码技术规范.pdf
DB33-T 2499-2022 气象地理分区 浙江省.pdf
DB53-T1033-2021 公路隧道监控量测技术规程 云南省.pdf
DB43-T 1997-2021 数字化电能计量装置整体误差检测技术规范 湖南省.pdf
GB-T 41540-2022 陆地遥感产品真实性检验地面观测场的选址和布设.pdf
TB-T 2092-2018 简支梁试验方法 预应力混凝土梁静载弯曲试验.pdf
1
/
21
评价文档
赞助2.5元 点击下载(770.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。