standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210095079.5 (22)申请日 2022.01.26 (71)申请人 中国人民公安大 学 地址 100045 北京市西城区木樨地 南里1号 (72)发明人 李欣 孙海春 叶瀚 (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 代理人 安卫静 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本处理方法、 装置、 电子设备和介质 (57)摘要 本申请提供一种文本处理方法、 装置、 电子 设备和介质。 该方法在获取多个待处理文本后, 每个待处理文本均包含目标 实体类型的实体词, 针对每个待处理文本, 按照预设的标注方式, 对 待处理文本中目标实体类型的实体词相邻的目 标字符位置进行标注, 得到待处理文本中目标字 符位置对应的实体词缺失标签; 以及, 在待处理 文本中删除所述实体词, 得到已处理文本; 将已 处理文本和相应目标字符位置对应的实体词缺 失标签, 确定为实体词缺失识别的训练样本。 该 方法可构建出检测文本中实体词缺失的样本训 练样本, 从而可实现文本中实体词缺失位置的检 测。 权利要求书2页 说明书9页 附图2页 CN 114429131 A 2022.05.03 CN 114429131 A 1.一种文本处 理方法, 其特 征在于, 所述方法包括: 获取多个待处 理文本, 每 个待处理文本均包 含目标实体 类型的实体词; 针对每个待处理文本, 按照预设的标注方式, 对所述待处理文本中所述目标实体类型 的实体词相邻的目标字符位置进 行标注, 得到所述待处理文本中目标字符位置对应的实体 词缺失标签; 以及, 在所述待处 理文本中删除所述实体词, 得到已处 理文本; 将所述已处理文本和相应目标字符位置对应的实体词缺失标签, 确定为实体词缺失识 别的训练样本 。 2.如权利要求1所述的方法, 其特 征在于, 获取多个待处 理文本, 包括: 获取候选文本集, 所述 候选文本集中各候选文本包 含至少一种实体 类型的实体词; 将包含目标实体 类型的实体词对应的候选文本确定为待处 理文本。 3.如权利要求1所述的方法, 其特 征在于, 所述目标实体 类型包括多种实体 类型; 按照预设的标注方式, 对所述待处理文本中所述目标实体类型的实体词相邻的目标字 符位置进行 标注, 得到所述待处 理文本中目标字符位置对应的实体词缺失标签, 包括: 按照预设的标注方式, 对所述待处理文本中每种实体类型的实体词相邻的目标字符进 行不同实体类型的标注, 得到所述每种实体类型的实体词相 邻的目标字符位置对应的实体 词缺失标签。 4.如权利要求1或2所述的方法, 其特征在于, 按照预设的标注方式, 对所述待处理文本 中所述目标实体类型的实体词相 邻的目标字符位置进 行标注, 得到所述待处理文本中目标 字符位置对应的实体词缺失标签, 包括: 按照左侧标注方式, 对所述待处理文本 中所述目标实体类型的实体词左侧相邻的字符 位置进行标注, 得到所述待处理文本中与该实体词左侧相 邻的字符位置对应的实体词缺 失 标签; 或者, 按照右侧标注方式, 对所述待处理文本 中所述目标实体类型的实体词右侧相邻的字符 位置进行标注, 得到所述待处理文本中与该实体词右侧相 邻的字符位置对应的实体词缺 失 标签; 或者, 按照左右两侧标注方式, 对所述待处理文本 中所述目标实体类型的实体词左侧相邻的 字符位置进行第一标注, 并对所述实体词右侧相邻的字符位置进行第二标注, 得到所述待 处理文本中与该实体词左侧相邻的字符位置对应的实体词缺失标签和右侧相邻的字符位 置对应的实体词缺失标签。 5.如权利要求1所述的方法, 其特征在于, 按照预设的标注方式, 对所述待处理文本中 所述目标实体 类型的实体词相邻的目标字符位置进行 标注之前, 所述方法还 包括: 若所述目标实体类型的实体词对应的实体词位置位于所述待处理文本的句首, 则在所 述待处理文本的句首增 加预设的标点字符, 得到新的待处 理文本。 6.如权利要求5所述的方法, 其特征在于, 将所述已处理文本和相应目标字符位置对应 的实体词缺失标签, 确定为实体词缺失识别的训练样本之后, 所述方法还 包括: 基于所述训练样本 中已处理文本和相应目标字符位置对应的实体词缺失标签, 对初始 的实体词缺失识别模型进行迭代训练, 直至满足迭代终止条件, 得到所述 目标字符位置对 应的训练好的实体词缺失识别模型。权 利 要 求 书 1/2 页 2 CN 114429131 A 27.如权利要求6所述的方法, 其特征在于, 所述训练好的实体词缺失识别模型包括输入 层、 预训练语言模型、 特 征提取模型、 序列标注模型和输出层; 所述方法还 包括: 获取待识别文本; 将所述待识别文本的字符向量输入所述实体词缺失识别模型的输入层; 之后, 所述预训练语言模型用于对所述输入层输入的字符向量进行语义学习, 输出文 本表示向量; 之后, 所述特征提取模型用于对所述文本表示向量进行特征提取, 输出文本序列特征 向量; 之后, 所述序列标注模型用于对所述文本序列特征向量进行实体类型标注, 由所述输 出层输出 所述待识别文本中目标字符位置对应的实体词缺失标签; 基于所述目标字符位置对应的实体词缺失标签, 确定所述待识别文本中与 所述目标字 符位置的相邻位置存在所述目标实体 类型的实体词缺失。 8.一种文本处 理装置, 其特 征在于, 所述装置包括: 获取单元, 用于获取多个待处 理文本, 每 个待处理文本均包 含目标实体 类型的实体词; 标注单元, 用于针对每个待处理文本, 按照预设的标注方式, 对所述待处理文本 中所述 目标实体类型的实体词相 邻的目标字符位置进 行标注, 得到所述待处理文本中目标字符位 置对应的实体词缺失标签; 删除单元, 用于在所述待处 理文本中删除所述实体词, 得到已处 理文本; 确定单元, 用于将所述已处理文本和相应目标字符位置对应的实体词缺失标签, 确定 为实体词缺失识别的训练样本 。 9.一种电子设备, 其特征在于, 所述电子设备包括处理器、 通信接口、 存储器和通信总 线, 其中, 处 理器, 通信接口, 存 储器通过通信总线完成相互间的通信; 存储器, 用于存放计算机程序; 处理器, 用于执 行存储器上所存储的程序时, 实现权利要求1 ‑7任一所述的方法步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质内存储有计算机 程序, 所述计算机程序被处 理器执行时实现权利要求1 ‑7任一所述的方法步骤。权 利 要 求 书 2/2 页 3 CN 114429131 A 3
专利 文本处理方法、装置、电子设备和介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:43
上传分享
举报
下载
原文档
(510.6 KB)
分享
友情链接
GB-T 34653-2017 全断面隧道掘进机 单护盾岩石隧道掘进机.pdf
T-CI 047—2021 医用镥[177Lu]及其放射性药物的 质量标准.pdf
GB-T 39047-2020 政务服务平台基本功能规范.pdf
天空卫生 数据防泄露 DLP 技术指南完整电子版.pdf
GB-T 25328-2010 玻璃窑炉节能监测.pdf
T-YAIMH 002—2022 互联网诊疗电子病历基本规范.pdf
T-CVMA 45—2020 犬腺病毒PCR检测方法.pdf
DB34-T 3765-2020 地方计量技术规范制修订工作指南 安徽省.pdf
DB3301-T 0322.2—2020 数据资源管理 第2部分:政务数据安全责任 杭州市.pdf
T-NIFA 21—2023 金融数据安全技术防护规范.pdf
T-CSAE 131—2020 乘用车白车身防腐排水及密封设计指南.pdf
GB-T 30280-2013 信息安全技术 鉴别与授权 地理空间可扩展访问控制置标语言.pdf
DB13-T 2802-2018 水利工程铸铁闸门技术规范 河北省.pdf
GB-T 32904-2016 软件质量量化评价规范.pdf
GB-T 5231-2022 加工铜及铜合金牌号和化学成分.pdf
GB-T 18788-2008 平板式扫描仪通用规范.pdf
GM-T 0047-2016 安全电子签章密码检测规范.pdf
GM-T 0081-2020 SM9密码算法加密签名消息语法规范.pdf
GB-T 17394.4-2014 金属材料 里氏硬度试验 第4部分 硬度值换算表.pdf
DB43-T 2146-2021 悬浮式拼装地板通用技术规范 湖南省.pdf
1
/
14
评价文档
赞助2.5元 点击下载(510.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。