(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210152334.5
(22)申请日 2022.02.18
(71)申请人 杭州数梦 工场科技有限公司
地址 310024 浙江省杭州市转塘科技经济
区块16号 4幢326室
(72)发明人 王倩 叶姣荣
(74)专利代理 机构 北京博思佳知识产权代理有
限公司 1 1415
专利代理师 林祥
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种关键文本信息提取方法及装置
(57)摘要
本申请提供一种关键文本信息提取方法及
装置, 所述方法包括: 分别计算文本文件中的各
个文本段落与预设文件模板中的各个段落标题
之间的语义相似度; 其中, 所述各个文本段落中
的至少部分文本段落, 分别包含了与不同的待提
取关键词相关的关键文本信息; 根据所述各个文
本段落与所述各个段落标题之间的语义相似度,
确定与所述各个文本段落分别匹配的段落标题;
其中, 所述各个段落标题中的至少部分段落标题
分别关联了不同的待提取关键词; 从与所述各个
段落标题分别匹配的文本段落中, 提取与该段落
标题所关联的待提取关键词相关的关键文本信
息。
权利要求书3页 说明书16页 附图2页
CN 114510553 A
2022.05.17
CN 114510553 A
1.一种关键文本信息提取 方法, 所述方法包括:
分别计算文本文件中的各个文本段落与预设文件模板中的各个段落标题之间的语义
相似度; 其中, 所述各个文本段落中的至少部 分文本段落, 分别包含了与不同的待提取关键
词相关的关键文本信息;
根据所述各个文本段落与 所述各个段落标题之间的语义相似度, 确定与所述各个文本
段落分别匹配的段落标题; 其中, 所述各个段落标题中的至少 部分段落标题分别关联了不
同的待提取关键词;
从与所述各个段落标题分别匹配的文本段落中, 提取与 该段落标题所关联的待提取关
键词相关的关键文本信息 。
2.根据权利要求1所述的方法, 在从与所述各个段落标题分别匹配的文本段落中, 提取
与该段落标题所关联的待提取关键词相关的关键文本信息之前, 所述方法还 包括:
分别计算所述预设文件模板中的各个段落标题与预设的各个待抽取关键词之间的语
义相似度;
根据所述各个段落标题与 所述各个待抽取关键词之间的语义相似度, 确定与 所述各个
段落标题分别关联的待提取关键词。
3.根据权利要求1所述的方法, 所述分别计算文本文件中的各个文本段落与预设文件
模板中的各个段落标题之间的语义相似度, 包括:
生成与所述文本文件中的各个文本段落分别对应的段落文本向量, 以及生成与所述预
设文件模板中的各个段落标题分别对应的段落标题向量;
分别计算所述各个段落文本向量与 所述各个段落标题向量之间的相关系数, 并根据 所
述相关系数确定所述各个文本段落与所述各个段落标题之间的语义相似度。
4.根据权利要求3所述的方法, 所述生成与所述文本文件中的各个文本段落分别对应
的段落文本向量, 以及生成与所述预设文件模板中的各个段落标题分别对应的段落标题向
量, 包括:
提取所述文本文件中的各个文本段落, 以及提取所述预设文件模板中的各个段落标
题;
将所述各个文本段落以及所述各个段落标题, 分别输入语言处理模型进行文本向量化
处理, 以得到与所述各个文本段落分别对应的段落文本向量以及与所述各个段落标题分别
对应的段落标题向量。
5.根据权利要求 4所述的方法, 所述 提取所述文本文件中的各个文本段落, 包括:
获取所述文本文件的全部文本内容;
利用预设的用于提取文本段落的正则表达式, 对所述文本文件的全部文本 内容进行匹
配, 以从所述文本文件的全部文本内容中提取 出所述文本文件中的各个文本段落。
6.根据权利要求1所述的方法, 所述根据所述各个文本段落与所述各个段落标题之间
的语义相似度, 确定与所述各个文本段落分别匹配的段落标题, 包括:
针对所述各个文本段落中的每个文本段落, 对该文本段落与 所述各个段落标题之间的
语义相似度进行排序;
将与该文本段落之间的语义相似度最高的段落标题, 确定为与 该文本段落匹配的段落
标题。权 利 要 求 书 1/3 页
2
CN 114510553 A
27.根据权利要求1所述的方法, 所述从与 所述各个段落标题分别匹配的文本段落中, 提
取与该段落标题所关联的待提取关键词相关的关键文本信息, 包括以下示出的一种或多
种:
利用预设的用于提取关键文本信 息的正则表达 式, 对与该段落标题匹配的文本段落进
行匹配, 以从该文本段落中提取出与该段落标题所关联的待提取关键词相关的关键文本信
息;
将与该文本段落对应的段落文本向量, 输入与 该段落标题所关联的待提取关键词对应
的分类模型进行分类计算, 以得到与该文本段落对应的分类结果, 作为从该文本段落中提
取出来的与该 段落标题所关联的待提取关键词相关的关键文本信息;
识别与该段落标题所匹配的文本段落中所包含的文本 内容对应的若干命名实体, 在所
述若干命名实体中确定与所述待提取关键词匹配的命名实体, 并从该文本段落中提取出与
所述匹配的命名实体对应的文本内容, 作为与该段落标题所关联的待提取关键词相关的关
键文本信息 。
8.根据权利要求1所述的方法, 所述文本文件为非结构化数据; 所述方法还 包括:
将提取出来的所述各个文本段落中的关键文本信息, 转换为结构化数据存储至数据
库。
9.根据权利要求8所述的方法, 所述将所述关键文本信息转换为结构化数据存储至数
据库, 包括:
将所述待提取关键词作为字段名, 以及将提取得到的与 所述待提取关键词相关的关键
文本信息作为相应的字段值, 以数据表的形式存 储至关系型 数据库; 或者,
将所述待提取关键词作为key, 以及将提取得到的与所述待提取关键词相关的关键文
本信息作为相应的value, 以key ‑value键值对的形式存 储至非关系型 数据库。
10.根据权利要求1所述的方法, 所述文本文件包括具有行业属性的文本文件; 所述预
设文件模板包括具有与所述文本文件相同的行业属性的文件模板; 不同的文件模板具有不
同的行业属性。
11.根据权利要求1所述的方法, 所述文本文件 包括报告类文本文件。
12.根据权利要求 4所述的方法, 所述语言处 理模型包括BERT模型。
13.一种关键文本信息提取装置, 所述装置包括:
计算单元, 用于分别计算文本文件中的各个文本段落与 预设文件模板中的各个段落标
题之间的语义相似度; 其中, 所述各个文本段落中的至少部分文本段落, 分别包含了与不同
的待提取关键词相关的关键文本信息;
确定单元, 用于根据所述各个文本段落与所述各个段落标题之间的语义相似度, 确定
与所述各个文本段落分别匹配的段落标题; 其中, 所述各个段落标题中的至少 部分段落标
题分别关联了不同的待提取关键词;
提取单元, 用于从与所述各个段落标题分别匹配的文本段落中, 提取与该段落标题所
关联的待提取关键词相关的关键文本信息 。
14.一种电子设备, 包括通信接口、 处理器、 存储器和总线, 所述通信接口、 所述处理器
和所述存 储器之间通过总线相互连接;
所述存储器中存储机器可读指令, 所述处理器通过调用所述机器可读指令, 执行权利权 利 要 求 书 2/3 页
3
CN 114510553 A
3
专利 一种关键文本信息提取方法及装置
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:32上传分享