(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211113958.2 (22)申请日 2022.09.14 (71)申请人 华东师范大学 地址 200241 上海市闵行区东川路5 00号 (72)发明人 林欣 李楷达  (74)专利代理 机构 上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师 徐筱梅 张翔 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/258(2020.01) G06F 40/279(2020.01) G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01)G06F 40/103(2020.01) G06N 3/08(2006.01) G06N 5/02(2006.01) (54)发明名称 一种文本信息智能处 理系统 (57)摘要 本发明公开了一种文本信息智能处理系统, 其特点是该系统由文本预处理、 知识图谱构建和 知识查询与问答三个子系统组成, 所述文本预处 理子系统实现对文档读取、 扫描和实体抽取等预 处理; 所述知识图谱构建子系统抽取文档中的关 系等知识图谱的基本元素, 采用实体匹配、 知识 融合将这些元素增量更新至知识图谱中, 并实现 可视化; 所述知识查询与问答子系统利用构建好 的知识图谱, 实现对文档知识的动态 查询与问答 应对。 本发 明与现有技术相比具有自动处理各类 文档, 构建领域知识图谱对其中的关键信息进行 存储、 管理、 展 示, 并基于构建好的知识图谱对用 户输入的问题实现基于语义的知识搜索和问答 功能, 为各领域的相关业务职能效率提升提供技 术手段支撑 。 权利要求书5页 说明书7页 附图6页 CN 115455935 A 2022.12.09 CN 115455935 A 1.一种文本信息智能处理系统, 其特征在于采用文本预处理子系统、 知识图谱构建子 系统和知识 查询与问答子系统构建的智能系统为文本信息处理工具, 实现基于语义的知识 搜索和问答, 所述文本预 处理子系统包括: 源文档信息抽取模块、 基于目录的粗粒度图谱构 建模块和实体抽取模块; 所述源文档信息抽取模块用于从源文档中抽取信息; 所述基于目 录的粗粒度图谱构建模块用于分析文档目录结构, 并以此构造树状知识图谱; 所述实体抽 取模块用于从文档信息中抽取关键实体信息; 所述知识图谱构建子系统包括: 关系挖掘与 补全模块、 图谱数据预处理模块、 知识图谱插入模块、 知识图谱可视化模块, 所述关系挖掘 与补全模块用于从文档信息中抽取关键关系信息, 并对缺失关系进行补全; 所述图谱数据 预处理模块用于实现图谱数据的预 处理, 主要包括图谱中节点的连接信息以及边信息以及 节点标识与 节点名称的映射信息; 所述知识图谱插入模块用于构建知识图谱, 并将实体、 关 系插入到知识图谱中; 所述知识图谱可视化模块用于将知识图谱可视化展示;  所述知识 查 询与问答子系统包括: 问题答案生成模块和候选答案排序及输出模块, 所述问题答案生成 模块用于根据输入问题, 寻找和计算合适的候选答案; 所述候选答案排序及输出模块用于 从候选答案中找出置信度最高的答案进行输出, 实现对文档 知识的动态查询与问答应对的 智能处理。 2. 根据权利要求1所述的文本信 息智能处理系统, 其特征在于所述源文档信 息抽取模 块将待解析文档中的信息抽取并存 储, 具体包括下述 步骤: 1) 寻址并读取文档 将用户在网页中输入的文档地址使用POST技术传输至服务器端, 服务器找到对应路径 文件, 若文件为pdf格式, 直接存入内存; 若为word、 html格式, 使用只读方式读取文件内容, 并转存为pdf格式保存; 2) 文档文本信息识别 使用CNOCR模型提供的文字特征抽取算法, 对寻址并读取文档操作读取到的内容进行 分析识别处 理, 抽取文本及版面信息; 3) 图像、 表格信息抽取及存 储 使用fast ‑rcnn 深度学习的图像检测模型来抽取表格和图片内容, 并判断识别内容是 否具有表头、 单 元格等表格特 征, 从而分辨识别内容 为表格或图片, 将 抽取到的表格和图片存 入硬盘, 将存取地址记录在文档文本内容中; 4) 文本格式处 理 使用正侧式匹配进行如下处理: 定位并删除页眉和页脚、 识别图片和表格位置信息后 是否存在换行符, 若不存在, 说明图片和表格后文本未正确换行, 则添加换行符、 判断是否 存在空行或只有无意 义符号的行, 若存在则进行删除。 3. 根据权利要求1所述的文本信 息智能处理系统, 其特征在于所述基于目录的粗粒度 图谱构建模块 根据抽取的信息构建文档标题层级的粗粒度知识图谱, 具体包括下述 步骤: 1) 识别标题、 层级 根据标题在文本中存在的特征, 生成如标题前存在序号、 序号后有逗号或顿号的一些 规则, 基于规则从文档中找出标题, 并根据标题编号、 标号类型, 将标题归入正确的层级, 若 为html格式, 可根据html语言的层级关系作为辅助信息查询文档中的标题; 2) 筛选正确标题权 利 要 求 书 1/5 页 2 CN 115455935 A 2对于筛选出来的标题, 根据正则表达式筛选出正确的标题, 所述正则表达式需要根据 文本的具体内容和写作风格指定; 3) 构建目录树: 对标题进行正则表达式筛选后, 获取用于构建目录树的标题及其层级, 利用标题层级 关系, 构建树状结构形式的目录树, 以字典形式保存在本地, 并将标题与标题对应的内容构 建链接; 4) 构建粗粒度图谱及存 储 根据标题及标题间层级关系构建粗粒度知识图谱, 并将其存储到服务器端, 后续由关 系挖掘与补全 模块进行实体抽取、 关系挖掘与补全, 进一 步完善该知识图谱。 4. 根据权利要求1所述的文本信 息智能处理系统, 其特征在于所述实体抽取模块从文 档信息中抽取关键实体信息, 具体包括下述 步骤: 1) 实体分类 根据文档内容, 预设在文档中经常出现的实体 类型进行分类; 2) 实体识别 构造实体抽取规则, 识别规律性较强的几种类型的实体, 通过预定义的词性标签 (POS   Tag) 规则来识别文档中的高质量名词短语, 搭建并训练深度学习模型, 利用模型的双向 LSTM结合条件随机场抽取文档中的实体; 3) 实体筛 选 基于统计学习的方法, 根据计算候选短语的统计指标特征给词汇打分和排序来进行实 体词汇筛 选, 所述统计指标包括: TF ‑IDF、 PMI和C ‑Value; 4) 实体消歧 使用基于模式匹配的自举法, 自动发现新模式, 准备种子样本或定义初始模式, 将语料 与模式匹配, 发现新的同义词对, 根据新发现的同义词对挖掘新的模式, 不断重复上述步 骤, 直到系统判断无法发现更多同义词对。 5. 根据权利要求1所述的文本信 息智能处理系统, 其特征在于所述关系挖掘与补全模 块从文档 信息中抽取实体抽取模块所 得实体间的关系, 具体包括下述 步骤:  1) 关系定位 根据实体在文档 中的位置, 确定该对实体间的关系在文档 中可能出现的范围, 通过缩 小范围增强 实体分类的准确性; 2) 关系挖掘 使用模式表达关系在文本中提及的方式, 将模式与语料匹配, 获取来实现关系实例, 搭 建并训练关系抽取深度学习模型用于抽取实体间关系, 利用标注语料学习抽取模型, 以接 受文本作为输入, 将其输入至嵌入层经CRF生成相应的标记序列, 每个标记表 示相应字符是 否是实体和关系, 所述模式根据粒度可分为字符模式、 语法模式和语义模式; 所述字 符模式 是将自然语言视作字符序列, 模式表示为一组正则表达式; 所述语法模式为词法和句法信 息的抽取模式; 所述语义模式是将概念引入 模式的描述中, 且定义基于概念约束的模式; 3) 关系筛 选 结合上、 下文中的词法、 句法和语义信息或背景知识, 对抽取的关系进行筛查, 删去错 误的关系, 所述筛查使用句 子级别的注意力机制为实体对的每个句 子赋予一个权重, 权重权 利 要 求 书 2/5 页 3 CN 115455935 A 3

.PDF文档 专利 一种文本信息智能处理系统

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本信息智能处理系统 第 1 页 专利 一种文本信息智能处理系统 第 2 页 专利 一种文本信息智能处理系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:39:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。