专利一种文本信息智能处理系统 -在线下载 -AI解读-standardlibrary.site

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211113958.2 (22)申请日 2022.09.14 (71)申请人华东师范大学地址 200241 上海市闵行区东川路5 00号 (72)发明人林欣　李楷达　 (74)专利代理机构上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师徐筱梅　张翔 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/258(2020.01) G06F 40/279(2020.01) G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01)G06F 40/103(2020.01) G06N 3/08(2006.01) G06N 5/02(2006.01) (54)发明名称一种文本信息智能处理系统 (57)摘要本发明公开了一种文本信息智能处理系统，其特点是该系统由文本预处理、知识图谱构建和知识查询与问答三个子系统组成，所述文本预处理子系统实现对文档读取、扫描和实体抽取等预处理；所述知识图谱构建子系统抽取文档中的关系等知识图谱的基本元素，采用实体匹配、知识融合将这些元素增量更新至知识图谱中，并实现可视化；所述知识查询与问答子系统利用构建好的知识图谱，实现对文档知识的动态查询与问答应对。本发明与现有技术相比具有自动处理各类文档，构建领域知识图谱对其中的关键信息进行存储、管理、展示，并基于构建好的知识图谱对用户输入的问题实现基于语义的知识搜索和问答功能，为各领域的相关业务职能效率提升提供技术手段支撑。权利要求书5页说明书7页附图6页 CN 115455935 A 2022.12.09 CN 115455935 A 1.一种文本信息智能处理系统，其特征在于采用文本预处理子系统、知识图谱构建子系统和知识查询与问答子系统构建的智能系统为文本信息处理工具，实现基于语义的知识搜索和问答，所述文本预处理子系统包括：源文档信息抽取模块、基于目录的粗粒度图谱构建模块和实体抽取模块；所述源文档信息抽取模块用于从源文档中抽取信息；所述基于目录的粗粒度图谱构建模块用于分析文档目录结构，并以此构造树状知识图谱；所述实体抽取模块用于从文档信息中抽取关键实体信息；所述知识图谱构建子系统包括：关系挖掘与补全模块、图谱数据预处理模块、知识图谱插入模块、知识图谱可视化模块，所述关系挖掘与补全模块用于从文档信息中抽取关键关系信息，并对缺失关系进行补全；所述图谱数据预处理模块用于实现图谱数据的预处理，主要包括图谱中节点的连接信息以及边信息以及节点标识与节点名称的映射信息；所述知识图谱插入模块用于构建知识图谱，并将实体、关系插入到知识图谱中；所述知识图谱可视化模块用于将知识图谱可视化展示；所述知识查询与问答子系统包括：问题答案生成模块和候选答案排序及输出模块，所述问题答案生成模块用于根据输入问题，寻找和计算合适的候选答案；所述候选答案排序及输出模块用于从候选答案中找出置信度最高的答案进行输出，实现对文档知识的动态查询与问答应对的智能处理。 2. 根据权利要求1所述的文本信息智能处理系统，其特征在于所述源文档信息抽取模块将待解析文档中的信息抽取并存储，具体包括下述步骤： 1）寻址并读取文档将用户在网页中输入的文档地址使用POST技术传输至服务器端，服务器找到对应路径文件，若文件为pdf格式，直接存入内存；若为word、 html格式，使用只读方式读取文件内容，并转存为pdf格式保存； 2）文档文本信息识别使用CNOCR模型提供的文字特征抽取算法，对寻址并读取文档操作读取到的内容进行分析识别处理，抽取文本及版面信息； 3）图像、表格信息抽取及存储使用fast ‑rcnn 深度学习的图像检测模型来抽取表格和图片内容，并判断识别内容是否具有表头、单元格等表格特征，从而分辨识别内容为表格或图片，将抽取到的表格和图片存入硬盘，将存取地址记录在文档文本内容中； 4）文本格式处理使用正侧式匹配进行如下处理：定位并删除页眉和页脚、识别图片和表格位置信息后是否存在换行符，若不存在，说明图片和表格后文本未正确换行，则添加换行符、判断是否存在空行或只有无意义符号的行，若存在则进行删除。 3. 根据权利要求1所述的文本信息智能处理系统，其特征在于所述基于目录的粗粒度图谱构建模块根据抽取的信息构建文档标题层级的粗粒度知识图谱，具体包括下述步骤： 1）识别标题、层级根据标题在文本中存在的特征，生成如标题前存在序号、序号后有逗号或顿号的一些规则，基于规则从文档中找出标题，并根据标题编号、标号类型，将标题归入正确的层级，若为html格式，可根据html语言的层级关系作为辅助信息查询文档中的标题； 2）筛选正确标题权　利　要　求　书 1/5 页 2 CN 115455935 A 2对于筛选出来的标题，根据正则表达式筛选出正确的标题，所述正则表达式需要根据文本的具体内容和写作风格指定； 3）构建目录树：对标题进行正则表达式筛选后，获取用于构建目录树的标题及其层级，利用标题层级关系，构建树状结构形式的目录树，以字典形式保存在本地，并将标题与标题对应的内容构建链接； 4）构建粗粒度图谱及存储根据标题及标题间层级关系构建粗粒度知识图谱，并将其存储到服务器端，后续由关系挖掘与补全模块进行实体抽取、关系挖掘与补全，进一步完善该知识图谱。 4. 根据权利要求1所述的文本信息智能处理系统，其特征在于所述实体抽取模块从文档信息中抽取关键实体信息，具体包括下述步骤： 1）实体分类根据文档内容，预设在文档中经常出现的实体类型进行分类； 2）实体识别构造实体抽取规则，识别规律性较强的几种类型的实体，通过预定义的词性标签（POS Tag）规则来识别文档中的高质量名词短语，搭建并训练深度学习模型，利用模型的双向 LSTM结合条件随机场抽取文档中的实体； 3）实体筛选基于统计学习的方法，根据计算候选短语的统计指标特征给词汇打分和排序来进行实体词汇筛选，所述统计指标包括： TF ‑IDF、 PMI和C ‑Value； 4）实体消歧使用基于模式匹配的自举法，自动发现新模式，准备种子样本或定义初始模式，将语料与模式匹配，发现新的同义词对，根据新发现的同义词对挖掘新的模式，不断重复上述步骤，直到系统判断无法发现更多同义词对。 5. 根据权利要求1所述的文本信息智能处理系统，其特征在于所述关系挖掘与补全模块从文档信息中抽取实体抽取模块所得实体间的关系，具体包括下述步骤： 1）关系定位根据实体在文档中的位置，确定该对实体间的关系在文档中可能出现的范围，通过缩小范围增强实体分类的准确性； 2）关系挖掘使用模式表达关系在文本中提及的方式，将模式与语料匹配，获取来实现关系实例，搭建并训练关系抽取深度学习模型用于抽取实体间关系，利用标注语料学习抽取模型，以接受文本作为输入，将其输入至嵌入层经CRF生成相应的标记序列，每个标记表示相应字符是否是实体和关系，所述模式根据粒度可分为字符模式、语法模式和语义模式；所述字符模式是将自然语言视作字符序列，模式表示为一组正则表达式；所述语法模式为词法和句法信息的抽取模式；所述语义模式是将概念引入模式的描述中，且定义基于概念约束的模式； 3）关系筛选结合上、下文中的词法、句法和语义信息或背景知识，对抽取的关系进行筛查，删去错误的关系，所述筛查使用句子级别的注意力机制为实体对的每个句子赋予一个权重，权重权　利　要　求　书 2/5 页 3 CN 115455935 A 3

专利 一种文本信息智能处理系统

专利一种文本信息智能处理系统