standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210046499.4 (22)申请日 2022.01.17 (71)申请人 南京工程学院 地址 211167 江苏省南京市江宁区科技园 弘景大道1号 (72)发明人 钱夔 孙瑞彬 潘昱辰 徐浩  韩国辉 陈晓琳  (74)专利代理 机构 南京钟山专利代理有限公司 32252 代理人 徐燕 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/9535(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01)H04L 9/40(2022.01) H04L 61/5007(2022.01) H04L 67/566(2022.01) (54)发明名称 面向用户角色的网络特定信息智能获取系 统及交互方法 (57)摘要 本发明公开了面向用户角色的网络特定信 息智能获取系统及交互方法, 包括任务理解模 块、 网络代理模块, 数据采集模块、 数据汇聚增强 模块以及数据存储模块。 任务理解模块以人机交 互界面的方式获取用户目标网页以及用户关心 的信息要素, 生成任务需求表达式, 数据采集模 块在网络代理模块的支撑下, 进行目标网页的分 布式增量数据爬取, 数据汇聚增强模块根据任务 理解模块生成的信息需求表达式进行自适应匹 配与汇聚, 最终数据存储模块实现用户特定信息 的分类多样化存储。 本发明通过人机交互理解的 方式, 实现面向用户角色的网络特定信息快速、 精准获取, 减少了海量信息处理时间, 提高汇聚 时效性, 满足用户的自主化、 个性 化需求。 权利要求书2页 说明书6页 附图2页 CN 114398535 A 2022.04.26 CN 114398535 A 1.面向用户角色的网络特定信息智能获取系统, 其特征在于, 包括: 任务理解模块、 数 据采集模块、 网络代理模块、 数据汇聚增强模块; 所述任务理解模块, 用于获取用户给定的目标网页和信息获取需求后, 生成需求表达 式; 所述数据采集模块分别与任务理解模块、 网络代理模块相连接, 用于在网络代理模块 提供的代理访问IP地址的支撑下, 对任务理解模块中的目标网页进行分布式增量数据爬 取, 完成数据采集; 所述网络代理模块, 用于给 数据采集模块 提供代理访问IP地址的支撑; 所述数据汇聚增强模块分别与任务理解模块、 数据采集模块、 数据存储模块相连接, 用 于对数据采集模块所收集的数据进行分析扩展, 并将扩展后的数据与任务理解模块中生成 的需求表达式进行自适应匹配、 汇聚和排序并存 储到数据存 储模块中。 2.根据权利要求1所述的面向用户角色的网络特定信 息智能获取系统, 其特征在于, 所 述任务理解模块, 用于获取用户需要检索的目标网页以及信息获取需求, 并判断用户发出 的信息获取请求是否明确; 若已明确给出信息获取需求, 即给出需要检索的数据表头字段 名称, 则直接根据待检索的数据表头字段名称生成对应的需求表达式; 若未明确给出信息 获取需求, 即未提供需要检索的数据 表头字段名称、 只提供泛化的需求关键词描述, 则根据 关键词进行语义识别, 推理扩展关键词, 并根据关键词生成对应的需求表达式。 3.根据权利要求1所述的面向用户角色的网络特定信 息智能获取系统, 其特征在于, 所 述数据采集模块包括爬取控制器、 数据封装器、 智能响应 器、 任务缓冲器; 爬取控制器, 用于在网络代理模块的支持下对目标网页进行访 问, 并进行源码解析提 取下载网页内容; 数据封装器, 用于将爬取控制器下载到的网页内容的数据进行安全封装, 以确保数据 的完全性和完整性; 智能响应器, 用于对封装好的数据进行进一步调整解析, 即对数据中的XML路径语言、 层叠样式表、 正则表达式进行解析以并调整网页数据乱码以避免数据出现乱码; 任务缓冲器, 用于对调整解析完成后的数据进行暂存, 等聚集一定量级后批量输入到 Pipeline组件中完成数据入库。 4.根据权利要求3所述的面向用户角色的网络特定信息智能获取系统, 其特 征在于, 所述网络代理模块, 用于提供不同的代理访问IP地址资源池, 并划分为1级代理和2级 代理, 1级代理中的代理访问IP地址是特定的代理访问IP地址, 其专用于目标网页在访问时 容易受限的情况, 2级代理中的代理访问IP地址是常规的代理访问IP地址, 其用于目标网页 处于开放状态, 即访问不受限的情况; 所述网络代理模块, 还用于判断当前所访问的目标网页是否受限; 若受限, 则采用1级 代理中的代理访问IP地址; 若不受限, 则采用2级代理中的代理访问IP地址; 所述网络代理模块, 还用于在使用1级代理中的代理访 问IP地址进行访 问目标网页的 过程中, 若目标网页启动自身保护机制, 则停止 当前代理访问IP地址的代理访问请求, 将代 理访问请求的任务 转移给1级代理中其它的代理访问IP地址; 所述网络代理模块, 还用于在使用2级代理中的代理访 问IP地址进行访 问目标网页的 过程中, 若目标网页启动自身保护机制, 则停止 当前代理访问IP地址的代理访问请求, 将代权 利 要 求 书 1/2 页 2 CN 114398535 A 2理访问请求的任务 转移给2级代理中其它的代理访问IP地址 。 5.根据权利要求3所述的面向用户角色的网络特定信息智能获取系统, 其特 征在于, 所述数据汇聚增强模块, 用于通过对库中采集的数据进行多语种翻译、 语句实体识别、 语义关联分析的多种方式结合找到与需求表达式所表达内容的相关联的数据, 并进行自适 应匹配、 汇聚和排序。 6.基于如权利要求1 ‑5中任一所述系统的网络特定信息智能获取交互方法, 其特征在 于, 包括 S1: 获取用户需要检索的目标网页以及信息获取需求, 并判断用户发出的信息获取请 求是否明确; 若已明确给出信息获取需求, 即给出需要检索的数据表头字段名称, 则直接根据待检 索的数据表头 字段名称生成对应的需求表达式; 若未明确给出信息获取需求, 即未提供需要检索的数据表头字段名称、 只提供泛化的 需求关键词描述, 则根据关键词进行语义识别, 推理扩展关键词, 并根据关键词生成对应的 需求表达式; S2: 通过网络多代理调度控制对用户需要检索的目标网页进行访问, 并进行源码解析 提取下载网页内容; 将下载的数据内容进行安全封装处 理, 封装完成后对下 载的数据内容进行调整解析; 调整解析完成后进行暂存, 等聚集一定量级后批量输入到Pipeline组件中完成数据入 库; S3: 通过对库中采集的数据进行多语种翻译、 语句实体识别、 语义关联分析的多种方式 结合找到与需求表达式所表达内容的相关联的数据, 并进行自适应匹配、 汇聚和排序; S4: 将匹配、 汇聚和排序后的内容进行存 储。 7.根据权利要求6所述的面向用户角色的网络特定信息智能获取交互方法, 其特征在 于, 步骤S2中, 采用的网络多代理调度控制的具体内容 为: 判断当前所访问的目标网页是否受限; 若受限, 则采用1级代理中的代理访问IP地址; 若不受限, 则采用2级代理中的代理访问IP地址 。 8.根据权利要求7所述的面向用户角色的网络特定信息智能获取交互方法, 其特征在 于, 使用1级代理中的代理访问IP地址进行访问目标网页的过程中, 若目标网页启动自身 保护机制, 则停止 当前代理访问IP地址的代理访问请求, 将代理访问请求的任务转移给1级 代理中其它的代理访问IP地址; 使用2级代理中的代理访问IP地址进行访问目标网页的过程中, 若目标网页启动自身 保护机制, 则停止 当前代理访问IP地址的代理访问请求, 将代理访问请求的任务转移给2级 代理中其它的代理访问IP地址 。 9.根据权利要求6所述的面向用户角色的网络特定信息智能获取交互方法, 其特征在 于, 步骤S2中封装完成后对 下载的内容进行调整解析, 所述调整解析的具体内容包括对 XML 路径语言、 层叠样式表、 正则表达式进行解析以并调整防止网页数据乱码。权 利 要 求 书 2/2 页 3 CN 114398535 A 3

PDF文档 专利 面向用户角色的网络特定信息智能获取系统及交互方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向用户角色的网络特定信息智能获取系统及交互方法 第 1 页 专利 面向用户角色的网络特定信息智能获取系统及交互方法 第 2 页 专利 面向用户角色的网络特定信息智能获取系统及交互方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。