standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210044347.0 (22)申请日 2022.01.14 (71)申请人 中国科学院计算 技术研究所 地址 100080 北京市海淀区中关村科 学院 南路6号 (72)发明人 郭岩 王之威 刘杨昊 刘悦  薛源海 俞晓明 沈华伟 程学旗  (74)专利代理 机构 北京律诚同业知识产权代理 有限公司 1 1006 专利代理师 祁建国 张燕华 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/958(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01)G06F 40/146(2020.01) (54)发明名称 一种基于语义的网页信息抽取方法及系统 (57)摘要 本发明提出一种基于语义的网页信息抽取 方法, 包括: 获取目标网页的目标DOM树, 对该目 标DOM树的目标骨架节点按句进行分裂, 得到该 目标DOM树的目标骨架子节点; 以分类模型按目 标任务语义对 所有该目标骨架子节 点进行分类, 获得该目标DOM树的目标信息子节点; 对所有该 目标信息子节 点形成的节点路径进行聚类, 获得 该目标网页的目标信息树, 对该目标信息树中包 含的网页信息进行抽取。 本发明还提出一种基于 语义的网页信息抽取系统, 以及一种用于实现基 于语义的网页信息抽取的数据处 理装置。 权利要求书2页 说明书7页 附图2页 CN 114528459 A 2022.05.24 CN 114528459 A 1.一种基于语义的网页信息抽取 方法, 其特 征在于, 包括: 获取目标网页的目标DOM树, 对该目标DOM树的目标骨架节点按句进行分裂, 得到该目 标DOM树的目标骨架子节点; 以分类模型按目标任务语义对所有该目标骨架子节点进行分类, 获得该目标DOM树的 目标信息 子节点; 对所有该目标信息子节点形成的节点路径进行聚类, 获得该目标网页的目标信息树, 对该目标信息树中包 含的网页信息进行抽取。 2.如权利要求1所述的网页信息抽取方法, 其特征在于, 采用BERT预训练语言模型作为 该分类模型。 3.如权利要求2所述的网页信息抽取方法, 其特征在于, 还包括对BERT预训练语言模型 进行离线学习的步骤: 将已知网页解析为已知DOM树, 获得该已知DOM树的已知骨架节点, 对所有该已知骨架 节点的信息进行标注, 将与下游任务相关的 已知骨架节点标记为已知核心信息节点, 将与 下游任务无关的已知骨架节点标记为 非核心信息节点; 对每个该已知骨架节点按句进 行分 裂, 得到已知骨架子节点, 其中该已知骨架子节点的标记与其对应的 已知骨架节的标记相 同; 将所有该已知骨架子节点随机划分为训练集和验证集, 设置多组初始参数, 以该训练 集分别对各 组初始参数进行调整, 并以该测试集分别验证完成参数调整的各BERT 预训练语 言模型的分类精度; 选取 具有最高分类精度的BERT预训练语言模型为该分类模型。 4.如权利要求3所述的网页信息抽取 方法, 其特 征在于, 该BERT预训练语言模型为: 采用交叉熵损失函数: 以 进行参数 学习; 其中, 为已知骨架子节点, T为目标任务语义, 为 中的文本序列, CLS为该BERT预 训练语言模型的输出层中的一个单元, γ 为该BERT预训练语言模型的权重, Ni为已知网页Wi 的已知DOM树中的已知骨架节点数量, Mij为 分裂后的子节点数量, 为骨架子节点 的 真实标签。 5.一种基于语义的网页信息抽取系统, 其特 征在于, 包括: 节点分裂模块, 用于获取目标骨架子节点; 其中, 获取目标网页的目标DOM树, 对该目标 DOM树的目标骨架 节点按句进行分裂, 得到该目标DOM树的目标骨架子节点; 节点分类模块, 用于以分类模型按目标任务语义对所有该目标骨架子节点进行分类, 获得该目标DOM树的目标信息 子节点; 信息抽取模块, 用于对所有该目标信息子节点形成的节点路径进行聚类, 获得该目标权 利 要 求 书 1/2 页 2 CN 114528459 A 2网页的目标信息树, 对该目标信息树中包 含的网页信息进行抽取。 6.如权利要求5所述的网页信息抽取系统, 其特征在于, 采用BERT预训练语言模型作为 该分类模型。 7.如权利要求6所述的网页信息抽取系统, 其特 征在于, 还 包括: 离线学习模块, 用于对BERT预训练语言模型进行离线学习; 具体包括 节点标记模块, 用于将已知网页解析为已知DOM树, 获得该已知DOM树的已知骨架节点, 对所有该已知骨架节 点的信息进 行标注, 将与下游任务相关的已知骨架节点标记为已知 核 心信息节点, 将与下游任务无关的 已知骨架节点标记为非核心信息节点; 对每个该已知骨 架节点按句进行分裂, 得到已知骨架子节点, 其中该已知骨架子节点的标记与其对应的 已 知骨架节的标记相同; 模型调整模块, 用于将所有该已知骨架子节点随机划分为训练集和验证集, 设置多组 初始参数, 以该训练集分别对各组初始参数进行调整, 并以该测试集分别验证完成参数调 整的各BERT 预训练语 言模型的分类精度; 选取具有最高分类精度的BERT 预训练语 言模型为 该分类模型。 8.如权利要求7 所述的网页信息抽取系统, 其特 征在于, 该BERT预训练语言模型为: 采用交叉熵损失函数: 以 进行参数 学习; 其中, 为已知骨架子节点, T为目标任务语义, 为 中的文本序列, CLS为该BERT预 训练语言模型的输出层中的一个单元, γ 为该BERT预训练语言模型的权重, Ni为已知网页Wi 的已知DOM树中的已知骨架节点数量, Mij为 分裂后的子节点数量, 为骨架子节点 的 真实标签。 9.一种计算机可读存储介质, 存储有计算机可执行指令, 当该计算机可执行指令被执 行时, 实现如权利要求1~4任一项所述的基于语义的网页信息抽取 方法。 10.一种数据处理装置, 包括如权利要求9所述的计算机可读存储介质, 当该数据处理 装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指 令时, 实现基于语义 的网页信息抽取。权 利 要 求 书 2/2 页 3 CN 114528459 A 3

PDF文档 专利 一种基于语义的网页信息抽取方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于语义的网页信息抽取方法及系统 第 1 页 专利 一种基于语义的网页信息抽取方法及系统 第 2 页 专利 一种基于语义的网页信息抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:54上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。