standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210044347.0 (22)申请日 2022.01.14 (71)申请人 中国科学院计算 技术研究所 地址 100080 北京市海淀区中关村科 学院 南路6号 (72)发明人 郭岩 王之威 刘杨昊 刘悦 薛源海 俞晓明 沈华伟 程学旗 (74)专利代理 机构 北京律诚同业知识产权代理 有限公司 1 1006 专利代理师 祁建国 张燕华 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/958(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01)G06F 40/146(2020.01) (54)发明名称 一种基于语义的网页信息抽取方法及系统 (57)摘要 本发明提出一种基于语义的网页信息抽取 方法, 包括: 获取目标网页的目标DOM树, 对该目 标DOM树的目标骨架节点按句进行分裂, 得到该 目标DOM树的目标骨架子节点; 以分类模型按目 标任务语义对 所有该目标骨架子节 点进行分类, 获得该目标DOM树的目标信息子节点; 对所有该 目标信息子节 点形成的节点路径进行聚类, 获得 该目标网页的目标信息树, 对该目标信息树中包 含的网页信息进行抽取。 本发明还提出一种基于 语义的网页信息抽取系统, 以及一种用于实现基 于语义的网页信息抽取的数据处 理装置。 权利要求书2页 说明书7页 附图2页 CN 114528459 A 2022.05.24 CN 114528459 A 1.一种基于语义的网页信息抽取 方法, 其特 征在于, 包括: 获取目标网页的目标DOM树, 对该目标DOM树的目标骨架节点按句进行分裂, 得到该目 标DOM树的目标骨架子节点; 以分类模型按目标任务语义对所有该目标骨架子节点进行分类, 获得该目标DOM树的 目标信息 子节点; 对所有该目标信息子节点形成的节点路径进行聚类, 获得该目标网页的目标信息树, 对该目标信息树中包 含的网页信息进行抽取。 2.如权利要求1所述的网页信息抽取方法, 其特征在于, 采用BERT预训练语言模型作为 该分类模型。 3.如权利要求2所述的网页信息抽取方法, 其特征在于, 还包括对BERT预训练语言模型 进行离线学习的步骤: 将已知网页解析为已知DOM树, 获得该已知DOM树的已知骨架节点, 对所有该已知骨架 节点的信息进行标注, 将与下游任务相关的 已知骨架节点标记为已知核心信息节点, 将与 下游任务无关的已知骨架节点标记为 非核心信息节点; 对每个该已知骨架节点按句进 行分 裂, 得到已知骨架子节点, 其中该已知骨架子节点的标记与其对应的 已知骨架节的标记相 同; 将所有该已知骨架子节点随机划分为训练集和验证集, 设置多组初始参数, 以该训练 集分别对各 组初始参数进行调整, 并以该测试集分别验证完成参数调整的各BERT 预训练语 言模型的分类精度; 选取 具有最高分类精度的BERT预训练语言模型为该分类模型。 4.如权利要求3所述的网页信息抽取 方法, 其特 征在于, 该BERT预训练语言模型为: 采用交叉熵损失函数: 以 进行参数 学习; 其中, 为已知骨架子节点, T为目标任务语义, 为 中的文本序列, CLS为该BERT预 训练语言模型的输出层中的一个单元, γ 为该BERT预训练语言模型的权重, Ni为已知网页Wi 的已知DOM树中的已知骨架节点数量, Mij为 分裂后的子节点数量, 为骨架子节点 的 真实标签。 5.一种基于语义的网页信息抽取系统, 其特 征在于, 包括: 节点分裂模块, 用于获取目标骨架子节点; 其中, 获取目标网页的目标DOM树, 对该目标 DOM树的目标骨架 节点按句进行分裂, 得到该目标DOM树的目标骨架子节点; 节点分类模块, 用于以分类模型按目标任务语义对所有该目标骨架子节点进行分类, 获得该目标DOM树的目标信息 子节点; 信息抽取模块, 用于对所有该目标信息子节点形成的节点路径进行聚类, 获得该目标权 利 要 求 书 1/2 页 2 CN 114528459 A 2网页的目标信息树, 对该目标信息树中包 含的网页信息进行抽取。 6.如权利要求5所述的网页信息抽取系统, 其特征在于, 采用BERT预训练语言模型作为 该分类模型。 7.如权利要求6所述的网页信息抽取系统, 其特 征在于, 还 包括: 离线学习模块, 用于对BERT预训练语言模型进行离线学习; 具体包括 节点标记模块, 用于将已知网页解析为已知DOM树, 获得该已知DOM树的已知骨架节点, 对所有该已知骨架节 点的信息进 行标注, 将与下游任务相关的已知骨架节点标记为已知 核 心信息节点, 将与下游任务无关的 已知骨架节点标记为非核心信息节点; 对每个该已知骨 架节点按句进行分裂, 得到已知骨架子节点, 其中该已知骨架子节点的标记与其对应的 已 知骨架节的标记相同; 模型调整模块, 用于将所有该已知骨架子节点随机划分为训练集和验证集, 设置多组 初始参数, 以该训练集分别对各组初始参数进行调整, 并以该测试集分别验证完成参数调 整的各BERT 预训练语 言模型的分类精度; 选取具有最高分类精度的BERT 预训练语 言模型为 该分类模型。 8.如权利要求7 所述的网页信息抽取系统, 其特 征在于, 该BERT预训练语言模型为: 采用交叉熵损失函数: 以 进行参数 学习; 其中, 为已知骨架子节点, T为目标任务语义, 为 中的文本序列, CLS为该BERT预 训练语言模型的输出层中的一个单元, γ 为该BERT预训练语言模型的权重, Ni为已知网页Wi 的已知DOM树中的已知骨架节点数量, Mij为 分裂后的子节点数量, 为骨架子节点 的 真实标签。 9.一种计算机可读存储介质, 存储有计算机可执行指令, 当该计算机可执行指令被执 行时, 实现如权利要求1~4任一项所述的基于语义的网页信息抽取 方法。 10.一种数据处理装置, 包括如权利要求9所述的计算机可读存储介质, 当该数据处理 装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指 令时, 实现基于语义 的网页信息抽取。权 利 要 求 书 2/2 页 3 CN 114528459 A 3
专利 一种基于语义的网页信息抽取方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:54
上传分享
举报
下载
原文档
(687.5 KB)
分享
友情链接
DL-T 2028-2019 发电厂水处理用膜设备化学清洗导则.pdf
DB23-T 2913—2021 建设占用耕地耕作层土壤剥离利用技术规范 黑龙江省.pdf
DB11-T 1536-2018 水泵节能监测 北京市.pdf
GB-T 26269-2010 网络入侵检测系统技术要求.pdf
GB/T 38877-2020 电工钢带(片)绝缘涂层.pdf
T-XJNFCP 001—2023 预制菜.pdf
GB-T 34587-2017 钢质冷藏集装箱修理技术要求.pdf
T-CIECCPA 030—2023 零碳工厂创建与评价通则.pdf
GB-T 38561-2020 信息安全技术 网络安全管理支撑系统技术要求.pdf
NY-T 2539-2014 农村土地承包经营权确权登记数据库规范.pdf
2023数据要素生态研究报告.pdf
GB-T 24421.3-2023 服务业组织标准化工作指南 第3部分:标准编制.pdf
GM-T 0012-2020 可信计算 可信密码模块接口规范.pdf
GB-T 29309-2012 电工电子产品加速应力试验规程 高加速寿命试验导则.pdf
Huawei防火墙安全配置基线.doc
GB-T 21054-2023 信息安全技术 公钥基础设施 PKI系统安全测评方法.pdf
GB-T 5599-2019 机车车辆动力学性能评定及试验鉴定规范.pdf
GB-T 35274-2017 信息安全技术 大数据服务安全能力要求 .pdf
DB31-T 310016-2023 工业园区挥发性有机物传感器法网格化监测技术规范 上海市.pdf
GB-T 39467-2020 北斗精密服务产品规范.pdf
1
/
12
评价文档
赞助2.5元 点击下载(687.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。