专利 一种基于语义的网页信息抽取方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210044347.0 (22)申请日 2022.01.14 (71)申请人中国科学院计算技术研究所地址 100080 北京市海淀区中关村科学院南路6号 (72)发明人郭岩　王之威　刘杨昊　刘悦　薛源海　俞晓明　沈华伟　程学旗　 (74)专利代理机构北京律诚同业知识产权代理有限公司 1 1006 专利代理师祁建国　张燕华 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/958(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01)G06F 40/146(2020.01) (54)发明名称一种基于语义的网页信息抽取方法及系统 (57)摘要本发明提出一种基于语义的网页信息抽取方法，包括：获取目标网页的目标DOM树，对该目标DOM树的目标骨架节点按句进行分裂，得到该目标DOM树的目标骨架子节点；以分类模型按目标任务语义对所有该目标骨架子节点进行分类，获得该目标DOM树的目标信息子节点；对所有该目标信息子节点形成的节点路径进行聚类，获得该目标网页的目标信息树，对该目标信息树中包含的网页信息进行抽取。本发明还提出一种基于语义的网页信息抽取系统，以及一种用于实现基于语义的网页信息抽取的数据处理装置。权利要求书2页说明书7页附图2页 CN 114528459 A 2022.05.24 CN 114528459 A 1.一种基于语义的网页信息抽取方法，其特征在于，包括：获取目标网页的目标DOM树，对该目标DOM树的目标骨架节点按句进行分裂，得到该目标DOM树的目标骨架子节点；以分类模型按目标任务语义对所有该目标骨架子节点进行分类，获得该目标DOM树的目标信息子节点；对所有该目标信息子节点形成的节点路径进行聚类，获得该目标网页的目标信息树，对该目标信息树中包含的网页信息进行抽取。 2.如权利要求1所述的网页信息抽取方法，其特征在于，采用BERT预训练语言模型作为该分类模型。 3.如权利要求2所述的网页信息抽取方法，其特征在于，还包括对BERT预训练语言模型进行离线学习的步骤：将已知网页解析为已知DOM树，获得该已知DOM树的已知骨架节点，对所有该已知骨架节点的信息进行标注，将与下游任务相关的已知骨架节点标记为已知核心信息节点，将与下游任务无关的已知骨架节点标记为非核心信息节点；对每个该已知骨架节点按句进行分裂，得到已知骨架子节点，其中该已知骨架子节点的标记与其对应的已知骨架节的标记相同；将所有该已知骨架子节点随机划分为训练集和验证集，设置多组初始参数，以该训练集分别对各组初始参数进行调整，并以该测试集分别验证完成参数调整的各BERT 预训练语言模型的分类精度；选取具有最高分类精度的BERT预训练语言模型为该分类模型。 4.如权利要求3所述的网页信息抽取方法，其特征在于，该BERT预训练语言模型为：采用交叉熵损失函数：以进行参数学习；其中，为已知骨架子节点， T为目标任务语义，为中的文本序列， CLS为该BERT预训练语言模型的输出层中的一个单元， γ 为该BERT预训练语言模型的权重， Ni为已知网页Wi 的已知DOM树中的已知骨架节点数量， Mij为分裂后的子节点数量，为骨架子节点的真实标签。 5.一种基于语义的网页信息抽取系统，其特征在于，包括：节点分裂模块，用于获取目标骨架子节点；其中，获取目标网页的目标DOM树，对该目标 DOM树的目标骨架节点按句进行分裂，得到该目标DOM树的目标骨架子节点；节点分类模块，用于以分类模型按目标任务语义对所有该目标骨架子节点进行分类，获得该目标DOM树的目标信息子节点；信息抽取模块，用于对所有该目标信息子节点形成的节点路径进行聚类，获得该目标权　利　要　求　书 1/2 页 2 CN 114528459 A 2网页的目标信息树，对该目标信息树中包含的网页信息进行抽取。 6.如权利要求5所述的网页信息抽取系统，其特征在于，采用BERT预训练语言模型作为该分类模型。 7.如权利要求6所述的网页信息抽取系统，其特征在于，还包括：离线学习模块，用于对BERT预训练语言模型进行离线学习；具体包括节点标记模块，用于将已知网页解析为已知DOM树，获得该已知DOM树的已知骨架节点，对所有该已知骨架节点的信息进行标注，将与下游任务相关的已知骨架节点标记为已知核心信息节点，将与下游任务无关的已知骨架节点标记为非核心信息节点；对每个该已知骨架节点按句进行分裂，得到已知骨架子节点，其中该已知骨架子节点的标记与其对应的已知骨架节的标记相同；模型调整模块，用于将所有该已知骨架子节点随机划分为训练集和验证集，设置多组初始参数，以该训练集分别对各组初始参数进行调整，并以该测试集分别验证完成参数调整的各BERT 预训练语言模型的分类精度；选取具有最高分类精度的BERT 预训练语言模型为该分类模型。 8.如权利要求7 所述的网页信息抽取系统，其特征在于，该BERT预训练语言模型为：采用交叉熵损失函数：以进行参数学习；其中，为已知骨架子节点， T为目标任务语义，为中的文本序列， CLS为该BERT预训练语言模型的输出层中的一个单元， γ 为该BERT预训练语言模型的权重， Ni为已知网页Wi 的已知DOM树中的已知骨架节点数量， Mij为分裂后的子节点数量，为骨架子节点的真实标签。 9.一种计算机可读存储介质，存储有计算机可执行指令，当该计算机可执行指令被执行时，实现如权利要求1～4任一项所述的基于语义的网页信息抽取方法。 10.一种数据处理装置，包括如权利要求9所述的计算机可读存储介质，当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时，实现基于语义的网页信息抽取。权　利　要　求　书 2/2 页 3 CN 114528459 A 3

专利 一种基于语义的网页信息抽取方法及系统

专利一种基于语义的网页信息抽取方法及系统