(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210145790.7
(22)申请日 2022.02.17
(71)申请人 杭州量知数据科技有限公司
地址 310000 浙江省杭州市萧 山区经济技
术开发区明星路371号1幢6 01室
(72)发明人 宗畅 陈泽群
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 傅朝栋 张法高
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/268(2020.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于区间判别的半监督专 业术语抽取方法、
介质及设备
(57)摘要
本发明公开了一种基于区间判别的半监督
专业术语抽取方法、 介质及设备, 属于自然语言
处理领域。 本发 明提出的基于区间判别的专业术
语抽取方法中, 针对专业术语的特性构建了包含
语义特征、 词性特征和长度特征在内的区间特征
用于判别专业术语, 相比于传统的序列标注方
法, 能有效的处理术语 之间的嵌套问题。 同时, 本
发明针对专业术语抽取任务构建的半监督抽取
流程, 在针对专业术语的标注困难, 数据集构建
成本大的问题, 具有一定的缓解作用。 本发明采
用的半监督机制能在少量的训练样本下取得较
好的抽取效果, 针对专业术语的特征构建方法能
使抽取结果更加准确。
权利要求书2页 说明书12页 附图2页
CN 114528835 A
2022.05.24
CN 114528835 A
1.一种基于区间判别的半监 督专业术语抽取 方法, 其特 征在于, 包括:
S1、 获取已标注句子集 合, 并生成其中每 个句子的每 个词元的词性标签;
S2、 对所述已标注句子集合中带有词性标签的每个句子分别构建正样本和负样本, 从
而将所述已标注句 子集合转换为第一训练数据集; 其中, 每个句 子中已标注的专业术语所
处的所有位置区间均为正样本, 而句子中随机生成的非专业术语所处的所有位置区间均为
负样本, 且负 样本中不存在与正样本 完全重合的位置区间;
S3、 利用所述第一训练数据集通过优化损失函数对术语抽取模型进行训练, 使训练好
的术语抽取模型能够从输入句子中识别出专业 术语所处的位置区间;
所述术语抽取模型通过学习得到词性特征矩阵和长度特征矩阵, 其中词性特征矩阵每
一行的行向量分别对应于一种词性标签, 长度特征矩阵每一行的行向量分别对应于一种位
置区间长度; 在所述术语抽取模型中, 输入句 子先通过预训练语言模型得到其中每个词元
的语义特征表示和整个输入句子的特征表示, 然后进一步计算输入句子中每个位置区间对
应的语义特征、 词性特征和长度特征并将三者进 行拼接得到每个位置区间对应的最 终特征
表示, 所述语义特征由位置区间内所有词元的语义特征表示的最大池化结果和整个输入句
子的特征表示拼接而成, 所述词性特征由所述词性特征矩阵中位置区间的起始词元和末 尾
词元各自的词性标签所对应的行向量拼接而成, 所述长度特征为所述长度特征矩阵中位置
区间的长度对应的行向量; 最后, 由多层感知机针对每一个位置区间基于各自对应的最终
特征表示进行二分类判别, 得到每 个位置区间为专业 术语所处区间的概 率分布;
S4、 针对未标注句子集合中的每个未标注句子, 利用训练好的术语抽取模型预测未标
注句子中专 业术语所 处的位置区间, 并得到未标注句子中每个位置区间为专 业术语所 处区
间的概率分布, 再将得到的概率分布与标准概率分布进行相似度计算, 剔除未标注句 子中
相似度不满足条件的位置区间, 未标注句子剩余中保留的位置区间作为专 业术语所处 区间
并用伪标签进行 标记, 从而将未 标注句子集 合转换为第二训练数据集;
S5、 结合第一训练数据集和第二训练数据集重新对术语抽取模型进行训练, 得到最终
的术语抽取模型, 用于对目标句子进行专业 术语抽取。
2.如权利要求1所述的基于区间判别的半监督专业术语抽取方法, 其特征在于, 所述S1
中, 每个句子的每 个词元的词性标签通过词性标注工具生成。
3.如权利要求1所述的基于区间判别的半监督专业术语抽取方法, 其特征在于, 所述S1
中, 已标注句 子集合中所有句 子生成的词性标签均赋予各自的唯一编码, 形成词性标签与
唯一编码之间的映射表, 且映射表中的唯一编码值从起始值1开始以1为步长连续编码; 所
述词性特 征矩阵中, 第k行的行向量对应于映射表中唯一编码值 为k的词性标签。
4.如权利要求1所述的基于区间判别的半监督专业术语抽取方法, 其特征在于, 所述的
预训练语言模型为在与所述输入句子的语言种类相同的数据集上训练的Ber t模型。
5.如权利要求1所述的基于区间判别的半监督专业术语抽取方法, 其特征在于, 所述多
层感知机包含两层, 第一层的维度为所述最 终特征表示的长度的1/2, 第二层的维度为2, 每
层网络通过Relu激活函数激活。
6.如权利要求1所述的基于区间判别的半监督专业术语抽取方法, 其特征在于, 所述S3
中, 所述术语抽取模型训练所采用的损失函数为交叉熵损失与L2正则化项的加权和。
7.如权利要求1所述的基于区间判别的半监督专业术语抽取方法, 其特征在于, 所述S4权 利 要 求 书 1/2 页
2
CN 114528835 A
2中, 所述相似度通过 KL散度进行计算。
8.如权利要求1所述的基于区间判别的半监督专业术语抽取方法, 其特征在于, 所述S5
中, 对为标注句 子或目标句 子进行专业术语抽取时, 先从句 子中提取所有在专业术语长度
范围内的可选位置区间, 然后利用最 终的术语抽取模型对每一个可选位置区间是否术语专
业术语所处的位置区间进行识别。
9.一种计算机可读存储介质, 其特征在于, 所述存储介质上存储有计算机程序, 当所述
计算机程序被处理器执行时, 能实现如权利要求 1~8任一所述的基于区间判别的半监督专
业术语抽取 方法。
10.一种电子设备, 其特 征在于, 包括存 储器和处 理器;
所述存储器, 用于存 储计算机程序;
所述处理器, 用于当执行所述计算机程序时, 实现如权利要求1~8任一所述的基于区
间判别的半监 督专业术语抽取 方法。权 利 要 求 书 2/2 页
3
CN 114528835 A
3
专利 基于区间判别的半监督专业术语抽取方法、介质及设备
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:33上传分享