(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210098582.6
(22)申请日 2022.01.27
(65)同一申请的已公布的文献号
申请公布号 CN 114118093 A
(43)申请公布日 2022.03.01
(73)专利权人 华东交通大 学
地址 330000 江西省南昌市经济技 术开发
区双港东大街808号
(72)发明人 万义晨 黄兆华 邬昌兴
(74)专利代理 机构 北京中济纬天专利代理有限
公司 11429
代理人 黄攀
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)G06F 16/35(2019.01)
(56)对比文件
CN 112446216 A,2021.0 3.05
CN 10876 3201 A,2018.1 1.06
CN 110110335 A,2019.08.09
WO 2022005188 A1,202 2.01.06
US 202101 1974 A1,2021.01.14
邓依依.基于深度学习的命名实体识别综
述. 《中文信息学报》 .2021,第3 5卷(第09期),第
30-45页.
Yifeng L i.Researc h on Named Entity
Recognition Technology of Kn owledge Graph
for Flipped Clas sroom. 《IEEE》 .2021,
武乐飞.基 于边界的嵌套 命名实体识别方法
研究. 《万方学位 论文库》 .2020,
审查员 田凌桐
(54)发明名称
一种扁平化标记增强的嵌套命名实体识别
方法与系统
(57)摘要
本发明提出一种扁平化标记增强的嵌套命
名实体识别方法与系统, 该方法包括: 将对象语
句中的每个词转换为词对应的语义向量表示; 进
一步学习每个词在上下文中的表 示, 以得到融合
上下文信息的词的语义向量表 示; 对对象语句中
的每个词分别预测对应的扁平 化标记信息; 将融
合上下文信息的词的语义向量表示与扁平化标
记信息作为输入, 学习得到融合扁平 化标记信息
的词的语义向量表示; 基于融合扁平 化标记信息
的词的语义向量表示, 对对象语句中的所有文本
片段进行分类, 以确定得到文本片段为某种实体
或不为实体对应的概率分布。 本发 明充分利用内
层实体的信息和文本片段的信息, 可有效减少可
能出现的错 误传播问题。
权利要求书4页 说明书12页 附图4页
CN 114118093 B
2022.04.15
CN 114118093 B
1.一种扁平化标记增强的嵌套命名实体识别方法, 其中, 扁平化标记为基于内层实体
优先原则, 联合BIO标记及实体类别, 为已标注嵌套命名实体的句子中的每个词赋予对应的
扁平化标记, 其特 征在于, 所述方法包括如下步骤:
步骤一, 将对象语句中的每 个词转换为词对应的语义向量表示;
步骤二, 进一步学习每个词在上下文中的表示, 以得到融合上下文信息的词的语义向
量表示;
步骤三, 对所述对象语句中的每 个词分别预测对应的扁平化标记信息;
步骤四, 将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输
入, 学习得到融合扁平化标记信息的词的语义向量表示;
步骤五, 基于所述融合扁平化标记信息的词的语义向量表示, 对所述对象语句中的所
有文本片段进行分类, 以确定得到所述文本片段为实体或不 为实体对应的概 率分布;
在所述步骤四中, 将所述融合上下文信 息的词的语义向量表示与所述扁平化标记信 息
作为输入, 学习得到融合扁平化标记信息的词的语义向量表示的方法包括如下步骤:
根据概率 分布
中的预测概率与扁平化标记的向量表示进行加权求和, 以得到词
的
扁平化标记信息的向量表示
;
将融合上下文信息的词
的语义向量表 示
与所述词
的扁平化标记信息的向量表
示
进行拼接, 以得到词
的融合标记信息的编码层的输入
;
根据所述词
的融合标记信息的编码层的输入
, 通过双向长短时记忆网络构建融合
标记信息的编码层以得到融合标记信息的词
的语义向量表示
。
2.根据权利要求1所述的一种扁平化标记增强的嵌套命名实体识别方法, 其特征在于,
在所述步骤一中, 所述词对应的语义向量表示包括静态词向量、 动态词向量以及词性向量;
其中, 包含
个词的对象语句
, 词
对应的语义向量表示
为:
其中,
为词
对应的语义向量表示,
为词
对应的静态词向量,
为词
对应
的动态词向量,
为词
的词性向量,
为向量的拼接操作,
表示对象语句中词的序号。
3.根据权利要求2所述的一种扁平化标记增强的嵌套命名实体识别方法, 其特征在于,
在所述步骤二中, 所述融合上 下文信息的词的语义向量表示的生成方法包括如下步骤:
根据词的语义向量表示
, 使用长短时记忆网络
从左至右建模以
得到融合上文信息的词
的语义向量表示
, 使用长短时记忆 网络
从右至左建模
以得到融合下文信息的词
的语义向量表示
;
拼接所述融合上文信息的词
的语义向量表示
与所述融合下文信息的词
的语义权 利 要 求 书 1/4 页
2
CN 114118093 B
2向量表示
, 以得到融合上 下文信息的词
的语义向量表示
。
4.根据权利要求3所述的一种扁平化标记增强的嵌套命名实体识别方法, 其特征在于,
在所述步骤二中, 存在 如下关系式:
其中,
为融合上文信息的词
的语义向量表示,
为融合下文信息的词
的语义
向量表示,
为融合上文信息的词
的语义向量表示,
为融合下文信息的词
的
语义向量表示。
5.根据权利要求3所述的一种扁平化标记增强的嵌套命名实体识别方法, 其特征在于,
在所述步骤三中, 对所述对象语句中的每个词分别预测对应的扁平化标记信息的方法包括
如下步骤:
基于所述融合上下文信息的词
的语义向量表示
, 使用softmax层计算词
对应的
扁平化标记的概 率分布
;
其中,
和
为扁平化标记预测层的参数;
分别预测得到每个词对应的扁平化标记信息, 在预测训练时, 将多分类任务的交叉熵
代价函数作为扁平化标记预测任务的代价 函数, 其中代价 函数表示 为;
其中,
为扁平化标记预测任务的代价函数,
为词
属于第
个扁平化标记
的真实概率,
为概率分布
中对应于第
个扁平化标记的预测概率,
,
为扁
平化标记的数量,
表示扁平化标记的序号。
6.根据权利要求5所述的一种扁平化标记增强的嵌套命名实体识别方法, 其特征在于,
在所述步骤四中, 词
的扁平化标记信息的向量表示
表示为:
其中,
为第
个扁平化标记的向量表示;
词
的融合标记信息的编码层的输入
表示为:
权 利 要 求 书 2/4 页
3
CN 114118093 B
3
专利 一种扁平化标记增强的嵌套命名实体识别方法与系统
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:42上传分享