(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210041501.9
(22)申请日 2022.01.14
(71)申请人 哈尔滨工业大 学 (深圳)
地址 518055 广东省深圳市南 山区桃源街
道深圳大 学城哈尔滨工业大 学校区
(72)发明人 汤步洲 张号逵 赵晓雨
(74)专利代理 机构 深圳市君胜知识产权代理事
务所(普通 合伙) 44268
专利代理师 陈专
(51)Int.Cl.
G06F 40/186(2020.01)
G06F 40/242(2020.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06V 30/40(2022.01)G06V 30/18(2022.01)
G06V 30/19(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于模板的多模态命名实体识别方法
及相关设备
(57)摘要
本发明公开了一种基于模板的多模态命名
实体识别方法及相关设备。 本发 明提供的基于模
板的多模态命名实体识别方法, 将命名实体识别
问题转换为文本生成问题, 通过语义学习的方式
使得神经网络模型能够学习到多模态数据的语
义与实体类型的语义相似性, 提升命名实体识别
的准确性。
权利要求书3页 说明书13页 附图3页
CN 114548067 A
2022.05.27
CN 114548067 A
1.一种基于模板的多模态命名实体识别方法, 其特 征在于, 所述方法包括:
获取待识别数据, 所述待识别数据中包括待识别文本和所述待识别文本对应的待识别
图像, 将所述待识别文本和所述待识别图像输入至预先训练的神经网络模型, 所述神经网
络模型中包括第一文本特征提取模块、 视觉特征提取模块、 特征融合模块、 目标编码模块和
目标解码模块;
将所述待识别文本输入至所述第 一文本特征提取模块, 通过所述文本特征提取模块获
取所述输入文本序列的第一文本特征, 将所述第一文本特征和所述待识别图像输入至所述
视觉特征提取模块, 获取 所述待识别图像的视 觉特征;
基于所述待识别文本生成多个候选文本, 其中, 所述候选文本的格 式与预设模板一致,
所述预设模板中包括实体片段、 和实体片段对应的实体 类型的语义文本;
将所述视觉特征和所述第一文本特征输入至所述特征融合模块, 获取多模态融合特
征, 将所述多模态融合特征和当前 的输入文本序列输入至目标编码模块进行编码, 将所述
目标编码模块的输出输入至所述目标解码模块, 基于所述目标解码模块的输出获取预测
词, 将所述预测词 与当前的所述输入文本序列组合, 生成新的所述输入文本序列, 重复执行
将所述多模态融合特征和当前的输入文本序列输入至所述目标解码模块进 行编码的步骤,
直至生成预设结束字符或者生成的所述预测词的总长度达到预设长度, 将生成的所述预测
词组合得到所述候选文本对应的预测文本, 其中, 所述输入文本序列的初始值为所述候选
文本;
基于所述候选文本对应的所述预测文本对所述候选文本进行评价, 基于每条所述候选
文本对应的评价结果在所述多个候选文本中确定至少一个目标候选文本, 根据所述目标候
选文本对所述待识别文本进行命名实体标注;
其中, 所述神经网络模型是基于多组训练数据训练完成的, 每组训练数据中包括样本
待识别数据和样本待识别数据对应的样本命名实体识别结果, 每个所述样本命名实体识别
结果中包括至少一条样本文本, 每条样本文本的格式与所述预设模板一 致。
2.根据权利要求1所述的基于模板的多模态命名实体识别方法, 其特征在于, 所述将所
述第一文本特征和所述待识别图像输入至所述视觉特征提取模块, 获取所述待识别图像的
视觉特征, 包括:
在所述视觉特征提取模块中, 采用以下公式计算得到所述待识别图像的视觉特征在考
虑文本影响下的注意力分数:
其中, Sintra表示所述待识别图像的视觉特征在考虑文本影响下的注意力分数,
表示
所述第一文本特征,
表示从所述待识别图像提取的初始特征, Kintra、 Kinter为所述视觉特征
提取模块的参数;
根据所述待识别图像的视觉特征在考虑文本影响下的注意力分数、 和所述待识别图像
的所述初始特 征获取所述待识别图像的视 觉特征。
3.根据权利要求1所述的基于模板的多模态命名实体识别方法, 其特征在于, 所述目标
编码模块中包括至少一个多头注意力机制层, 所述将所述多模态融合特征和当前的输入文权 利 要 求 书 1/3 页
2
CN 114548067 A
2本序列输入至目标编码模块进行编码, 包括:
将所述候选文本输入至第 二文本特征提取模块, 提取所述候选文本对应的第 二文本特
征;
将所述第二文本特征作为注意力 机制中的查询向量, 将所述视觉特征作为注意力 机制
中的键向量和值向量, 执 行注意力机制进行编码。
4.根据权利要求1所述的基于模板的多模态命名实体识别方法, 其特征在于, 所述神经
网络模型中还 包括全连接层, 所述基于所述目标解码模块的输出获取 预测词, 包括:
通过所述全连接层将所述目标解码模块的输出映射到词典 维度向量, 得到预测词。
5.根据权利要求4所述的基于模板的多模态命名实体识别方法, 其特征在于, 所述基于
所述候选文本对应的所述预测文本对所述 候选文本进行评价, 包括:
基于第一预设公式计算所述 候选文本的评价结果;
所述第一预设公式为:
p(tc|t1:c‑1,X)=softmax(ZlW+b);
其中, f表示所述候选文本的评价结果, p(tc|t1:c‑1,X)表示根据所述待识别文本X和 所
述候选文本对应的预测文本中的前c ‑1个词t1:c‑1生成所述预测文本中的第c个词tc的概率,
Zl表示生成所述预测文本中 的第c个词时所述目标解码模块的输出, m为所述预测文本中词
的数量, W、 b为所述全连接层的参数。
6.根据权利要求1所述的基于模板的多模态命名实体识别方法, 其特征在于, 所述神经
网络模型的训练过程 为:
基于样本待识别数据中的样本待识别文本、 样本待识别图像和对应的样本文本, 通过
所述神经网络模型获取 所述样本文本对应的所述预测文本;
基于所述样本文本对应的所述预测文本, 采用交叉熵计算所述样本文本对应的训练损
失;
基于所述样本文本对应的训练损失对所述神经网络的参数进行 更新;
重新选择样本待识别文本、 样本待识别图像和对应的样本文本, 执行基于样本待识别
数据中的样本待识别文本、 样本待识别图像和对应的样本文本, 通过所述神经网络模型获
取所述样本文本对应的所述预测文本的步骤, 直至所述神经网络模型的参数达 到收敛。
7.根据权利要求1所述的基于模板的多模态命名实体识别方法, 其特征在于, 所述神经
网络模型的初始参数为经 过预训练的语言模型参数。
8.一种基于模板的多模态命名实体识别装置, 其特 征在于, 包括:
数据获取模块, 所述数据获取模块用于获取待识别数据, 所述待识别数据中包括待识
别文本和所述待识别文本对应的待识别图像, 将所述待识别文本和所述待识别图像输入至
预先训练的神经网络模型, 所述神经网络模型中包括第一文本特征提取模块、 视觉特征提
取模块、 特 征融合模块、 目标编码模块和目标解码模块;
文本特征提取模块, 所述文本特征提取模块用于将所述待识别文本输入至所述第 一文
本特征提取模块, 通过所述文本特征提取模块获取所述输入文本序列的第一文本特征, 将
所述第一文本特征和所述待识别图像输入至所述视觉特征提取模块, 获取所述待识别图像权 利 要 求 书 2/3 页
3
CN 114548067 A
3
专利 一种基于模板的多模态命名实体识别方法及相关设备
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:55上传分享