(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210973551.0
(22)申请日 2022.08.15
(71)申请人 南昌大学
地址 330000 江西省南昌市红谷滩新区学
府大道999号
(72)发明人 徐子晨 孔露露 李春波 肖欣雨
黄宇星 辛卓 王玉皞
(74)专利代理 机构 南昌旭瑞知识产权代理事务
所(普通合伙) 36150
专利代理师 彭琰
(51)Int.Cl.
G06F 40/284(2020.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)
G06V 10/74(2022.01)G06V 10/764(2022.01)
G16C 20/10(2019.01)
(54)发明名称
一种化学反应信息提取方法、 系统、 存储介
质以及设备
(57)摘要
本发明提供了一种化学反应信息提取方法、
系统、 存储介质以及设备, 该方法通过获取目标
文件中的文本和图片, 并将文本按预设标识分割
为多个待识别语句, 并输入标注模型, 输出待识
别语句中各单词的化合物标签和化学反应标签;
当判断图片为预设图片时, 则根据目标识别图
形, 将图片分割为多个子图片, 并对子图片进行
识别, 得到目标化学结构式数据; 根据目标化学
结构式数据, 获取对应的化学结构式, 并判断化
学结构式是否与化合物标签匹配; 若是, 则将化
学结构式和化合物标签结合, 并匹配对应的化学
反应标签, 确定化学反应信息, 其中, 本发明主要
基于文本和图片, 除对文本进行信息提取外, 还
对相关图片中的化学反应式进行识别, 增加 信息
提取的准确性。
权利要求书3页 说明书11页 附图3页
CN 115481627 A
2022.12.16
CN 115481627 A
1.一种化学反应信息提取 方法, 其特 征在于, 所述方法包括:
获取目标文件中的文本和所述文本对应的图片, 并将所述文本按预设标识分割为多个
待识别语句;
获取所述待识别语句, 并将所述待识别语句输入标注模型, 输出所述待识别语句中各
单词的标签, 所述标签至少包括 化合物标签和化学反应标签;
判断所述图片是否为预设图片;
若是, 则根据目标识别图形, 将所述图片分割为多个子图片, 并对所述子图片进行识
别, 得到目标化学 结构式数据;
根据所述目标化学结构式数据, 获取对应的化学结构式, 并判断所述化学结构式是否
与所述化合物标签匹配;
若是, 则将所述化学结构式和所述化合物标签结合, 并匹配对应的所述化学反应标签,
确定所述待识别语句的化学反应信息 。
2.根据权利要求1所述的化学反应信 息提取方法, 其特征在于, 所述获取所述待识别语
句, 并将所述待识别语句输入标注模型, 输出所述待识别语句中各单词的标签, 所述标签至
少包括化合物标签和化学反应标签的步骤之前包括:
获取历史待识别语句, 将所述历史待识别语句进行数据预处理, 得到所述历史待识别
语句中各历史单词的历史标签;
将所述历史单词进行向量 转换, 得到对应的向量 值;
将所述向量值进行上下文关系训练, 并输出所述向量值对应的所述历史标签的第 一分
数值, 根据所述第一分数值, 确定所述历史单词对应的所述历史标签, 以完成所述标注模型
的训练。
3.根据权利要求2所述的化学反应信 息提取方法, 其特征在于, 所述将所述向量值进行
上下文关系训练, 并输出所述向量值对应的所述历史标签的第一分数值, 根据所述第一分
数值, 确定所述历史单词对应的所述历史标签, 以完成所述标注模型 的训练的步骤之后包
括:
将各所述第一分数值进行优化处理, 得到第二分数值, 根据所述第二分数值确定最优
标签序列, 以优化所述标注模型。
4.根据权利要求2所述的化学反应信 息提取方法, 其特征在于, 所述获取历史待识别语
句, 将所述历史待识别语句进行数据预处理, 得到所述历史待识别语句中各历史单词的历
史标签的步骤 包括:
根据预设标注规格, 将所述历史待识别语句中各历史单词的所述历史标签进行手动标
注。
5.根据权利要求2所述的化学反应信 息提取方法, 其特征在于, 所述将所述历史单词进
行向量转换, 得到对应的向量值的步骤中, 设所述历史待识别语句X中由n个所述单词组成,
则可表示为X={x1, x2, x3, ...xn}, 所述向量转换公式为xt=Wembrt, 其中, Wemb∈Rd×|V|, Wemb为
向量查询表, 需要训练得到, Rd×|V|为d×|V|维的向量空间, R为向量空间, d为所述单词的向
量维度, V为字典, |V|为独热编码表示 下字典的大小, rt∈R|V|, rt为第t个单词的独热编码, R
|V|为|V|维的向量空间, xt∈Rd, xt为第t个单词的向量 值, Rd为d维的向量空间。
6.根据权利要求2所述的化学反应信 息提取方法, 其特征在于, 所述将所述向量值进行权 利 要 求 书 1/3 页
2
CN 115481627 A
2上下文关系训练, 并输出所述向量值对应的所述历史标签的第一分数值, 根据所述第一分
数值, 确定所述历史单词对应的所述历史标签, 以完成所述标注模型的训练的步骤中, 计算
所述第一分数值的公式为:
ft=σ(Wfht‑1+Ufxt+bf);
it=σ(Wiht‑1+Uixt+bi);
ot=σ(Woht‑1+Uoxt+bo);
ht=ot⊙tanh(ct);
其中, σ 为sigmoid函数, g为soft max函数, ⊙为点对乘积, i, f和o分别为输入门, 忘记门
和输出门, ft表示第t个单词的遗忘门, it表示第t个单词记忆门, c表示所述上下文关系训
练中每个记忆单元的状态, ct表示第t个单词的记忆单元状态,
表示第t个单词的临时细
胞状态, ot表 示第t个单词的输出门, ht表 示第t个单词的 隐层状态, b为偏 置项, W和U为权重
矩阵, Wf、 Uf表示遗忘门的权重矩阵, bf表示遗忘门的偏置项, ht‑1表示第t‑1个单词的隐层
状态, xt表示第t个单词的向量值, Wi、 Ui表示输入门的权重矩阵, bi表示输入门的偏置项,
Wc、 Uc表示细胞状态的权重矩阵, bc表示细胞状态的偏 置项, Wo、 Uo表 示输出门的权重矩阵,
bo表示输出门的偏置项, ct‑1表示上一时刻的细胞状态, by为标签序列y的偏置项,
代
表前馈层和反馈层在第t个单词的输出向量连接, P(yt|xt)为所述第一分数值, 表示为第t个
单词的向量 值转化为对应的第t个单词的标签的概 率。
7.根据权利要求3所述的化学反应信 息提取方法, 其特征在于, 所述将各所述第 一分数
值进行优化处理, 得到第二分数值, 根据所述第二分数值确定最优标签序列, 以优化所述标
注模型的步骤中, 所述优化处 理的计算公式为:
其中, y为标签序列, 且y∈{y1, y2, …, yn}, Y为{y1, y2, …, yn}, Y代表所有可能的标签
序列, n表示单词的总个数, yn表示第n个单词的标签, s(X, y)为标签序列y的得分,
为标签yi‑1转移到标签yi的概率值,
表示第i个单词被标记为标签yi的概
率, P(y|X)为所述历史待识别语句X标注为标签序列 y的概率, log p(y|X)为所述第二分数
值。
8.一种化学反应信息提取系统, 其特 征在于, 所述系统包括:
文本分割模块, 用于获取目标文件中的文本和所述文本对应的图片, 并将所述文本按
预设标识分割为多个待识别语句;权 利 要 求 书 2/3 页
3
CN 115481627 A
3
专利 一种化学反应信息提取方法、系统、存储介质以及设备
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:39上传分享