(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210037262.X
(22)申请日 2022.01.13
(71)申请人 东北电力大 学
地址 132012 吉林省吉林市长 春路169号
(72)发明人 鲍松彬 郑育杰 王敬东 孟凡奇
(74)专利代理 机构 西安合创非凡知识产权代理
事务所(普通 合伙) 61248
代理人 高志永
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06F 40/268(2020.01)
G06F 40/211(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
融合关联信息的程式语识别系统及方法
(57)摘要
本发明公开了融合关联信息的程式语识别
系统及方法, 其中的系统包括: 基本特征提取模
块, 用于使用T orch中的embedding层生成词嵌入
向量作为词性特征、 GloVe词向量技术训练的特
征向量作为语义特征, 经过晚融合的词性特征和
语义特征作为该模型的基本特征; 关联信息提取
模块, 用于采用单词间的互信息和句子的依存句
法关系作为识别程式语的关联信息; 标签表示模
块, 用于表示标签。 本发明通过词嵌入技术来表
示特征向量, 并融合了能够代表 程式语特征的关
联信息, 使用图卷积神经网络获取更深层次的语
义特征, 最后考虑到标签之间含有依存关系, 使
用条件随机场模 型进行标签解码, 达到识别程式
语的目的。
权利要求书3页 说明书14页 附图7页
CN 114330338 A
2022.04.12
CN 114330338 A
1.融合关联信息的程式语识别系统, 其特 征在于, 包括:
基本特征提取模块, 用于使用Torch中的embedding层生成词嵌入向量作为词性特征、
GloVe词向量技术训练的特征向量作为语义特征, 经过 晚融合的词性特征和 语义特征作为
该模型的基本特 征;
关联信息提取模块, 用于采用单词间的互信 息和句子的依存句法关系作为识别程式语
的关联信息;
标签表示模块, 用于表示标签。
2.融合关联信息的程式语识别方法, 其特 征在于, 包括:
基本特征提取方法;
关联信息提取 方法;
标签表示方法。
3.根据权利要求2所述的融合关联信 息的程式语识别方法, 其特征在于, 所述基本特征
提取方法包括:
特征选择;
基于Bi‑LSTM的特 征表示;
词性特征和语义特 征的晚融合。
4.根据权利要求3所述的融合关联信 息的程式语识别方法, 其特征在于, 所述特征选择
包括使用Torch中的embedding层生成词嵌入向量作为词性特征、 使用GloVe训练的特征 向
量来表示程式语的语义特 征:
根据语料库构建一个共现矩阵X, 矩阵中的每一个元素 Xij 代表单词 i 和上下文单词
j 在特定大小的上 下文窗口内共同出现的次数;
构建词向量和共现矩阵之间的近似关系, 关系如式1所示:
其中, 上式的wi和wj是我们最终要求解的词 向量; 而bi和bj则是两个词 向量的 bias
项;
构造损失函数, 如式所示:
其中,
为权重函数, 它的计算公式如式3所示:
其中, x表示共现次数, 而xmax表示最大共现次数。
5.根据权利要求3所述的融合关联信息的程式语识别方法, 其特征在于, 所述基于Bi ‑
LSTM的特 征表示包括:
设句子
, 将其输入到Bi ‑LSTM网络中, 可以得到句子权 利 要 求 书 1/3 页
2
CN 114330338 A
2的隐藏层的表示
; 每个单元根据前一个隐藏向量
和当前
输入向量
的计算, 得到当前隐藏向量
, 其操作定义如下:
式中: it, ft, ct, ot, ht分别为记忆门、 隐藏层、 遗忘门、 细胞核和输出门在输入第
t个文本时的状态; W 为模型的参数; b为偏置向量;
为Sigmoid函数; tanh为双曲正切函数。
6.根据权利要求3所述的融合关联信 息的程式语识别方法, 其特征在于, 所述词性特征
和语义特 征的晚融合包括:
首先把词性特征和语义特征分别输入到Bi ‑LSTM中, 再将两个模型的结果进行拼接形
成基本特 征向量。
7.根据权利要求2所述的融合关联信 息的程式语识别方法, 其特征在于, 所述关联信 息
提取方法包括:
基于互信息的关联信息:
两个离散随机变量 X和Y 的互信息(MI)的定义 为:
其中p (x, y) 是X和Y的联合概率分布函数, p(x)和p(y)分别是X和Y的边缘概率分布
函数; 如果要衡量某个数据集中任意两个单词x, y的关联程度, 可以这样计算:
,其中, p(x),p(y)为x, y在数据集中独立出现的概率, 直
接统计词频后除以总的词数就可以得到;p(x,y)为x, y同时出现在数据集中的概率, 直接
统计二者同时出现的次数, 再除以所有无序对的个数即可;
基于依存句法分析的关联信息:
依存句法揭示了句子中词与词之间的依存关系以及搭配关系, 其中一个依存关系连接
两个词, 一个是核心词, 一个是修饰词, 这样的关系与句子的语义关系是相互关联的;
基于图卷积神经网络的特 征表示:
通过MI和依存句法分析将单词间的关系用图来表示, 所以采用图卷积神经网络来处理
关联信息;
给定一个图G=(V, E), V是包含N个节点的顶点集, E是包括自循环边 (即每个顶点都与
自身相连) 的边 集, 图G(V, E)的特征信息可由拉普拉斯矩阵(L)表示, 如式1 1所示:
或者使用对称归一 化后的拉普拉斯矩阵:权 利 要 求 书 2/3 页
3
CN 114330338 A
3
专利 融合关联信息的程式语识别系统及方法
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:56上传分享