standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210037262.X (22)申请日 2022.01.13 (71)申请人 东北电力大 学 地址 132012 吉林省吉林市长 春路169号 (72)发明人 鲍松彬 郑育杰 王敬东 孟凡奇  (74)专利代理 机构 西安合创非凡知识产权代理 事务所(普通 合伙) 61248 代理人 高志永 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/268(2020.01) G06F 40/211(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 融合关联信息的程式语识别系统及方法 (57)摘要 本发明公开了融合关联信息的程式语识别 系统及方法, 其中的系统包括: 基本特征提取模 块, 用于使用T orch中的embedding层生成词嵌入 向量作为词性特征、 GloVe词向量技术训练的特 征向量作为语义特征, 经过晚融合的词性特征和 语义特征作为该模型的基本特征; 关联信息提取 模块, 用于采用单词间的互信息和句子的依存句 法关系作为识别程式语的关联信息; 标签表示模 块, 用于表示标签。 本发明通过词嵌入技术来表 示特征向量, 并融合了能够代表 程式语特征的关 联信息, 使用图卷积神经网络获取更深层次的语 义特征, 最后考虑到标签之间含有依存关系, 使 用条件随机场模 型进行标签解码, 达到识别程式 语的目的。 权利要求书3页 说明书14页 附图7页 CN 114330338 A 2022.04.12 CN 114330338 A 1.融合关联信息的程式语识别系统, 其特 征在于, 包括: 基本特征提取模块, 用于使用Torch中的embedding层生成词嵌入向量作为词性特征、 GloVe词向量技术训练的特征向量作为语义特征, 经过 晚融合的词性特征和 语义特征作为 该模型的基本特 征; 关联信息提取模块, 用于采用单词间的互信 息和句子的依存句法关系作为识别程式语 的关联信息; 标签表示模块, 用于表示标签。 2.融合关联信息的程式语识别方法, 其特 征在于, 包括: 基本特征提取方法; 关联信息提取 方法; 标签表示方法。 3.根据权利要求2所述的融合关联信 息的程式语识别方法, 其特征在于, 所述基本特征 提取方法包括: 特征选择; 基于Bi‑LSTM的特 征表示; 词性特征和语义特 征的晚融合。 4.根据权利要求3所述的融合关联信 息的程式语识别方法, 其特征在于, 所述特征选择 包括使用Torch中的embedding层生成词嵌入向量作为词性特征、 使用GloVe训练的特征 向 量来表示程式语的语义特 征: 根据语料库构建一个共现矩阵X, 矩阵中的每一个元素  Xij 代表单词 i 和上下文单词   j 在特定大小的上 下文窗口内共同出现的次数; 构建词向量和共现矩阵之间的近似关系, 关系如式1所示: 其中, 上式的wi和wj是我们最终要求解的词 向量; 而bi和bj则是两个词 向量的 bias  项; 构造损失函数, 如式所示: 其中, 为权重函数, 它的计算公式如式3所示: 其中, x表示共现次数, 而xmax表示最大共现次数。 5.根据权利要求3所述的融合关联信息的程式语识别方法, 其特征在于, 所述基于Bi ‑ LSTM的特 征表示包括: 设句子 , 将其输入到Bi ‑LSTM网络中, 可以得到句子权 利 要 求 书 1/3 页 2 CN 114330338 A 2的隐藏层的表示 ; 每个单元根据前一个隐藏向量 和当前 输入向量 的计算, 得到当前隐藏向量 , 其操作定义如下: 式中: it, ft, ct, ot, ht分别为记忆门、 隐藏层、 遗忘门、 细胞核和输出门在输入第 t个文本时的状态; W 为模型的参数; b为偏置向量; 为Sigmoid函数; tanh为双曲正切函数。 6.根据权利要求3所述的融合关联信 息的程式语识别方法, 其特征在于, 所述词性特征 和语义特 征的晚融合包括: 首先把词性特征和语义特征分别输入到Bi ‑LSTM中, 再将两个模型的结果进行拼接形 成基本特 征向量。 7.根据权利要求2所述的融合关联信 息的程式语识别方法, 其特征在于, 所述关联信 息 提取方法包括: 基于互信息的关联信息: 两个离散随机变量  X和Y 的互信息(MI)的定义 为: 其中p (x, y) 是X和Y的联合概率分布函数, p(x)和p(y)分别是X和Y的边缘概率分布 函数; 如果要衡量某个数据集中任意两个单词x,  y的关联程度, 可以这样计算: ,其中, p(x),p(y)为x,  y在数据集中独立出现的概率, 直 接统计词频后除以总的词数就可以得到;p(x,y)为x,  y同时出现在数据集中的概率, 直接 统计二者同时出现的次数, 再除以所有无序对的个数即可; 基于依存句法分析的关联信息: 依存句法揭示了句子中词与词之间的依存关系以及搭配关系, 其中一个依存关系连接 两个词, 一个是核心词, 一个是修饰词, 这样的关系与句子的语义关系是相互关联的; 基于图卷积神经网络的特 征表示: 通过MI和依存句法分析将单词间的关系用图来表示, 所以采用图卷积神经网络来处理 关联信息; 给定一个图G=(V,  E), V是包含N个节点的顶点集, E是包括自循环边 (即每个顶点都与 自身相连) 的边 集, 图G(V,  E)的特征信息可由拉普拉斯矩阵(L)表示, 如式1 1所示: 或者使用对称归一 化后的拉普拉斯矩阵:权 利 要 求 书 2/3 页 3 CN 114330338 A 3

PDF文档 专利 融合关联信息的程式语识别系统及方法

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 融合关联信息的程式语识别系统及方法 第 1 页 专利 融合关联信息的程式语识别系统及方法 第 2 页 专利 融合关联信息的程式语识别系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。