standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210026618.X (22)申请日 2022.01.11 (71)申请人 北京工业大 学 地址 100124 北京市朝阳区平乐园10 0号北 京工业大 学 (72)发明人 毕敬 高荣荣 乔俊飞  (51)Int.Cl. G06F 16/35(2019.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 基于多特征融合的水环境文本方面级观点 挖掘方法 (57)摘要 本发明公开一种基于多特征融合的水环境 文本方面级观 点挖掘方法, 对搜集的水环境文本 进行特征提取。 首先, 结合注意力机制和卷积神 经网络构建多特征融合模型, 充分且精准地提取 方面词和情感特征。 在此基础上, 构建基于门控 线性单元和双向长短期记忆网络的方面级观点 挖掘模型, 通过对水环境文本的迭代训练, 优化 模型参数, 利用训练完成的观 点挖掘模型对其水 环境文本进行不同方面情感极性判断。 最后, 将 分类结果与测试的数据集进行比对, 对方面级观 点挖掘模型进行误差分析与性能评估。 本发明综 合考虑水环 境文本多特征、 前后文语序特征以及 局部情感特征关系, 有效地提高各个方面词情感 分类的准确率。 权利要求书2页 说明书7页 附图2页 CN 114385813 A 2022.04.22 CN 114385813 A 1.一种基于多特征融合的水环境文本方面级观点挖掘方法, 方面级挖掘指的是挖掘句 子中涉及的方面, 以及对每个方面表现出来的情感, 一条水环境文本可能包含水环境的不 同方面, 利用挖掘模型对水环境的不同方面进行研究, 其特 征在于, 该 方法包括如下步骤: 步骤1: 对搜集的水环境文本进行 特征提取, 建立多特 征融合的特 征向量; 步骤2: 构建基于多特 征融合的水环境文本方面级观点挖掘方法模型; 步骤3: 将集成双向长短期记忆网络(Bi ‑directional  Long Short‑Term Memory, BiLSTM)和卷积神经网络(Convolutional  Neural Networks, CNN), 并结合GLU和注意力机 制(Attention)的方面级观点挖掘模型进行迭代训练, 优化模型参数, 得到最终模型; 步骤4: 利用步骤3训练后的最终模型对水环境文本进行不同方面情感极性判断; 步骤5: 对步骤4得到的分类结果, 对 模型进行误差分析和性能评估。 2.根据权利要求1所述的基于多特征融合的水环境文本方面级观点挖掘方法, 其特征 在于, 对搜集的水环境文本进行 特征提取, 建立多特 征融合的特 征向量, 具体为: 用Jieba对文本分词, 得到每条文本词语序列S=[w1, w2,…, wN], 其中n为词语的个数。 用Word2vec工具训练词向量, 在向量空间上表示文本, 得到文本的词语特征向量表示y= [v1, v2,…, vN]∈Rn*d, d为词向量的维度。 将向量矩阵输入到CNN的卷积层, 利用不同尺寸的 卷积核提取不同N ‑gram特征图, 最后将多个特 征图组合 起来作为文本特 征向量矩阵。 3.根据权利要求2所述的基于多特征融合的水环境文本方面级观点挖掘方法, 其特征 在于, 使用多特征融合的方法, 既使用短语特征、 词性特征、 类别词特征和字特征融合的特 征向量, 构建基于多特 征融合的水环境文本方面级观点挖掘模型, 具体过程如下: 基于多特征融合的水环境文本方面级观点挖掘模型结合了BiLSTM和CNN对水环境文本 进行学习并对文本观点进行挖掘, 分别捕获前后文语序特征和长距离依赖特征, 以及局部 情感特征关系。 首先, 将切分后的文本作为输入, 利用词嵌入层将词语、 词性和字映射到低 维向量空间中, 根据词典中词语和索引的对应关系, 将文本中的词语序列转 成索引序列, 将 索引序列和训练好的词向量矩阵V, 通过Embedding_Lookup函数进行嵌入操作, 得到词嵌入 矩阵 其中, 表示评论第i个词的词向 量。 通过两层BiLSTM学习网络模型, 网络的层次越多可以学习到更深层次的语意信息, BiLSTM模型的输入是 前面得到的嵌入矩阵。 4.根据权利要求3所述的基于多特征融合的水环境文本方面级观点挖掘方法, 其特征 在于, 使用Word2vec训练的特征向量, 将嵌入矩阵输入到BiLSTM模型, 并结合GLU和 Attention模型进行迭代训练, 利用Attention机制和方面词为特征融合层的特征向量分配 注意力权重, 得到加权后的特征向量矩阵, 并识别每个方面词的情感倾向, 从而为了提高观 点挖掘的准确性。 计算过程是计算上下文的特征和方面词的相似性, 即词语对方面词的贡献程度, 对得 到的贡献程度进行归一化, 得到注意力权重, 权重越大表明当前输入标签越依赖于当前输 入, 将上下文的特征向量和注 意力权重加权求和, 得到每个方面词的上下文语义编码向量。 为了融合文本的词语特征、 词性特征和字特征, 将上述提取到的上下文特征向量矩阵作为 解码层的输入矩阵, 利用文本的多重信息有利于后续BiLSTM学习到更丰富的特征。 将每个 时刻隐藏层的输出作为全连接层的输入, 经过非线性变换后输入到Softmax分类, 输出各个 方面词对应的情感极性, 公式如下:权 利 要 求 书 1/2 页 2 CN 114385813 A 2Y=[y1, y2,…, ym]∈Rm*1。 其中, yj表示第j个方面词的情感极性, m是 方面词标签的个数。 5.根据权利要求4所述的基于多特征融合的水环境文本方面级观点挖掘方法, 其特征 在于, 将训练完成后的最 终模型采用测试数据对微博水环境文本数据集进 行方面级情感分 类, 根据水环境 不同方面对水环境文本的情感指数进行分析。 6.根据权利要求5所述的基于多特征融合的水环境文本方面级观点挖掘方法, 其特征 在于, 将实验结果进行对比, 对 模型进行误差分析和性能评估。权 利 要 求 书 2/2 页 3 CN 114385813 A 3

PDF文档 专利 基于多特征融合的水环境文本方面级观点挖掘方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多特征融合的水环境文本方面级观点挖掘方法 第 1 页 专利 基于多特征融合的水环境文本方面级观点挖掘方法 第 2 页 专利 基于多特征融合的水环境文本方面级观点挖掘方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:59上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。