standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210030824.8 (22)申请日 2022.01.12 (71)申请人 淮阴工学院 地址 223100 江苏省淮安市洪泽区东七街 三号高新技术产业园A12-2(淮 阴工学 院技术转移中心 洪泽分中心) (72)发明人 陈晓兵 康丽 卢佳琪 包涵  张润 张冰莹  (74)专利代理 机构 南京苏高专利商标事务所 (普通合伙) 32204 专利代理师 柏尚春 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于ChineseBERT模型和注意力机制的化工 突发事件新闻分类方法 (57)摘要 本发明公开了一种基于ChineseBERT模型和 注意力机制的化工突发事件新闻分类方法, 首先 对文本数据进行文本预处理; 然后, 对词语进行 注意力机制处理, 提取单词和子序列的信息依赖 关系; 与此同时, 基于改进ChineseBERT预训练模 型进行拼音信息和字符信息的提取; 之后对拼音 信息和字符信息进行矩阵融合, 同时加上位置信 息, 保持上下文语义的完整性, 通过经典的Bert 模型进行处理, 使用参数共享机制, 得到最终的 信息特征向量; 对得到的上下文语义向量和 信息 依赖关系向量融合, 作为CNN的输入, 得到最终的 化工新闻分类结果。 本发明充分优化了文本的拼 音字符语义信息; 提取词语的依赖关系和局部依 赖关系的问题; 通过Bert模型参数共享机制降低 时间复杂度的问题, 有效的提高文本分类的精确 度。 权利要求书3页 说明书8页 附图3页 CN 114510569 A 2022.05.17 CN 114510569 A 1.一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法, 其特征在 于, 包括以下步骤: (1)将化工突发事 件新闻文本数据D进行文本预处 理, 得到新闻文本数据D1; (2)通过word2vec模型处理化工突发文本数据D1, 得到文本特征向量R1, 将词向量R1输 入到WordAttention模型中, 得到新的词依赖特征信息H1, 再将词依赖特征信息H1输入到 SeqAttention模型, 得到 子序列特 征信息H2; (3)通过对文本数据D1进行开源拼音包 处理, 得到对应的拼音序列, 之后 输入到MLP, 经 过最大池化层输出拼音向量H3, 对预处理后的文本进行one ‑hot编码, 得到字符向量H4, 与 拼音向量H 3进行矩阵化嵌入, 得到2维矩阵向量R3; (4)将矩阵特征信息R3与位置向量信息R4进行整合得到特征信息H5, 输入H5至Bert预 训练模型中, 得到对应的特 征信息H6; (5)将步骤(2)中的上下文特征信息H2与步骤(4)中的语义特征信息H6进行整合, 输入 到CNN模型中, 得到最终的文本分类结果。 2.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分 类方法, 其特 征在于, 所述 步骤(1)包括以下步骤: (11)定义化工突发事件新闻文本数据集为D, 定义Text为单个文本数据, 定义id, title, label分别为单个文本序列号, 数据的标题, 文本标签, 并且满足关系Text={id, title,label}, D={Text1,Text2,…,Texti,…,Textn}, Texti为D中第i个文本信息数据, 其 中, n=len(D)为D中文本数量, 变量 i∈[1,n]; (12)定义处理后的化工突发事件文本数据集为D1, D1={Text1,Text2,…,Textj,…, Textm}, Textj为D1中第j个文本信息数据, 其 中, m=len(D1)分别为D1中文本数量, 变量j∈ [1,m]; (13)读取 数据集D, 遍历整个数据集; (14)如果title= =null, 执行(15), 否则执 行(16); (15)删除对应行 数据; (16)根据停用词表去除一些 无用的字符; (17)保存预处 理后的文本数据集D1。 3.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分 类方法, 其特 征在于, 所述 步骤(2)包括以下步骤: (201)读取 预处理后的文本数据集D1; (202)定义词特 征向量集R1; (203)通过word2vec模型进行数据分词处理, 由word2vec模型进行训练得到文本词特 征向量 (204)保存词 特征向量R1, 并且满足 为数据向量集中第i个 词特征向量, 其中, 变量 i∈[1,a], a为分词后词向量的数量; (205)定义基于注意力机制的词依赖特 征向量H1; (206)将词特征向量R1, 输入到Attention机制中, 得到基于注意力的词依赖特征向量 其中 表示文本中的第j个词依赖特征向量, 满足 变量j∈权 利 要 求 书 1/3 页 2 CN 114510569 A 2[1,b], b为词依赖特征向量的数量, 其中的Attention机制的输入与调整方法为, 使用 softmax归一化, 进行权重矩阵Wf调节, 之后乘V, 其中, dk 为一个Q和K向量的维度, 为尺度标量因子, 分别代 表query, key, value; (207)定义循环变量 k, 用来学习第一级注意力机制的词特 征向量H1, k初始值 为1; (208)定义基于注意力机制的子序列依赖特 征向量H2; (209)如果 k≤b则执行(210), 否则执 行(212); (210)将词依赖特征向量H1, 输入到Attention机制中, 得到基于注意力的子序列依赖 特 征 向 量 其 中 表 示 文 本 中 的 第 t 个 子 序 列 依 赖 特 征 向 量 ,满 足 变量t∈[1,c], c为子序列依赖特 征向量的数量; (211)k=k+1; (212)输出并保存二级注意力机制的特 征向量H2。 4.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分 类方法, 其特 征在于, 所述 步骤(3)包括以下步骤: (31)定义 拼音特征向量H3, 定义one‑hot字符向量H4, 定义融合嵌入矩阵R3; (32)读入文本数据D1到开源的拼音包里, 得到拼音表示, 将其输入到MLP中, 神经网络 中由3个隐藏层, 每个隐藏层64个节点数, 然后由最大池化层得到拼音向量 满足 为数据向量集中第i个字符对应的拼音向量, 其中, 变量i∈[1, d], d为拼音向量的数量; (33)读取预处理数据D1, 通过one ‑hot编码字符向量, 得到字符向量 满足 为数据向量 集中第j个字符特 征向量, 其中, 变量j∈[1,e]; (34)融合拼音向量H3和字符向量H4, 得到融合嵌入向量 主要使用具有可学习矩阵 的全连接层诱导矩阵向量的嵌入, 融合矩阵向量 其中 表示文本 中的第t个字符对应的融合特 征向量, 变量t∈[1,s ]。 5.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分 类方法, 其特 征在于, 所述 步骤(4)包括以下步骤: (41)定义位置向量R4, 定义融合位置向量的特征向量矩阵H5, 定义Bert预训练后的特 征向量H6; (42)将融合矩阵向量R3与positional  Embedding相加, 得到整合特征向量矩阵 其中, 变量h∈[1,f]; (43)读取整合特征向量矩阵H5输入到Bert模型中训练, 得到最终的特征信息向量H6, 其中 为Bert训练后向量第p个特征向量, 其中, 变量p∈[1,g], 对Bert模型的训练参数共享, 得到对应的训练特 征向量。 6.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分 类方法, 其特 征在于, 所述 步骤(5)包括以下步骤:权 利 要 求 书 2/3 页 3 CN 114510569 A 3

PDF文档 专利 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法 第 1 页 专利 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法 第 2 页 专利 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。