standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221013246 5.7 (22)申请日 2022.02.14 (71)申请人 南京邮电大 学 地址 210003 江苏省南京市 鼓楼区新模范 马路66号 (72)发明人 丁皓 孙知信 孙哲 赵学健  宫婧 胡冰 汪胡青  (74)专利代理 机构 南京苏科专利代理有限责任 公司 32102 专利代理师 杜春秋 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 20/00(2019.01)G06N 3/08(2006.01) G06F 40/289(2020.01) (54)发明名称 一种基于WT LBert的多标签文本分类的优化 方法 (57)摘要 本发明提供一种基于WTLBert的多标签文本 分类的优化方法, 将文本训练集进行分词, 每一 个训练文本的词数量控制在510个词之内, 为每 一个文本初始化嵌入向量; 对所有文本训练集中 标注好的标签, 按照标签 之间的语义关系构建标 签森林, 将语义相近的标签, 划分到森林中同一 棵树中, 随后对森林中出现相同枝叶的树进行剪 枝; 根据构建好的标签森 林为每个标签初始化嵌 入向量; 根据构建好的标签森 林生成标签相关权 重矩阵; 根据F ‑Attention计算每个标签最终的 嵌入向量; 将标签嵌入向量和文本初始化嵌入向 量输入WTLBert模型中, WTLBert模型通过12个 Transformer编码器以及12个WTL编码器迭代训 练得到聚合嵌入向量, 该向量不仅考虑到了文本 上下文的语义关系, 同时还兼顾了文本内容与标 签之间的语义关系; 最终将聚合向量输入到分类 网络得到多标签分类结果。 权利要求书3页 说明书8页 附图4页 CN 114637844 A 2022.06.17 CN 114637844 A 1.一种基于WTLBer t的多标签文本分类的优化方法, 其特 征在于, 具体步骤如下: 步骤1、 初始化文本词嵌入向量; 步骤2、 构建标签森林, 生成语义权重矩阵, 得到标签之间的语义权重, 之后根据构建好 的标签森林, 为每一个标签初始化嵌入向量, 然后结合F ‑Attention机制, 将语义权重矩阵 中两两标签之间的语义权值与注意力得分结合, 计算得到每 个标签对应的嵌入向量; 步骤3、 将步骤1初始化后的文本词嵌入向量以及步骤2获得的标签嵌入向量作为 WTLBert模型的输入, WT LBert模型通过多个Transformer编码器以及多个WTL编码器迭代训 练, 不断挖掘细粒度文本内容与标签之间的语义关联性, 最终计算得到聚合嵌入向量; 步骤4、 将聚合嵌入向量输入分类网络中, 通过多次迭代训练, 得到最终的分类网络模 型。 2.根据权利要求1所述一种基于WTLBert的多标签文本分类的优化方法, 其特征在于, 所述步骤1中, 初始化文本词嵌入向量的具体操作如下: 步骤1.1、 将文本进行预处理, 每一个文本的数量控制 在510个词之内, 并且文本按照一 定的比例划分测试集、 验证集; 步骤1.2、 初始化测试集文本词向量、 文本分割向量以及文本位置向量, 并将上述三种 向量融合 为Vectxt,作为WTLBert模型的输入向量之一。 3.根据权利要求2所述一种基于WTLBert的多标签文本分类的优化方法, 其特征在于, 所述步骤2中, 构建标签森林, 结合F ‑Attention机制, 计算标签对应的嵌入向量, 具体操作 如下: 步骤2.1、 收集测试集文本中的所有标签, 根据标签之间的语义关系, 构建标签森林; 步骤2.2、 根据构建好的标签森林, 为每一个标签初始化嵌入向量, 向量的第一维e0, 标 志着该标签属于哪一棵树, 其公式如下: 其中, indexi表示森林中每一棵树的编号,t 表示森林中的树的数量; 其余维度依据哈夫 曼编码, 不足补零, 最后每 个标签生成初始化向量Veci, 其公式如下: 其中, labi表示标签编号, n表示标签数量; 步骤2.3、 根据标签森林构建标签相关权 重矩阵, 公式如下: M=M+E        (5) 其中, c表示所有的标签 数量, Pij表示标签i、 j同时出现在一棵树上的概率, Tij表示两个 标签同时出现在一棵树上的次数, Ti、 Tj分别表示标签i、 j出现的次数, Mij是相关权重矩阵 中的元素表 示标签i以及标签j 语义权重值, δ表示两个标签在同一颗树上的相对路径长度, E表示单位矩阵, M表示 最终生成的相关权 重矩阵;权 利 要 求 书 1/3 页 2 CN 114637844 A 2步骤2.4、 根据F ‑Attention机制, 计算得出最终的标签嵌入向量; 为每个标签线性映射 相关矩阵W, 根据以下公式计算注意力得分: Sij=(Wj‑Wi)*(Wj+Wi)T      (6) 其中, Mij为步骤2.3中标签相关权重矩阵中的元素, 表示两个标签语义相关程度, Wi, Wj 分别表示标签i、 j线性映射的矩阵, Sij表示两矩阵融合之后点乘得分, Sij′表示根据F ‑ Attention机制计算出的标签i对于标签j的注 意力得分, 最后根据计算得到的注 意力得分, 生成最终的标签嵌入向量; Veci′=Sij′*Veci      (8) 其中, Veci为步骤2.2生成的标签初始化向量, V eci′表示融合了注意力得分计算得到的 向量, Veclab表示最终归一 化得到的标签嵌入向量。 4.根据权利要求3所述一种基于WTLBert的多标签文本分类的优化方法, 其特征在于, 所述步骤2.1中, 标签森林构建规则如下: 1)新加入森林中的节点, 若与森林中的树不存在语义关系, 则该节点作为新树的根节 点; 2)新加入森林中的节点, 若与森林中的树存在语义关系, 那么每加入一个节点到树中, 就语义关联程度, 对树进行 大堆排序; 3)新加入森林中的节点, 若与森林中树的节点存在相同语义关系, 那么抛弃该节点, 避 免标签冗余; 4)森林中每一棵树的层次遍历结果的节点必须按照语义关联程度递减; 5)若森林中的树出现重复的枝叶结构, 对这些枝叶进行剪枝。 5.根据权利要求4所述一种基于WTLBert的多标签文本分类的优化方法, 其特征在于, 所述步骤3中, 将初始化文本词嵌入向量以及标签嵌入向量作为WTLBert模型的输入, 模型 内部通过多个Transformer编码器以及WTL编码器迭代训练, 计算得到最终的聚合嵌入向 量, 具体操作如下: 步骤3.1、 将由步骤1.2得到的初始化文本词嵌入向量Vectxt, 以及步骤2.4生成的标签 嵌入向量Veclab, 输入到WTLBer t模型中; 步骤3.2、 将文本词嵌入向量Vectxt输入Transformer编码器, 由Transformer编码器输 出包含上下文语义关系的CLS向量; 步骤3.3、 将Transformer编码器输出的CLS向量输入到WTL编码器, 得到Vec ′txt向量; 步骤3.4、 将的Vec ′txt向量, 输入到下一个Transformer编码器中, 并继续重复步骤3.1 到步骤3.3, 直到特征向量经过WTLBert模 型的所有编码器, 最终WTLBert模型输出最终的聚 合嵌入向量Vech。 6.根据权利要求5所述一种基于WTLBert的多标签文本分类的优化方法, 其特征在于, 所述步骤3.3中, WTL编码器获取Vec ′txt向量的具体操作如下: 步骤3.3.1、 WTL编码器中将输入的CLS向量通过训练好的全连接网络映射到标签特征权 利 要 求 书 2/3 页 3 CN 114637844 A 3

PDF文档 专利 一种基于WTLBert的多标签文本分类的优化方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于WTLBert的多标签文本分类的优化方法 第 1 页 专利 一种基于WTLBert的多标签文本分类的优化方法 第 2 页 专利 一种基于WTLBert的多标签文本分类的优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:36上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。