专利 一种基于嵌入的新闻多标签分类方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210060247.7 (22)申请日 2022.01.19 (71)申请人浙江工业大学地址 310014 浙江省杭州市下城区潮王路 18号 (72)发明人杨旭华　陶进　叶蕾　龙海霞　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师忻明年 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称一种基于嵌入的新闻多标签分类方法及装置 (57)摘要本发明公开了一种基于嵌入的新闻多标签分类方法及装置，将文本及其标签用嵌入向量表示，将文本嵌入向量矩阵输入到卷积神经网络模块，提取文本特征向量，将文本嵌入向量矩阵输入到双向门控循环单元网络模块，得到文本单词的上下文嵌入表示，将标签嵌入向量矩阵和文本单词的上下文嵌入表示输入到标签注意力模块，得到基于标签的文本特征向量，拼接文本特征向量和文本基于标签的特征向量，输入到文本分类器模块，输出文本分类结果。本发明从标签嵌入向量表示和文本嵌入向量表示中学习得到文本特征向量，提高新闻多标签分类的准确性。权利要求书1页说明书5页附图1页 CN 114528373 A 2022.05.24 CN 114528373 A 1.一种基于嵌入的新闻多标签分类方法，其特征在于，所述基于嵌入的新闻多标签分类方法，包括：收集新闻文本数据，在预处理后，将文本及其标签用嵌入向量表示，得到文本嵌入向量矩阵和标签嵌入向量矩阵；将文本嵌入向量矩阵输入到卷积神经网络模块，提取文本特征向量；将文本嵌入向量矩阵输入到双向门控循环单元网络模块，得到文本单词的上下文嵌入表示；将标签嵌入向量矩阵和文本单词的上下文嵌入表示输入到标签注意力模块，得到基于标签的文本特征向量；拼接文本特征向量和文本基于标签的特征向量，输入到文本分类器模块，输出文本分类结果。 2.根据权利要求1所述的基于嵌入的新闻多标签分类方法，其特征在于，所述文本单词的上下文嵌入表示，包括文本单词的正向上下文嵌入表示和反向上下文嵌入表示其中表示正向门控循环单元网络第t个单词的上文嵌入向量，表示反向门控循环单元网络第t个单词的下文嵌入向量， xt表示第t个单词的嵌入向量。 3.根据权利要求1所述的基于嵌入的新闻多标签分类方法，其特征在于，所述基于标签的文本特征向量表示为： f2＝tanh(W3M)；其中， W3是可训练权重， tanh表示双曲正切激活函数， M为标签对应的特征向量， Z1＝LH1 为正向标签注意力权重， Z2＝LH2为反向标签注意力权重， H1为文本单词的正向上下文嵌入表示， H2为文本单词的反向上下文嵌入表示。 4.根据权利要求1所述的基于嵌入的新闻多标签分类方法，其特征在于，所述卷积神经网络模块、双向门控循环单元网络模块、标签注意力模块和文本分类器模块构成神经网络分类模型，所述神经网络分类模型的损失函数为：其中Yij表示第i个样本是否拥有第j个标签的预测情况，表示第i个文本是否拥有第j 个标签的真实情况， Q表示标签数量， B表示样本数量。 5.根据权利要求1所述的基于嵌入的新闻多标签分类方法，其特征在于，所述预处理，包括：对收集的新闻文本，取前N个单词，如果一个新闻文本不足N个单词，不足之处用0填充。 6.一种基于嵌入的新闻多标签分类装置，包括处理器以及存储有若干计算机指令的存储器，其特征在于，所述计算机指令被处理器执行时实现权利要求1至权利要求5中任意一项所述方法的步骤。权　利　要　求　书 1/1 页 2 CN 114528373 A 2一种基于嵌入的新闻多标签分类方法及装置技术领域 [0001]本申请属于自然语言处理技术领域，尤其涉及一种基于嵌入的新闻多标签分类方法及装置。背景技术 [0002]随着互联网时代的到来，人们每天可以几乎实时知道发生在世界各地的事情，而互联网平台上的新闻在这其中扮演了重要的角色。类似今日头条、搜狗新闻、新浪等平台上，每天都有大量的新闻文本产生，有体育、政治、经济、娱乐、艺术等等主题，而如何对新闻的主题进行准确的分类，在用户推荐系统、舆情分析等领域有着重要的作用。 [0003]文本分类是自然语言处理领域一个基本而重要的任务。新闻文本的多标签分类首先要对文本进行一些预处理，包括分句、分词、去除停用词等等。得到干净的文本之后需要对文本进行向量化，进行特征的提取。传统文本向量化主要基于词袋模型、 T F‑IDF等统计方法来得到代表文本的一个定长的向量表示，最后使用支持向量机进行文本分类。而随着深度学习的迅猛发展， 2013年提出的word2vec模型，成功将文本中每个单词用一个低维稠密的定长向量表示。这些定长的向量表示很好地涵盖了单词的上下文信息，成为将深度神经网络应用到文本领域的重要基础。之后的卷积神经网络(CNN)、循环神经网络(RNN)也成功应用于文本领域，并刷新了当时文本分类的最好结果。但是LSTM和CNN这些模型对文本进行序列建模的时候往往只考虑了文本的信息，很少去关注标签的信息，尤其对于多标签分类而言，标签本身具有丰富的信息。因此，引入标签嵌入，在新闻文本分类过程当中增加标签信息，来进一步提升分类的精度，是本领域技术人员研究的一个课题。发明内容 [0004]为了克服现有文本分类方法中输入文本的语义信息不足问题，更全面捕获文本特征信息，提升新闻文本多标签分类性能，本申请提出了一种基于嵌入的新闻多标签分类方法及装置。 [0005]为了实现上述目的，本申请技术方案如下： [0006]一种基于嵌入的新闻多标签分类方法，包括： [0007]收集新闻文本数据，在预处理后，将文本及其标签用嵌入向量表示，得到文本嵌入向量矩阵和标签嵌入向量矩阵； [0008]将文本嵌入向量矩阵输入到卷积神经网络模块，提取文本特征向量； [0009]将文本嵌入向量矩阵输入到双向门控循环单元网络模块，得到文本单词的上下文嵌入表示； [0010]将标签嵌入向量矩阵和文本单词的上下文嵌入表示输入到标签注意力模块，得到基于标签的文本特征向量； [0011]拼接文本特征向量和文本基于标签的特征向量，输入到文本分类器模块，输出文本分类结果。说　明　书 1/5 页 3 CN 114528373 A 3

专利 一种基于嵌入的新闻多标签分类方法及装置

专利一种基于嵌入的新闻多标签分类方法及装置