(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210060247.7
(22)申请日 2022.01.19
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市下城区潮王路
18号
(72)发明人 杨旭华 陶进 叶蕾 龙海霞
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 忻明年
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于嵌入的新闻多标签分类方法及装
置
(57)摘要
本发明公开了一种基于嵌入的新闻多标签
分类方法及装置, 将文本及其标签用嵌入向量表
示, 将文本嵌入向量矩阵输入到卷积神经网络模
块, 提取文本特征向量, 将文本嵌入向量矩阵输
入到双向门控循环单元网络模块, 得到文本单词
的上下文嵌入表示, 将标签嵌入向量矩阵和文本
单词的上下文嵌入表示输入到标签注 意力模块,
得到基于标签的文本特征向量, 拼接文本特征向
量和文本基于标签的特征向量, 输入到文本分类
器模块, 输出文本分类结果。 本发明从标签嵌入
向量表示和文本嵌入向量表示中学习得到文本
特征向量, 提高新闻多标签分类的准确性。
权利要求书1页 说明书5页 附图1页
CN 114528373 A
2022.05.24
CN 114528373 A
1.一种基于嵌入的新闻多标签分类方法, 其特征在于, 所述基于嵌入的新闻多标签分
类方法, 包括:
收集新闻文本数据, 在预处理后, 将文本及其标签用嵌入向量表示, 得到文本嵌入向量
矩阵和标签嵌入向量矩阵;
将文本嵌入向量矩阵输入到卷积神经网络模块, 提取文本特 征向量;
将文本嵌入向量矩阵输入到双向门控循环单元网络模块, 得到文本单词的上下文嵌入
表示;
将标签嵌入向量矩阵和文本单词的上下文嵌入表示输入到标签注意力模块, 得到基于
标签的文本特 征向量;
拼接文本特征向量和文本基于标签的特征向量, 输入到文本分类器模块, 输出文本分
类结果。
2.根据权利要求1所述的基于嵌入的新闻多标签分类方法, 其特征在于, 所述文本单词
的上下文嵌入表示, 包括文本单词的正向上下文嵌入表示
和反向上
下文嵌入表示
其中
表示正向门控循环单元
网络第t个单词的上文嵌入向量,
表示反向门控循环单元网络第t个
单词的下文嵌入向量, xt表示第t个单词的嵌入向量。
3.根据权利要求1所述的基于嵌入的新闻多标签分类方法, 其特征在于, 所述基于标签
的文本特 征向量表示 为:
f2=tanh(W3M);
其中, W3是可训练权重, tanh表示双曲正切激活函数, M为标签对应的特征向量, Z1=LH1
为正向标签注意力权重, Z2=LH2为反向标签注意力权重, H1为文本单词的正 向上下文嵌入
表示, H2为文本单词的反向上 下文嵌入表示。
4.根据权利要求1所述的基于嵌入的新闻多标签分类方法, 其特征在于, 所述卷积神经
网络模块、 双向门控循环单元网络模块、 标签注意力模块和文本分类器模块构成神经网络
分类模型, 所述神经网络分类模型的损失函数为:
其中Yij表示第i个样本是否拥有第j个标签的预测情况,
表示第i个文 本是否拥有第j
个标签的真实情况, Q表示标签数量, B表示样本数量。
5.根据权利要求1所述的基于嵌入的新闻多标签分类方法, 其特征在于, 所述预处理,
包括:
对收集的新闻文本, 取 前N个单词, 如果 一个新闻文本不足N个单词, 不足之处用0填充。
6.一种基于嵌入的新闻多标签分类装置, 包括处理器以及存储有若干计算机指令的存
储器, 其特征在于, 所述计算机指令被处理器执行时实现权利要求1至权利要求5中任意一
项所述方法的步骤。权 利 要 求 书 1/1 页
2
CN 114528373 A
2一种基于嵌入的新 闻多标签分类方 法及装置
技术领域
[0001]本申请属于自然语言处理技术领域, 尤其涉及一种基于嵌入的新闻多标签分类方
法及装置 。
背景技术
[0002]随着互联网时代的到来, 人们每天可以几乎实时知道发生在世界各地的事情, 而
互联网平台上的新闻在这其中扮演了重要的角色。 类似今日头条、 搜狗新闻、 新浪等平台
上, 每天都有 大量的新闻文本产生, 有体育、 政治、 经济、 娱乐、 艺术等等主题, 而如何对新闻
的主题进行准确的分类, 在用户推荐系统、 舆情分析等领域有着重要的作用。
[0003]文本分类是自然语言处理领域一个基本而重要的任务。 新闻文本的多标签分类首
先要对文本进行一些预处理, 包括分句、 分词、 去除停用词等等。 得到干净的文本之后需要
对文本进行向量化, 进行特征的提取。 传统文本向量化主要基于词袋模型、 T F‑IDF等统计方
法来得到代表文本的一个定长的向量表示, 最后使用支持向量机进行文本分类。 而随着深
度学习的迅猛发展, 2013年提出的word2vec模型, 成功将文本中每个单词用一个低维稠密
的定长向量表示。 这些定长的向量表示很好地涵盖了单词的上下文信息, 成为将深度神经
网络应用到文本领域的重要基础。 之后的卷积神经网络(CNN)、 循环神经网络(RNN)也成功
应用于文本领域, 并刷新了 当时文本分类的最好结果。 但是LSTM和CNN这些模型对文本进 行
序列建模的时候往往只考虑了文本的信息, 很少去关注标签的信息, 尤其对于多标签分类
而言, 标签本身具有丰富的信息。 因此, 引入标签嵌入, 在新闻文本分类过程当中增加标签
信息, 来进一 步提升分类的精度, 是本领域 技术人员研究的一个课题。
发明内容
[0004]为了克服现有文本分类方法中输入文本的语义信息不足问题, 更全面捕获文本特
征信息, 提升新闻文本多标签分类性能, 本申请提出了一种基于嵌入的新闻多标签分类方
法及装置 。
[0005]为了实现上述目的, 本申请技 术方案如下:
[0006]一种基于嵌入的新闻多标签分类方法, 包括:
[0007]收集新闻文本数据, 在预处理后, 将文本及其标签用嵌入向量表示, 得到文本嵌入
向量矩阵和标签嵌入向量矩阵;
[0008]将文本嵌入向量矩阵输入到卷积神经网络模块, 提取文本特 征向量;
[0009]将文本嵌入向量矩阵输入到双向门控循环单元网络模块, 得到文本单词的上下文
嵌入表示;
[0010]将标签嵌入向量矩阵和文本单词的上下文嵌入表示输入到标签注意力模块, 得到
基于标签的文本特 征向量;
[0011]拼接文本特征向量和文本基于标签 的特征向量, 输入到文本分类器模块, 输出文
本分类结果。说 明 书 1/5 页
3
CN 114528373 A
3
专利 一种基于嵌入的新闻多标签分类方法及装置
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:51上传分享