(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210033912.3
(22)申请日 2022.01.12
(71)申请人 中国电子科技 集团公司第十 研究所
地址 610036 四川省成 都市金牛区茶店子
东街48号
(72)发明人 李崭
(74)专利代理 机构 成飞(集团)公司专利中心
51121
专利代理师 郭纯武
(51)Int.Cl.
G06F 16/35(2019.01)
G06K 9/62(2022.01)
G06F 40/216(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
文本数据流的话题检测与追 踪方法
(57)摘要
本发明公开的一种文本数据流的话题检测
与追踪方法,属于自然语言处理技术领域。 本发
明通过以下技术方案实现: 首先, 将文本特征学
习分为语义特征学习 与时间特征学习, 采用语义
特征以及时序特征两种特征对文本的特征进行
学习表达, 将文本转化为向量特征; 其次, 采用标
准化时间区间对文本数据流进行数据切分和时
序建模, 采用滑动窗口对文本数据流进行分批以
及标签采样, 将每个批次的数据输入到半监督文
本聚类模块; 然后半监督文本聚类模块根据文本
的向量特征以及文本的标签, 实现对文本数据集
合的聚合、 划分、 标签传递, 得到文本聚类结果;
最后, 通过对每个批次的文本聚类结果进行汇
总, 生成最终的话题检测与追踪结果。 本发明简
单易行,聚合 性好。
权利要求书3页 说明书6页 附图3页
CN 114579739 A
2022.06.03
CN 114579739 A
1.一种文本数据流的话题检测与追踪方法, 其包括如下步骤: 首先, 对文本数据流中的
文本数据进行特征学习, 将文本特征学习分为语义特征学习与时间特征学习, 采用语义特
征以及时序特征两种特征对文本的特征进行学习表达, 将文本转化为向量特征, 将Skip ‑
Ngram模型作为文本语义学习以及表达的文本语义特征模型, Skip ‑Ngram模型对输入词汇
的上下文词汇进行预测, 测给定中心词的上下文词, 实现语义信息的学习, 采用三角核函数
进行特征表达, 实现时间特征学习, 将时间特征与语义特征进 行拼接, 得到文本特征实现文
本特征学习; 其次, 采用标准化时间区间对文本数据流进行数据切分, 通过输入的源数据流
分割成各个独立的时间序列, 把对数据全量学习与预测拆分成增 量学习与预测的形式, 进
行时序建模, 把对数据全量学习与预测拆 分成增量学习与预测的形式, 构建时间滑动窗口,
采用时间滑动窗口对文本数据流进行分批以及标签采样, 给定一个滑动窗口的大小, 采样
滑动窗口 已有话题标签的文本数据, 并加载滑动窗口内所有没有话题标签的文本数据, 在
不同时间点统计的数量特征, 计算滑窗内的文本数据流的文本语义特征、 文本时间特征, 采
样加载文本话题标签, 将每个批次的数据输入到半监督文本聚类模块; 半监督文本聚类模
块根据文本的向量特征以及文本的标签数据, 基于 半监督文本聚类流程对文本数据集合进
行聚合、 划分、 标签传递, 得到文本聚类结果; 最后, 通过对每个批次的文本聚类结果进 行汇
总, 生成最终的话题检测与追踪结果。
2.根据权利要求1所述的文本数据流的话题检测与追踪方法, 其特征在于: 在数据流切
分中, 设定文本数据流的单位时间为tunit, 根据单位时间tunit把文本数据流切分为N个子数
据段, 则数据流在时间序列上N的一个时间序列Ts=(Ct1,Ct2,…CtN)1*N, 将时间滑窗的长度
Tspan构建为Tspan=Cspan*tunit, 且Tstep<Tspan, 以滑动步长为Tstep=Cstep*tunit, 构建时间滑窗,
通过时间滑窗滑动加载新的数据进行半监督文本聚类计算, 对时间滑窗滑动后计算得到的
话题检测与追踪结果与历史结果进行合并, 不断对时间滑 窗进行滑动, 直到时间滑 窗滑至
时间最新位置, 完成话题检测与追踪的全部计算, 其中, CtN为切分的子数据段第 N段文本数
据集合。
3.根据权利要求2所述的文本数据流的话题检测与追踪方法, 其特征在于: 根据Tstep<
Tspan可知滑窗在每次滑动后都会与前次窗口有重叠部分的情况, 其长度为Tspan‑Tstep, 在重
叠部分中部 分数据在上次窗口中的计算中已经生成了话题标签, 在每次滑窗内话题聚合学
习上次滑窗内产生话题标签Ltopictag=Ctopictag*Rtopicsample, 其中, Ctopictag为产生话题的文本
标签, Rtopicsample为话题标签采样率。
4.根据权利要求1所述的文本数据流的话题检测与追踪方法, 其特征在于: 文本的语义
特征模型采用Skip ‑Ngram模型, Skip ‑Ngram模型首先对文本进行分词处理, 对分词结果进
行one‑hot编码, 得到维度为1*V词汇的one ‑hot特征向量xk和矩阵维度为V* N的编码矩阵Wl,
其次, 采用随机初始化所述矩阵中的初始化参数, 得到初始化编码矩阵
通过输入词汇
对其上下文词汇进行 预测的学习任务, 实现文本语义特 征学习。
5.根据权利要求1所述的文本数据 流的话题检测与追踪方法, 其特征在于: Skip ‑Ngram
模型通过计算公式:
得到one‑hot特征向量xK的特征向量hk, 通过编码矩阵
进行特征降维的向量, 矩阵中参数初始化采用随机初始化, 得到矩阵维度为1*N的初
始化解码矩阵
通过计算公式:
得到词汇的解码 one‑hot特征向量
并权 利 要 求 书 1/3 页
2
CN 114579739 A
2采用函数softmax将输 出的特征向量
进行归一化处理, 得到概率分布特征向量
对
与
词汇j的one ‑hot特征向量采用交叉熵进 行误差衡量, 通过最小化交叉熵对词汇的上下文 学
习, 实现文本的语义学习, 其中, k表示输入词汇的索引, j表示需要预测的上下文词汇的索
引。
6.根据权利要求1所述的文本数据 流的话题检测与追踪方法, 其特征在于: Skip ‑Ngram
模型采用一个词汇 , 对其上下文总共C个词汇进行预测学习, 其损失函数为 :
然后通过最小化损失函数与BP算法, 对Skip ‑Ngram模型的编码矩
阵与解码矩阵的参数进行更新, 完成模型训练, 得到文本语义模型, 其中, 完成语义模型训
练后, 对文本的语义特征进行表达, 通过时间特征表达得到文本时间特征Vtimeemb, 将文本语
义特征与时间特征进行拼接, 得到文本特征学习表达结果, 然后对文本进行分词处理以及
停用词过滤处理, 再对得到的文本词汇集合进行频率统计, 得到Nword个词汇, 通过文本语义
特征学习得到文本语义特 征vtext, 采用如下计算公式计算出文本特 征向量vtext:
其中, xj为词汇j的one ‑hot特征向量, C表示词汇k的上下文词汇, vi为文本中的第i个特
征词汇的特 征向量, fi 为特征词汇的出现频率。
7.根据权利要求1所述的文本数据流的话题检测与追踪方法, 其特征在于: 在半监督文
本聚类流程中, 半监督文本聚类模块设参与话题聚合的文本数量为i, 每篇文章的特征向量
标签为
其中大部分文章没有标签。 对相同标签的文 本聚合成一个聚类 点, 对其
它文本每篇单独形成一个聚类点, 对聚类点初始化, 形成一个簇中聚类点数量为Cclusterinit
的聚类簇, 完成聚类初始化; 监督文本聚类模块根据当前聚类簇聚类中心选举及聚类点分
布情况, 对聚类簇进行中心点推举, 推举方式采用聚类点价值评估算法, 计算出局部密度
pi:
将类簇中推举出的Ndis个中心点作为新的聚类中心点, 以聚类
点局部密度pi>Piscoremin为条件推选候选中心点, 首先推选 候选中心点, 计 算出聚类点间的
距离dis:
其次, 根据推选出的K个中心点, 计算每个中心点的误差评
估价值:
通过误差评估价值, 得到Ndis个聚类中心点, 完
成中心点推举, 其 中, Ndis为裂变的数量, Piscoremin为局部密度的最小阈值, e表示自然常数,
distmin为局部密度计算的最小距离, dista,i为聚类点a至聚类点 i的距离。
8.根据权利要求1所述的文本数据流的话题检测与追踪方法, 其特征在于: 半监督文本
聚类模块误差评估后, 通过Ndis个聚类中心点, 进行类簇划分, 计算聚类点间的相似度Sim:
非聚类中心点选择相似度最高的聚类中心点加入, 形成类簇, 类簇形成
后, 更新类簇中心, 对非聚类中心 点重新计算类簇划分, 采用如下聚类中心更新计算 公式迭
计算聚类中心点vcenter:
直到所有的非聚类中心点不再更新其所属权 利 要 求 书 2/3 页
3
CN 114579739 A
3
专利 文本数据流的话题检测与追踪方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:56上传分享