专利 文本数据流的话题检测与追踪方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210033912.3 (22)申请日 2022.01.12 (71)申请人中国电子科技集团公司第十研究所地址 610036 四川省成都市金牛区茶店子东街48号 (72)发明人李崭　 (74)专利代理机构成飞(集团)公司专利中心 51121 专利代理师郭纯武 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称文本数据流的话题检测与追踪方法 (57)摘要本发明公开的一种文本数据流的话题检测与追踪方法,属于自然语言处理技术领域。本发明通过以下技术方案实现：首先，将文本特征学习分为语义特征学习与时间特征学习，采用语义特征以及时序特征两种特征对文本的特征进行学习表达，将文本转化为向量特征；其次，采用标准化时间区间对文本数据流进行数据切分和时序建模，采用滑动窗口对文本数据流进行分批以及标签采样，将每个批次的数据输入到半监督文本聚类模块；然后半监督文本聚类模块根据文本的向量特征以及文本的标签，实现对文本数据集合的聚合、划分、标签传递，得到文本聚类结果；最后，通过对每个批次的文本聚类结果进行汇总，生成最终的话题检测与追踪结果。本发明简单易行,聚合性好。权利要求书3页说明书6页附图3页 CN 114579739 A 2022.06.03 CN 114579739 A 1.一种文本数据流的话题检测与追踪方法，其包括如下步骤：首先，对文本数据流中的文本数据进行特征学习，将文本特征学习分为语义特征学习与时间特征学习，采用语义特征以及时序特征两种特征对文本的特征进行学习表达，将文本转化为向量特征，将Skip ‑ Ngram模型作为文本语义学习以及表达的文本语义特征模型， Skip ‑Ngram模型对输入词汇的上下文词汇进行预测，测给定中心词的上下文词，实现语义信息的学习，采用三角核函数进行特征表达，实现时间特征学习，将时间特征与语义特征进行拼接，得到文本特征实现文本特征学习；其次，采用标准化时间区间对文本数据流进行数据切分，通过输入的源数据流分割成各个独立的时间序列，把对数据全量学习与预测拆分成增量学习与预测的形式，进行时序建模，把对数据全量学习与预测拆分成增量学习与预测的形式，构建时间滑动窗口，采用时间滑动窗口对文本数据流进行分批以及标签采样，给定一个滑动窗口的大小，采样滑动窗口已有话题标签的文本数据，并加载滑动窗口内所有没有话题标签的文本数据，在不同时间点统计的数量特征，计算滑窗内的文本数据流的文本语义特征、文本时间特征，采样加载文本话题标签，将每个批次的数据输入到半监督文本聚类模块；半监督文本聚类模块根据文本的向量特征以及文本的标签数据，基于半监督文本聚类流程对文本数据集合进行聚合、划分、标签传递，得到文本聚类结果；最后，通过对每个批次的文本聚类结果进行汇总，生成最终的话题检测与追踪结果。 2.根据权利要求1所述的文本数据流的话题检测与追踪方法，其特征在于：在数据流切分中，设定文本数据流的单位时间为tunit，根据单位时间tunit把文本数据流切分为N个子数据段，则数据流在时间序列上N的一个时间序列Ts＝(Ct1,Ct2,…CtN)1*N，将时间滑窗的长度 Tspan构建为Tspan＝Cspan*tunit，且Tstep＜Tspan，以滑动步长为Tstep＝Cstep*tunit，构建时间滑窗，通过时间滑窗滑动加载新的数据进行半监督文本聚类计算，对时间滑窗滑动后计算得到的话题检测与追踪结果与历史结果进行合并，不断对时间滑窗进行滑动，直到时间滑窗滑至时间最新位置，完成话题检测与追踪的全部计算，其中， CtN为切分的子数据段第 N段文本数据集合。 3.根据权利要求2所述的文本数据流的话题检测与追踪方法，其特征在于：根据Tstep＜ Tspan可知滑窗在每次滑动后都会与前次窗口有重叠部分的情况，其长度为Tspan‑Tstep，在重叠部分中部分数据在上次窗口中的计算中已经生成了话题标签，在每次滑窗内话题聚合学习上次滑窗内产生话题标签Ltopictag＝Ctopictag*Rtopicsample，其中， Ctopictag为产生话题的文本标签， Rtopicsample为话题标签采样率。 4.根据权利要求1所述的文本数据流的话题检测与追踪方法，其特征在于：文本的语义特征模型采用Skip ‑Ngram模型， Skip ‑Ngram模型首先对文本进行分词处理，对分词结果进行one‑hot编码，得到维度为1*V词汇的one ‑hot特征向量xk和矩阵维度为V* N的编码矩阵Wl，其次，采用随机初始化所述矩阵中的初始化参数，得到初始化编码矩阵通过输入词汇对其上下文词汇进行预测的学习任务，实现文本语义特征学习。 5.根据权利要求1所述的文本数据流的话题检测与追踪方法，其特征在于： Skip ‑Ngram 模型通过计算公式：得到one‑hot特征向量xK的特征向量hk，通过编码矩阵进行特征降维的向量，矩阵中参数初始化采用随机初始化，得到矩阵维度为1*N的初始化解码矩阵通过计算公式：得到词汇的解码 one‑hot特征向量并权　利　要　求　书 1/3 页 2 CN 114579739 A 2采用函数softmax将输出的特征向量进行归一化处理，得到概率分布特征向量对与词汇j的one ‑hot特征向量采用交叉熵进行误差衡量，通过最小化交叉熵对词汇的上下文学习，实现文本的语义学习，其中， k表示输入词汇的索引， j表示需要预测的上下文词汇的索引。 6.根据权利要求1所述的文本数据流的话题检测与追踪方法，其特征在于： Skip ‑Ngram 模型采用一个词汇，对其上下文总共C个词汇进行预测学习，其损失函数为：然后通过最小化损失函数与BP算法，对Skip ‑Ngram模型的编码矩阵与解码矩阵的参数进行更新，完成模型训练，得到文本语义模型，其中，完成语义模型训练后，对文本的语义特征进行表达，通过时间特征表达得到文本时间特征Vtimeemb，将文本语义特征与时间特征进行拼接，得到文本特征学习表达结果，然后对文本进行分词处理以及停用词过滤处理，再对得到的文本词汇集合进行频率统计，得到Nword个词汇，通过文本语义特征学习得到文本语义特征vtext，采用如下计算公式计算出文本特征向量vtext：其中， xj为词汇j的one ‑hot特征向量， C表示词汇k的上下文词汇， vi为文本中的第i个特征词汇的特征向量， fi 为特征词汇的出现频率。 7.根据权利要求1所述的文本数据流的话题检测与追踪方法，其特征在于：在半监督文本聚类流程中，半监督文本聚类模块设参与话题聚合的文本数量为i，每篇文章的特征向量标签为其中大部分文章没有标签。对相同标签的文本聚合成一个聚类点，对其它文本每篇单独形成一个聚类点，对聚类点初始化，形成一个簇中聚类点数量为Cclusterinit 的聚类簇，完成聚类初始化；监督文本聚类模块根据当前聚类簇聚类中心选举及聚类点分布情况，对聚类簇进行中心点推举，推举方式采用聚类点价值评估算法，计算出局部密度 pi：将类簇中推举出的Ndis个中心点作为新的聚类中心点，以聚类点局部密度pi＞Piscoremin为条件推选候选中心点，首先推选候选中心点，计算出聚类点间的距离dis：其次，根据推选出的K个中心点，计算每个中心点的误差评估价值：通过误差评估价值，得到Ndis个聚类中心点，完成中心点推举，其中， Ndis为裂变的数量， Piscoremin为局部密度的最小阈值， e表示自然常数， distmin为局部密度计算的最小距离， dista,i为聚类点a至聚类点 i的距离。 8.根据权利要求1所述的文本数据流的话题检测与追踪方法，其特征在于：半监督文本聚类模块误差评估后，通过Ndis个聚类中心点，进行类簇划分，计算聚类点间的相似度Sim：非聚类中心点选择相似度最高的聚类中心点加入，形成类簇，类簇形成后，更新类簇中心，对非聚类中心点重新计算类簇划分，采用如下聚类中心更新计算公式迭计算聚类中心点vcenter：直到所有的非聚类中心点不再更新其所属权　利　要　求　书 2/3 页 3 CN 114579739 A 3

专利 文本数据流的话题检测与追踪方法

专利文本数据流的话题检测与追踪方法