standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210033912.3 (22)申请日 2022.01.12 (71)申请人 中国电子科技 集团公司第十 研究所 地址 610036 四川省成 都市金牛区茶店子 东街48号 (72)发明人 李崭  (74)专利代理 机构 成飞(集团)公司专利中心 51121 专利代理师 郭纯武 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 文本数据流的话题检测与追 踪方法 (57)摘要 本发明公开的一种文本数据流的话题检测 与追踪方法,属于自然语言处理技术领域。 本发 明通过以下技术方案实现: 首先, 将文本特征学 习分为语义特征学习 与时间特征学习, 采用语义 特征以及时序特征两种特征对文本的特征进行 学习表达, 将文本转化为向量特征; 其次, 采用标 准化时间区间对文本数据流进行数据切分和时 序建模, 采用滑动窗口对文本数据流进行分批以 及标签采样, 将每个批次的数据输入到半监督文 本聚类模块; 然后半监督文本聚类模块根据文本 的向量特征以及文本的标签, 实现对文本数据集 合的聚合、 划分、 标签传递, 得到文本聚类结果; 最后, 通过对每个批次的文本聚类结果进行汇 总, 生成最终的话题检测与追踪结果。 本发明简 单易行,聚合 性好。 权利要求书3页 说明书6页 附图3页 CN 114579739 A 2022.06.03 CN 114579739 A 1.一种文本数据流的话题检测与追踪方法, 其包括如下步骤: 首先, 对文本数据流中的 文本数据进行特征学习, 将文本特征学习分为语义特征学习与时间特征学习, 采用语义特 征以及时序特征两种特征对文本的特征进行学习表达, 将文本转化为向量特征, 将Skip ‑ Ngram模型作为文本语义学习以及表达的文本语义特征模型, Skip ‑Ngram模型对输入词汇 的上下文词汇进行预测, 测给定中心词的上下文词, 实现语义信息的学习, 采用三角核函数 进行特征表达, 实现时间特征学习, 将时间特征与语义特征进 行拼接, 得到文本特征实现文 本特征学习; 其次, 采用标准化时间区间对文本数据流进行数据切分, 通过输入的源数据流 分割成各个独立的时间序列, 把对数据全量学习与预测拆分成增 量学习与预测的形式, 进 行时序建模, 把对数据全量学习与预测拆 分成增量学习与预测的形式, 构建时间滑动窗口, 采用时间滑动窗口对文本数据流进行分批以及标签采样, 给定一个滑动窗口的大小, 采样 滑动窗口 已有话题标签的文本数据, 并加载滑动窗口内所有没有话题标签的文本数据, 在 不同时间点统计的数量特征, 计算滑窗内的文本数据流的文本语义特征、 文本时间特征, 采 样加载文本话题标签, 将每个批次的数据输入到半监督文本聚类模块; 半监督文本聚类模 块根据文本的向量特征以及文本的标签数据, 基于 半监督文本聚类流程对文本数据集合进 行聚合、 划分、 标签传递, 得到文本聚类结果; 最后, 通过对每个批次的文本聚类结果进 行汇 总, 生成最终的话题检测与追踪结果。 2.根据权利要求1所述的文本数据流的话题检测与追踪方法, 其特征在于: 在数据流切 分中, 设定文本数据流的单位时间为tunit, 根据单位时间tunit把文本数据流切分为N个子数 据段, 则数据流在时间序列上N的一个时间序列Ts=(Ct1,Ct2,…CtN)1*N, 将时间滑窗的长度 Tspan构建为Tspan=Cspan*tunit, 且Tstep<Tspan, 以滑动步长为Tstep=Cstep*tunit, 构建时间滑窗, 通过时间滑窗滑动加载新的数据进行半监督文本聚类计算, 对时间滑窗滑动后计算得到的 话题检测与追踪结果与历史结果进行合并, 不断对时间滑 窗进行滑动, 直到时间滑 窗滑至 时间最新位置, 完成话题检测与追踪的全部计算, 其中, CtN为切分的子数据段第 N段文本数 据集合。 3.根据权利要求2所述的文本数据流的话题检测与追踪方法, 其特征在于: 根据Tstep< Tspan可知滑窗在每次滑动后都会与前次窗口有重叠部分的情况, 其长度为Tspan‑Tstep, 在重 叠部分中部 分数据在上次窗口中的计算中已经生成了话题标签, 在每次滑窗内话题聚合学 习上次滑窗内产生话题标签Ltopictag=Ctopictag*Rtopicsample, 其中, Ctopictag为产生话题的文本 标签, Rtopicsample为话题标签采样率。 4.根据权利要求1所述的文本数据流的话题检测与追踪方法, 其特征在于: 文本的语义 特征模型采用Skip ‑Ngram模型, Skip ‑Ngram模型首先对文本进行分词处理, 对分词结果进 行one‑hot编码, 得到维度为1*V词汇的one ‑hot特征向量xk和矩阵维度为V* N的编码矩阵Wl, 其次, 采用随机初始化所述矩阵中的初始化参数, 得到初始化编码矩阵 通过输入词汇 对其上下文词汇进行 预测的学习任务, 实现文本语义特 征学习。 5.根据权利要求1所述的文本数据 流的话题检测与追踪方法, 其特征在于: Skip ‑Ngram 模型通过计算公式: 得到one‑hot特征向量xK的特征向量hk, 通过编码矩阵 进行特征降维的向量, 矩阵中参数初始化采用随机初始化, 得到矩阵维度为1*N的初 始化解码矩阵 通过计算公式: 得到词汇的解码 one‑hot特征向量 并权 利 要 求 书 1/3 页 2 CN 114579739 A 2采用函数softmax将输 出的特征向量 进行归一化处理, 得到概率分布特征向量 对 与 词汇j的one ‑hot特征向量采用交叉熵进 行误差衡量, 通过最小化交叉熵对词汇的上下文 学 习, 实现文本的语义学习, 其中, k表示输入词汇的索引, j表示需要预测的上下文词汇的索 引。 6.根据权利要求1所述的文本数据 流的话题检测与追踪方法, 其特征在于: Skip ‑Ngram 模型采用一个词汇 , 对其上下文总共C个词汇进行预测学习, 其损失函数为 : 然后通过最小化损失函数与BP算法, 对Skip ‑Ngram模型的编码矩 阵与解码矩阵的参数进行更新, 完成模型训练, 得到文本语义模型, 其中, 完成语义模型训 练后, 对文本的语义特征进行表达, 通过时间特征表达得到文本时间特征Vtimeemb, 将文本语 义特征与时间特征进行拼接, 得到文本特征学习表达结果, 然后对文本进行分词处理以及 停用词过滤处理, 再对得到的文本词汇集合进行频率统计, 得到Nword个词汇, 通过文本语义 特征学习得到文本语义特 征vtext, 采用如下计算公式计算出文本特 征向量vtext: 其中, xj为词汇j的one ‑hot特征向量, C表示词汇k的上下文词汇, vi为文本中的第i个特 征词汇的特 征向量, fi 为特征词汇的出现频率。 7.根据权利要求1所述的文本数据流的话题检测与追踪方法, 其特征在于: 在半监督文 本聚类流程中, 半监督文本聚类模块设参与话题聚合的文本数量为i, 每篇文章的特征向量 标签为 其中大部分文章没有标签。 对相同标签的文 本聚合成一个聚类 点, 对其 它文本每篇单独形成一个聚类点, 对聚类点初始化, 形成一个簇中聚类点数量为Cclusterinit 的聚类簇, 完成聚类初始化; 监督文本聚类模块根据当前聚类簇聚类中心选举及聚类点分 布情况, 对聚类簇进行中心点推举, 推举方式采用聚类点价值评估算法, 计算出局部密度 pi: 将类簇中推举出的Ndis个中心点作为新的聚类中心点, 以聚类 点局部密度pi>Piscoremin为条件推选候选中心点, 首先推选 候选中心点, 计 算出聚类点间的 距离dis: 其次, 根据推选出的K个中心点, 计算每个中心点的误差评 估价值: 通过误差评估价值, 得到Ndis个聚类中心点, 完 成中心点推举, 其 中, Ndis为裂变的数量, Piscoremin为局部密度的最小阈值, e表示自然常数, distmin为局部密度计算的最小距离, dista,i为聚类点a至聚类点 i的距离。 8.根据权利要求1所述的文本数据流的话题检测与追踪方法, 其特征在于: 半监督文本 聚类模块误差评估后, 通过Ndis个聚类中心点, 进行类簇划分, 计算聚类点间的相似度Sim: 非聚类中心点选择相似度最高的聚类中心点加入, 形成类簇, 类簇形成 后, 更新类簇中心, 对非聚类中心 点重新计算类簇划分, 采用如下聚类中心更新计算 公式迭 计算聚类中心点vcenter: 直到所有的非聚类中心点不再更新其所属权 利 要 求 书 2/3 页 3 CN 114579739 A 3

PDF文档 专利 文本数据流的话题检测与追踪方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本数据流的话题检测与追踪方法 第 1 页 专利 文本数据流的话题检测与追踪方法 第 2 页 专利 文本数据流的话题检测与追踪方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。