(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210144021.5
(22)申请日 2022.02.17
(71)申请人 武汉东湖大 数据交易中心 股份有限
公司
地址 430000 湖北省武汉市东湖新 技术开
发区高新大道999号龙山创新园一期
F3栋2101室
(72)发明人 杜小军 杜乐 杜登斌
(74)专利代理 机构 武汉红观 专利代理事务所
(普通合伙) 42247
专利代理师 赵志汝
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)G06N 7/00(2006.01)
(54)发明名称
一种基于改进加权LDA模 型的话题发现方法
及系统
(57)摘要
本发明提出了一种基于改进加权LDA模 型的
话题发现方法及系统, 其方法包括: 采集特定情
况下的多源样本数据集, 将多源样 本数据集转换
为可描述的文档, 并进行预处理, 得到文本 数据;
采用TextRank算 法来提取文本 数据中的关键词,
并计算各关键词的权重值; 基于各关键词的权重
值构建加权LDA模型, 并对加权LDA模型进行优化
训练, 得到用于话题发现的LDA模型; 获取新的多
源数据, 将其转化为测试文本, 输入至用于话题
发现的LDA模型中得到测试文本的话题。 本发明
解决了现有技术中话题提取过于片面, 不能准确
地概括出整个文本核心内容的问题, 通过改进的
加权LDA模型, 能够更有效的抽取其中的隐藏主
题, 选取出更加合理的话题。
权利要求书3页 说明书7页 附图2页
CN 114528376 A
2022.05.24
CN 114528376 A
1.一种基于改进加权LDA模型的话题发现方法, 其特 征在于, 所述方法包括:
S1, 采集特定情况下的多源样本数据集, 将多源样本数据集转换为可描述的文档, 并进
行预处理, 得到文本数据;
S2, 采用TextRan k算法来提取文本数据中的关键词, 并计算各关键词的权 重值;
S3, 基于各关键词的权重值构 建加权LDA模型, 并对加权LDA模型进行优化训练, 得到用
于话题发现的LDA模型;
S4, 获取新的多源数据, 将其转化为测试文本, 输入至用于话题发现的LDA模型中得到
测试文本的话题。
2.如权利要求1所述的一种基于加权LDA模型的话题发现方法, 其特征在于, 步骤S1具
体包括:
所述多源样本数据集包括文本、 语音、 图像以及视频;
通过接口服务采集、 物联网感知获取、 数据库同步、 文件同步以及数据爬取的方式采集
数据;
所述预处 理包括去噪、 去特殊字符以及去停用词处 理。
3.如权利要求1所述的一种基于改进加权LDA模型的话题发现方法, 其特征在于, 步骤
S3中, 采用TextRan k算法来提取文本数据中的关键词具体包括:
S201, 将文本数据按照完整句子进行分割, 即S={s1,s2,…,sn};
S202, 对每个句子进行分词和词性标注处理, 只保留名词、 动词以及形容词, 即si=
{ti,1,ti,2,…,ti,m}, ti,j是候选关键词, i =1,2,…,n, j=1,2, …,m;
S203, 构建一个无向有权网络图模型G=(V,E), 将每个候选关键词作为一个候选关键
词节点, 采用共现关系构造 两个候选关键词节点之间的边;
S204, 根据无向有权网络图模型迭代计算每个候选关键词节点的节点权重值WS, 并采
用词向量改进节点权 重值, 直至收敛;
S205, 得到所有节点权 重值, 进行降序排列, 得到topK个候选关键词作为 最终关键词。
4.如权利要求3所述的一种基于改进加权LDA模型的话题发现方法, 其特征在于, 步骤
S203具体包括:
构建一个无向有权网络图模型G=(V,E), V是候选关键词节点集合V={v1,v2,…,vM}, E
是候选关键词节点之间的连接边集合E={(v1,v2),(v1,v3),…,(vM,vM‑2),(vM,vM‑1)}, (vh,
vt)表示候选关键词节点vh和候选关键词节 点vt之间存在一条连接边, 任意两个候选 关键词
节点之间都有一条 连接边, h,t=1,2, …,M。
5.如权利要求4所述的一种基于改进加权LDA模型的话题发现方法, 其特征在于, 步骤
S204具体包括:
将所有连接边的权重值设置为1, 各候选关键词节点的初始权重值设置为
N为候选
关键词节点的总个数, 利用所述候选 关键词的角余弦位距构建权重转移 概率矩阵Q, 其表达
式为:权 利 要 求 书 1/3 页
2
CN 114528376 A
2其中, qht表示候选关键词的角余弦位距, h,t=1,2, …,N, 其计算公式为:
其中,
为候选关键词节点vh的词向量,
为候选词节点vt的词向量, Wh为原始权重转
移概率矩阵W的第h列所有元 素和;
最终节点权 重值的计算公式为:
WS(vh)=(1‑d)+d*Q*WS(vt)
其中, d为阻尼系数。
6.如权利要求1所述的一种基于改进加权LDA模型的话题发现方法, 其特征在于, 步骤
S3具体包括:
对文本数据进行分词处理, 得到K个主题, 给每个主题赋予主题编号z, 即zi∈Z, 每个主
题由一些 特征词构成, 设置迭代次数T;
基于蒙特卡洛采样对原 始吉布斯采样方法进行优化, 得到改进后的吉布斯采样方法;
在每次迭代中, 对文本数据采用改进后的吉布斯采样方法进行重新扫描采样, 直至收
敛, 得到主题 ‑词矩阵, 即为用于话题发现的LDA模型。
7.如权利要求6所述的一种基于改进加权LDA模型的话题发现方法, 其特征在于, 基于
蒙特卡洛采样对原 始吉布斯采样方法进行优化具体包括:
计算每个主题中各特征词的权重, 将其与LDA中主题的概念和词的概率相结合, 给不同
的特征词在不同的主题下分配不同的权重, 改变生成特征词的概率, 改进后的吉布斯采样
方法的计算公式为:
其中,
表示文本数据中第i个位置的特征词d的主题概率分布,
zi表示文本数据中的第i个位置的特征词所对应的主题, ,
表示第m篇文档中第k个主题
的特征词的总个数,
表示第k个主题中第t 个特征词的个数,
表示去除下标为i的特征
词, 特征词的总个数为D, d,j,t=1,2, …,D, weight(j)、 weight(d)以及weight(t)均表示特
征词的权 重, α 和β 均为超参数。
8.如权利要求7所述的一种基于改进加权LDA模型的话题发现方法, 其特征在于, 在每
次迭代中, 对文本数据采用改进后的吉布斯采样方法进行重新扫描采样, 直至 收敛具体包
括:
记录每个特征词的权重, 若特征词为由TextRank算法提取的关键词, 则将该关键词的
权重值设为该 特征词的权 重, 否则, 权 重为0;
在每次迭代过程中, 若特征词为关键词, 则按照改进后的吉布斯采样方法重新采样, 并权 利 要 求 书 2/3 页
3
CN 114528376 A
3
专利 一种基于改进加权LDA模型的话题发现方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:33上传分享