专利 一种基于改进加权LDA模型的话题发现方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210144021.5 (22)申请日 2022.02.17 (71)申请人武汉东湖大数据交易中心股份有限公司地址 430000 湖北省武汉市东湖新技术开发区高新大道999号龙山创新园一期 F3栋2101室 (72)发明人杜小军　杜乐　杜登斌　 (74)专利代理机构武汉红观专利代理事务所 (普通合伙) 42247 专利代理师赵志汝 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/279(2020.01) G06F 40/30(2020.01)G06N 7/00(2006.01) (54)发明名称一种基于改进加权LDA模型的话题发现方法及系统 (57)摘要本发明提出了一种基于改进加权LDA模型的话题发现方法及系统，其方法包括：采集特定情况下的多源样本数据集，将多源样本数据集转换为可描述的文档，并进行预处理，得到文本数据；采用TextRank算法来提取文本数据中的关键词，并计算各关键词的权重值；基于各关键词的权重值构建加权LDA模型，并对加权LDA模型进行优化训练，得到用于话题发现的LDA模型；获取新的多源数据，将其转化为测试文本，输入至用于话题发现的LDA模型中得到测试文本的话题。本发明解决了现有技术中话题提取过于片面，不能准确地概括出整个文本核心内容的问题，通过改进的加权LDA模型，能够更有效的抽取其中的隐藏主题，选取出更加合理的话题。权利要求书3页说明书7页附图2页 CN 114528376 A 2022.05.24 CN 114528376 A 1.一种基于改进加权LDA模型的话题发现方法，其特征在于，所述方法包括： S1，采集特定情况下的多源样本数据集，将多源样本数据集转换为可描述的文档，并进行预处理，得到文本数据； S2，采用TextRan k算法来提取文本数据中的关键词，并计算各关键词的权重值； S3，基于各关键词的权重值构建加权LDA模型，并对加权LDA模型进行优化训练，得到用于话题发现的LDA模型； S4，获取新的多源数据，将其转化为测试文本，输入至用于话题发现的LDA模型中得到测试文本的话题。 2.如权利要求1所述的一种基于加权LDA模型的话题发现方法，其特征在于，步骤S1具体包括：所述多源样本数据集包括文本、语音、图像以及视频；通过接口服务采集、物联网感知获取、数据库同步、文件同步以及数据爬取的方式采集数据；所述预处理包括去噪、去特殊字符以及去停用词处理。 3.如权利要求1所述的一种基于改进加权LDA模型的话题发现方法，其特征在于，步骤 S3中，采用TextRan k算法来提取文本数据中的关键词具体包括： S201，将文本数据按照完整句子进行分割，即S＝{s1,s2,…,sn}； S202，对每个句子进行分词和词性标注处理，只保留名词、动词以及形容词，即si＝ {ti,1,ti,2,…,ti,m}， ti,j是候选关键词， i ＝1,2,…,n， j＝1,2, …,m； S203，构建一个无向有权网络图模型G＝(V,E)，将每个候选关键词作为一个候选关键词节点，采用共现关系构造两个候选关键词节点之间的边； S204，根据无向有权网络图模型迭代计算每个候选关键词节点的节点权重值WS，并采用词向量改进节点权重值，直至收敛； S205，得到所有节点权重值，进行降序排列，得到topK个候选关键词作为最终关键词。 4.如权利要求3所述的一种基于改进加权LDA模型的话题发现方法，其特征在于，步骤 S203具体包括：构建一个无向有权网络图模型G＝(V,E)， V是候选关键词节点集合V＝{v1,v2,…,vM}， E 是候选关键词节点之间的连接边集合E＝{(v1,v2),(v1,v3),…,(vM,vM‑2),(vM,vM‑1)}， (vh, vt)表示候选关键词节点vh和候选关键词节点vt之间存在一条连接边，任意两个候选关键词节点之间都有一条连接边， h,t＝1,2, …,M。 5.如权利要求4所述的一种基于改进加权LDA模型的话题发现方法，其特征在于，步骤 S204具体包括：将所有连接边的权重值设置为1，各候选关键词节点的初始权重值设置为 N为候选关键词节点的总个数，利用所述候选关键词的角余弦位距构建权重转移概率矩阵Q，其表达式为：权　利　要　求　书 1/3 页 2 CN 114528376 A 2其中， qht表示候选关键词的角余弦位距， h,t＝1,2, …,N，其计算公式为：其中，为候选关键词节点vh的词向量，为候选词节点vt的词向量， Wh为原始权重转移概率矩阵W的第h列所有元素和；最终节点权重值的计算公式为： WS(vh)＝(1‑d)+d*Q*WS(vt) 其中， d为阻尼系数。 6.如权利要求1所述的一种基于改进加权LDA模型的话题发现方法，其特征在于，步骤 S3具体包括：对文本数据进行分词处理，得到K个主题，给每个主题赋予主题编号z，即zi∈Z，每个主题由一些特征词构成，设置迭代次数T；基于蒙特卡洛采样对原始吉布斯采样方法进行优化，得到改进后的吉布斯采样方法；在每次迭代中，对文本数据采用改进后的吉布斯采样方法进行重新扫描采样，直至收敛，得到主题 ‑词矩阵，即为用于话题发现的LDA模型。 7.如权利要求6所述的一种基于改进加权LDA模型的话题发现方法，其特征在于，基于蒙特卡洛采样对原始吉布斯采样方法进行优化具体包括：计算每个主题中各特征词的权重，将其与LDA中主题的概念和词的概率相结合，给不同的特征词在不同的主题下分配不同的权重，改变生成特征词的概率，改进后的吉布斯采样方法的计算公式为：其中，表示文本数据中第i个位置的特征词d的主题概率分布， zi表示文本数据中的第i个位置的特征词所对应的主题，，表示第m篇文档中第k个主题的特征词的总个数，表示第k个主题中第t 个特征词的个数，表示去除下标为i的特征词，特征词的总个数为D， d,j,t＝1,2, …,D， weight(j)、 weight(d)以及weight(t)均表示特征词的权重， α 和β 均为超参数。 8.如权利要求7所述的一种基于改进加权LDA模型的话题发现方法，其特征在于，在每次迭代中，对文本数据采用改进后的吉布斯采样方法进行重新扫描采样，直至收敛具体包括：记录每个特征词的权重，若特征词为由TextRank算法提取的关键词，则将该关键词的权重值设为该特征词的权重，否则，权重为0；在每次迭代过程中，若特征词为关键词，则按照改进后的吉布斯采样方法重新采样，并权　利　要　求　书 2/3 页 3 CN 114528376 A 3

专利 一种基于改进加权LDA模型的话题发现方法及系统

专利一种基于改进加权LDA模型的话题发现方法及系统