专利 基于LDA和向量空间模型的公共政策参与度评估方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210144015.X (22)申请日 2022.02.17 (71)申请人武汉东湖大数据交易中心股份有限公司地址 430000 湖北省武汉市东湖新技术开发区高新大道999号龙山创新园一期 F3栋2101室 (72)发明人杜登伟　杜登斌　杜乐　杜小军　 (74)专利代理机构武汉红观专利代理事务所 (普通合伙) 42247 专利代理师赵志汝 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01)G06F 17/16(2006.01) G06Q 10/06(2012.01) G06Q 50/26(2012.01) (54)发明名称基于LDA和向量空间模型的公共政策参与度评估方法及系统 (57)摘要本发明提出了一种基于LDA和向量空间模型的公共政策参与度评估方法及系统，其方法包括：获取目标公共政策文档和目标动态数据；采用TF‑IDF算法分别对目标公共政策文档和目标动态数据进行分词处理，得到文档特征分词集合和数据特征分词集合；通过LDA模型分别提取目标公共政策文档和目标动态数据中隐含的语义信息，得到文档 ‑数据矩阵；基于文档特征分词集合和数据特征分词集合构建向量空间模型，计算出目标公共政策文档与目标动态数据之间的相似度，得到相似度矩阵；对文档 ‑数据矩阵和相似度矩阵进行线性加权处理。本发明能够对公共政策中的公民参与度进行有效评估，同时也解决了数据稀疏和语义丢失的问题，提高了评估的准确性和有效性。权利要求书3页说明书8页附图2页 CN 114528819 A 2022.05.24 CN 114528819 A 1.一种基于LDA和向量空间模型的公共政策参与度评估方法，其特征在于，所述方法包括： S1，获取目标公共政策文档，同时获取目标公共政策文档发布后预设阶段内的动态数据，作为目标动态数据； S2，采用TF ‑IDF算法分别对所述目标公共政策文档和目标动态数据进行分词处理，得到文档特征分词集合和数据特征分词集合； S3，建立LDA模型，通过LDA模型分别提取目标公共政策文档和目标动态数据中隐含的语义信息，得到文档 ‑数据矩阵； S4，基于文档特征分词集合和数据特征分词集合构建向量空间模型，计算出目标公共政策文档与目标动态数据之间的相似度，得到相似度矩阵； S5，对文档 ‑数据矩阵和相似度矩阵进行线性加权处理，得到可以映射预设阶段内公民对公共政策的关注度的组合矩阵。 2.如权利要求1所述的一种基于LDA和向量空间模型的公共政策参与度评估方法，其特征在于，步骤S2具体包括：所述TF‑IDF算法为经过改进的特征权重算法，其计算公式为：其中， W(t,d)表示t在d中的权重， tf(t,d)为t在d中出现的频次， d为文本语料库C中的一个文档， t为文档d中的一个词， C＝{c1,c2,…,cm}， ci∈C， m为文本语料库的类别数， G表示文本语料库中文档的总数， nt为文本语料库中包含t的文本数， W(wk,ci)表示词语wk关于类别ci的类别权重， wk表示第k个词， ci表示第i类文章；采用TF‑IDF算法对所述目标公共政策文档进行分词处理，得到一个M ×N的矩阵即为文档特征分词集合VM×N， M表示目标公共政策文档中文本的数目， N表示每个文本中词的数目；采用TF‑IDF算法对所述目标动态数据进行分词处理，得到一个P ×Q的矩阵即为数据特征分词集合VP×Q， P表示目标动态数据中文本的数目， Q表示每个文本中词的数目。 3.如权利要求2所述的一种基于LDA和向量空间模型的公共政策参与度评估方法，其特征在于，步骤S3具体包括：建立第一LDA模型，将目标公共政策文档作为第一LDA模型的语料库，对第一LDA模型进行训练；建立第二LDA模型，将目标动态数据作为第二LDA模型的语料库，对第二LDA模型进行训练；第一LDA模型用于提取目标公共政策文档的隐藏的语义信息，得到第一词分布矩阵，进而计算出第一主题分布矩阵，将第一词分布矩阵和第一主题分布矩阵的乘积作为文档分布矩阵；第二LDA模型用于提取目标动态数据中隐含的语义信息，得到第二词分布矩阵，进而计算出第二主题分布矩阵，将第二词分布矩阵和第二主题分布矩阵的乘积作为数据分布矩阵；将文档分布矩阵与数据分布矩阵相乘得到文档 ‑数据矩阵。权　利　要　求　书 1/3 页 2 CN 114528819 A 24.如权利要求3所述的一种基于LDA和向量空间模型的公共政策参与度评估方法，其特征在于，建立 LDA模型的步骤具体包括： S301，随机初始化LDA模型，对语料库中每篇文档的每个词w，随机赋予一个主题编号z，主题总数为K； S302，重新扫描语料库，对每个词w，按照吉普斯采样公式重新采样它的主题，在语料库中进行更新； S303，重复S3 02的重新采样过程，直到吉普斯采样公式的值收敛； S304，统计语料库中主题下词的分布矩阵，进而计算出相应的文档的主题分布矩阵。 5.如权利要求4所述的一种基于LDA和向量空间模型的公共政策参与度评估方法，其特征在于，步骤S3 04具体包括：一个主题下词的分布概率为：其中， Wk为文档中第k个词， Tj为语料库中第j个主题，则词分布矩阵表示为：一篇文档中主题的分布概率为：其中， Tj为语料库中第j个主题， Di为语料库中第i 篇文档，则主题分布矩阵表示为： 6.如权利要求5所述的一种基于LDA和向量空间模型的公共政策参与度评估方法，其特征在于，将文档分布矩阵与数据分布矩阵相乘得到文档 ‑数据矩阵具体包括：将第一词分布矩阵和第一主题分布矩阵的乘积作为文档分布矩阵，所述文档分布矩阵的表达式为： Z′＝X′·Y′ 其中， Z′表示文档分布矩阵， X′表示第一词分布矩阵， Y′表示第一主题分布矩阵；将第二词分布矩阵和第二主题分布矩阵的乘积作为数据分布矩阵，所述数据分布矩阵的表达式为： Z″＝X″·Y″ 其中， Z″表示文档分布矩阵， X″表示第一词分布矩阵， Y″表示第一主题分布矩阵；将文档分布矩阵与数据分布矩阵相乘得到文档 ‑数据矩阵，所述文档 ‑数据权重的表达权　利　要　求　书 2/3 页 3 CN 114528819 A 3

专利 基于LDA和向量空间模型的公共政策参与度评估方法及系统

专利基于LDA和向量空间模型的公共政策参与度评估方法及系统