standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210144015.X (22)申请日 2022.02.17 (71)申请人 武汉东湖大 数据交易中心 股份有限 公司 地址 430000 湖北省武汉市东湖新 技术开 发区高新大道999号龙山创新园一期 F3栋2101室 (72)发明人 杜登伟 杜登斌 杜乐 杜小军  (74)专利代理 机构 武汉红观 专利代理事务所 (普通合伙) 42247 专利代理师 赵志汝 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01)G06F 17/16(2006.01) G06Q 10/06(2012.01) G06Q 50/26(2012.01) (54)发明名称 基于LDA和向量空间模型的公共政 策参与度 评估方法及系统 (57)摘要 本发明提出了一种基于LDA和向量空间模型 的公共政策参与度评估方法及系统, 其方法包 括: 获取目标公共政策文档和目标动态数据; 采 用TF‑IDF算法分别对目标公共政策文档和目标 动态数据进行分词处理, 得到文档特征分词集合 和数据特征分词集合; 通过LDA模型分别提取目 标公共政策文档和目标动态数据中隐含的语义 信息, 得到文档 ‑数据矩阵; 基于文档特征分词集 合和数据特征分词集合构建向量空间模 型, 计算 出目标公共政策文档与 目标动态数据之间的相 似度, 得到相似度矩阵; 对文档 ‑数据矩阵和相似 度矩阵进行线性加权处理。 本发 明能够对公共政 策中的公民参与度进行有效评估, 同时也解决了 数据稀疏和语义丢失的问题, 提高了评估的准确 性和有效性。 权利要求书3页 说明书8页 附图2页 CN 114528819 A 2022.05.24 CN 114528819 A 1.一种基于LDA和向量空间模型的公共政策参与度评估方法, 其特征在于, 所述方法包 括: S1, 获取目标公共政策文档, 同时获取目标公共政策文档发布后预设阶段内的动态数 据, 作为目标动态数据; S2, 采用TF ‑IDF算法分别对所述目标公共政策文档和目标动态数据进行分词处理, 得 到文档特 征分词集 合和数据特 征分词集 合; S3, 建立LDA模型, 通过LDA模型分别提取目标公共政策文档和目标动态数据中隐含 的 语义信息, 得到文档 ‑数据矩阵; S4, 基于文档特征分词集合和数据特征分词集合构建向量空间模型, 计算出目标公共 政策文档与目标动态数据之间的相似度, 得到相似度矩阵; S5, 对文档 ‑数据矩阵和相似度矩阵进行线性加权处理, 得到可以映射预设阶段内公民 对公共政策的关注度的组合矩阵。 2.如权利要求1所述的一种基于LDA和向量空间模型的公共政策参与度评估方法, 其特 征在于, 步骤S2具体包括: 所述TF‑IDF算法为经 过改进的特 征权重算法, 其计算公式为: 其中, W(t,d)表示t在d中的权重, tf(t,d)为t在d中出现的频次, d为文本语料库C中的 一个文档, t为文档d中的一个词, C={c1,c2,…,cm}, ci∈C, m为文本语料库的类别数, G表示 文本语料库中文档的总数, nt为文本语料库中包含t的文本数, W(wk,ci)表示词语wk关于类 别ci的类别权 重, wk表示第k个词, ci表示第i类文章; 采用TF‑IDF算法对所述目标公共政策文档 进行分词处理, 得到一个M ×N的矩阵即为文 档特征分词集 合VM×N, M表示目标公共 政策文档中文本的数目, N表示每 个文本中词的数目; 采用TF‑IDF算法对所述目标动态数据进行分词处理, 得到一个P ×Q的矩阵即为数据特 征分词集 合VP×Q, P表示目标动态数据中文本的数目, Q表示每 个文本中词的数目。 3.如权利要求2所述的一种基于LDA和向量空间模型的公共政策参与度评估方法, 其特 征在于, 步骤S3具体包括: 建立第一LDA模型, 将目标公共政策文档作 为第一LDA模型的语料库, 对第一LDA模型进 行训练; 建立第二LDA模型, 将目标动态数据作为第二LDA模型的语料库, 对第二LDA模型进行训 练; 第一LDA模型用于提取目标公共政策文档的隐藏的语义信息, 得到第一词分布矩阵, 进 而计算出第一主题分布矩阵, 将第一词分布矩阵和 第一主题分布矩阵的乘积作为文档分布 矩阵; 第二LDA模型用于提取目标动态数据中隐含的语义信息, 得到第二词分布矩阵, 进而计 算出第二主题分布矩阵, 将第二词分布矩阵和第二主题分布矩阵的乘积作为数据分布矩 阵; 将文档分布 矩阵与数据分布 矩阵相乘得到文档 ‑数据矩阵。权 利 要 求 书 1/3 页 2 CN 114528819 A 24.如权利要求3所述的一种基于LDA和向量空间模型的公共政策参与度评估方法, 其特 征在于, 建立 LDA模型的步骤具体包括: S301, 随机初始化LDA模型, 对语料库中每篇文档的每个词w, 随机赋予一个主题编号z, 主题总数为K; S302, 重新扫描语料库, 对每个词w, 按照吉普斯采样公式重新采样它的主题, 在语料库 中进行更新; S303, 重复S3 02的重新采样过程, 直到吉普斯采样公式的值收敛; S304, 统计语料库中主题下词的分布 矩阵, 进而计算出相应的文档的主题分布 矩阵。 5.如权利要求4所述的一种基于LDA和向量空间模型的公共政策参与度评估方法, 其特 征在于, 步骤S3 04具体包括: 一个主题下词的分布概 率为: 其中, Wk为文档中第k个词, Tj为语料库中第j个主题, 则词分布 矩阵表示 为: 一篇文档中主题的分布概 率为: 其中, Tj为语料库中第j个主题, Di为语料库中第i 篇文档, 则主题分布 矩阵表示 为: 6.如权利要求5所述的一种基于LDA和向量空间模型的公共政策参与度评估方法, 其特 征在于, 将文档分布 矩阵与数据分布 矩阵相乘得到文档 ‑数据矩阵具体包括: 将第一词分布矩阵和第 一主题分布矩阵的乘积作为文档分布矩阵, 所述文档分布矩阵 的表达式为: Z′=X′·Y′ 其中, Z′表示文档分布 矩阵, X′表示第一词分布 矩阵, Y′表示第一主题分布 矩阵; 将第二词分布矩阵和第 二主题分布矩阵的乘积作为数据分布矩阵, 所述数据分布矩阵 的表达式为: Z″=X″·Y″ 其中, Z″表示文档分布 矩阵, X″表示第一词分布 矩阵, Y″表示第一主题分布 矩阵; 将文档分布矩阵与数据分布矩阵相乘得到文档 ‑数据矩阵, 所述文档 ‑数据权重的表达权 利 要 求 书 2/3 页 3 CN 114528819 A 3

PDF文档 专利 基于LDA和向量空间模型的公共政策参与度评估方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于LDA和向量空间模型的公共政策参与度评估方法及系统 第 1 页 专利 基于LDA和向量空间模型的公共政策参与度评估方法及系统 第 2 页 专利 基于LDA和向量空间模型的公共政策参与度评估方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。