(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210144015.X
(22)申请日 2022.02.17
(71)申请人 武汉东湖大 数据交易中心 股份有限
公司
地址 430000 湖北省武汉市东湖新 技术开
发区高新大道999号龙山创新园一期
F3栋2101室
(72)发明人 杜登伟 杜登斌 杜乐 杜小军
(74)专利代理 机构 武汉红观 专利代理事务所
(普通合伙) 42247
专利代理师 赵志汝
(51)Int.Cl.
G06F 40/194(2020.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)G06F 17/16(2006.01)
G06Q 10/06(2012.01)
G06Q 50/26(2012.01)
(54)发明名称
基于LDA和向量空间模型的公共政 策参与度
评估方法及系统
(57)摘要
本发明提出了一种基于LDA和向量空间模型
的公共政策参与度评估方法及系统, 其方法包
括: 获取目标公共政策文档和目标动态数据; 采
用TF‑IDF算法分别对目标公共政策文档和目标
动态数据进行分词处理, 得到文档特征分词集合
和数据特征分词集合; 通过LDA模型分别提取目
标公共政策文档和目标动态数据中隐含的语义
信息, 得到文档 ‑数据矩阵; 基于文档特征分词集
合和数据特征分词集合构建向量空间模 型, 计算
出目标公共政策文档与 目标动态数据之间的相
似度, 得到相似度矩阵; 对文档 ‑数据矩阵和相似
度矩阵进行线性加权处理。 本发 明能够对公共政
策中的公民参与度进行有效评估, 同时也解决了
数据稀疏和语义丢失的问题, 提高了评估的准确
性和有效性。
权利要求书3页 说明书8页 附图2页
CN 114528819 A
2022.05.24
CN 114528819 A
1.一种基于LDA和向量空间模型的公共政策参与度评估方法, 其特征在于, 所述方法包
括:
S1, 获取目标公共政策文档, 同时获取目标公共政策文档发布后预设阶段内的动态数
据, 作为目标动态数据;
S2, 采用TF ‑IDF算法分别对所述目标公共政策文档和目标动态数据进行分词处理, 得
到文档特 征分词集 合和数据特 征分词集 合;
S3, 建立LDA模型, 通过LDA模型分别提取目标公共政策文档和目标动态数据中隐含 的
语义信息, 得到文档 ‑数据矩阵;
S4, 基于文档特征分词集合和数据特征分词集合构建向量空间模型, 计算出目标公共
政策文档与目标动态数据之间的相似度, 得到相似度矩阵;
S5, 对文档 ‑数据矩阵和相似度矩阵进行线性加权处理, 得到可以映射预设阶段内公民
对公共政策的关注度的组合矩阵。
2.如权利要求1所述的一种基于LDA和向量空间模型的公共政策参与度评估方法, 其特
征在于, 步骤S2具体包括:
所述TF‑IDF算法为经 过改进的特 征权重算法, 其计算公式为:
其中, W(t,d)表示t在d中的权重, tf(t,d)为t在d中出现的频次, d为文本语料库C中的
一个文档, t为文档d中的一个词, C={c1,c2,…,cm}, ci∈C, m为文本语料库的类别数, G表示
文本语料库中文档的总数, nt为文本语料库中包含t的文本数, W(wk,ci)表示词语wk关于类
别ci的类别权 重, wk表示第k个词, ci表示第i类文章;
采用TF‑IDF算法对所述目标公共政策文档 进行分词处理, 得到一个M ×N的矩阵即为文
档特征分词集 合VM×N, M表示目标公共 政策文档中文本的数目, N表示每 个文本中词的数目;
采用TF‑IDF算法对所述目标动态数据进行分词处理, 得到一个P ×Q的矩阵即为数据特
征分词集 合VP×Q, P表示目标动态数据中文本的数目, Q表示每 个文本中词的数目。
3.如权利要求2所述的一种基于LDA和向量空间模型的公共政策参与度评估方法, 其特
征在于, 步骤S3具体包括:
建立第一LDA模型, 将目标公共政策文档作 为第一LDA模型的语料库, 对第一LDA模型进
行训练;
建立第二LDA模型, 将目标动态数据作为第二LDA模型的语料库, 对第二LDA模型进行训
练;
第一LDA模型用于提取目标公共政策文档的隐藏的语义信息, 得到第一词分布矩阵, 进
而计算出第一主题分布矩阵, 将第一词分布矩阵和 第一主题分布矩阵的乘积作为文档分布
矩阵;
第二LDA模型用于提取目标动态数据中隐含的语义信息, 得到第二词分布矩阵, 进而计
算出第二主题分布矩阵, 将第二词分布矩阵和第二主题分布矩阵的乘积作为数据分布矩
阵;
将文档分布 矩阵与数据分布 矩阵相乘得到文档 ‑数据矩阵。权 利 要 求 书 1/3 页
2
CN 114528819 A
24.如权利要求3所述的一种基于LDA和向量空间模型的公共政策参与度评估方法, 其特
征在于, 建立 LDA模型的步骤具体包括:
S301, 随机初始化LDA模型, 对语料库中每篇文档的每个词w, 随机赋予一个主题编号z,
主题总数为K;
S302, 重新扫描语料库, 对每个词w, 按照吉普斯采样公式重新采样它的主题, 在语料库
中进行更新;
S303, 重复S3 02的重新采样过程, 直到吉普斯采样公式的值收敛;
S304, 统计语料库中主题下词的分布 矩阵, 进而计算出相应的文档的主题分布 矩阵。
5.如权利要求4所述的一种基于LDA和向量空间模型的公共政策参与度评估方法, 其特
征在于, 步骤S3 04具体包括:
一个主题下词的分布概 率为:
其中, Wk为文档中第k个词, Tj为语料库中第j个主题, 则词分布 矩阵表示 为:
一篇文档中主题的分布概 率为:
其中, Tj为语料库中第j个主题, Di为语料库中第i 篇文档, 则主题分布 矩阵表示 为:
6.如权利要求5所述的一种基于LDA和向量空间模型的公共政策参与度评估方法, 其特
征在于, 将文档分布 矩阵与数据分布 矩阵相乘得到文档 ‑数据矩阵具体包括:
将第一词分布矩阵和第 一主题分布矩阵的乘积作为文档分布矩阵, 所述文档分布矩阵
的表达式为:
Z′=X′·Y′
其中, Z′表示文档分布 矩阵, X′表示第一词分布 矩阵, Y′表示第一主题分布 矩阵;
将第二词分布矩阵和第 二主题分布矩阵的乘积作为数据分布矩阵, 所述数据分布矩阵
的表达式为:
Z″=X″·Y″
其中, Z″表示文档分布 矩阵, X″表示第一词分布 矩阵, Y″表示第一主题分布 矩阵;
将文档分布矩阵与数据分布矩阵相乘得到文档 ‑数据矩阵, 所述文档 ‑数据权重的表达权 利 要 求 书 2/3 页
3
CN 114528819 A
3
专利 基于LDA和向量空间模型的公共政策参与度评估方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:33上传分享