(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211059654.2
(22)申请日 2022.09.01
(71)申请人 北京云恒科技研究院有限公司
地址 100020 北京市朝阳区安翔北 里11号
10幢1层101室
(72)发明人 刘翠丽 李成 黄子革 韦博
庞诚 何东兴 刘斌 崔雨波
吴桂德 王理
(74)专利代理 机构 北京智乾知识产权代理事务
所(普通合伙) 11552
专利代理师 王晋
(51)Int.Cl.
G06F 9/50(2006.01)
G06F 16/215(2019.01)
G06F 16/22(2019.01)G06F 16/2458(2019.01)
(54)发明名称
大数据滑动窗口统计方法、 装置、 存储介质
及计算设备
(57)摘要
本申请公开一种大数据 滑动窗口统计方法、
装置、 存储介质及计算设备, 涉及数据处理领域。
所述方法包括: 根据待统计的数据生成滑动窗
口, 计算所述滑动窗口范围内所有数据的第一统
计值; 当所述待统计的数据发生变化时, 根据变
化后的数据调整滑动窗口, 使其具有不同于原起
始位置的第一起始位置和/或不同于原结束位置
的第一结束位置; 计算所述原起始位置与所述第
一起始位置之间的数据的起始修正统计值, 和/
或所述原结束位置与所述第一结束位置之间的
数据的结束修正统计值; 根据所述起始修正统计
值和/或所述结束修正统计值对 所述第一统计值
进行修正, 得到调整后的滑动窗口范围内所有数
据的第二统计值。 解决了 现有技术数据统计中计
算量大的技 术问题。
权利要求书3页 说明书12页 附图3页
CN 115129482 A
2022.09.30
CN 115129482 A
1.一种大 数据滑动窗口统计方法, 其特 征在于, 该 方法包括:
根据待统计数据生成滑动 窗口, 计算所述滑动 窗口范围内所有数据的第一统计值, 其
中所述滑动窗口 的原起始位置和原结束位置分别为所述待统计数据的第一项和最后一项;
当所述待统计数据发生变化时, 根据变化后的数据调整滑动 窗口, 使其具有不同于原
起始位置的第一 起始位置和/或不同于原结束位置的第一结束位置;
计算所述原起始位置与所述第一起始位置之间的数据的起始修正统计值, 和/或所述
原结束位置与所述第一结束位置之间的数据的结束修 正统计值;
根据所述起始修正统计值和/或所述结束修正统计值对所述第一统计值进行修正, 得
到调整后的滑动窗口范围内所有数据的第二统计值。
2.根据权利要求1所述的方法, 其特 征在于, 其中:
所述第一统计值包括: 第 一数据和, 第一数据均值, 第 一数据均 方差以及第 一数据标准
差;
所述起始修正统计值包括: 起始修 正数据和, 起始修 正数据平方和;
所述结束修 正统计值包括: 结束修 正数据和, 结束修 正数据平方和;
所述第二统计值包括: 第 二数据和, 第二数据均值, 第 二数据均 方差以及第 二数据标准
差。
3.根据权利要求2所述的方法, 其特征在于, 当所述待统计数据发生变化时, 根据变化
后的数据调整滑动窗口包括:
判断待统计数据发生变化的类型;
当接收到新增的待统计数据时, 将新增数据续接至原有待统计数据的尾部, 维持滑动
窗口的原起始位置, 并将滑动窗口 的结束位置调整至新增数据的最后一项;
当减少待统计的数据时, 将所有被删除的数据全部移动至原有待统计数据的头部, 维
持滑动窗口 的原结束位置, 并将滑动窗口 的起始位置调整至未被删除数据的第一项;
当新增待统计数据同时减少待统计数据时, 将新增数据续接至原有待统计数据的尾
部, 将所有被删除的数据全部移动至原有待统计数据的头部, 将滑动窗口的起始位置调整
至未被删除数据的第一项, 将滑动窗口 的结束位置调整至新增数据的最后一项。
4.根据权利要求2所述的方法, 其特征在于, 当所述待统计数据发生变化时, 根据变化
后的数据调整滑动窗口包括: 当减少待统计数据时, 将所有被删除的数据全部移动至n项原
有待统计数据的尾部, 维持滑动窗口的原起始位置, 并将滑动窗口的结束位置调整至未被
删除数据的最后一项
, 其中k项以后至n项的数据为被删除的数据;
其中, 计算所述原结束位置与所述第一结束位置之间的数据的结束修正统计值包括:
计算结束修 正数据和
以及结束修 正数据均值
;
其中, 根据所述结束修正统计值对所述第一统计值进行修正, 得到调整后的滑动 窗口
范围内所有数据的第二统计值包括: 计算第二数据均方差
, 其中计算公式为:
,
其中,
表示初始滑动窗口范围内所有数据的个数,
表示调整后的滑动窗口范围内
所有数据的个数,
=n‑k+1,
表示第一数据均方差,
表示第一数据均值,
表示第一数权 利 要 求 书 1/3 页
2
CN 115129482 A
2据和,
表示第i项数据。
5.根据权利要求1所述的方法, 其特征在于, 在计算所述原起始位置与 所述第一起始位
置之间的数据的起始修正统计值, 和/或所述原结束位置与所述第一结束位置之间的数据
的结束修 正统计值之前, 所述方法还 包括:
当所述待统计数据发生变化 时, 预估直接计算变化后的待统计数据的第 二统计值的第
一资源开销以及修 正第一统计值以得到第二统计值的第二资源开销;
对所述第一资源开销和第二资源开销进行评估;
当所述第一资源开销大于第 二资源开销时, 执行计算所述原起始位置与所述第 一起始
位置之间的数据的起始修正统计值, 和/或所述原结束位置与所述第一结束位置之间的数
据的结束修 正统计值的步骤;
当所述第一资源开销小于第 二资源开销时, 直接计算调整后的滑动窗口范围内所有数
据的第二统计值。
6.根据权利要求5所述的方法, 其特征在于, 预估直接计算变化后的待统计数据的第 二
统计值的第一资源开销以及修 正第一统计值以得到第二统计值的第二资源开销包括:
判断变化后的待统计数据中的元 素项数, 设置第一资源开销与所述元 素项数正相关;
判断所述原起始位置与所述第一起始位置之间的数据的元素项数, 和/或所述原结束
位置与所述第一结束位置之 间的数据的元素项数, 设置第二资源开销与所述元素项数正相
关;
判断所需的第 二统计值的类型, 评估对所述第 一统计值进行修正得到指定类型的第 二
统计值的附加资源开销;
将所述附加资源开销纳入所述第二资源开销。
7.一种大 数据滑动窗口统计装置, 其特 征在于, 该装置包括:
数据存储模块, 用于存 储待统计数据;
滑动窗口管理模块, 具有起始位置指针和结束位置指针, 用于根据所述起始位置指针
和结束位置指针限定滑动窗口 的位置和宽度;
统计模块, 用于根据传入的统计项指示信号, 根据滑动窗口限定的数据 范围, 计算滑动
窗口范围内所有数据的与统计项指示信号对应的统计值;
处理模块, 被配置为读取数据存储模块中存储的待统计数据, 调用滑动 窗口管理模块
生成与待统计数据对应的滑动窗口, 调用统计模块计算所述滑动窗口范围内所有 数据的第
一统计值, 其中所述滑动窗口的原 起始位置和原结束位置 分别为所述待统计数据的第一项
和最后一项; 当所述数据存储模块中存储的待统计的数据发生变化时, 调用滑动窗口管理
模块根据变化后的数据调整滑动窗口, 使其具有不同于原起始位置的第一起始位置和/或
不同于原结束位置的第一结束位置; 调用统计模块计算所述原 起始位置与所述第一起始 位
置之间的数据的起始修正统计值, 和/或所述原结束位置与所述第一结束位置之间的数据
的结束修正统计值; 根据所述起始修正统计值和/或所述结束修正统计值对所述第一统计
值进行修 正, 得到调整后的滑动窗口范围内所有数据的第二统计值。
8.一种存储介质, 其特征在于, 所述存储介质包括存储的程序, 其中, 在所述程序运行
时控制所述存 储介质所在设备 执行如权利要求1 ‑6任一项所述的方法。
9.一种计算设备, 包括处理器, 其特征在于, 所述处理器用于运行程序, 其中, 所述程序权 利 要 求 书 2/3 页
3
CN 115129482 A
3
专利 大数据滑动窗口统计方法、装置、存储介质及计算设备
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:04上传分享