standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210942548.2 (22)申请日 2022.08.08 (71)申请人 烟台中科网络技 术研究所 地址 264003 山东省烟台市高新区蓝海路1 号蓝海国际软件园A座 申请人 国家计算机网络与信息安全管理中 心 (72)发明人 李鹏霄 王媛媛 隋明爽 艾政阳  段荣昌 王红兵 时磊 侯炜  任博雅 吕东 王海洋  (74)专利代理 机构 烟台上禾知识产权代理事务 所(普通合伙) 37234 专利代理师 苏红红 (51)Int.Cl. G06F 16/951(2019.01)G06F 16/215(2019.01) G06F 8/61(2018.01) G06F 9/445(2018.01) G06F 17/18(2006.01) G06V 10/74(2022.01) G06V 10/764(2022.01) (54)发明名称 一种App数据采集方法及系统 (57)摘要 本发明公开了一种App数据采集方法及系 统, 所述方法包括对群控平台中所有应用软件进 行遍历采集, 得到群控平台应用软件信息; 对群 控平台应用软件中的内容进行深度优先遍历采 集, 并将获取的内容进行整合; 对整合后的采集 内容进行判断清洗, 获得最终应用软件通用内 容。 通过采用改进的深度优先遍历算法完成采集 工作, 保证了采集数据的全面性, 同时提高了采 集效率。 权利要求书3页 说明书10页 附图3页 CN 115292571 A 2022.11.04 CN 115292571 A 1.一种Ap p数据采集方法, 其特 征在于, 包括以下步骤: S1.对群控平台 中所有应用软件进行遍历采集, 得到群控平台应用软件信息; S2.对群控平台应用软件中的内容进行深度优先遍历采集, 并将获取的内容进行整合; S3.对整合后的采集内容进行判断清洗, 获得最终应用软件通用内容。 2.根据权利要求1所述的一种App数据采集方法, 其特征在于, 群控平台应用软件信息 包括对应AP P的名称、 包名、 签名以及其 他基础信息 。 3.根据权利 要求1所述的一种App 数据采集方法, 其特征在于, 所述S2对应用软件APP集 合中的每 个APP元素进行深度优先遍历采集, 包括以下步骤: 第一步, 选定某一APP中一个未被访问过的界面作为顶点V或者访问指定的起始顶点V, 并将其标记为已访问过; 第二步, 搜索与顶点V邻接的所有顶点, 判断这些顶点是否被访问过, 如果有未被访问 过的顶点, 则任选一个顶点W进行访问; 再选取与顶点W邻接的未被访问的任一顶点并进行 访问, 一次重复进行; 当一个顶点的所有的邻接顶点都被访 问过时, 则依次回到最近被访 问的顶点; 若该顶 点还有其他邻接顶点未被访问, 则从这些未被访问的顶点中取出一个并重复上述过程, 直 到与起始 顶点V相通的所有顶点都被访问过为止; 第三步, 若在当前界面中依然有顶点未被访 问, 则在选取其中一个顶点作为起始顶点 并访问, 之后重复第二 步, 反之则遍历结束。 4.根据权利要求3所述的一种App数据采集方法, 其特征在于, 第二步中, 任选一个顶点 W进行访问, 即对于界面的内容进行采集, 步骤如下: 对登录后的AP P后进行模拟点击, 进入界面, 并判断点击元 素是否为标题; 若点击元 素为标题, 则对当前界面内容进行获取, 将该界面内容获取后, 界面下滑; 若判定点击元 素不是标题, 则返回, 进行界面下滑操作; 判断下滑是否到底, 每次滑动结束截取当前群控平台界面图像, 与上一张图像进行相 似度比较, 判断两界面是否为不同界面, 若为两个不同的界面, 则利用正则表达式对界面内 容采集; 若下滑未到底, 则重新进行模拟点击, 进行重复操作; 若下滑到底则点击其他组件, 完 成全部点击后关闭AP P。 5.根据权利要求4所述的一种App数据采集方法, 其特征在于, 截取当前群控平台界面 图像, 与上一张图像进行相似度比较, 判断两界面是否为 不同界面, 步骤如下: 计算得到 两图像的相似度为: S=coc×L(Pn, pf)×C(Pn, Pf)×S(Pn, Pf) 其中, Pn和Pf为相邻两张图像, μn、 μf为两图像的均值分, σn、 σf为两图像的标准差, σn2、 σf2 为两图像的方差, σnf为两图像的协方差; 权 利 要 求 书 1/3 页 2 CN 115292571 A 2式子中, C1、 C2、 C3为常数; coc为相关因子, 为: 设定阈值θ, 若S<θ, 那么判定为两个不同的界面; 若S>θ, 那么判定为两个相同的界面。 6.根据权利要求5所述的一种App数据采集方法, 其特征在于, 所述步骤2中将 获取的内 容进行整合, 包括以下步骤: 将采集到的内容按照类别属性不同进行分类, 对采集内容进行清洗, 清洗后根据类别 存储到数据库中, 得到内容采集 集合: Class={C1,C2,...,Ck,…, CK} 其中, K表示类别属性的个数, Ck表示第k种类别属性, k∈[1,K]; 矩阵Ck中任意一个元素可用cij表示, 代表第k种类别属性下第i种子类别中的第j个元 素, m表示子类别的个数, n表示子类别中元 素个数, i∈[1,m ], j∈[1,n]。 7.根据权利要求6所述的一种App数据采集方法, 其特征在于, 所述步骤3对整合后的采 集内容进行判断清洗, 获得最终移动应用通用内容, 包括: 通过对class中每个子集合分别利用最小二乘法进行拟合和拉格朗日插值法进行插值 得到近似表达式{f1,f2}; 定义契合因子: 其中, i表示子集 合中的第i个值; 根据契合因子的大小, 选出契合度高的最佳匹配点, 通过对匹配点进行拟合得到更接 近采样内容的表达式 对采集内容 做j层的小波包分解, 在第j层就可以得到2j个小波包; 对这2j个小波包 按能量从大到小 进行排序, 其能量定义 为: 其中, 表示第j层上的第i个小 波包的能量, J表示总层数;权 利 要 求 书 2/3 页 3 CN 115292571 A 3

PDF文档 专利 一种App数据采集方法及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种App数据采集方法及系统 第 1 页 专利 一种App数据采集方法及系统 第 2 页 专利 一种App数据采集方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:31:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。