(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211252753.2 (22)申请日 2022.10.13 (71)申请人 重庆工商大 学 地址 400067 重庆市南岸区学府大道19号 (72)发明人 张会均 张宇樊 熊炫睿  (74)专利代理 机构 重庆辉腾律师事务所 5 0215 专利代理师 王诗思 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) H04L 9/40(2022.01) (54)发明名称 一种基于聚类自适应混合采样的网络入侵 检测方法及系统 (57)摘要 本发明属于网络入侵检测技术领域, 涉及一 种基于聚类自适应混合采样的网络入侵检测方 法及系统; 包括将网络入侵数据集的字符型特征 编码为数字特征并归一化; 对网络入侵数据集聚 类得到M个集群, 将其划分为少数类簇和非少数 类簇; 计算少数类簇的采样权重并进行过采样; 计算非少数类簇的采样权重并进行自适应欠采 样; 合并以上数据训练CNN神经网络分类器; 将实 时的网络入侵 数据输入训练好的CNN神经网络分 类器输出类别; 本发明能有效避免生成噪声样本 并且保证采样后各个样本簇内的数量达到均衡 以及去除稠密簇中样本间相似度大的冗余样本, 相比传统的基于SMOTE过采样的入侵检测技术, 该方法对少数类样本以及数据集整体样本有更 好的分类性能。 权利要求书3页 说明书8页 附图2页 CN 115545111 A 2022.12.30 CN 115545111 A 1.一种基于聚类自适应混合采样的网络入侵检测方法, 其特 征在于, 包括: S1.将网络入侵数据集中的数据的字符型 特征编码为数字特 征; S2.将网络入侵数据集归一 化至区间[0,1]; S3.设置平衡采样数, 并将网络入侵数据集中的数据划分为多数类样本和少数类样本; S4.采用DBSCAN聚类算法处理网络入侵数据 集得到M个集群, 将M个集群划分为X个少数 类簇和Y个非少数类簇; S5.计算每个少数类簇的采样权重, 通过采样权重得到对应的采样数量, 再利用SMOTE 方法对每个少数类簇进行过采样, 使每个少数类簇的少数类样本的数量增加至平衡采样 数; S6.计算每个非少数类簇的采样权重, 通过采样权重得到对应的采样数量, 再对每个非 少数类簇进行欠采样, 使每 个非少数类簇的多数类样本的数量降低至平衡采样数; S7.合并S5与S6得到的数据训练CN N神经网络分类 器; S8.将实时的网络入侵数据输入训练好的CNN神经网络分类器, CNN神经网络分类器输 出该实时的网络入侵数据的类别。 2.根据权利要求1所述的一种基于聚类自适应混合采样的网络入侵检测方法, 其特征 在于, 划分 网络入侵数据集的过程为: 在样本总数量为N, 样 本总类别为C的网络入侵数据集 中, 设定平衡采样数S=N/C, 将样本数量大于平衡采样数S的类别划分为多数类样本, 否则 为少数类样本 。 3.根据权利要求1所述的一种基于聚类自适应混合采样的网络入侵检测方法, 其特征 在于, 采用DBSCAN聚类算法对网络入侵数据集进行聚类, 得到M个集群后, 分别计算每个集 群中少数类样本的占比, 当该集群中少数类样本的占比大于4/5时, 将其划分为少数类簇, 否则划分为非少数类簇 。 4.根据权利要求1或3所述的一种基于聚类自适应混合采样的网络入侵检测方法, 其特 征在于, 计算每 个少数类簇的采样数量的过程 为: S11.筛选 出少数类簇cx中的所有少数类样本, 计算少数类样本间的欧式距 离, 得到少数 类簇cx的少数类样本欧氏距离矩阵, 表示 为: 其中, 1≤x≤X, X为少数类簇的数量, dij表示少数类簇中的少数类样本si到少数类样本 sj的欧氏距离, n表示少数类簇中的少数类样本总数; S12.将少数类样本欧氏距离矩阵中所有非对角元素相加, 采用相加结果除以少数类簇 cx的少数类样本总数, 得到平均距离, 表示 为: S13.通过平均距离计算少数类簇 cx的密度值, 表示 为:权 利 要 求 书 1/3 页 2 CN 115545111 A 2S14.将密度值翻转得到少数类簇的稀疏度, 表 示为: S15.根据步骤S11 ‑S14计算每个少 数类簇的稀疏度, 将所有少数类簇的稀疏度相加获 得稀疏度总和, 根据每 个少数类簇的稀疏度计算 其自身的采样权 重, 表示为: S16.通过平衡采样数S与采样权 重获取少数类簇的采样数量, 表示 为: Samples(cx)=S×samplingWeight(cx)。 5.根据权利要求4所述的一种基于聚类自适应混合采样的网络入侵检测方法, 其特征 在于, 计算每个非少数类簇的采样数量的过程与少数类簇相同, 但是非少数类簇是进行欠 采样, 所以采样权 重计算公式不同, 其表示 为: 其中, fy表示第y个非少数类簇, 1≤y≤ Y, Y表示非少数类簇的数量。 6.一种基于聚类自适应混合采样的网络入侵检测系统, 其特征在于, 包括历史数据存 储模块、 属性转换模块、 归一化模块、 采样模块、 机器学习分类器训练模块、 实时预测模块, 其中: 历史数据存 储模块, 用于存 储已经进行了分类的网络入侵数据; 属性转换模块, 用于将网络入侵数据中的字符型 特征编码为数字特 征; 归一化模块, 用于对经 过属性转换后的网络入侵数据归一 化到区间; 采样模块, 用于对网络历史数据进行采样, 保证训练数据的数据量平衡; 采样模块包括数据分类单 元、 DBSCAN聚集单 元、 少数类采样单 元、 多数类采样单 元; 数据分类单元, 用于设定平衡采样数S, 将网络历史数据集中样本数量大于平衡采样数 S的类别划分为多数类样本, 否则为少数类样本; DBSCAN聚集单元, 采用DBSCAN聚类算法处理网络历史数据集得到M个集群, 将M个集群 划分为X个少数类簇和Y个非少数类簇; 少数类采样单元, 计算每个少数类簇的采样权重, 通过采样权重得到对应的采样数量, 再利用SMOTE方法对每个少数类簇进行过采样, 使每个少数类簇的少数类样本的数量增加 至平衡采样数; 多数类采样单元, 计算每个非少数类簇的采样权重, 通过采样权重得到对应的采样数 量, 再对每个非少数类簇进行欠采样, 使每个非少数类簇的多数类样本的数量降低至平衡 采样数; 机器学习分类 器训练模块, 用于根据训练数据进行训练, 获得机器学习分类 器; 实时预测模块, 用于将实时的网络入侵数据输入机器学习分类器, 获得该网络入侵的权 利 要 求 书 2/3 页 3 CN 115545111 A 3

PDF文档 专利 一种基于聚类自适应混合采样的网络入侵检测方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于聚类自适应混合采样的网络入侵检测方法及系统 第 1 页 专利 一种基于聚类自适应混合采样的网络入侵检测方法及系统 第 2 页 专利 一种基于聚类自适应混合采样的网络入侵检测方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:39上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。