(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211252753.2
(22)申请日 2022.10.13
(71)申请人 重庆工商大 学
地址 400067 重庆市南岸区学府大道19号
(72)发明人 张会均 张宇樊 熊炫睿
(74)专利代理 机构 重庆辉腾律师事务所 5 0215
专利代理师 王诗思
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
H04L 9/40(2022.01)
(54)发明名称
一种基于聚类自适应混合采样的网络入侵
检测方法及系统
(57)摘要
本发明属于网络入侵检测技术领域, 涉及一
种基于聚类自适应混合采样的网络入侵检测方
法及系统; 包括将网络入侵数据集的字符型特征
编码为数字特征并归一化; 对网络入侵数据集聚
类得到M个集群, 将其划分为少数类簇和非少数
类簇; 计算少数类簇的采样权重并进行过采样;
计算非少数类簇的采样权重并进行自适应欠采
样; 合并以上数据训练CNN神经网络分类器; 将实
时的网络入侵 数据输入训练好的CNN神经网络分
类器输出类别; 本发明能有效避免生成噪声样本
并且保证采样后各个样本簇内的数量达到均衡
以及去除稠密簇中样本间相似度大的冗余样本,
相比传统的基于SMOTE过采样的入侵检测技术,
该方法对少数类样本以及数据集整体样本有更
好的分类性能。
权利要求书3页 说明书8页 附图2页
CN 115545111 A
2022.12.30
CN 115545111 A
1.一种基于聚类自适应混合采样的网络入侵检测方法, 其特 征在于, 包括:
S1.将网络入侵数据集中的数据的字符型 特征编码为数字特 征;
S2.将网络入侵数据集归一 化至区间[0,1];
S3.设置平衡采样数, 并将网络入侵数据集中的数据划分为多数类样本和少数类样本;
S4.采用DBSCAN聚类算法处理网络入侵数据 集得到M个集群, 将M个集群划分为X个少数
类簇和Y个非少数类簇;
S5.计算每个少数类簇的采样权重, 通过采样权重得到对应的采样数量, 再利用SMOTE
方法对每个少数类簇进行过采样, 使每个少数类簇的少数类样本的数量增加至平衡采样
数;
S6.计算每个非少数类簇的采样权重, 通过采样权重得到对应的采样数量, 再对每个非
少数类簇进行欠采样, 使每 个非少数类簇的多数类样本的数量降低至平衡采样数;
S7.合并S5与S6得到的数据训练CN N神经网络分类 器;
S8.将实时的网络入侵数据输入训练好的CNN神经网络分类器, CNN神经网络分类器输
出该实时的网络入侵数据的类别。
2.根据权利要求1所述的一种基于聚类自适应混合采样的网络入侵检测方法, 其特征
在于, 划分 网络入侵数据集的过程为: 在样本总数量为N, 样 本总类别为C的网络入侵数据集
中, 设定平衡采样数S=N/C, 将样本数量大于平衡采样数S的类别划分为多数类样本, 否则
为少数类样本 。
3.根据权利要求1所述的一种基于聚类自适应混合采样的网络入侵检测方法, 其特征
在于, 采用DBSCAN聚类算法对网络入侵数据集进行聚类, 得到M个集群后, 分别计算每个集
群中少数类样本的占比, 当该集群中少数类样本的占比大于4/5时, 将其划分为少数类簇,
否则划分为非少数类簇 。
4.根据权利要求1或3所述的一种基于聚类自适应混合采样的网络入侵检测方法, 其特
征在于, 计算每 个少数类簇的采样数量的过程 为:
S11.筛选 出少数类簇cx中的所有少数类样本, 计算少数类样本间的欧式距 离, 得到少数
类簇cx的少数类样本欧氏距离矩阵, 表示 为:
其中, 1≤x≤X, X为少数类簇的数量, dij表示少数类簇中的少数类样本si到少数类样本
sj的欧氏距离, n表示少数类簇中的少数类样本总数;
S12.将少数类样本欧氏距离矩阵中所有非对角元素相加, 采用相加结果除以少数类簇
cx的少数类样本总数, 得到平均距离, 表示 为:
S13.通过平均距离计算少数类簇 cx的密度值, 表示 为:权 利 要 求 书 1/3 页
2
CN 115545111 A
2S14.将密度值翻转得到少数类簇的稀疏度, 表
示为:
S15.根据步骤S11 ‑S14计算每个少 数类簇的稀疏度, 将所有少数类簇的稀疏度相加获
得稀疏度总和, 根据每 个少数类簇的稀疏度计算 其自身的采样权 重, 表示为:
S16.通过平衡采样数S与采样权 重获取少数类簇的采样数量, 表示 为:
Samples(cx)=S×samplingWeight(cx)。
5.根据权利要求4所述的一种基于聚类自适应混合采样的网络入侵检测方法, 其特征
在于, 计算每个非少数类簇的采样数量的过程与少数类簇相同, 但是非少数类簇是进行欠
采样, 所以采样权 重计算公式不同, 其表示 为:
其中, fy表示第y个非少数类簇, 1≤y≤ Y, Y表示非少数类簇的数量。
6.一种基于聚类自适应混合采样的网络入侵检测系统, 其特征在于, 包括历史数据存
储模块、 属性转换模块、 归一化模块、 采样模块、 机器学习分类器训练模块、 实时预测模块,
其中:
历史数据存 储模块, 用于存 储已经进行了分类的网络入侵数据;
属性转换模块, 用于将网络入侵数据中的字符型 特征编码为数字特 征;
归一化模块, 用于对经 过属性转换后的网络入侵数据归一 化到区间;
采样模块, 用于对网络历史数据进行采样, 保证训练数据的数据量平衡;
采样模块包括数据分类单 元、 DBSCAN聚集单 元、 少数类采样单 元、 多数类采样单 元;
数据分类单元, 用于设定平衡采样数S, 将网络历史数据集中样本数量大于平衡采样数
S的类别划分为多数类样本, 否则为少数类样本;
DBSCAN聚集单元, 采用DBSCAN聚类算法处理网络历史数据集得到M个集群, 将M个集群
划分为X个少数类簇和Y个非少数类簇;
少数类采样单元, 计算每个少数类簇的采样权重, 通过采样权重得到对应的采样数量,
再利用SMOTE方法对每个少数类簇进行过采样, 使每个少数类簇的少数类样本的数量增加
至平衡采样数;
多数类采样单元, 计算每个非少数类簇的采样权重, 通过采样权重得到对应的采样数
量, 再对每个非少数类簇进行欠采样, 使每个非少数类簇的多数类样本的数量降低至平衡
采样数;
机器学习分类 器训练模块, 用于根据训练数据进行训练, 获得机器学习分类 器;
实时预测模块, 用于将实时的网络入侵数据输入机器学习分类器, 获得该网络入侵的权 利 要 求 书 2/3 页
3
CN 115545111 A
3
专利 一种基于聚类自适应混合采样的网络入侵检测方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:39上传分享