专利 一种基于聚类自适应混合采样的网络入侵检测方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211252753.2 (22)申请日 2022.10.13 (71)申请人重庆工商大学地址 400067 重庆市南岸区学府大道19号 (72)发明人张会均　张宇樊　熊炫睿　 (74)专利代理机构重庆辉腾律师事务所 5 0215 专利代理师王诗思 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) H04L 9/40(2022.01) (54)发明名称一种基于聚类自适应混合采样的网络入侵检测方法及系统 (57)摘要本发明属于网络入侵检测技术领域，涉及一种基于聚类自适应混合采样的网络入侵检测方法及系统；包括将网络入侵数据集的字符型特征编码为数字特征并归一化；对网络入侵数据集聚类得到M个集群，将其划分为少数类簇和非少数类簇；计算少数类簇的采样权重并进行过采样；计算非少数类簇的采样权重并进行自适应欠采样；合并以上数据训练CNN神经网络分类器；将实时的网络入侵数据输入训练好的CNN神经网络分类器输出类别；本发明能有效避免生成噪声样本并且保证采样后各个样本簇内的数量达到均衡以及去除稠密簇中样本间相似度大的冗余样本，相比传统的基于SMOTE过采样的入侵检测技术，该方法对少数类样本以及数据集整体样本有更好的分类性能。权利要求书3页说明书8页附图2页 CN 115545111 A 2022.12.30 CN 115545111 A 1.一种基于聚类自适应混合采样的网络入侵检测方法，其特征在于，包括： S1.将网络入侵数据集中的数据的字符型特征编码为数字特征； S2.将网络入侵数据集归一化至区间[0,1]； S3.设置平衡采样数，并将网络入侵数据集中的数据划分为多数类样本和少数类样本； S4.采用DBSCAN聚类算法处理网络入侵数据集得到M个集群，将M个集群划分为X个少数类簇和Y个非少数类簇； S5.计算每个少数类簇的采样权重，通过采样权重得到对应的采样数量，再利用SMOTE 方法对每个少数类簇进行过采样，使每个少数类簇的少数类样本的数量增加至平衡采样数； S6.计算每个非少数类簇的采样权重，通过采样权重得到对应的采样数量，再对每个非少数类簇进行欠采样，使每个非少数类簇的多数类样本的数量降低至平衡采样数； S7.合并S5与S6得到的数据训练CN N神经网络分类器； S8.将实时的网络入侵数据输入训练好的CNN神经网络分类器， CNN神经网络分类器输出该实时的网络入侵数据的类别。 2.根据权利要求1所述的一种基于聚类自适应混合采样的网络入侵检测方法，其特征在于，划分网络入侵数据集的过程为：在样本总数量为N，样本总类别为C的网络入侵数据集中，设定平衡采样数S＝N/C，将样本数量大于平衡采样数S的类别划分为多数类样本，否则为少数类样本。 3.根据权利要求1所述的一种基于聚类自适应混合采样的网络入侵检测方法，其特征在于，采用DBSCAN聚类算法对网络入侵数据集进行聚类，得到M个集群后，分别计算每个集群中少数类样本的占比，当该集群中少数类样本的占比大于4/5时，将其划分为少数类簇，否则划分为非少数类簇。 4.根据权利要求1或3所述的一种基于聚类自适应混合采样的网络入侵检测方法，其特征在于，计算每个少数类簇的采样数量的过程为： S11.筛选出少数类簇cx中的所有少数类样本，计算少数类样本间的欧式距离，得到少数类簇cx的少数类样本欧氏距离矩阵，表示为：其中， 1≤x≤X， X为少数类簇的数量， dij表示少数类簇中的少数类样本si到少数类样本 sj的欧氏距离， n表示少数类簇中的少数类样本总数； S12.将少数类样本欧氏距离矩阵中所有非对角元素相加，采用相加结果除以少数类簇 cx的少数类样本总数，得到平均距离，表示为： S13.通过平均距离计算少数类簇 cx的密度值，表示为：权　利　要　求　书 1/3 页 2 CN 115545111 A 2S14.将密度值翻转得到少数类簇的稀疏度，表示为： S15.根据步骤S11 ‑S14计算每个少数类簇的稀疏度，将所有少数类簇的稀疏度相加获得稀疏度总和，根据每个少数类簇的稀疏度计算其自身的采样权重，表示为： S16.通过平衡采样数S与采样权重获取少数类簇的采样数量，表示为： Samples(cx)＝S×samplingWeight(cx)。 5.根据权利要求4所述的一种基于聚类自适应混合采样的网络入侵检测方法，其特征在于，计算每个非少数类簇的采样数量的过程与少数类簇相同，但是非少数类簇是进行欠采样，所以采样权重计算公式不同，其表示为：其中， fy表示第y个非少数类簇， 1≤y≤ Y， Y表示非少数类簇的数量。 6.一种基于聚类自适应混合采样的网络入侵检测系统，其特征在于，包括历史数据存储模块、属性转换模块、归一化模块、采样模块、机器学习分类器训练模块、实时预测模块，其中：历史数据存储模块，用于存储已经进行了分类的网络入侵数据；属性转换模块，用于将网络入侵数据中的字符型特征编码为数字特征；归一化模块，用于对经过属性转换后的网络入侵数据归一化到区间；采样模块，用于对网络历史数据进行采样，保证训练数据的数据量平衡；采样模块包括数据分类单元、 DBSCAN聚集单元、少数类采样单元、多数类采样单元；数据分类单元，用于设定平衡采样数S，将网络历史数据集中样本数量大于平衡采样数 S的类别划分为多数类样本，否则为少数类样本； DBSCAN聚集单元，采用DBSCAN聚类算法处理网络历史数据集得到M个集群，将M个集群划分为X个少数类簇和Y个非少数类簇；少数类采样单元，计算每个少数类簇的采样权重，通过采样权重得到对应的采样数量，再利用SMOTE方法对每个少数类簇进行过采样，使每个少数类簇的少数类样本的数量增加至平衡采样数；多数类采样单元，计算每个非少数类簇的采样权重，通过采样权重得到对应的采样数量，再对每个非少数类簇进行欠采样，使每个非少数类簇的多数类样本的数量降低至平衡采样数；机器学习分类器训练模块，用于根据训练数据进行训练，获得机器学习分类器；实时预测模块，用于将实时的网络入侵数据输入机器学习分类器，获得该网络入侵的权　利　要　求　书 2/3 页 3 CN 115545111 A 3

专利 一种基于聚类自适应混合采样的网络入侵检测方法及系统

专利一种基于聚类自适应混合采样的网络入侵检测方法及系统