(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211157060.5
(22)申请日 2022.09.22
(71)申请人 四川大学
地址 610000 四川省成 都市一环路南 一段
24号
(72)发明人 何俊江 兰小龙 李涛 陈姿妤
苟宸雨 马宝强
(74)专利代理 机构 成都其知创新专利代理事务
所(普通合伙) 51326
专利代理师 王沙沙
(51)Int.Cl.
G06F 40/205(2020.01)
G06F 40/216(2020.01)
G06F 40/253(2020.01)
G06F 16/35(2019.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于语法特征和集成策略的抗干扰检
测方法
(57)摘要
本发明公开了一种基于语法特征和集成策
略的抗干扰检测方法, 包括以下步骤: 步骤1: 获
取样本, 对样本进行字符串预处理; 步骤2: 对步
骤1得到的样本进行语法特征提取, 将样本的文
本进行序列化; 步骤3: 将步骤2得到的语法特征
分别采用N个深度学习模型进行检测; 步骤4: 根
据步骤3得到的检测结果输出最后的检测结果;
本发明通过深度学习的集成策略, 对于SQL注入
的检测具有更 强的抗干扰能力, 以缓解对抗攻击
的影响。
权利要求书1页 说明书4页 附图1页
CN 115238671 A
2022.10.25
CN 115238671 A
1.一种基于语法特 征和集成策略的抗干扰 检测方法, 其特 征在于, 包括以下步骤:
步骤1: 获取样本, 对样本进行字符串预处 理;
步骤2: 对步骤1得到的样本进行语法特 征提取, 将 样本的文本进行序列化;
步骤3: 将步骤2得到的语法特 征分别采用N个深度学习模型进行检测;
步骤4: 根据步骤3得到的检测结果输出最后的检测结果。
2.根据权利要求1所述的一种基于语法特征和集成策略的抗干扰检测方法, 其特征在
于, 所述步骤1中字符串预处 理方法包括以下步骤:
首先进行URL 解码, 解码结果 通过科学计数法进行 过滤, 然后内嵌执 行过滤。
3.根据权利要求2所述的一种基于语法特征和集成策略的抗干扰检测方法, 其特征在
于, 所述步骤2中语法特 征提取过程如下:
样本的文本为
, 语法解析函数为 fs, 样本序列化后的文本 tokens如
下:
然后采用W ord2Vec方法, 将 样本序列化后的词嵌入向量 wordvec如下:
wordvec=word2vec(token)。
4.根据权利要求1所述的一种基于语法特征和集成策略的抗干扰检测方法, 其特征在
于, 所述步骤3中包括3个深度学习模型;
深度学习模型分别为长短期记忆人工神经网络LSTM、 卷积神经网络CNN和多层感知器
MLP。
5.根据权利要求4所述的一种基于语法特征和集成策略的抗干扰检测方法, 其特征在
于, 所述步骤4中根据深度学习模型得到的检测结果通过集成算法获得最 终检测结果; 集成
算法选择平均数模型、 投票制模型和最大值模型中的一种。
6.根据权利要求5所述的一种基于语法特征和集成策略的抗干扰检测方法, 其特征在
于, 所述平均数模型计算每个深度学习模型的置信分数的平均数得到集成算法的置信分
数;
第i个子模型的置信分数为 confidencei, 平均数模型计算得到的置信分数 smean为:
置信分数 smean超过设定阈值则为注入样本, 否则为 正常样本;
投票制模型通过每个子模型的置信分数进行投票, 选择投票数量最多的结果作为集成
算法的结果; 若超过一半的子模 型的置信分数超过设定阈值, 则视为注入样 本, 否则视为正
常样本;
最大值模型为通过子模型中置信分数最高的结果作为最终结果, 只要超过一个子模型
认为样本为注入样本则视为注入样本; 第 i个子模型的置信分数 confidencei, 最大值模型
的置信分数 smax为:
Smax=max([co nfidence1, confidence2,…, confidenceN])。权 利 要 求 书 1/1 页
2
CN 115238671 A
2一种基于语 法特征和集成策略的抗干扰检测方 法
技术领域
[0001]本发明涉及网络安全技术领域, 具体涉及 一种基于语法特征和集成策略的抗干扰
检测方法。
背景技术
[0002]对抗攻击样本对于部分现有模型和商业WA F的绕过率高达90%以上, 可见对抗样本
对现有检测模 型存在巨大安全隐患。 尽管现有研究已经针对SQL注入攻击进 行了大量 实践,
在SQL注入攻击检测中仍然没有合 适的方法探究如何抵御对抗 攻击。
[0003]现有对抗攻击的防御策略主要有降低可模型迁移性 (block transferability) 、
数据压缩 (data comprossion) 以及特征压缩 (feature squezzing) 等方法。 本质上这些方
法的目标在于降低对抗攻击模型对于检测模型中, 特征提取和分类模型 的干扰。 但是现有
的方法防御策略效果 不佳。
发明内容
[0004]本发明针对现有技术存在的问题提供一种基于语法特征和集成策略的抗干扰检
测方法。
[0005]本发明采用的技 术方案是:
一种基于语法特 征和集成策略的抗干扰 检测方法, 包括以下步骤:
步骤1: 获取样本, 对样本进行字符串预处 理;
步骤2: 对步骤1得到的样本进行语法特 征提取, 将 样本的文本进行序列化;
步骤3: 将步骤2得到的语法特 征分别采用N个深度学习模型进行检测;
步骤4: 根据步骤3得到的检测结果输出最后的检测结果。
[0006]进一步的, 所述 步骤1中字符串预处 理方法包括以下步骤:
首先进行URL 解码, 解码结果 通过科学计数法进行 过滤, 然后内嵌执 行过滤。
[0007]进一步的, 所述 步骤2中语法特 征提取过程如下:
样本的文本为[ wi],i=1,2…,n, 语法解析函数为 fs, 样本序列化后的文本 tokens如
下:
然后采用W ord2Vec方法, 将 样本序列化后的词嵌入向量 wordvec如下:
wordvec=word2vec(token)。
[0008]进一步的, 所述 步骤3中包括3个深度学习模型;
深度学习模型分别为长短期记忆人工神 经网络LSTM、 卷积神经网络CNN和多层感
知器MLP。
[0009]进一步的, 所述步骤4中根据深度学习模型得到 的检测结果通过集成算法获得最
终检测结果; 集成算法选择平均数模型、 投票制模型和最大值模型中的一种。说 明 书 1/4 页
3
CN 115238671 A
3
专利 一种基于语法特征和集成策略的抗干扰检测方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:11:36上传分享