(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210031701.6
(22)申请日 2022.01.12
(71)申请人 大连海事大学
地址 116026 辽宁省大连市高新园区凌海
路1号
(72)发明人 曹志英 王雪洁 王乔正 张秀国
徐伟刚
(74)专利代理 机构 大连东方专利代理有限责任
公司 21212
代理人 姜玉蓉 李洪福
(51)Int.Cl.
G06F 11/30(2006.01)
G06F 40/205(2020.01)
G06F 40/30(2020.01)
G06F 16/17(2019.01)G06F 16/182(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于流外正则化的日志序列异常检测
方法
(57)摘要
本发明提供一种基于流外正则化的日志序
列异常检测方法, 该方法对BERT模型进行优化并
将其作为语义特征提取模型, 优化方法是将
MixUp数据增强作为流外正则化的一种形式, 在
数据流形之外的模型输入空间上施加线性约束,
将生成器和鉴别器分别嵌入到BERT模型的不同
Encoder层。 通过训练鉴别器来检测输入嵌入是
否位于流形外, 优化生成器来生成流形外嵌入,
使其易于被鉴别器识别为流形外嵌入, 以便发现
对日志序列分类任务有用但通过单词访问不到
的嵌入, 提高异常检测的准确性。 此外, 本发明分
别从日志条目与日志序列两个粒度上提取日志
语义特征, 不仅可 以提取日志序列的语义特征,
还可以提取到日志条目本身包含的语义信息, 从
而增强异常检测的鲁棒 性。
权利要求书3页 说明书10页 附图4页
CN 114416479 A
2022.04.29
CN 114416479 A
1.一种基于流外正则化的日志序列异常检测方法, 其特 征在于, 包括:
S1、 对BERT模型进行优化, 并将其作为语义特 征提取模型;
S2、 给定一个日志集 合 χ, 对所述语义特 征提取模型进行训练;
S3、 给定一个日志集 合, 利用训练完成的语义特 征提取模型对日志序列进行异常检测。
2.根据权利要求1所述的基于流外正则化的日志序列异常检测方法, 其特征在于, 所述
步骤S1中, 对BERT模型进行优化的方法如下:
S11、 将MixUp数据增强作为流外正则化的一种形式, 在数据流形之外的模型输入空间
上施加线性约束, 将生成器和鉴别器分别嵌入到BERT模型的不同生成层;
S12、 训练鉴别器, 检测输入嵌入是否位于流形外;
S13、 通过生成层产生的流形外嵌入以及标签优化 生成器, 生成流形外嵌入。
3.根据权利要求1所述的基于流外正则化的日志序列异常检测方法, 其特征在于, 所述
步骤S2的具体实现过程如下:
S21、 日志解析, 将每个日志事件转换为与关键参数相关联的特定事件模板, 选择提取
日志模板性能好的Drain算法, 基于日志数据构建一个固定深度的解析树, 根据树中蕴含的
模板提取规则进行日志解析, 从非结构化的日志事 件中提取 结构化日志键;
S22、 根据日志数据集的特点人工选择日志序列的框定方式, 若数据集中有Block_id,
则按照会话 id划分日志序列; 若没有, 则以固定大小的滑动窗口框 定日志序列;
S23、 将日志序列中的日志条目输入到BERT模型提取句向量;
S24、 判断该日志序列中是否还有未被处理的日志条目, 若有, 则执行步骤S23, 直到所
有日志条目均被处 理完;
S25、 将该序列 中所有句向量进行线性拼接, 将得到初始序列向量vseq输入到优化BERT
模型的Encoder层中;
S26、 基于 MixUp对序列向量及其标签进行线性插值;
S27、 基于流形内嵌入和标签计算日志序列的分类损失, 通过优化BERT模型的预训练权
重系数对 日志序列进行二分类, 将流形内序列标签作为输出目标, 采用KL散度作为损失函
数, 日志序列分类的目标函数如下 所示:
其中, ωf代表优化BERT模型预训练与分类器的可训练参数,
表示KL散度, 函数f
(seqbatch)是将seqbatch进行分类的函数;
S28、 基于流形内与流形外嵌入和标签计算分类损失并优化鉴别器, 将流形标签(流形
内与流形外)作为输出目标, 采用二元 交叉熵函数作为损失函数来优化鉴别器, 目标函数如
下所示:
其中, ωg,ωd分别代表生成器和鉴别器的可训练参数,
表示二元交叉熵损失,
为
经过优化BERT模型的第j层编码输出的向量,
为seqbatch经过优化权 利 要 求 书 1/3 页
2
CN 114416479 A
2BERT模型的第j层编码输出的向量;
S29、 将流形外序列标签作为输出目标, 采用KL散度作为损失函数优化生成器, 目标函
数如下所示:
其中,
表示生成层及后续Encoder层的可训练参数, ωg表示生成器的可训练参数; 通
过步骤S28中的目标函数和步骤S29中的目标函数优化生 成器, 使生成器生成对日志序列分
类任务有帮助的流形外嵌入, 则最终的分类目标函数被定义 为:
其中,
表示日志序列的分类损失,
与
分别代表为了辨别流形外嵌入而训练生
成器和鉴别器的损失, e负责调节优化 生成器的两个目标。
4.根据权利要求3所述的基于流外正则化的日志序列异常检测方法, 其特征在于, 所述
步骤S23的具体实现过程如下:
S231、 取集 合 χ 中的某条日志x∈ χ, 将x拆分为 一个单词序列w∈{0,. ..,|V|}m;
S232、 使用词汇 表V的标记器来标记单词, m表示该日志条目的长度;
S233、 根据嵌入表将每个单词映射为一个D维向量, 则该日志条目对应的句向量
经l层Encoder被转换为
5.根据权利要求3所述的基于流外正则化的日志序列异常检测方法, 其特征在于, 所述
步骤S26的具体实现过程如下:
确定用于线性插值的混合系数λ∈[0,1], 优化BERT模型的第i层Encoder上嵌入了生成
器, 生成器的目标 是将两个流形内的上 下文嵌入进行线性插值后合成流形外嵌入;
生成器基于两个流形内的上下文嵌入, 使用具有SoftMax归一化的两层全连接网络产
生下界α和区间Δ , 从而从均匀分布
中对混合系数进行采样 , 即
为了避免两个输入序列串行产生的巨大计算开销, 采用孪生架构, 在两个不同的输入
上共享权 重减小了计算 开销;
优化从均匀分布中采样的混合系数 λ, 使用重新参数化技巧, 引入
计算混合
系数 λ, 如下 所示:
λ=α +γ ×Δ
基于混合系数λ进行线性插值, 以一个batch的序列向量与其标签为例对线性插值进行
说明, 如下 所示:
权 利 要 求 书 2/3 页
3
CN 114416479 A
3
专利 一种基于流外正则化的日志序列异常检测方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:57上传分享