standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210031701.6 (22)申请日 2022.01.12 (71)申请人 大连海事大学 地址 116026 辽宁省大连市高新园区凌海 路1号 (72)发明人 曹志英 王雪洁 王乔正 张秀国  徐伟刚  (74)专利代理 机构 大连东方专利代理有限责任 公司 21212 代理人 姜玉蓉 李洪福 (51)Int.Cl. G06F 11/30(2006.01) G06F 40/205(2020.01) G06F 40/30(2020.01) G06F 16/17(2019.01)G06F 16/182(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于流外正则化的日志序列异常检测 方法 (57)摘要 本发明提供一种基于流外正则化的日志序 列异常检测方法, 该方法对BERT模型进行优化并 将其作为语义特征提取模型, 优化方法是将 MixUp数据增强作为流外正则化的一种形式, 在 数据流形之外的模型输入空间上施加线性约束, 将生成器和鉴别器分别嵌入到BERT模型的不同 Encoder层。 通过训练鉴别器来检测输入嵌入是 否位于流形外, 优化生成器来生成流形外嵌入, 使其易于被鉴别器识别为流形外嵌入, 以便发现 对日志序列分类任务有用但通过单词访问不到 的嵌入, 提高异常检测的准确性。 此外, 本发明分 别从日志条目与日志序列两个粒度上提取日志 语义特征, 不仅可 以提取日志序列的语义特征, 还可以提取到日志条目本身包含的语义信息, 从 而增强异常检测的鲁棒 性。 权利要求书3页 说明书10页 附图4页 CN 114416479 A 2022.04.29 CN 114416479 A 1.一种基于流外正则化的日志序列异常检测方法, 其特 征在于, 包括: S1、 对BERT模型进行优化, 并将其作为语义特 征提取模型; S2、 给定一个日志集 合 χ, 对所述语义特 征提取模型进行训练; S3、 给定一个日志集 合, 利用训练完成的语义特 征提取模型对日志序列进行异常检测。 2.根据权利要求1所述的基于流外正则化的日志序列异常检测方法, 其特征在于, 所述 步骤S1中, 对BERT模型进行优化的方法如下: S11、 将MixUp数据增强作为流外正则化的一种形式, 在数据流形之外的模型输入空间 上施加线性约束, 将生成器和鉴别器分别嵌入到BERT模型的不同生成层; S12、 训练鉴别器, 检测输入嵌入是否位于流形外; S13、 通过生成层产生的流形外嵌入以及标签优化 生成器, 生成流形外嵌入。 3.根据权利要求1所述的基于流外正则化的日志序列异常检测方法, 其特征在于, 所述 步骤S2的具体实现过程如下: S21、 日志解析, 将每个日志事件转换为与关键参数相关联的特定事件模板, 选择提取 日志模板性能好的Drain算法, 基于日志数据构建一个固定深度的解析树, 根据树中蕴含的 模板提取规则进行日志解析, 从非结构化的日志事 件中提取 结构化日志键; S22、 根据日志数据集的特点人工选择日志序列的框定方式, 若数据集中有Block_id, 则按照会话 id划分日志序列; 若没有, 则以固定大小的滑动窗口框 定日志序列; S23、 将日志序列中的日志条目输入到BERT模型提取句向量; S24、 判断该日志序列中是否还有未被处理的日志条目, 若有, 则执行步骤S23, 直到所 有日志条目均被处 理完; S25、 将该序列 中所有句向量进行线性拼接, 将得到初始序列向量vseq输入到优化BERT 模型的Encoder层中; S26、 基于 MixUp对序列向量及其标签进行线性插值; S27、 基于流形内嵌入和标签计算日志序列的分类损失, 通过优化BERT模型的预训练权 重系数对 日志序列进行二分类, 将流形内序列标签作为输出目标, 采用KL散度作为损失函 数, 日志序列分类的目标函数如下 所示: 其中, ωf代表优化BERT模型预训练与分类器的可训练参数, 表示KL散度, 函数f (seqbatch)是将seqbatch进行分类的函数; S28、 基于流形内与流形外嵌入和标签计算分类损失并优化鉴别器, 将流形标签(流形 内与流形外)作为输出目标, 采用二元 交叉熵函数作为损失函数来优化鉴别器, 目标函数如 下所示: 其中, ωg,ωd分别代表生成器和鉴别器的可训练参数, 表示二元交叉熵损失, 为 经过优化BERT模型的第j层编码输出的向量, 为seqbatch经过优化权 利 要 求 书 1/3 页 2 CN 114416479 A 2BERT模型的第j层编码输出的向量; S29、 将流形外序列标签作为输出目标, 采用KL散度作为损失函数优化生成器, 目标函 数如下所示: 其中, 表示生成层及后续Encoder层的可训练参数, ωg表示生成器的可训练参数; 通 过步骤S28中的目标函数和步骤S29中的目标函数优化生 成器, 使生成器生成对日志序列分 类任务有帮助的流形外嵌入, 则最终的分类目标函数被定义 为: 其中, 表示日志序列的分类损失, 与 分别代表为了辨别流形外嵌入而训练生 成器和鉴别器的损失, e负责调节优化 生成器的两个目标。 4.根据权利要求3所述的基于流外正则化的日志序列异常检测方法, 其特征在于, 所述 步骤S23的具体实现过程如下: S231、 取集 合 χ 中的某条日志x∈ χ, 将x拆分为 一个单词序列w∈{0,. ..,|V|}m; S232、 使用词汇 表V的标记器来标记单词, m表示该日志条目的长度; S233、 根据嵌入表将每个单词映射为一个D维向量, 则该日志条目对应的句向量 经l层Encoder被转换为 5.根据权利要求3所述的基于流外正则化的日志序列异常检测方法, 其特征在于, 所述 步骤S26的具体实现过程如下: 确定用于线性插值的混合系数λ∈[0,1], 优化BERT模型的第i层Encoder上嵌入了生成 器, 生成器的目标 是将两个流形内的上 下文嵌入进行线性插值后合成流形外嵌入; 生成器基于两个流形内的上下文嵌入, 使用具有SoftMax归一化的两层全连接网络产 生下界α和区间Δ , 从而从均匀分布 中对混合系数进行采样 , 即 为了避免两个输入序列串行产生的巨大计算开销, 采用孪生架构, 在两个不同的输入 上共享权 重减小了计算 开销; 优化从均匀分布中采样的混合系数 λ, 使用重新参数化技巧, 引入 计算混合 系数 λ, 如下 所示: λ=α +γ ×Δ 基于混合系数λ进行线性插值, 以一个batch的序列向量与其标签为例对线性插值进行 说明, 如下 所示: 权 利 要 求 书 2/3 页 3 CN 114416479 A 3

PDF文档 专利 一种基于流外正则化的日志序列异常检测方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于流外正则化的日志序列异常检测方法 第 1 页 专利 一种基于流外正则化的日志序列异常检测方法 第 2 页 专利 一种基于流外正则化的日志序列异常检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。