standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210000282.X (22)申请日 2022.01.02 (71)申请人 西安电子科技大 学 地址 710071 陕西省西安市太白南路2号西 安电子科技大 学 (72)发明人 高海昌 姚舟 常国沁 张宇鸿  (74)专利代理 机构 西安长和专利代理有限公司 61227 专利代理师 黄伟洪 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 16/35(2019.01) (54)发明名称 一种面向文本的对抗样本生成方法、 系统、 设备及终端 (57)摘要 本发明属于人工智能信息安全技术领域, 公 开了一种面向文本的对抗样本生成方法、 系统、 设备及终端, 该方法包括: 对获取的文本数据进 行预处理, 使用处理好的训练集训练深度学习模 型; 将数据输入深度学习模型, 对文本进行计算, 获取关键词权重; 将关键词按照权重排序后选择 关键词进行处理生成对应的对抗样 本, 根据模型 识别效果选择结束或者继续修改关键词, 获取最 终的对抗样 本。 本发明结合了单词级和句子级的 方法, 同时避免了无效语句的生成, 减少了修改 的比率, 尽可能地不影响文本语义, 在保证攻击 效果的同时减小了人眼识别的可能性。 本发明自 适应地选 择最优扰动, 在保留完整文本语义的同 时尽可能减小扰动幅度, 以更高的攻击成功率欺 骗分类器。 权利要求书3页 说明书9页 附图3页 CN 114528827 A 2022.05.24 CN 114528827 A 1.一种面向文本的对抗样本生成方法, 其特征在于, 所述面向文本的对抗样本生成方 法对获取 的文本数据进行预处理, 使用处理好的训练集训练深度学习模型; 将数据输入所 述深度学习模型, 对文本进行计算, 获取关键词的权重; 将关键词按照权重排序以后选择关 键词进行处理生成对应的对抗样本, 根据模型识别效果选择结束或者继续修改关键词, 获 取最终的对抗样本 。 2.如权利要求1所述的面向文本的对抗样本生成方法, 其特征在于, 所述面向文本的对 抗样本生成方法包括以下步骤: 步骤一, 对文本数据预处 理; 步骤二, 训练有效的深度学习模型; 步骤三, 根据模型获得文本的关键词; 步骤四, 对获取的关键词进行处 理; 步骤五, 使用处 理后的关键词生成对抗文本 。 3.如权利要求2所述的面向文本的对抗样本生成方法, 其特征在于, 所述步骤一中的对 文本数据预处 理包括: (1)清理数据, 删除掉无用的符号和各种标签; 在处理前删除掉无用的空格符号和各种网页标签; (2)为各个 类别的数据添加对应的数字标签; 对于情感分类样本, 正样本标签设置为1, 负样本设置为0; 对于多分类样本, 根据类别 数从0开始计数进行 标签分类; (3)对文本进行分词, 转 化为对应的数字TOKEN; 使用训练集来构造词典, 根据 单词出现频率从大到小排序; 从3开始计数作为对应单词 的TOKEN; 其中0用于长度填充, 保证文本具有相同的长度; 1用于表 示文本的开始, 置于文本 第一个位置; 2用于表示未知符号, 代 表词典中没有出现的单词。 4.如权利要求2所述的面向文本的对抗样本生成方法, 其特征在于, 所述步骤二中的训 练有效的深度学习模型包括: (1)设置词嵌入矩阵参数, 设置模型 结构超参数, 使用LSTM构建出模型框架; 构建模型时, 根据需要设置词向量长度, 构建词嵌入矩阵, 随机初始化以后作为模型第 一层, 将离散的单词转化为连续的向量表示; 将连续的向量表示输入设置好的LSTM和 TEXTCNN模型得到模型输出的向量, 最后 经过线性层和Softmax层的转化, 将输出向量转化 为对应类别的置信度分数; (2)将预处 理的数据输入 模型, 根据深度学习方法对 模型进行训练和调节参数; 将步骤一中处理好的数据送入模型, 通过Adam优化器对模型进行优化, 不断使用训练 集优化模型参数; (3)得到模型的最优参数, 固化模型作为后续的使用工具; 将训练好的模型参数, 通过库函数保存为 参数文件用于之后的攻击实验。 5.如权利要求2所述的面向文本的对抗样本生成方法, 其特征在于, 所述步骤三中的根 据模型获得文本的关键词包括: (1)将文本进行截取, 获得对应单词上文的信息; 1)对于文本中的每 个单词, 去掉单词之后的文本;权 利 要 求 书 1/3 页 2 CN 114528827 A 2对于第i条文本xi={w0, w1…wn‑1, wn}, 对于单词wj的上文信息重要度, 去掉第j个单词之 后的所有 文本, 得到xi={w0, w1…wj}, 再将第j个单词去掉得到x ′i={w0, w1…wj‑1}; 2)将截取后的文本 输入模型, 获取模型分数; 将得到的xi={w0, w1…wj}输入模型得到置信度分数{s0, s1…sd}, 将得到的x ′i={w0, w1…wj‑1}输入模型得到置信度分数{s ′0, s′1…s′d}; 3)计算模型分数和对应标签之间的变化, 将变化 量作为单词的上文权 重; 根据文本的类别k得到对应的分数变化sk‑s′k来作为对应单词的上文信息; (2)将文本进行截取, 获取对应单词下文的信息; 1)对于文本中的每 个单词, 去掉单词之前的文本; 对于第i条文本xi={w0, w1…wn‑1, wn}, 对于单词wj的上文信息重要度, 去掉第j个单词之 前的所有 文本, 得到xi={wj, wj+1…wn}, 再将第j个单词去掉得到x ′i={wj+1…wn}; 2)将截取后的文本 输入模型, 获取模型分数; 将得到的xi={w0, w1…wn‑1, wn}送入模型得到置信度分数{t0, t1…td}, 将得到的x ′i= {wj+1…wn}送入模型得到置信度分数{t ′0, t′1…t′d}; 3)计算模型分数和对应标签的之间的变化, 将变化 量作为单词的下文权 重; 根据文本的类别k得到对应的分数变化tk‑t′k来作为对应单词的下文信息; (3)根据文本中对应单词的上 下文信息确定关键词; 1)根据单词的上文和下文权 重, 进行加 和作为单词的上 下文信息 权重; 使用步骤(1)和步骤(2)的得到的单词对应的上文和下文信息, 通过计算(sk‑s′k)+(tk‑ t′k)来作为单词的上 下文信息 权重; 2)根据上 下文信息 权重对单词进行从大到小排序; 对每条文本中的每个单词来计算上下文信息权重, 将单词记录位置坐标, 按照从大到 小进行排序; 3)选取权 重高的单词作为关键词进行修改; 依次按照权 重从大到小的顺序选择关键词。 6.如权利要求2所述的面向文本的对抗样本生成方法, 其特征在于, 所述步骤四中的对 获取的关键词进行处 理包括: (1)使用同义词对单词进行修改; 1)使用Gl oVe来对单词进行计算, 获取对应的单词向量; 使用GloVe构建向量词典, 将单词转 化为对应向量; 2)在词向量空间中查找和单词向量 最接近的作为近义词替换; 在GloVe词典中寻找和关键词词性POS相同的单词, 计算和关键词词向量的余弦相似 度, 选择余弦相似度最大的单词作为当前关键词的同义词替换候选; (2)使用Emoji对单词进行修改; 将所有表情Emoji取 出, 随机选取两个表情, 添加到单词的前后位置; (3)使用词典对单词进行修改; 1)使用nltk函数获取 单词在文本中的POS含义; 使用nltk函数库的词性判断函数获取关键词 词性POS; 2)在词典中获取 单词的释义, 选择相同POS的释义作为关键词替换内容;权 利 要 求 书 2/3 页 3 CN 114528827 A 3

PDF文档 专利 一种面向文本的对抗样本生成方法、系统、设备及终端

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向文本的对抗样本生成方法、系统、设备及终端 第 1 页 专利 一种面向文本的对抗样本生成方法、系统、设备及终端 第 2 页 专利 一种面向文本的对抗样本生成方法、系统、设备及终端 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:03上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。