(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210000282.X
(22)申请日 2022.01.02
(71)申请人 西安电子科技大 学
地址 710071 陕西省西安市太白南路2号西
安电子科技大 学
(72)发明人 高海昌 姚舟 常国沁 张宇鸿
(74)专利代理 机构 西安长和专利代理有限公司
61227
专利代理师 黄伟洪
(51)Int.Cl.
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06F 40/242(2020.01)
G06F 16/35(2019.01)
(54)发明名称
一种面向文本的对抗样本生成方法、 系统、
设备及终端
(57)摘要
本发明属于人工智能信息安全技术领域, 公
开了一种面向文本的对抗样本生成方法、 系统、
设备及终端, 该方法包括: 对获取的文本数据进
行预处理, 使用处理好的训练集训练深度学习模
型; 将数据输入深度学习模型, 对文本进行计算,
获取关键词权重; 将关键词按照权重排序后选择
关键词进行处理生成对应的对抗样 本, 根据模型
识别效果选择结束或者继续修改关键词, 获取最
终的对抗样 本。 本发明结合了单词级和句子级的
方法, 同时避免了无效语句的生成, 减少了修改
的比率, 尽可能地不影响文本语义, 在保证攻击
效果的同时减小了人眼识别的可能性。 本发明自
适应地选 择最优扰动, 在保留完整文本语义的同
时尽可能减小扰动幅度, 以更高的攻击成功率欺
骗分类器。
权利要求书3页 说明书9页 附图3页
CN 114528827 A
2022.05.24
CN 114528827 A
1.一种面向文本的对抗样本生成方法, 其特征在于, 所述面向文本的对抗样本生成方
法对获取 的文本数据进行预处理, 使用处理好的训练集训练深度学习模型; 将数据输入所
述深度学习模型, 对文本进行计算, 获取关键词的权重; 将关键词按照权重排序以后选择关
键词进行处理生成对应的对抗样本, 根据模型识别效果选择结束或者继续修改关键词, 获
取最终的对抗样本 。
2.如权利要求1所述的面向文本的对抗样本生成方法, 其特征在于, 所述面向文本的对
抗样本生成方法包括以下步骤:
步骤一, 对文本数据预处 理;
步骤二, 训练有效的深度学习模型;
步骤三, 根据模型获得文本的关键词;
步骤四, 对获取的关键词进行处 理;
步骤五, 使用处 理后的关键词生成对抗文本 。
3.如权利要求2所述的面向文本的对抗样本生成方法, 其特征在于, 所述步骤一中的对
文本数据预处 理包括:
(1)清理数据, 删除掉无用的符号和各种标签;
在处理前删除掉无用的空格符号和各种网页标签;
(2)为各个 类别的数据添加对应的数字标签;
对于情感分类样本, 正样本标签设置为1, 负样本设置为0; 对于多分类样本, 根据类别
数从0开始计数进行 标签分类;
(3)对文本进行分词, 转 化为对应的数字TOKEN;
使用训练集来构造词典, 根据 单词出现频率从大到小排序; 从3开始计数作为对应单词
的TOKEN; 其中0用于长度填充, 保证文本具有相同的长度; 1用于表 示文本的开始, 置于文本
第一个位置; 2用于表示未知符号, 代 表词典中没有出现的单词。
4.如权利要求2所述的面向文本的对抗样本生成方法, 其特征在于, 所述步骤二中的训
练有效的深度学习模型包括:
(1)设置词嵌入矩阵参数, 设置模型 结构超参数, 使用LSTM构建出模型框架;
构建模型时, 根据需要设置词向量长度, 构建词嵌入矩阵, 随机初始化以后作为模型第
一层, 将离散的单词转化为连续的向量表示; 将连续的向量表示输入设置好的LSTM和
TEXTCNN模型得到模型输出的向量, 最后 经过线性层和Softmax层的转化, 将输出向量转化
为对应类别的置信度分数;
(2)将预处 理的数据输入 模型, 根据深度学习方法对 模型进行训练和调节参数;
将步骤一中处理好的数据送入模型, 通过Adam优化器对模型进行优化, 不断使用训练
集优化模型参数;
(3)得到模型的最优参数, 固化模型作为后续的使用工具;
将训练好的模型参数, 通过库函数保存为 参数文件用于之后的攻击实验。
5.如权利要求2所述的面向文本的对抗样本生成方法, 其特征在于, 所述步骤三中的根
据模型获得文本的关键词包括:
(1)将文本进行截取, 获得对应单词上文的信息;
1)对于文本中的每 个单词, 去掉单词之后的文本;权 利 要 求 书 1/3 页
2
CN 114528827 A
2对于第i条文本xi={w0, w1…wn‑1, wn}, 对于单词wj的上文信息重要度, 去掉第j个单词之
后的所有 文本, 得到xi={w0, w1…wj}, 再将第j个单词去掉得到x ′i={w0, w1…wj‑1};
2)将截取后的文本 输入模型, 获取模型分数;
将得到的xi={w0, w1…wj}输入模型得到置信度分数{s0, s1…sd}, 将得到的x ′i={w0,
w1…wj‑1}输入模型得到置信度分数{s ′0, s′1…s′d};
3)计算模型分数和对应标签之间的变化, 将变化 量作为单词的上文权 重;
根据文本的类别k得到对应的分数变化sk‑s′k来作为对应单词的上文信息;
(2)将文本进行截取, 获取对应单词下文的信息;
1)对于文本中的每 个单词, 去掉单词之前的文本;
对于第i条文本xi={w0, w1…wn‑1, wn}, 对于单词wj的上文信息重要度, 去掉第j个单词之
前的所有 文本, 得到xi={wj, wj+1…wn}, 再将第j个单词去掉得到x ′i={wj+1…wn};
2)将截取后的文本 输入模型, 获取模型分数;
将得到的xi={w0, w1…wn‑1, wn}送入模型得到置信度分数{t0, t1…td}, 将得到的x ′i=
{wj+1…wn}送入模型得到置信度分数{t ′0, t′1…t′d};
3)计算模型分数和对应标签的之间的变化, 将变化 量作为单词的下文权 重;
根据文本的类别k得到对应的分数变化tk‑t′k来作为对应单词的下文信息;
(3)根据文本中对应单词的上 下文信息确定关键词;
1)根据单词的上文和下文权 重, 进行加 和作为单词的上 下文信息 权重;
使用步骤(1)和步骤(2)的得到的单词对应的上文和下文信息, 通过计算(sk‑s′k)+(tk‑
t′k)来作为单词的上 下文信息 权重;
2)根据上 下文信息 权重对单词进行从大到小排序;
对每条文本中的每个单词来计算上下文信息权重, 将单词记录位置坐标, 按照从大到
小进行排序;
3)选取权 重高的单词作为关键词进行修改;
依次按照权 重从大到小的顺序选择关键词。
6.如权利要求2所述的面向文本的对抗样本生成方法, 其特征在于, 所述步骤四中的对
获取的关键词进行处 理包括:
(1)使用同义词对单词进行修改;
1)使用Gl oVe来对单词进行计算, 获取对应的单词向量;
使用GloVe构建向量词典, 将单词转 化为对应向量;
2)在词向量空间中查找和单词向量 最接近的作为近义词替换;
在GloVe词典中寻找和关键词词性POS相同的单词, 计算和关键词词向量的余弦相似
度, 选择余弦相似度最大的单词作为当前关键词的同义词替换候选;
(2)使用Emoji对单词进行修改;
将所有表情Emoji取 出, 随机选取两个表情, 添加到单词的前后位置;
(3)使用词典对单词进行修改;
1)使用nltk函数获取 单词在文本中的POS含义;
使用nltk函数库的词性判断函数获取关键词 词性POS;
2)在词典中获取 单词的释义, 选择相同POS的释义作为关键词替换内容;权 利 要 求 书 2/3 页
3
CN 114528827 A
3
专利 一种面向文本的对抗样本生成方法、系统、设备及终端
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:03上传分享