(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210787371.3
(22)申请日 2022.07.06
(71)申请人 华南理工大 学
地址 510640 广东省广州市天河区五山路
381号
(72)发明人 姚其森 胡永健 李纪成 佘惠敏
王宇飞 刘琲贝
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 郑秋松
(51)Int.Cl.
G06V 20/40(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06T 5/50(2006.01)G06V 10/42(2022.01)
G06V 10/74(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
G06V 40/16(2022.01)
(54)发明名称
基 于 多 域 特 征区 域 标 准 分 数 差 异的
Deepfake视频检测方法
(57)摘要
本发明公开了一种基于多域特征区域标准
分数差异的Deepfake视 频检测方法, 包 括下述步
骤: 数据集划分; 视频分帧并提取待检测区域; 构
建双支路卷积神经网络; 计算待检测区域的RGB
特征和NSCT子 带图像; NSCT子 带图像按频带融合
得到频域特征; 通过纹理特征提取模块获得不同
层级纹理特征的响应; 将空域、 频域特征支路的
输出特征沿通道维度拼接, 输入异常特征判别模
块获得篡改区域预测掩膜; 篡改区域预测掩膜经
全连接层得到一维特征, 与纹理特征提取模块输
出特征拼接, 经过全连接层和Softmax激活函数
输出二分类预测结果。 本发明能较好地结合空域
和频域的特征信息, 实现加强对纹理特征的响
应, 判别异常篡改痕迹, 提高了模型的泛化能力。
权利要求书3页 说明书10页 附图6页
CN 115331135 A
2022.11.11
CN 115331135 A
1.一种基于多域特征区域标准分数差异的Deepfake视频检测方法, 其特征在于, 包括
下述步骤:
划分各数据集, 将各 数据集的视频分帧, 提取 各帧图像人脸区域作为待检测区域;
计算各帧图像待检测区域的RGB特 征;
计算各帧图像待检测区域的NSCT子带图像, 将NSCT各个子带图像按频带进行融合并拼
接, 得到频域特 征;
构建双支路卷积神经网络, 包括空域特征提取支路和频域特征提取支路, 将RGB特征和
频域特征分别输入空域特 征提取支路和频域特 征提取支路;
在空域特征提取支路不同深度的层级中设置纹理特征提取模块, 分别提取浅层网络中
的局部细节特 征以及深层网络中的总体抽象特 征, 输出得到纹理特征;
将空域特 征支路和频域特 征支路的输出 特征沿通道维度拼接, 得到拼接特 征;
将拼接特 征输入异常特 征判别模块进行异常特 征判别, 输出 得到篡改区域预测掩膜;
将篡改区域预测掩膜输入全连接层, 输出特征与纹理特征沿通道维度拼接, 通过全连
接层输出二分类预测结果, 分别采用二分类标签和换脸区域掩膜对二分类结果和篡改区域
预测掩膜的训练进行监督, 计算损失函数并反向传播更新网络权重系 数, 保存网络的模型
和最佳权 重;
基于训练后的双支路卷积神经网络进行特征提取和预测分类, 输出测试集样本篡改检
测结果。
2.根据权利要求1所述的基于多域特征区域标准分数差异的Deepfake视频检测方法,
其特征在于, 所述计算各帧图像待检测区域的NSCT子带图像, 具体步骤 包括:
对各帧图像待检测区域进行非下采样轮廓波变换得到NSCT子带图像, 通过非下采样金
字塔式分解和非下采样方向滤波器组, 在不同频带上根据不同方向对图像进 行分解与特征
提取, 分解后得到低频子带、 水平方向中频子带、 竖直方向中频子带、 水平方向高频子带和
竖直方向高频子带。
3.根据权利要求2所述的基于多域特征区域标准分数差异的Deepfake视频检测方法,
其特征在于, 所述将NS CT各个子带图像按 频带进行融合并拼接, 得到频域特征, 具体步骤包
括:
对两个基于中频子带的方向子带按照预设的比例进行加权融合, 得到中频融合子带;
对两个基于高频子带的方向子带按照预设的比例进行加权融合, 得到高频融合子带;
按照低频、 中频、 高频的顺序沿通道维度进行拼接, 得到频域特 征。
4.根据权利要求1所述的基于多域特征区域标准分数差异的Deepfake视频检测方法,
其特征在于, 所述空域特征提取支路和频域特征提取支路均采用EfficientNetB4作为基准
网络, EfficientNetB4包括卷积层、 MBCo nv层、 平均池化层以及全连接层。
5.根据权利要求1所述的基于多域特征区域标准分数差异的Deepfake视频检测方法,
其特征在于, 所述纹理特征提取模块包括三个卷积层、 格拉姆矩阵计算层以及全局平均池
化层, 第二与第三个卷积层后面添加了批归一化层与ReLU激活函数, 纹理特征提取模块分
别对空域特征提取支路的输入 特征以及EfficientNet ‑B4主干网络的前五个MBConv层的输
出特征进行处 理, 然后将每 个模块输出的一维向量特 征进行拼接, 得到一维向量输出 特征。
6.根据权利要求5所述的基于多域特征区域标准分数差异的Deepfake视频检测方法,权 利 要 求 书 1/3 页
2
CN 115331135 A
2其特征在于, 所述格拉姆 矩阵计算层中格拉姆 矩阵计算公式为:
其中, Gij表示格拉姆矩阵中坐标为(i,j)的值, c表示该层输入特征 的通道数, F表示该
层输入特 征沿各通道拉伸后的特 征, Fik表示F中坐标为(i,k)的值, FT表示F的转置 。
7.根据权利要求1所述的基于多域特征区域标准分数差异的Deepfake视频检测方法,
其特征在于, 所述将拼接特征输入异常特征判别模块进行异常特征判别, 输出得到篡改区
域预测掩膜, 具体步骤 包括:
所述异常特征判别模块包括1 ×1卷积层、 批归一化层、 四个不同尺度的特殊池化层、
ConvLSTM层以及7 ×7卷积层;
每个特殊池化层用于计算特征在相应尺寸的区域中的标准分数, 将每个特殊池化层的
输出特征添加一维伪时域维度, 沿着该维度进行拼接, 并将拼接特征输入ConvLSTM层进行
时空域分析, 输出 得到篡改区域预测掩膜。
8.根据权利要求7所述的基于多域特征区域标准分数差异的Deepfake视频检测方法,
其特征在于, 所述标准分数的计算公式表示 为:
其中, Zl
ij表示特殊池化层第l层输出特征图中坐标为(i,j)的值, fl
ij表示第l层输入特
征图中坐标为(i,j)的值,
表示fl
ij所在区域的特征均值, s表示fl
ij所在区域的特征标准
差。
9.一种基于多域特征 区域标准分数差异的Deepfake视频检测系统, 其特征在于, 包括:
数据集划分模块、 视频数据预处理模块、 特征图像计算模块、 神经网络构建模块、 纹理特征
提取模块、 特 征拼接模块、 异常特 征判别模块、 网络训练模块和检测模块;
所述数据集划分模块用于划分各 数据集;
所述视频数据 预处理模块用于将各数据集的视频分帧, 提取各帧图像人脸区域作为待
检测区域;
所述特征图像计算模块用于计算各帧图像待检测区域的RGB特征, 计算各帧图像待检
测区域的NSCT子带图像, 将NSCT各个子带图像按频 带进行融合并拼接, 得到频域特 征;
所述神经网络构建模块用于构建双支路卷积神经网络, 包括空域特征提取支路和频域
特征提取支路, 将RGB特 征和频域特 征分别输入空域特 征提取支路和频域特 征提取支路;
所述纹理特征提取模块设置在空域特征提取支路不同深度的层级, 用于分别提取浅层
网络中的局部细节特 征以及深层网络中的总体抽象特 征, 输出得到纹理特征;
所述特征拼接模块用于将空域特征支路和频域特征支路的输出特征沿通道维度拼接,
得到拼接特 征;
所述异常特征判别模块用于对拼接特征进行异常特征判别, 输出得到篡改区域预测掩
膜;
所述网络训练模块用于将篡改区域预测掩膜输入全连接层, 输出特征与纹理特征沿通权 利 要 求 书 2/3 页
3
CN 115331135 A
3
专利 基于多域特征区域标准分数差异的Deepfake视频检测方法
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:13上传分享