专利 基于多域特征区域标准分数差异的Deepfake视频检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210787371.3 (22)申请日 2022.07.06 (71)申请人华南理工大学地址 510640 广东省广州市天河区五山路 381号 (72)发明人姚其森　胡永健　李纪成　佘惠敏　王宇飞　刘琲贝　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 专利代理师郑秋松 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 5/50(2006.01)G06V 10/42(2022.01) G06V 10/74(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 40/16(2022.01) (54)发明名称基于多域特征区域标准分数差异的 Deepfake视频检测方法 (57)摘要本发明公开了一种基于多域特征区域标准分数差异的Deepfake视频检测方法，包括下述步骤：数据集划分；视频分帧并提取待检测区域；构建双支路卷积神经网络；计算待检测区域的RGB 特征和NSCT子带图像； NSCT子带图像按频带融合得到频域特征；通过纹理特征提取模块获得不同层级纹理特征的响应；将空域、频域特征支路的输出特征沿通道维度拼接，输入异常特征判别模块获得篡改区域预测掩膜；篡改区域预测掩膜经全连接层得到一维特征，与纹理特征提取模块输出特征拼接，经过全连接层和Softmax激活函数输出二分类预测结果。本发明能较好地结合空域和频域的特征信息，实现加强对纹理特征的响应，判别异常篡改痕迹，提高了模型的泛化能力。权利要求书3页说明书10页附图6页 CN 115331135 A 2022.11.11 CN 115331135 A 1.一种基于多域特征区域标准分数差异的Deepfake视频检测方法，其特征在于，包括下述步骤：划分各数据集，将各数据集的视频分帧，提取各帧图像人脸区域作为待检测区域；计算各帧图像待检测区域的RGB特征；计算各帧图像待检测区域的NSCT子带图像，将NSCT各个子带图像按频带进行融合并拼接，得到频域特征；构建双支路卷积神经网络，包括空域特征提取支路和频域特征提取支路，将RGB特征和频域特征分别输入空域特征提取支路和频域特征提取支路；在空域特征提取支路不同深度的层级中设置纹理特征提取模块，分别提取浅层网络中的局部细节特征以及深层网络中的总体抽象特征，输出得到纹理特征；将空域特征支路和频域特征支路的输出特征沿通道维度拼接，得到拼接特征；将拼接特征输入异常特征判别模块进行异常特征判别，输出得到篡改区域预测掩膜；将篡改区域预测掩膜输入全连接层，输出特征与纹理特征沿通道维度拼接，通过全连接层输出二分类预测结果，分别采用二分类标签和换脸区域掩膜对二分类结果和篡改区域预测掩膜的训练进行监督，计算损失函数并反向传播更新网络权重系数，保存网络的模型和最佳权重；基于训练后的双支路卷积神经网络进行特征提取和预测分类，输出测试集样本篡改检测结果。 2.根据权利要求1所述的基于多域特征区域标准分数差异的Deepfake视频检测方法，其特征在于，所述计算各帧图像待检测区域的NSCT子带图像，具体步骤包括：对各帧图像待检测区域进行非下采样轮廓波变换得到NSCT子带图像，通过非下采样金字塔式分解和非下采样方向滤波器组，在不同频带上根据不同方向对图像进行分解与特征提取，分解后得到低频子带、水平方向中频子带、竖直方向中频子带、水平方向高频子带和竖直方向高频子带。 3.根据权利要求2所述的基于多域特征区域标准分数差异的Deepfake视频检测方法，其特征在于，所述将NS CT各个子带图像按频带进行融合并拼接，得到频域特征，具体步骤包括：对两个基于中频子带的方向子带按照预设的比例进行加权融合，得到中频融合子带；对两个基于高频子带的方向子带按照预设的比例进行加权融合，得到高频融合子带；按照低频、中频、高频的顺序沿通道维度进行拼接，得到频域特征。 4.根据权利要求1所述的基于多域特征区域标准分数差异的Deepfake视频检测方法，其特征在于，所述空域特征提取支路和频域特征提取支路均采用EfficientNetB4作为基准网络， EfficientNetB4包括卷积层、 MBCo nv层、平均池化层以及全连接层。 5.根据权利要求1所述的基于多域特征区域标准分数差异的Deepfake视频检测方法，其特征在于，所述纹理特征提取模块包括三个卷积层、格拉姆矩阵计算层以及全局平均池化层，第二与第三个卷积层后面添加了批归一化层与ReLU激活函数，纹理特征提取模块分别对空域特征提取支路的输入特征以及EfficientNet ‑B4主干网络的前五个MBConv层的输出特征进行处理，然后将每个模块输出的一维向量特征进行拼接，得到一维向量输出特征。 6.根据权利要求5所述的基于多域特征区域标准分数差异的Deepfake视频检测方法，权　利　要　求　书 1/3 页 2 CN 115331135 A 2其特征在于，所述格拉姆矩阵计算层中格拉姆矩阵计算公式为：其中， Gij表示格拉姆矩阵中坐标为(i,j)的值， c表示该层输入特征的通道数， F表示该层输入特征沿各通道拉伸后的特征， Fik表示F中坐标为(i,k)的值， FT表示F的转置。 7.根据权利要求1所述的基于多域特征区域标准分数差异的Deepfake视频检测方法，其特征在于，所述将拼接特征输入异常特征判别模块进行异常特征判别，输出得到篡改区域预测掩膜，具体步骤包括：所述异常特征判别模块包括1 ×1卷积层、批归一化层、四个不同尺度的特殊池化层、 ConvLSTM层以及7 ×7卷积层；每个特殊池化层用于计算特征在相应尺寸的区域中的标准分数，将每个特殊池化层的输出特征添加一维伪时域维度，沿着该维度进行拼接，并将拼接特征输入ConvLSTM层进行时空域分析，输出得到篡改区域预测掩膜。 8.根据权利要求7所述的基于多域特征区域标准分数差异的Deepfake视频检测方法，其特征在于，所述标准分数的计算公式表示为：其中， Zl ij表示特殊池化层第l层输出特征图中坐标为(i,j)的值， fl ij表示第l层输入特征图中坐标为(i,j)的值，表示fl ij所在区域的特征均值， s表示fl ij所在区域的特征标准差。 9.一种基于多域特征区域标准分数差异的Deepfake视频检测系统，其特征在于，包括：数据集划分模块、视频数据预处理模块、特征图像计算模块、神经网络构建模块、纹理特征提取模块、特征拼接模块、异常特征判别模块、网络训练模块和检测模块；所述数据集划分模块用于划分各数据集；所述视频数据预处理模块用于将各数据集的视频分帧，提取各帧图像人脸区域作为待检测区域；所述特征图像计算模块用于计算各帧图像待检测区域的RGB特征，计算各帧图像待检测区域的NSCT子带图像，将NSCT各个子带图像按频带进行融合并拼接，得到频域特征；所述神经网络构建模块用于构建双支路卷积神经网络，包括空域特征提取支路和频域特征提取支路，将RGB特征和频域特征分别输入空域特征提取支路和频域特征提取支路；所述纹理特征提取模块设置在空域特征提取支路不同深度的层级，用于分别提取浅层网络中的局部细节特征以及深层网络中的总体抽象特征，输出得到纹理特征；所述特征拼接模块用于将空域特征支路和频域特征支路的输出特征沿通道维度拼接，得到拼接特征；所述异常特征判别模块用于对拼接特征进行异常特征判别，输出得到篡改区域预测掩膜；所述网络训练模块用于将篡改区域预测掩膜输入全连接层，输出特征与纹理特征沿通权　利　要　求　书 2/3 页 3 CN 115331135 A 3

专利 基于多域特征区域标准分数差异的Deepfake视频检测方法

专利基于多域特征区域标准分数差异的Deepfake视频检测方法