专利 基于多尺度由粗到精变换器网络视频帧率提升方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211108991.6 (22)申请日 2022.09.13 (71)申请人上海交通大学地址 200240 上海市闵行区东川路80 0号申请人咪咕文化科技有限公司 (72)发明人宋利　李琛　张文军　冯亚楠　邢刚　 (74)专利代理机构上海恒慧知识产权代理事务所(特殊普通合伙) 31317 专利代理师徐红银　张琳 (51)Int.Cl. G06T 5/30(2006.01) G06T 5/50(2006.01) G06T 7/20(2017.01) G06V 10/74(2022.01)G06V 10/77(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多尺度由粗到精变换器网络视频帧率提升方法和系统 (57)摘要本发明提供一种基于多尺度由粗到精变换器网络视频帧率提升方法和系统，包括：采用特征提取网络从输入整数帧中提取特征；第一阶段网络采用粗中间帧估计网络对整数帧特征进行隐式运动估计，获得粗中间帧；第二阶段网络采用特征细化变换器网络将整数帧特征迁徙到粗中间帧的位置，获得精细中间帧；建立粗中间帧和精细中间帧损失函数，对两个损失函数相加进行训练；连续多帧低帧率视频输入训练好的第一阶段网络和第二阶段网络，重建出精细中间帧。本实施例采用两阶段逐级细化的方式进行视频插帧，使用纯时空卷积的方式提取运动信息，以避免预设运动模型来估计光流。同时采用变换器网络，估计整数帧与中间帧的多对一映射来提升特征迁移的鲁棒性。权利要求书3页说明书8页附图5页 CN 115393232 A 2022.11.25 CN 115393232 A 1.一种基于多尺度由粗到精的变换器网络视频帧率提升方法，其特征在于，包括：采用特征提取网络从输入整数帧中提取整数帧特征；第一阶段网络采用粗中间帧估计网络对所述整数帧特征进行隐式运动估计，获得粗中间帧；第二阶段网络采用特征细化变换器网络将所述整数帧特征迁徙到所述粗中间帧的位置进行质量增强，获得精细中间帧；建立所述粗中间帧损失函数和所述精细中间帧损失函数，并对两个损失函数相加进行训练；连续多个低帧率视频输入训练好的所述第一阶段网络和所述第二阶段网络，重建出精细中间帧。 2.根据权利要求1所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法，其特征在于，所述特征提取网络包括三个2D卷积层，每个卷积层从所述输入整数帧中提取特征并且降采样，得到三个尺度的整数帧特征，作为所述第一阶段网络的输入。 3.根据权利要求1所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法，其特征在于，所述粗中间帧估计网络为一个纯3D卷积的U形网络，其由三个尺度构成，每一个尺度均由若干个3D卷积层组成，三个尺度按照分辨率降低的顺序分别为精细尺度、中间尺度和粗尺度；所述特征细化变换器网络包括四个变换器块，采用不同的块大小，由大至小变化，用来从粗到精提取不同尺度的关联。 4.根据权利要求2所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法，其特征在于，所述第一阶段网络采用粗中间帧估计网络对所述整数帧特征进行隐式运动估计，获得粗中间帧，包括：将所述三个尺度的整数帧特征输入所述粗中间帧估计网络；对每个尺度整数帧特征分别采用三层网络进行处理；其中，第一层为3D卷积层，用来将多个整数帧的特征进行融合；第二层为3D卷积层，在精细尺度负责特征细化，在中间尺度负责融合当前尺度和精细尺度第一层输出的特征并且细化；在粗尺度负责融合当前尺度和中间尺度第一层输出的特征并且细化；第三层为一个3D卷积残差块，由两个3D卷积层通过残差连接组成，在粗尺度负责特征细化，在精细尺度负责融合当前尺度和中间尺度第二层输出的特征并且细化，在中间尺度负责融合当前尺度和粗尺度第二层输出的特征并且细化；将细化后的特征的时间维度展开并且合并到通道维度，去除时间维度，使得特征降维；将在展开合并后的特征经过三层2D卷积分别进行降维，得到粗中间帧特征并合成粗中间帧，共获得三个尺度的粗中间帧；所述粗中间帧估计网络中，除了最后一层2D卷积不使用激活层，其他每一层卷积均采用LeakyReLU激活函数，即在线性整流层ReLU的基础上对负值施加一个非零斜率。 5.根据权利要求4所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法，其特征在于，所述第二层为3D卷积层，其对精细尺度第一层输出特征进行降采样与中间尺度特征融合；对中间尺度第一层输出特征进行降采样与粗尺度特征融合；所述特征的降采样由额外的3D卷积完成。权　利　要　求　书 1/3 页 2 CN 115393232 A 26.根据权利要求4所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法，其特征在于，所述第三层为一个3D卷积残差块，其对粗尺度第二层输出特征进行上采样与中间尺度特征融合；对中间尺度第二层输出特征进行上采样与精细尺度特征融合；所述特征的上采样由额外的3D反卷积完成。 7.根据权利要求2所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法，其特征在于，所述第二阶段网络采用特征细化变换器网络将所述整数帧特征迁徙到所述粗中间帧的位置进行质量增强，获得精细中间帧，包括：所述三个尺度的粗中间帧和整数帧特征作为所述第二阶段网络的输入；对所述每个尺度的粗中间帧，采用4个连续的变换器块将相应尺度的所述整数帧特征迁移到粗中间帧位置以增强粗中间帧特征的质量；经过变换器块处理后的粗中间帧特征经过由三个残差密集连接块组成的帧合成模块，进行特征聚合，获得精细中间帧。 8.根据权利要求7所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法，其特征在于，在每个所述变换器块施行的过程，包括：将粗中间帧和整数帧特征的图像分块，获得若干个图像块；利用自注意力机制，估计所述图像块之间的关联并且匹配，即以粗中间帧特征的图像块作为参考，与所述整数帧特征分成的图像块间进行特征匹配，生成权重；基于所述权重计算整数帧特征的加权和作为粗中间帧当前位置的细化特征，即 Attention(Q， K， V)＝Softmax(QKT)V，其中， Q为要查询的向量，指粗中间帧特征； K和V为被查询的向量和查询到的值，均为输入整数帧的特征。 9.根据权利要求1所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法，其特征在于，建立由粗中间帧损失函数和精细中间帧的损失函数组成的综合损失函数，： L＝LOC+LO 其中包含粗中间帧的损失函数LOC以及精细中间帧的损失函数LO，两个损失函数均采用 L1损失实现： L(O， GT)＝| |O‑GT||1 即计算重建中间帧与真实值之间的L1损失，其中GT为真实的中间帧， O为网络输出的重建中间帧， LOC中的O为粗中间帧， LO中的O为精细中间帧；针对不同尺度的重建中间帧，将真实值通过双线性插值的方式进行下采样，依此来计算损失值。 10.一种基于多尺度由粗到精的变换器网络视频帧率提升系统，其特征在于，包括：特征提取模块，所述特征提取模块从输入整数帧中提取整数帧特征；第一阶段模块，所述第一阶段模块络采用粗中间帧估计网络对所述整数帧特征进行隐式运动估计，获得粗中间帧；第二阶段模块，所述第二阶段模块采用特征细化变换器网络将所述整数帧特征迁徙到所述粗中间帧的位置进行质量增强，获得精细中间帧；约束训练模块，所述约束训练模块建立所述粗中间帧损失函数和所述精细中间帧损失函数，并对两个损失函数相加进行训练；应用模块，所述应用模块将连续多帧低帧率视频输入训练好的所述第一阶段网络和所权　利　要　求　书 2/3 页 3 CN 115393232 A 3

专利 基于多尺度由粗到精变换器网络视频帧率提升方法和系统

专利基于多尺度由粗到精变换器网络视频帧率提升方法和系统