专利 基于多尺度多示例相似度学习的长视频检索方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211015314.X (22)申请日 2022.08.23 (71)申请人浙江工商大学地址 310018 浙江省杭州市下沙高教园区学正街18号申请人华数传媒网络有限公司　浙江宇视科技有限公司 (72)发明人王勋　董建锋　陈先客　卓越　周迪　姚康　余浙东　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师刘静 (51)Int.Cl. G06F 16/732(2019.01) G06F 16/783(2019.01)G06V 10/77(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01) G06F 16/953(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多尺度多示例相似度学习的长视频检索方法及装置 (57)摘要本发明公开了基于多尺度多示例相似度学习的长视频检索方法及装置，该方法获取视频和文本初步特征；使用从粗到细的编码方式，从视频的片段尺度和帧尺度提取不同时间粒度的信息；基于两种尺度的视频表示，使用片段尺度相似度学习分支筛选出和文本最相关的视频片段并得到片段尺度相似度；使用帧尺度相似度学习分支以筛选出的最相关视频片段作为向导来聚合视频特征来得到更加精细的视频信息，并与文本进行相似度计算后得到帧尺度相似度；利用公共空间学习算法来学习长视频和文本间的多尺度相似度，以端到端的方式训练模型，实现文本到长视频的检索。本发明利用了多尺度多示例学习的思想，能有效解决所提出的文本到长视频的检索任务。权利要求书2页说明书8页附图3页 CN 115408558 A 2022.11.29 CN 115408558 A 1.一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，包括以下步骤： (1)对查询文本和待检索视频进行特征预提取，得到初始文本特征和初始视频特征； (2)将步骤(1)得到的初始文本特征进行编码得到文本特征表示； (3)将步骤(1)得到的初始视频特征分别进行片段尺度特征编码和帧尺度特征编码，得到视频片段尺度特征表示和视频帧尺度特征表示； (4)构建多尺度相似度学习网络模型，该模型包括基于片段尺度视频表示的相似度学习分支和基于帧尺度视频表示的相似度学习分支； (5)将步骤(3)得到的视频片段尺度特征表示与步骤(2)得到的文本特征表示输入至基于片段尺度视频表示的相似度学习分支，进行相似度计算，得到视频和文本的片段尺度相似度，并检测出包含文本内容的关键视频片段； (6)将步骤(3)得到的视频帧尺度特征表示与步骤(5)中得到的关键视频片段以及步骤 (2)得到的文本特征表示输入至基于帧尺度视频表示的相似度学习分支，将视频帧尺度特征表示与关键视频片段进行聚合编码，得到聚合后的帧尺度特征表示，与文本特征表示进行相似度计算，得到视频和文本的帧尺度相似度； (7)将步骤(5)和(6)中得到的视频和文本的片段与帧尺度相似度进行加权求和，得到最终的文本与视频相似度，并训练多尺度相似度学习网络模型； (8)通过步骤(7)得到了一个训练好的多尺度相似度学习网络模型，将视频和文本输入到训练好的模型中来实现文本到其部分相关视频的跨模态检索。 2.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，步骤(1)中使用不同的预训练模型来提取文本和视频的初始特征，包括如下步骤： (1‑1)利用预训练的2D和3D深度卷积网络来提取初始视频特征； (1‑2)利用预训练的大型文本特征提取器RoBERTa模型提取初始文本特征。 3.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，步骤(2)中对在步骤(1)中得到的初始文本特征进行编码的方法包括如下步骤： (2‑1)利用全连接层对输入的初始文本特征进行降维，并对其进行位置嵌入编码后输入到transformer中进行编码； (2‑2)对步骤(2 ‑1)编码后的文本特征，使用注意力模块进行聚合，得到最终的编码后的文本特征。 4.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，步骤(3)中得到视频片段尺度特征表示的方法包括如下步骤： (3‑1)对步骤(1)中得到的初始视频特征进行降采样至固定大小后，利用全连接层进行降维，并对其进行位置嵌入编码后输入到t ransformer中进行编码； (3‑2)对步骤(3 ‑1)中编码后的视频特征，以滑动窗口的方式进行不同视频片段大小的特征选取，得到视频片段尺度特征表示。 5.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，步骤(3)得到视频帧尺度特征表示的方法具体为：对步骤(1)中得到的初始视频特征利用全连接层进行降维，并对其进行位置嵌入编码后输入到transformer中进行编码，得到视频帧尺度的特征表示。 6.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特权　利　要　求　书 1/2 页 2 CN 115408558 A 2征在于，步骤(5)中得到视频与文本的片段尺度相似度的方法具体为：将步骤(3)得到的视频片段尺度特征表示与步骤(2)得到的文本特征表示进行相似度计算，得到视频各个片段和文本的相似度，取最大值作为视频和文本的片段尺度相似度，并选取相似度最大的对应片段作为关键视频片段。 7.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，步骤(6)中得到视频与文本的帧尺度相似度的方法具体为： (6‑1)将步骤(3)中得到的视频帧尺度特征表示使用两个不同的全连接层分别进行映射，得到两组映射后的帧尺度特征表示； (6‑2)将其中一组帧尺度特征表示与步骤(5)得到的关键视频片段进行相似度计算，得到视频各帧与关键视频片段的相似度； (6‑3)对另一组帧尺度特征表示，以步骤(6 ‑2)中得到的视频各帧与关键视频片段的相似度为权重，对视频各帧的特征表示进行加权和，得到聚合后的视频帧尺度特征表示； (6‑4)将步骤(6 ‑3)得到的聚合后的视频帧尺度特征表示与步骤(2)得到的文本特征表示进行相似度计算，得到视频和文本的帧尺度相似度。 8.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，所述步骤(7)中，以多示例学习的方式训练多尺度相似度学习网络模型，通过三元排序损失以及对比学习损失来学习视频和文本两个模态之间的相关性并以端到端的训练多尺度相似度学习网络模型，使模型自动学习视频和文本两个模态之间的相关性。 9.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，所述步骤(8)具体为： (8‑1)将查询文本进行特征表示，所有候选视频进行片段和帧尺度特征表示； (8‑2)将文本和视频的特征表示输入到训练好的多尺度相似度学习网络模型，计算查询文本和所有候选视频的片段以及帧尺度相似度，并根据两相似度加权和对候选视频进行排序，返回检索结果。 10.一种基于多尺度多示例相似度学习的长视频检索装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，实现如权利要求1 ‑9中任一项所述的基于多尺度多示例相似度学习的长视频检索方法。权　利　要　求　书 2/2 页 3 CN 115408558 A 3

专利 基于多尺度多示例相似度学习的长视频检索方法及装置

专利基于多尺度多示例相似度学习的长视频检索方法及装置