专利 一种多模态视频理解方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210765668.X (22)申请日 2022.07.01 (71)申请人南京大学地址 210033 江苏省南京市栖霞区仙林大道163号 (72)发明人王利民　金力为　 (74)专利代理机构无锡市天宇知识产权代理事务所(普通合伙) 32208 专利代理师蒋何栋 (51)Int.Cl. G06F 16/783(2019.01) G06F 16/75(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06V 10/74(2022.01)G06V 20/40(2022.01) (54)发明名称一种多模态视频理解方法 (57)摘要本发明公开了一种多模态视频理解方法，包括建立多模态融合网络，将视频中的采样片段输入多模态融合网络后得到一号特征向量及整个视频的分类分数，将视频标题文本通过编码器和多层感知机得到二号特征向量，将一号特征向量与二号特征向量进行余弦相似度计算，得出视频对比学习框架。本发明通过话题识别任务促进工业界开发更完备的深度模型，实现对于短视频整体的高层语义理解；视频文本互检索放弃了预定义类别体系和传统的强监督学习范式，转而使用自然语言作为监督信号，视频文本互检索并非唯一利用语言信息帮助视频理解的途径，视频标题生成与基于文本的视频生成同样可以实现。权利要求书1页说明书3页附图3页 CN 115129934 A 2022.09.30 CN 115129934 A 1.一种多模态视频理解方法，其特征在于，包括建立多模态融合网络，将视频中的采样片段输入多模态融合网络后得到一号特征向量及整个视频的分类分数，将视频标题文本通过编码器和多层感知机得到二号特征向量，将一号特征向量与二号特征向量进行余弦相似度计算，得出视频对比学习框架。 2.根据权利要求1所述的多模态视频理解方法，其特征在于，所述多模态融合网络包括信号输入端，信号输入端将信号传导给编码器，编码器将信号提取出对应模态的特征向量；一方面将特征向量用对应模态的类别分类分数，将类别分类分数进行加权求和整个视频的分类分数；另一方面将特征向量拼接后通过多层感知机生成一号特征向量。 3.根据权利要求2所述的多模态视频理解方法，其特征在于，所述输入端包括视频帧输入、音频输入及字幕输入。 4.根据权利要求3所述的多模态视频理解方法，其特征在于，所述视频帧输入、音频输入及字幕输入对应的编辑器分别为视频编码器、音频编码器及字幕编码器。 5.根据权利要求1所述的多模态视频理解方法，其特征在于，所述一号特征向量、二号特征向量共用同一套编码器。 6.根据权利要求1所述的多模态视频理解方法，其特征在于，所述视频对比学习框架公示如下：；其中， Fv(V)为第一特征向量， Ft(T)为第二特征向量。权　利　要　求　书 1/1 页 2 CN 115129934 A 2一种多模态视频理解方法技术领域 [0001]本发明属于计算机软件技术领域，涉及自监督特征学习和场景分类，具体涉及一种多模态视频理解方法。背景技术 [0002]为了在数据集上对用户生成短视频理解设立基准，现提出了两个具体的任务，分别是话题识别以及视频文本互检索。尽管话题识别和动作识别都可以被归类为多类别单标签的分类问题，他们之间仍存在两个重要不同点。 [0003]话题识别使用相比于动作类别包含更多高层语义的话题作为标签。相比于传统的动作识别任务，本发明提出的话题识别任务鼓励使用视频内部的多种模态信息，包括原始帧、音频、字幕都可以在训练和测试阶段使用。多模态处理工具如自动音频识别和光学字符识别同样可以使用。因此，本发明定义的话题识别任务不是纯粹的实例级别视觉任务，而是多模态高语义层级的视频分类任务。 [0004]大部分用户生成短视频都附带用户上传的标题，该标题通常与对应视频具有强关联性。本发明将随着视频爬取的标签视为自然存在的视频描述。这些 “视频描述 ”并非由专业的标注者标注，通过爬虫可以规模化获取，便于数据集的扩展。更重要的是，传统数据集中存在的标注者的个人偏差问题因为由巨量不同的用户作为 “标注人员 ”而得到缓解。发明内容 [0005]发明目的：本发明的目的基于标题的视频文本互检索任务包括两个子任务，分别为通过标题文本检索视频和通过视频检索标题文本。 [0006]技术方案：为了达到上述发明目的，本发明具体是这样来实现的：一种多模态视频理解方法，包括建立多模态融合网络，将视频中的采样片段输入多模态融合网络后得到一号特征向量及整个视频的分类分数，将视频标题文本通过编码器和多层感知机得到二号特征向量，将一号特征向量与二号特征向量进行余弦相似度计算，得出视频对比学习框架。 [0007]其中，多模态融合网络包括信号输入端，信号输入端将信号传导给编码器，编码器将信号提取出对应模态的特征向量；一方面将特征向量用对应模态的类别分类分数，将类别分类分数进行加权求和整个视频的分类分数；另一方面将特征向量拼接后通过多层感知机生成一号特征向量。 [0008]其中，输入端包括视频帧输入、音频输入及字幕输入。 [0009]其中，视频帧输入、音频输入及字幕输入对应的编辑器分别为视频编码器、音频编码器及字幕编码器。 [0010]其中，一号特征向量、二号特征向量共用同一套编码器。 [0011]其中，视频对比学习框架公示如下：；说　明　书 1/3 页 3 CN 115129934 A 3

专利 一种多模态视频理解方法

专利一种多模态视频理解方法