standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210765668.X (22)申请日 2022.07.01 (71)申请人 南京大学 地址 210033 江苏省南京市栖霞区仙林大 道163号 (72)发明人 王利民 金力为  (74)专利代理 机构 无锡市天宇知识产权代理事 务所(普通 合伙) 32208 专利代理师 蒋何栋 (51)Int.Cl. G06F 16/783(2019.01) G06F 16/75(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06V 10/74(2022.01)G06V 20/40(2022.01) (54)发明名称 一种多模态视频理解方法 (57)摘要 本发明公开了一种多模态视频理解方法, 包 括建立多模态融合网络, 将 视频中的采样片段输 入多模态融合网络后得到一号特征向量及整个 视频的分类分数, 将视频标题文本通过编码器和 多层感知机得到二号特征向量, 将一号特征向量 与二号特征向量进行余弦相似度计算, 得出视频 对比学习框架。 本发明通过话题识别任务促进工 业界开发更完备的深度模型, 实现对于短视频整 体的高层语义理解; 视频文本互检索放弃了预定 义类别体系和传统的强监督学习范式, 转而使用 自然语言作为监督信号, 视频文本互检索并非唯 一利用语言信息帮助视频理解的途径, 视频标题 生成与基 于文本的视频生成同样可以实现。 权利要求书1页 说明书3页 附图3页 CN 115129934 A 2022.09.30 CN 115129934 A 1.一种多模态视频理解方法, 其特征在于, 包括建立多模态融合网络, 将视频中的采样 片段输入多模态融合网络后得到一号特征向量及整个视频的分类分数, 将视频标题文本通 过编码器和多层感知机得到二号特征向量, 将一号特征向量与二号特征向量进行余弦相似 度计算, 得 出视频对比学习框架。 2.根据权利要求1所述的多模态视频理解方法, 其特征在于, 所述多模态融合网络包括 信号输入端, 信号输入端将信号传导给编码 器, 编码器将信号提取出对应模态的特征向量; 一方面将特征向量用对应模态的类别分类分数, 将类别分类分数进行加权求和整个视频的 分类分数; 另一方面将特 征向量拼接后通过多层感知机生成一 号特征向量。 3.根据权利要求2所述的多模态视频理解方法, 其特征在于, 所述输入端包括视频帧输 入、 音频输入及字幕输入。 4.根据权利要求3所述的多模态视频理解方法, 其特征在于, 所述视频帧输入、 音频输 入及字幕输入 对应的编辑器分别为视频编码器、 音频编码器及字幕编码器。 5.根据权利要求1所述的多模态视频理解方法, 其特征在于, 所述一号特征向量、 二号 特征向量共用同一套编码器。 6.根据权利要求1所述的多模态视频理解方法, 其特征在于, 所述视频对比学习框架公 示如下: ; 其中, Fv(V)为第一特 征向量, Ft(T)为第二特 征向量。权 利 要 求 书 1/1 页 2 CN 115129934 A 2一种多模 态视频理解方 法 技术领域 [0001]本发明属于计算机软件技术领域, 涉及自监督特征学习和场景分类, 具体涉及一 种多模态视频理解方法。 背景技术 [0002]为了在数据集上对用户生成短视频理解设立基准, 现提出了两个具体 的任务, 分 别是话题识别以及视频文本互检索。 尽管话题识别和 动作识别都可以被归类为多类别单标 签的分类问题, 他们之间仍存在两个重要不同点。 [0003]话题识别使用相比于动作类别包含更多高层语义的话题作为标签。 相比于传统的 动作识别任务, 本发明提出 的话题识别任务鼓励使用视频内部的多种模态信息, 包括原始 帧、 音频、 字幕都可以在训练和测试阶段使用。 多模态处理工具如自动音频识别和光学字符 识别同样可以使用。 因此, 本发明定义的话题识别任务不是纯粹的实例级别视觉任务, 而 是 多模态高语义层级的视频分类任务。 [0004]大部分用户生成短视频都附带用户上传的标题, 该标题通常与对应视频具有强关 联性。 本发明将随着视频爬取 的标签视为自然存在的视频描述。 这些 “视频描述 ”并非由专 业的标注者标注, 通过爬虫可以规模化获取, 便于数据集的扩展。 更重要的是, 传统数据集 中存在的标注者的个人偏差问题因为由巨量 不同的用户作为 “标注人员 ”而得到缓解。 发明内容 [0005]发明目的: 本发明的目的基于标题的视频文本互检索任务包括两个子任务, 分别 为通过标题文本检索视频和通过视频检索标题文本 。 [0006]技术方案: 为了达到上述发明目的, 本 发明具体是这样来实现的: 一种多模态视频 理解方法, 包括建立多模态融合网络, 将视频中的采样片段输入多模态融合网络后得到一 号特征向量及整个视频的分类分数, 将视频标题文本通过编码器和多层感知机得到二号特 征向量, 将一 号特征向量与二 号特征向量进行余弦相似度计算, 得 出视频对比学习框架。 [0007]其中, 多模态融合网络包括信号输入端, 信号输入端将信号传导给编码器, 编码器 将信号提取出对应模态的特征向量; 一方面将特征向量用对应模态的类别分类分数, 将类 别分类分数进 行加权求和整个视频的分类分数; 另一方面将特征向量拼接后通过多层感知 机生成一 号特征向量。 [0008]其中, 输入端包括视频帧输入、 音频输入及字幕输入。 [0009]其中, 视频帧输入、 音频输入及字幕输入对应的编辑器分别为视频编码器、 音频编 码器及字幕编码器。 [0010]其中, 一号特征向量、 二 号特征向量共用同一套编码器。 [0011]其中, 视频对比学习框架公示如下: ;说 明 书 1/3 页 3 CN 115129934 A 3

PDF文档 专利 一种多模态视频理解方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多模态视频理解方法 第 1 页 专利 一种多模态视频理解方法 第 2 页 专利 一种多模态视频理解方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:32:18上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。