standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210765668.X (22)申请日 2022.07.01 (71)申请人 南京大学 地址 210033 江苏省南京市栖霞区仙林大 道163号 (72)发明人 王利民 金力为 (74)专利代理 机构 无锡市天宇知识产权代理事 务所(普通 合伙) 32208 专利代理师 蒋何栋 (51)Int.Cl. G06F 16/783(2019.01) G06F 16/75(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06V 10/74(2022.01)G06V 20/40(2022.01) (54)发明名称 一种多模态视频理解方法 (57)摘要 本发明公开了一种多模态视频理解方法, 包 括建立多模态融合网络, 将 视频中的采样片段输 入多模态融合网络后得到一号特征向量及整个 视频的分类分数, 将视频标题文本通过编码器和 多层感知机得到二号特征向量, 将一号特征向量 与二号特征向量进行余弦相似度计算, 得出视频 对比学习框架。 本发明通过话题识别任务促进工 业界开发更完备的深度模型, 实现对于短视频整 体的高层语义理解; 视频文本互检索放弃了预定 义类别体系和传统的强监督学习范式, 转而使用 自然语言作为监督信号, 视频文本互检索并非唯 一利用语言信息帮助视频理解的途径, 视频标题 生成与基 于文本的视频生成同样可以实现。 权利要求书1页 说明书3页 附图3页 CN 115129934 A 2022.09.30 CN 115129934 A 1.一种多模态视频理解方法, 其特征在于, 包括建立多模态融合网络, 将视频中的采样 片段输入多模态融合网络后得到一号特征向量及整个视频的分类分数, 将视频标题文本通 过编码器和多层感知机得到二号特征向量, 将一号特征向量与二号特征向量进行余弦相似 度计算, 得 出视频对比学习框架。 2.根据权利要求1所述的多模态视频理解方法, 其特征在于, 所述多模态融合网络包括 信号输入端, 信号输入端将信号传导给编码 器, 编码器将信号提取出对应模态的特征向量; 一方面将特征向量用对应模态的类别分类分数, 将类别分类分数进行加权求和整个视频的 分类分数; 另一方面将特 征向量拼接后通过多层感知机生成一 号特征向量。 3.根据权利要求2所述的多模态视频理解方法, 其特征在于, 所述输入端包括视频帧输 入、 音频输入及字幕输入。 4.根据权利要求3所述的多模态视频理解方法, 其特征在于, 所述视频帧输入、 音频输 入及字幕输入 对应的编辑器分别为视频编码器、 音频编码器及字幕编码器。 5.根据权利要求1所述的多模态视频理解方法, 其特征在于, 所述一号特征向量、 二号 特征向量共用同一套编码器。 6.根据权利要求1所述的多模态视频理解方法, 其特征在于, 所述视频对比学习框架公 示如下: ; 其中, Fv(V)为第一特 征向量, Ft(T)为第二特 征向量。权 利 要 求 书 1/1 页 2 CN 115129934 A 2一种多模 态视频理解方 法 技术领域 [0001]本发明属于计算机软件技术领域, 涉及自监督特征学习和场景分类, 具体涉及一 种多模态视频理解方法。 背景技术 [0002]为了在数据集上对用户生成短视频理解设立基准, 现提出了两个具体 的任务, 分 别是话题识别以及视频文本互检索。 尽管话题识别和 动作识别都可以被归类为多类别单标 签的分类问题, 他们之间仍存在两个重要不同点。 [0003]话题识别使用相比于动作类别包含更多高层语义的话题作为标签。 相比于传统的 动作识别任务, 本发明提出 的话题识别任务鼓励使用视频内部的多种模态信息, 包括原始 帧、 音频、 字幕都可以在训练和测试阶段使用。 多模态处理工具如自动音频识别和光学字符 识别同样可以使用。 因此, 本发明定义的话题识别任务不是纯粹的实例级别视觉任务, 而 是 多模态高语义层级的视频分类任务。 [0004]大部分用户生成短视频都附带用户上传的标题, 该标题通常与对应视频具有强关 联性。 本发明将随着视频爬取 的标签视为自然存在的视频描述。 这些 “视频描述 ”并非由专 业的标注者标注, 通过爬虫可以规模化获取, 便于数据集的扩展。 更重要的是, 传统数据集 中存在的标注者的个人偏差问题因为由巨量 不同的用户作为 “标注人员 ”而得到缓解。 发明内容 [0005]发明目的: 本发明的目的基于标题的视频文本互检索任务包括两个子任务, 分别 为通过标题文本检索视频和通过视频检索标题文本 。 [0006]技术方案: 为了达到上述发明目的, 本 发明具体是这样来实现的: 一种多模态视频 理解方法, 包括建立多模态融合网络, 将视频中的采样片段输入多模态融合网络后得到一 号特征向量及整个视频的分类分数, 将视频标题文本通过编码器和多层感知机得到二号特 征向量, 将一 号特征向量与二 号特征向量进行余弦相似度计算, 得 出视频对比学习框架。 [0007]其中, 多模态融合网络包括信号输入端, 信号输入端将信号传导给编码器, 编码器 将信号提取出对应模态的特征向量; 一方面将特征向量用对应模态的类别分类分数, 将类 别分类分数进 行加权求和整个视频的分类分数; 另一方面将特征向量拼接后通过多层感知 机生成一 号特征向量。 [0008]其中, 输入端包括视频帧输入、 音频输入及字幕输入。 [0009]其中, 视频帧输入、 音频输入及字幕输入对应的编辑器分别为视频编码器、 音频编 码器及字幕编码器。 [0010]其中, 一号特征向量、 二 号特征向量共用同一套编码器。 [0011]其中, 视频对比学习框架公示如下: ;说 明 书 1/3 页 3 CN 115129934 A 3
专利 一种多模态视频理解方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:32:18
上传分享
举报
下载
原文档
(496.4 KB)
分享
友情链接
GA-T 1212-2014 安防人脸识别应用 防假体攻击测试方法.pdf
GB-T 21054-2023 信息安全技术 公钥基础设施 PKI系统安全测评方法.pdf
T-CTSS 1—2018 白茶仓储规范.pdf
T-NIFA 21—2023 金融数据安全技术防护规范.pdf
GB-T 30825-2014 热处理温度测量.pdf
GB-T 43206-2023 信息安全技术 信息系统密码应用测评要求.pdf
GB-T 4864-2008 金属钙及其制品.pdf
GB-T 21825-2008 玻璃纤维土工格栅.pdf
GB-T 41267-2022 网络关键设备安全技术要求 交换机设备.pdf
DB5223-T 15-2021 新市民家庭经济困难学生资助、补助规范 黔西南布依族苗族自治州.pdf
GB-T 24582-2023 多晶硅表面金属杂质含量测定 酸浸取-电感耦合等离子体质谱法.pdf
T-HPAESRCU 0015—2022 绿色设计产品评价技术规范 通信用户外机房 柜 温控节能装备.pdf
DB42-T 1380-2018 农村公路工程技术标准 湖北省.pdf
T-CSAE 78—2018 电动汽车再生制动平顺性的评价 及试验方法.pdf
GB-T 37025-2018 信息安全技术 物联网数据传输安全技术要求.pdf
GB-T 39334.1-2020 机械产品制造过程数字化仿真 第1部分:通用要求.pdf
DB11-T 2046.3-2022 智慧停车系统技术要求 第3部分:停车场 (库)管理模块 北京市.pdf
GB-T 18916.56-2021 取水定额 第56部分:毛皮.pdf
DB11-T 1640-2019 冷库系统节能监测 北京市.pdf
中国科学院 专⽤数据处理器 (DPU)技术白皮书 .pdf
1
/
8
评价文档
赞助2.5元 点击下载(496.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。