standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211014330.7 (22)申请日 2022.08.23 (71)申请人 浙江工商大 学 地址 310018 浙江省杭州市下沙高教园区 学正街18号 (72)发明人 董建锋 王雅冰 蔡蕊 包翠竹 王勋 (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 刘静 (51)Int.Cl. G06F 16/732(2019.01) G06F 16/783(2019.01) G06F 16/9532(2019.01) G06V 10/74(2022.01)G06V 10/77(2022.01) G06V 10/82(2022.01) G06V 20/70(2022.01) (54)发明名称 一种噪音鲁棒学习的跨语言跨模态检索方 法及装置 (57)摘要 本发明公开了一种噪音鲁棒学习的跨语言 跨模态检索方法及装置, 通过借助机器翻译来构 造伪平行句子对来实现零样本跨语 言迁移。 由于 机器翻译得到结果并不总是完美的, 它通常包含 大量的噪声。 为了缓解这个问题, 首先引入了一 个多视角自蒸馏损失来学习噪声鲁棒的目标语 言特征, 它通过利用cross ‑attention模块从基 于相似度和基于特征的两个视角来生成软伪目 标; 其次, 利用回译来提高模型对源语言的鲁棒 性; 最后, 将得到的视频特征与噪声鲁棒的文本 特征映射到一个跨语言跨模态共同空间中进行 匹配, 从而实现目标语言文本到视频的跨模态检 索。 本发明实现了在目标语言上的准确检索。 权利要求书2页 说明书10页 附图1页 CN 115438220 A 2022.12.06 CN 115438220 A 1.一种噪音鲁棒学习的跨语言跨模态检索方法, 其特 征在于, 包括以下步骤: S1, 使用预训练模型对视频进行提取, 得到 视频的初始特 征; S2, 将步骤S1中得到的视频的初始特征输入到Transformer块 中, 利用自注意力实现帧 级特征交互并对Transformer的输出 特征执行平均池化操作, 得到 视频特征向量; S3, 将源语言句子进行机器翻译, 得到目标语言句子和源语言回译句子; S4, 将步骤S3中的源语言句子、 目标语言句子、 源语言回译句子分别输入至对应的源语 言分支、 目标语言分支、 源语言回译分支中进行编码, 得到源语言特征序列、 目标语言特征 序列、 源语言回译特征序列, 并对源语言特征序列、 目标语言特征序列、 源语言回译特征序 列进行平均池化操作, 得到源语言句子特征向量、 目标语言句子特征向量、 源语言回译句子 特征向量; S5, 在多语言多模态共同空间中计算步骤S2中得到的视频特征向量与步骤S4中得到的 源语言句子特征向量、 目标语言句子特征向量之间的相似度, 进行跨语言跨模态匹配, 同 时, 将步骤S4中得到的源语言特征序列和目标语言特征序列输入到cross ‑attention模块 中, 得到较为干净 的目标语言特征向量, 并将目标语言特征向量映射到多模态共同空间为 目标语言句 子分支提供监督信号, 进行指导, 并将步骤S4中得到源语言句子特征向量和源 语言回译句 子特征向量进行对齐, 来提取循环一致性语义信息, 得到初始跨语言跨模态检 索模型; S6, 以端到端的方式对初始跨语言跨模态检索模型进行训练, 得到最终的跨语言跨模 态检索模型; S7, 将目标语言句子和由目标语言句子翻译而得到的源语言句子与视频输入到步骤S6 得到的最终的跨语言跨模态检索模型中, 来完成 从目标文本 到视频的跨语言跨模态检索。 2.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S1具体为: S11, 对视频进行帧采样, 获得视频帧序列; S12, 使用在ImageNet上预先训练的2D CNN网络模型对视频帧序列进行特征提取, 得到 视频的初始特 征。 3.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S4具体为: S41, 将步骤S3中的源语言句子、 目标语言句子、 源语言回译句子分别输入到一个预训 练模型mBERT中进行编码, 得到源语言特 征序列、 目标语言特 征序列、 源语言回译特 征序列; S42, 将步骤S41中得到的源语言特征序列、 目标语言特征序列、 源语言回译特征序列分 别输入到对应的Transformer模块中, 以提取相对应的高层次的特定任务特征, 并对 特定任 务特征进 行平均池化操作, 得到对应的源语言句子特征向量、 目标语言句子特征向量、 源语 言回译句子特 征向量。 4.根据权利要求3所述的方法, 其特 征在于, 还 包括以下步骤: 将步骤S41中得到的源语言特征序列和目标语言特征序列进行平均池化操作, 并输入 到判别器中, 以对抗学习的方式对文本编码器进行优化, 以编码语言无关特 征。 5.根据权利要求3所述的方法, 其特 征在于, 所述 步骤S5具体为: S51, 将步骤S42中源语言特征序列和 目标语言特征序列对应的特定任务特征输入到 cross‑attention模块中进行过滤, 得到较为干净的目标语 言隐藏特征序列, 并对目标语 言 隐藏特征序列进行平均池化操作, 得到目标语言隐藏特 征向量;权 利 要 求 书 1/2 页 2 CN 115438220 A 2S52, 将S2中视频特征向量、 步骤S51中的目标语言隐藏特征向量和 S42中的源语言句子 特征向量、 目标语言句子特征向量以及 源语言回译句子特征向量分别映射到一个多语言多 模态共同空间中, 将映射到多语言多模态共同空间中的源语言句 子特征向量、 目标语言句 子特征向量分别与视频特征向量进行跨模态跨语言对齐约束; 将映射到多语言多模态共同 空间中的目标语言句子特征向量和目标语言隐藏特征向量通过多视图自蒸馏损失进行约 束; 映射到多语言多模态共同空间中的源语言句子特征向量和目标语言隐藏特征向量通过 循环语义 一致性损失进行约束。 6.一种噪音鲁棒学习的跨语言跨模态检索装置, 包括存储器和一个或多个处理器, 所 述存储器中存储有 可执行代码, 其特征在于, 所述处理器执行所述可执行代码时, 用于实现 如权利要求1 ‑5中任一项所述的噪音鲁棒学习的跨语言跨模态检索方法。权 利 要 求 书 2/2 页 3 CN 115438220 A 3
专利 一种噪音鲁棒学习的跨语言跨模态检索方法及装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:31:33
上传分享
举报
下载
原文档
(683.7 KB)
分享
友情链接
GB-T 33041-2016 中国陆地木材腐朽与白蚁危害等级区域划分.pdf
GB-T 34471.2-2017 弹性合金 第2部分:恒弹性合金.pdf
深信服 数字化转型下医院安全运营实践 2021.pdf
GB-T 34945-2017 信息技术 数据溯源描述模型.pdf
GB-T 6719-2009 袋式除尘器技术要求.pdf
DL-T 1998-2019 感应滤波变压器成套设备使用技术条件.pdf
GB-T 23724.1-2016 起重机 检查 第1部分:总则.pdf
GB-T 3220-2011 集装箱吊具.pdf
CY-T 121-2015 学术出版规范 注释.pdf
GB-T 19161-2016 包装容器 复合式中型散装容器.pdf
法律法规 银川市建筑节能管理条例2011-12-12.pdf
T-GHDQ 100—2022 智能网联汽车控制器硬件信息安全测试规范.pdf
DB12-T 669-2016 绿色供应链标准化工作指南 天津市.pdf
GB-T 4240-2019 不锈钢丝.pdf
重点网络安全:“3保1评”(分保、等保、关保、密评).pdf
T-CHES 45—2020 雷达水位计.pdf
CCSP Exam Guide AIO 第2版 英文版.pdf
GB-T 40692-2021 政务信息系统定义和范围.pdf
DB23-T 3649.8—2023 政府网站建设管理规范 第8部分:集约化平台运维 黑龙江省.pdf
GB-T 5106-2012 圆柱直齿渐开线花键 量规.pdf
1
/
14
评价文档
赞助2.5元 点击下载(683.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。