standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211014330.7 (22)申请日 2022.08.23 (71)申请人 浙江工商大 学 地址 310018 浙江省杭州市下沙高教园区 学正街18号 (72)发明人 董建锋 王雅冰 蔡蕊 包翠竹  王勋  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 刘静 (51)Int.Cl. G06F 16/732(2019.01) G06F 16/783(2019.01) G06F 16/9532(2019.01) G06V 10/74(2022.01)G06V 10/77(2022.01) G06V 10/82(2022.01) G06V 20/70(2022.01) (54)发明名称 一种噪音鲁棒学习的跨语言跨模态检索方 法及装置 (57)摘要 本发明公开了一种噪音鲁棒学习的跨语言 跨模态检索方法及装置, 通过借助机器翻译来构 造伪平行句子对来实现零样本跨语 言迁移。 由于 机器翻译得到结果并不总是完美的, 它通常包含 大量的噪声。 为了缓解这个问题, 首先引入了一 个多视角自蒸馏损失来学习噪声鲁棒的目标语 言特征, 它通过利用cross ‑attention模块从基 于相似度和基于特征的两个视角来生成软伪目 标; 其次, 利用回译来提高模型对源语言的鲁棒 性; 最后, 将得到的视频特征与噪声鲁棒的文本 特征映射到一个跨语言跨模态共同空间中进行 匹配, 从而实现目标语言文本到视频的跨模态检 索。 本发明实现了在目标语言上的准确检索。 权利要求书2页 说明书10页 附图1页 CN 115438220 A 2022.12.06 CN 115438220 A 1.一种噪音鲁棒学习的跨语言跨模态检索方法, 其特 征在于, 包括以下步骤: S1, 使用预训练模型对视频进行提取, 得到 视频的初始特 征; S2, 将步骤S1中得到的视频的初始特征输入到Transformer块 中, 利用自注意力实现帧 级特征交互并对Transformer的输出 特征执行平均池化操作, 得到 视频特征向量; S3, 将源语言句子进行机器翻译, 得到目标语言句子和源语言回译句子; S4, 将步骤S3中的源语言句子、 目标语言句子、 源语言回译句子分别输入至对应的源语 言分支、 目标语言分支、 源语言回译分支中进行编码, 得到源语言特征序列、 目标语言特征 序列、 源语言回译特征序列, 并对源语言特征序列、 目标语言特征序列、 源语言回译特征序 列进行平均池化操作, 得到源语言句子特征向量、 目标语言句子特征向量、 源语言回译句子 特征向量; S5, 在多语言多模态共同空间中计算步骤S2中得到的视频特征向量与步骤S4中得到的 源语言句子特征向量、 目标语言句子特征向量之间的相似度, 进行跨语言跨模态匹配, 同 时, 将步骤S4中得到的源语言特征序列和目标语言特征序列输入到cross ‑attention模块 中, 得到较为干净 的目标语言特征向量, 并将目标语言特征向量映射到多模态共同空间为 目标语言句 子分支提供监督信号, 进行指导, 并将步骤S4中得到源语言句子特征向量和源 语言回译句 子特征向量进行对齐, 来提取循环一致性语义信息, 得到初始跨语言跨模态检 索模型; S6, 以端到端的方式对初始跨语言跨模态检索模型进行训练, 得到最终的跨语言跨模 态检索模型; S7, 将目标语言句子和由目标语言句子翻译而得到的源语言句子与视频输入到步骤S6 得到的最终的跨语言跨模态检索模型中, 来完成 从目标文本 到视频的跨语言跨模态检索。 2.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S1具体为: S11, 对视频进行帧采样, 获得视频帧序列; S12, 使用在ImageNet上预先训练的2D  CNN网络模型对视频帧序列进行特征提取, 得到 视频的初始特 征。 3.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S4具体为: S41, 将步骤S3中的源语言句子、 目标语言句子、 源语言回译句子分别输入到一个预训 练模型mBERT中进行编码, 得到源语言特 征序列、 目标语言特 征序列、 源语言回译特 征序列; S42, 将步骤S41中得到的源语言特征序列、 目标语言特征序列、 源语言回译特征序列分 别输入到对应的Transformer模块中, 以提取相对应的高层次的特定任务特征, 并对 特定任 务特征进 行平均池化操作, 得到对应的源语言句子特征向量、 目标语言句子特征向量、 源语 言回译句子特 征向量。 4.根据权利要求3所述的方法, 其特 征在于, 还 包括以下步骤: 将步骤S41中得到的源语言特征序列和目标语言特征序列进行平均池化操作, 并输入 到判别器中, 以对抗学习的方式对文本编码器进行优化, 以编码语言无关特 征。 5.根据权利要求3所述的方法, 其特 征在于, 所述 步骤S5具体为: S51, 将步骤S42中源语言特征序列和 目标语言特征序列对应的特定任务特征输入到 cross‑attention模块中进行过滤, 得到较为干净的目标语 言隐藏特征序列, 并对目标语 言 隐藏特征序列进行平均池化操作, 得到目标语言隐藏特 征向量;权 利 要 求 书 1/2 页 2 CN 115438220 A 2S52, 将S2中视频特征向量、 步骤S51中的目标语言隐藏特征向量和 S42中的源语言句子 特征向量、 目标语言句子特征向量以及 源语言回译句子特征向量分别映射到一个多语言多 模态共同空间中, 将映射到多语言多模态共同空间中的源语言句 子特征向量、 目标语言句 子特征向量分别与视频特征向量进行跨模态跨语言对齐约束; 将映射到多语言多模态共同 空间中的目标语言句子特征向量和目标语言隐藏特征向量通过多视图自蒸馏损失进行约 束; 映射到多语言多模态共同空间中的源语言句子特征向量和目标语言隐藏特征向量通过 循环语义 一致性损失进行约束。 6.一种噪音鲁棒学习的跨语言跨模态检索装置, 包括存储器和一个或多个处理器, 所 述存储器中存储有 可执行代码, 其特征在于, 所述处理器执行所述可执行代码时, 用于实现 如权利要求1 ‑5中任一项所述的噪音鲁棒学习的跨语言跨模态检索方法。权 利 要 求 书 2/2 页 3 CN 115438220 A 3

PDF文档 专利 一种噪音鲁棒学习的跨语言跨模态检索方法及装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种噪音鲁棒学习的跨语言跨模态检索方法及装置 第 1 页 专利 一种噪音鲁棒学习的跨语言跨模态检索方法及装置 第 2 页 专利 一种噪音鲁棒学习的跨语言跨模态检索方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:31:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。