专利 一种噪音鲁棒学习的跨语言跨模态检索方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211014330.7 (22)申请日 2022.08.23 (71)申请人浙江工商大学地址 310018 浙江省杭州市下沙高教园区学正街18号 (72)发明人董建锋　王雅冰　蔡蕊　包翠竹　王勋　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师刘静 (51)Int.Cl. G06F 16/732(2019.01) G06F 16/783(2019.01) G06F 16/9532(2019.01) G06V 10/74(2022.01)G06V 10/77(2022.01) G06V 10/82(2022.01) G06V 20/70(2022.01) (54)发明名称一种噪音鲁棒学习的跨语言跨模态检索方法及装置 (57)摘要本发明公开了一种噪音鲁棒学习的跨语言跨模态检索方法及装置，通过借助机器翻译来构造伪平行句子对来实现零样本跨语言迁移。由于机器翻译得到结果并不总是完美的，它通常包含大量的噪声。为了缓解这个问题，首先引入了一个多视角自蒸馏损失来学习噪声鲁棒的目标语言特征，它通过利用cross ‑attention模块从基于相似度和基于特征的两个视角来生成软伪目标；其次，利用回译来提高模型对源语言的鲁棒性；最后，将得到的视频特征与噪声鲁棒的文本特征映射到一个跨语言跨模态共同空间中进行匹配，从而实现目标语言文本到视频的跨模态检索。本发明实现了在目标语言上的准确检索。权利要求书2页说明书10页附图1页 CN 115438220 A 2022.12.06 CN 115438220 A 1.一种噪音鲁棒学习的跨语言跨模态检索方法，其特征在于，包括以下步骤： S1，使用预训练模型对视频进行提取，得到视频的初始特征； S2，将步骤S1中得到的视频的初始特征输入到Transformer块中，利用自注意力实现帧级特征交互并对Transformer的输出特征执行平均池化操作，得到视频特征向量； S3，将源语言句子进行机器翻译，得到目标语言句子和源语言回译句子； S4，将步骤S3中的源语言句子、目标语言句子、源语言回译句子分别输入至对应的源语言分支、目标语言分支、源语言回译分支中进行编码，得到源语言特征序列、目标语言特征序列、源语言回译特征序列，并对源语言特征序列、目标语言特征序列、源语言回译特征序列进行平均池化操作，得到源语言句子特征向量、目标语言句子特征向量、源语言回译句子特征向量； S5，在多语言多模态共同空间中计算步骤S2中得到的视频特征向量与步骤S4中得到的源语言句子特征向量、目标语言句子特征向量之间的相似度，进行跨语言跨模态匹配，同时，将步骤S4中得到的源语言特征序列和目标语言特征序列输入到cross ‑attention模块中，得到较为干净的目标语言特征向量，并将目标语言特征向量映射到多模态共同空间为目标语言句子分支提供监督信号，进行指导，并将步骤S4中得到源语言句子特征向量和源语言回译句子特征向量进行对齐，来提取循环一致性语义信息，得到初始跨语言跨模态检索模型； S6，以端到端的方式对初始跨语言跨模态检索模型进行训练，得到最终的跨语言跨模态检索模型； S7，将目标语言句子和由目标语言句子翻译而得到的源语言句子与视频输入到步骤S6 得到的最终的跨语言跨模态检索模型中，来完成从目标文本到视频的跨语言跨模态检索。 2.根据权利要求1所述的方法，其特征在于，所述步骤S1具体为： S11，对视频进行帧采样，获得视频帧序列； S12，使用在ImageNet上预先训练的2D CNN网络模型对视频帧序列进行特征提取，得到视频的初始特征。 3.根据权利要求1所述的方法，其特征在于，所述步骤S4具体为： S41，将步骤S3中的源语言句子、目标语言句子、源语言回译句子分别输入到一个预训练模型mBERT中进行编码，得到源语言特征序列、目标语言特征序列、源语言回译特征序列； S42，将步骤S41中得到的源语言特征序列、目标语言特征序列、源语言回译特征序列分别输入到对应的Transformer模块中，以提取相对应的高层次的特定任务特征，并对特定任务特征进行平均池化操作，得到对应的源语言句子特征向量、目标语言句子特征向量、源语言回译句子特征向量。 4.根据权利要求3所述的方法，其特征在于，还包括以下步骤：将步骤S41中得到的源语言特征序列和目标语言特征序列进行平均池化操作，并输入到判别器中，以对抗学习的方式对文本编码器进行优化，以编码语言无关特征。 5.根据权利要求3所述的方法，其特征在于，所述步骤S5具体为： S51，将步骤S42中源语言特征序列和目标语言特征序列对应的特定任务特征输入到 cross‑attention模块中进行过滤，得到较为干净的目标语言隐藏特征序列，并对目标语言隐藏特征序列进行平均池化操作，得到目标语言隐藏特征向量；权　利　要　求　书 1/2 页 2 CN 115438220 A 2S52，将S2中视频特征向量、步骤S51中的目标语言隐藏特征向量和 S42中的源语言句子特征向量、目标语言句子特征向量以及源语言回译句子特征向量分别映射到一个多语言多模态共同空间中，将映射到多语言多模态共同空间中的源语言句子特征向量、目标语言句子特征向量分别与视频特征向量进行跨模态跨语言对齐约束；将映射到多语言多模态共同空间中的目标语言句子特征向量和目标语言隐藏特征向量通过多视图自蒸馏损失进行约束；映射到多语言多模态共同空间中的源语言句子特征向量和目标语言隐藏特征向量通过循环语义一致性损失进行约束。 6.一种噪音鲁棒学习的跨语言跨模态检索装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，用于实现如权利要求1 ‑5中任一项所述的噪音鲁棒学习的跨语言跨模态检索方法。权　利　要　求　书 2/2 页 3 CN 115438220 A 3

专利 一种噪音鲁棒学习的跨语言跨模态检索方法及装置

专利一种噪音鲁棒学习的跨语言跨模态检索方法及装置