专利 基于陈述句提示微调的视觉问答方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210588207.X (22)申请日 2022.05.26 (71)申请人华中科技大学地址 430074 湖北省武汉市武昌珞喻路 1037号华中科技大学 (72)发明人魏巍　刘宇航　彭道万　刘逸凡　张睿晗　 (74)专利代理机构湖北武汉永嘉专利代理有限公司 42102 专利代理师李丹 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/74(2022.01) G06F 16/33(2019.01) G06F 16/332(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称基于陈述句提示微调的视觉问答方法 (57)摘要本发明公开了一种基于陈述句提示微调的视觉问答方法，包括以下步骤： 1)对于给定的视觉问答输入(I,Q)，将视觉问答中的问题Q转化为陈述句形式； 2)将视觉问答任务转化为答案填词任务； 3)利用步骤2)中填词任务预测的正确答案中的top‑K答案来分别与图像进行匹配，选择出与图像最相符的词汇来作为图文匹配任务的预测答案； 4)结合答案填词和图文匹配任务的预测结果得到答案。本发明提出的方法能够将下游视觉问答任务转化为上游预训练任务形式，从而提高预训练模型泛化到下游视觉问答任务的迁移能力，提升答案预测准确性。权利要求书2页说明书7页附图2页 CN 114913341 A 2022.08.16 CN 114913341 A 1.一种基于陈述句提示微调的视觉问答方法，其特征在于，包括以下步骤： 1)对于给定的视觉问答输入(I,Q)，将视觉问答中的问题Q转化为陈述句形式；其中I代表图像输入， Q代表文本问题输入； 2)将视觉问答任务转化为答案填词任务，具体如下： 2.1)将文本输入构造为： [CLS]Q Answer:D[SEP] 其中， D为问题Q转化的对应的陈述句， [CLS]和[SEP]为特殊标记词汇； D中存在[MASK] 词汇，表示待填入的答案； 2.2)将文本输入转化为词向量，得到词向量特征{e[CLS],e1,…,eme[SEP]}； 2.3)提取图像I的特征，得到一系列视觉目标特征{o1,…,on}； 2.4)将词向量特征和视觉目标特征连接起来输入到多模态预训练模型中，得到各个位置对应的输出，表示为 2.5)选择[CLS]和[MASK]对应的输出h[CLS]和h[MASK]来预测答案， sans＝MLP([h[CLS]； h[MASK]]), 其中，表示在答案集合上的分数， MLP为多层感知机，多模态预训练模型使用如下目标函数进行优化，其中， agt表示正确答案； 3)利用步骤2)中填词任务预测的正确答案中的top ‑K答案来分别与图像进行匹配，选择出与图像最相符的词汇来作为图文匹配任务的预测答案； 4)结合答案填词和图文匹配任务的预测结果得到答案其中，为模型预测的输出词汇为的概率。 2.根据权利要求1所述的基于陈述句提示微调的视觉问答方法，其特征在于，所述步骤 1)中对于给定的视觉问答输入(I,Q)，利用转换模型来生成对应的陈述句；转换模型的训练过程如下： 1.1)对于视觉问答数据集中每一条标注样本，都存在两种答案标注，即answer和 fullAnswer； 1.2)将fullAnswer中出现的answer词替换为[MAS K]，最终得到的句子即为问题的陈述句形式，利用原有视觉问答数据集中的标注，构造出问题转化陈述句的数据集； 1.3)源文本Q为问题，目标文本为陈述句，训练编码器 ‑解码器，最终训练好的模型为用于转换视觉问答任务中的问题的转换模型。 3.根据权利要求1所述的基于陈述句提示微调的视觉问答方法，其特征在于，所述步骤 2)中多模态预训练模型为Vi nVL。权　利　要　求　书 1/2 页 2 CN 114913341 A 24.根据权利要求1所述的基于陈述句提示微调的视觉问答方法，其特征在于，所述步骤 3)中选择出与图像最相符的词汇来作为图文匹配任务的预测答案，具体如下：假设上述答案填词任务输出的top ‑K答案为， {a0,a1,…,aK‑1} 分别使用这些答案词汇替换陈述句D中的[MASK]词，得到K 条候选的陈述句，将文本输入构造为，并将其与视觉目标特征共同输入到多模态预训练模型，利用输出的h[CLS]和表示来预测图文匹配分数，其中，为图像和第k个答案的匹配分数，模型使用如下目标函数进行优化，其中，表示指示函数。权　利　要　求　书 2/2 页 3 CN 114913341 A 3

专利 基于陈述句提示微调的视觉问答方法

专利基于陈述句提示微调的视觉问答方法