(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210588207.X
(22)申请日 2022.05.26
(71)申请人 华中科技大 学
地址 430074 湖北省武汉市武昌珞喻路
1037号华中科技大 学
(72)发明人 魏巍 刘宇航 彭道万 刘逸凡
张睿晗
(74)专利代理 机构 湖北武汉 永嘉专利代理有限
公司 42102
专利代理师 李丹
(51)Int.Cl.
G06V 10/44(2022.01)
G06V 10/74(2022.01)
G06F 16/33(2019.01)
G06F 16/332(2019.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 20/00(2019.01)
(54)发明名称
基于陈述句提 示微调的视 觉问答方法
(57)摘要
本发明公开了一种基于陈述句提示微调的
视觉问答方法, 包括以下步骤: 1)对于给定的视
觉问答输入(I,Q), 将视觉问答中的问题Q转化为
陈述句形式; 2)将视觉问答任务转化为答案填词
任务; 3)利用步骤2)中填词任务预测的正确答案
中的top‑K答案来分别与图像进行匹配, 选择出
与图像最相符的词汇来作为图文匹配任务的预
测答案; 4)结合答案填词和图文匹配任务的预测
结果得到答案。 本发明提出的方法能够将下游视
觉问答任务转化为上游预训练任务形式, 从而提
高预训练模型泛化到下游视觉问答任务的迁移
能力, 提升答案预测准确性。
权利要求书2页 说明书7页 附图2页
CN 114913341 A
2022.08.16
CN 114913341 A
1.一种基于陈述句提 示微调的视 觉问答方法, 其特 征在于, 包括以下步骤:
1)对于给定的视觉问答输入(I,Q), 将视觉问答中的问题Q转化为陈述句形式; 其中I代
表图像输入, Q代 表文本问题输入;
2)将视觉问答任务 转化为答案填词任务, 具体如下:
2.1)将文本 输入构造为:
[CLS]Q Answer:D[SEP]
其中, D为问题Q转化 的对应的陈述句, [CLS]和[SEP]为特殊标记词汇; D中存在[MASK]
词汇, 表示待填入的答案;
2.2)将文本 输入转化为词向量, 得到词向量特 征{e[CLS],e1,…,eme[SEP]};
2.3)提取图像I的特 征, 得到一系列视 觉目标特征{o1,…,on};
2.4)将词向量特征和视觉目标特征连接起来输入到多模态预训练模型中, 得到各个位
置对应的输出, 表示 为
2.5)选择[CLS]和[MASK]对应的输出h[CLS]和h[MASK]来预测答案,
sans=MLP([h[CLS]; h[MASK]]),
其中,
表示在答案集合
上的分数, MLP为多层感知机, 多模态预训练模型
使用如下目标函数进行优化,
其中, agt表示正确答案;
3)利用步骤2)中填词任务预测的正确答案中的top ‑K答案来分别与图像进行匹配, 选
择出与图像最相符的词汇来作为图文匹配任务的预测答案;
4)结合答案填词和图文匹配任务的预测结果得到答案
其中,
为模型预测的输出词汇为
的概率。
2.根据权利要求1所述的基于陈述句提示微调的视觉问答方法, 其特征在于, 所述步骤
1)中对于给定的视觉问答输入(I,Q), 利用转换模 型来生成对应的陈述句; 转换模 型的训练
过程如下:
1.1)对于视觉问答数据集中每一条标注样本, 都存在两种答案标注, 即answer和
fullAnswer;
1.2)将fullAnswer中出现的answer词替换为[MAS K], 最终得到的句子即为问题的陈述
句形式, 利用原有视 觉问答数据集中的标注, 构造出问题转 化陈述句的数据集;
1.3)源文本Q为问题, 目标文本为陈述句, 训练编码器 ‑解码器, 最终训练好的模型为用
于转换视 觉问答任务中的问题的转换模型。
3.根据权利要求1所述的基于陈述句提示微调的视觉问答方法, 其特征在于, 所述步骤
2)中多模态预训练模型为Vi nVL。权 利 要 求 书 1/2 页
2
CN 114913341 A
24.根据权利要求1所述的基于陈述句提示微调的视觉问答方法, 其特征在于, 所述步骤
3)中选择 出与图像最相符的词汇来作为图文匹配任务的预测答案, 具体如下:
假设上述 答案填词任务输出的top ‑K答案为,
{a0,a1,…,aK‑1}
分别使用这些答案词汇替换陈述句D中的[MASK]词, 得到K 条候选的 陈述句,
将文本输入构造为,
并将其与视觉目标特征共同输入到多模态预训练模型, 利用输出的h[CLS]和
表示
来预测图文匹配分数,
其中,
为图像和第k个答案的匹配分数, 模型使用如下目标函数进行优化,
其中,
表示指示 函数。权 利 要 求 书 2/2 页
3
CN 114913341 A
3
专利 基于陈述句提示微调的视觉问答方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:04上传分享