standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210588207.X (22)申请日 2022.05.26 (71)申请人 华中科技大 学 地址 430074 湖北省武汉市武昌珞喻路 1037号华中科技大 学 (72)发明人 魏巍 刘宇航 彭道万 刘逸凡  张睿晗  (74)专利代理 机构 湖北武汉 永嘉专利代理有限 公司 42102 专利代理师 李丹 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/74(2022.01) G06F 16/33(2019.01) G06F 16/332(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 基于陈述句提 示微调的视 觉问答方法 (57)摘要 本发明公开了一种基于陈述句提示微调的 视觉问答方法, 包括以下步骤: 1)对于给定的视 觉问答输入(I,Q), 将视觉问答中的问题Q转化为 陈述句形式; 2)将视觉问答任务转化为答案填词 任务; 3)利用步骤2)中填词任务预测的正确答案 中的top‑K答案来分别与图像进行匹配, 选择出 与图像最相符的词汇来作为图文匹配任务的预 测答案; 4)结合答案填词和图文匹配任务的预测 结果得到答案。 本发明提出的方法能够将下游视 觉问答任务转化为上游预训练任务形式, 从而提 高预训练模型泛化到下游视觉问答任务的迁移 能力, 提升答案预测准确性。 权利要求书2页 说明书7页 附图2页 CN 114913341 A 2022.08.16 CN 114913341 A 1.一种基于陈述句提 示微调的视 觉问答方法, 其特 征在于, 包括以下步骤: 1)对于给定的视觉问答输入(I,Q), 将视觉问答中的问题Q转化为陈述句形式; 其中I代 表图像输入, Q代 表文本问题输入; 2)将视觉问答任务 转化为答案填词任务, 具体如下: 2.1)将文本 输入构造为: [CLS]Q Answer:D[SEP] 其中, D为问题Q转化 的对应的陈述句, [CLS]和[SEP]为特殊标记词汇; D中存在[MASK] 词汇, 表示待填入的答案; 2.2)将文本 输入转化为词向量, 得到词向量特 征{e[CLS],e1,…,eme[SEP]}; 2.3)提取图像I的特 征, 得到一系列视 觉目标特征{o1,…,on}; 2.4)将词向量特征和视觉目标特征连接起来输入到多模态预训练模型中, 得到各个位 置对应的输出, 表示 为 2.5)选择[CLS]和[MASK]对应的输出h[CLS]和h[MASK]来预测答案, sans=MLP([h[CLS]; h[MASK]]), 其中, 表示在答案集合 上的分数, MLP为多层感知机, 多模态预训练模型 使用如下目标函数进行优化, 其中, agt表示正确答案; 3)利用步骤2)中填词任务预测的正确答案中的top ‑K答案来分别与图像进行匹配, 选 择出与图像最相符的词汇来作为图文匹配任务的预测答案; 4)结合答案填词和图文匹配任务的预测结果得到答案 其中, 为模型预测的输出词汇为 的概率。 2.根据权利要求1所述的基于陈述句提示微调的视觉问答方法, 其特征在于, 所述步骤 1)中对于给定的视觉问答输入(I,Q), 利用转换模 型来生成对应的陈述句; 转换模 型的训练 过程如下: 1.1)对于视觉问答数据集中每一条标注样本, 都存在两种答案标注, 即answer和 fullAnswer; 1.2)将fullAnswer中出现的answer词替换为[MAS K], 最终得到的句子即为问题的陈述 句形式, 利用原有视 觉问答数据集中的标注, 构造出问题转 化陈述句的数据集; 1.3)源文本Q为问题, 目标文本为陈述句, 训练编码器 ‑解码器, 最终训练好的模型为用 于转换视 觉问答任务中的问题的转换模型。 3.根据权利要求1所述的基于陈述句提示微调的视觉问答方法, 其特征在于, 所述步骤 2)中多模态预训练模型为Vi nVL。权 利 要 求 书 1/2 页 2 CN 114913341 A 24.根据权利要求1所述的基于陈述句提示微调的视觉问答方法, 其特征在于, 所述步骤 3)中选择 出与图像最相符的词汇来作为图文匹配任务的预测答案, 具体如下: 假设上述 答案填词任务输出的top ‑K答案为, {a0,a1,…,aK‑1} 分别使用这些答案词汇替换陈述句D中的[MASK]词, 得到K 条候选的 陈述句, 将文本输入构造为, 并将其与视觉目标特征共同输入到多模态预训练模型, 利用输出的h[CLS]和 表示 来预测图文匹配分数, 其中, 为图像和第k个答案的匹配分数, 模型使用如下目标函数进行优化, 其中, 表示指示 函数。权 利 要 求 书 2/2 页 3 CN 114913341 A 3

PDF文档 专利 基于陈述句提示微调的视觉问答方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于陈述句提示微调的视觉问答方法 第 1 页 专利 基于陈述句提示微调的视觉问答方法 第 2 页 专利 基于陈述句提示微调的视觉问答方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:31:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。