standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210779801.7 (22)申请日 2022.07.04 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 申请人 北京理工大 学重庆创新中心 (72)发明人 师皓 崔子涵 陈亮 方中昊  何成  (74)专利代理 机构 重庆智慧之源知识产权代理 事务所(普通 合伙) 50234 专利代理师 余洪 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01)G06T 3/00(2006.01) G06N 3/08(2006.01) (54)发明名称 基于ViT-Pix2Pix的光学图像翻译方法 (57)摘要 本发明提供一种基于ViT ‑Pix2Pix的光学图 像翻译方法, 包括: 获取待测SAR图像; 构建初始 目标翻译网络模型, 并通过成对的SAR图像和光 学图像对初始目标翻译网络模型进行参数优化, 获取目标翻译网络模型, 目标翻译网络模型为 Vision Transformer与Pix2Pix相结合的模型, 包括有生成器和判别器, 其中, 生成器用于将SAR 图像翻译为伪光学图像, 判别器用于判断输入光 学图像是否为SAR图像匹配的真光学图像, 生成 器和判别器以对抗的形式完成神经网络训练优 化; 将待测SAR图像输入目标翻译网络模型, 获取 目标光学图像。 本发明能够提高判别器的性能, 并确保网络模 型训练的稳定性, 提高了生成图像 的质量。 权利要求书3页 说明书7页 附图2页 CN 115272787 A 2022.11.01 CN 115272787 A 1.一种基于ViT ‑Pix2Pix的光学图像翻译方法, 其特 征在于, 包括以下步骤: 获取待测SAR图像; 构建初始目标翻译网络模型, 并通过成对的SAR图像和光学图像对所述初始目标翻译 网络模型进行参数优化, 获取目标翻译网络模型, 所述目标翻译网络模型为Vision   Transformer与Pix2Pix相结合的模型, 包括有生成器和判别器, 其中, 所述生成器用于将 SAR图像翻译为伪光学图像, 所述判别器用于判断输入光学图像是否为所述SAR图像匹配的 真光学图像, 所述 生成器和判别器以对抗的形式完成神经网络训练优化; 将所述待测SAR图像输入所述目标翻译网络模型, 获取目标光学图像。 2.根据权利要求1所述的基于ViT ‑Pix2Pix的光学图像翻译方法, 其特征在于, 所述构 建初始目标翻译网络, 并通过成对的SAR图像和光学图像对所述初始目标翻译网络进行参 数优化, 获取目标翻译网络, 具体包括: 以Pix2Pix为基础模型, 结合Vision  Transformer, 形成ViT ‑Pix2Pix初始目标翻译网 络模型; 通过成对的SAR图像和光学图像, 对所述初始目标翻译网络模型进行参数优化; 将SAR图像输入生成器, 输出与所述SAR图像对应的伪光学图像; 对SAR图像与真光学图像、 SAR图像与伪光学图像对进行 数据增强; 将数据增强后的图像对输入判别器, 通过判别器将图像对分割为固定大小且互不重叠 的小块, 并展平为线性嵌入进行处 理, 输出光学图像为真实图像且与SAR图像匹配的概 率; 通过交叉熵损失函数、 L1损失函数与平衡一致性正则化方法, 对生成器和判别器进行 参数优化, 得到目标翻译模型。 3.根据权利要求2所述的基于ViT ‑Pix2Pix的光学图像翻译方法, 其特征在于, 所述将 SAR图像输入生成器, 输出与所述SAR图像对应的伪光学图像, 具体包括: 获取作为训练样本的SAR图像与对应的真光学图像, 作为图像对; 将所述图像对输入生成器, 通过所述生成器进行特征提取, 获取伪光学图像, 所述生成 器为U‑Net。 4.根据权利要求3所述的基于ViT ‑Pix2Pix的光学图像翻译方法, 其特征在于, 所述生 成器的训练优化具体包括: 根据所述SAR图像、 真光学图像和伪光学图像, 分别计算真光学图像和伪光学图像的L1 损失, 及生成器 应用的分类损失, 公式为: LL1(G)=Ex, y[||y‑G(x)||1] LcGAN(G)=‑Ex[logD(x, G(x) )] 式中, x表示SA R图像, G表示由SAR图像生成光学图像的生成器, G(x)表示生成器生成的 伪光学图像, y表示真光学图像, ‖ ·‖1表示求两个图像对应像素之间的差值的绝对值之和, Ex,y[·]代表对所有的图像对(x,y)计算损失后的期望, 得到最终的损失, Ex[·]表示对SAR 图像计算损失后的期望; 根据所述 L1损失和分类损失, 计算所述 生成器的总损失为: L(G)=LcGAN(G)+λL1LL1(G) 式中, λL1为可设置的超参数; 根据生成器的总损 失, 采用反向传播算法更新生成器的神经网络训练参数, 实现对生权 利 要 求 书 1/3 页 2 CN 115272787 A 2成器的优化。 5.根据权利要求3所述的基于ViT ‑Pix2Pix的光学图像翻译方法, 其特征在于, 所述判 别器的训练优化具体包括: 将所述图像对输入Vision  Transformer网络模型, 判别光学图像的真伪和图像对中的 两张图像是否匹配; 将所述图像对中的两张图像合并为多通道的输入, 并分割成固定尺寸、 互不重叠的小 块, 经全连接层得到线性 排列的嵌入, 并在序列开头添加分类符号; 对线性排列的嵌入添加位置信息编码后, 在改进自我注意力层的Transformer编码器 中完成处 理; 将分类符号的输出 特征输入多层感知器完成判别, 获取真光学图像和伪光学图像。 6.根据权利要求5所述的基于ViT ‑Pix2Pix的光学图像翻译方法, 其特征在于, 所述 Vision Transformer网络模型的自我注意力层改进, 具体包括: 采用L2距离代替自我注意力过程中的点积运算, 并用于查询和输入自我注意的投影矩 阵的权重绑定, 改进的自我注意力层计算 为: 式中, Wq=Wk, Wq、 Wk和Wv分别是查询、 键和值的投影矩阵, d( ·,·)计算两组点之间的矢 量化L2距离, 是每个头部的特征尺寸; 采用谱归一化方法, 对改进后的Visi on Transformer网络模型进行优化。 7.根据权利要求5所述的基于ViT ‑Pix2Pix的光学图像翻译方法, 其特征在于, 所述判 别器训练过程中产生的分类损失为: 将改进后的Vision  Transformer网络模型应用到判别器中, 根据判别器的判断结果的 正确或错 误, 得到真光学图像或伪光学图像间的分类损失: LcGAN(D)=‑Ex, y[logD(x, y)] ‑Ex[1‑logD(x, G(x) )] 式中, D(x,y)代表将x, y输入判别器D, 得到判别结果; D(x,G(x))代表将x, G(x)输入判 别器D, 得到判别结果; G(x)为x输入生成器生成的伪光学图像; 对所有SAR图像正确的判断结果取期望, 得到光学图像间的分类损失。 8.根据权利要求5所述的基于ViT ‑Pix2Pix的光学图像翻译方法, 其特征在于, 采用平 衡一致性正则化方法, 得到判别器的L2损失, 具体包括: 对SAR图像与伪光学图像对、 SAR图像与真实光学图像对分别进行数据增强, 将数据增 强后的图像对输入改进后的Visi on Transformer网络模型; 采用L2损失要求数据增强后的图像对输出 结果与为增强的结果 一致, 公式为: LbCR_fake=||D(x,G(x) )‑D(T(x,G(x) ))||2 LbCR_real=||D(x,y)‑D(T(x,y) )||2 式中, x代表SA R图像, G代表由SAR图像生成光学图像的生成器, G(x)代表生成器生成的 伪光学图像, y代表真实光学图像, D代表输入SAR图像与光学图像对的判别器, D(x,G(x))与 D(x,y)分别代表SAR图像与伪光学图像对、 SAR图像与真实光学图像对输入判别器的结果, T权 利 要 求 书 2/3 页 3 CN 115272787 A 3

PDF文档 专利 基于ViT-Pix2Pix的光学图像翻译方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于ViT-Pix2Pix的光学图像翻译方法 第 1 页 专利 基于ViT-Pix2Pix的光学图像翻译方法 第 2 页 专利 基于ViT-Pix2Pix的光学图像翻译方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:32:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。