(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210545658.5
(22)申请日 2022.05.19
(71)申请人 中国地质大 学 (武汉)
地址 430000 湖北省武汉市洪山区鲁磨路
388号
申请人 武汉蚁图时空科技有限公司
(72)发明人 徐世武 陶年旺 高森 张雪松
李丽
(74)专利代理 机构 武汉知产时代知识产权代理
有限公司 42 238
专利代理师 万文广
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/74(2022.01)
G06V 20/70(2022.01)G06T 7/00(2017.01)
(54)发明名称
一种土地利用样本集缺陷快速发现和评价
的方法
(57)摘要
本发明提供了一种土地利用样本集缺陷快
速发现和评价的方法, 包括样 本设计缺陷发现部
分和样本制作缺陷发现部分; 样 本设计缺陷发现
部分包括: 将样本集内的数据输入至语义邻近度
缺陷侦测模型, 得到语义邻近度分布图, 找出语
义缺陷类别; 样本制作缺陷发现部分: 将语义缺
陷类别的样本数据输入至样本制作缺陷侦测模
型, 该样本制作缺陷侦测模型由改进的PBLC模型
得到, 将平均概率值Cp转换为等效的正样本被标
记比例Cn; 根据得到的语义邻近度分布图和正样
本被标记比例, 得到语义设计缺陷和类内样本缺
陷以及类外样本缺陷。 本发明的有益效果是: 能
够精确得到样本集的缺陷类别和缺陷个数。
权利要求书1页 说明书6页 附图4页
CN 114972858 A
2022.08.30
CN 114972858 A
1.一种土地利用样本集缺陷快速发现和评价的方法, 其特征在于: 包括样本设计缺陷
发现部分和样本制作缺陷发现部分;
样本设计缺陷发现部分包括:
将样本集内的数据输入至语义邻 近度缺陷侦测模型, 得到语义邻 近度分布图和语义缺
陷类别;
样本制作缺陷发现部分:
将语义缺陷类别的数据输入至样本制作缺陷侦测模型, 该样本制作缺陷侦测模型由改
进的PBLC模型 得到, 将平均概 率值Cp转换为 等效的正样本被标记比例Cn;
根据得到的语义邻 近度分布图和正样本被标记比例, 得到语义设计缺陷和类 内样本缺
陷以及类外样本缺陷。
2.如权利要求1所述的一种土地利用样本集缺陷快速发现和评价的方法, 其特征在于:
语义邻近度缺陷侦测模型包括土地利用数据语义的多细节层次表达模型、 语义特征表达模
块和语义邻近度计算模块, 样本集中的数据先是输入至土地利用数据语义的多细节层次表
达模型, 对样本集中的每一个类别进 行语义特征项的描述, 然后进入语义特征表达模块, 最
后进入语义邻近度计算模块, 最终得到语义邻近度分布图。
3.如权利要求2所述的一种土地利用样本集缺陷快速发现和评价的方法, 其特征在于:
根据式(1)计算两个类别间的语义邻近度S(a,b), 通过计算得到的多个语义邻近度, 得到语
义邻近度分布图, 进 而找到设计缺陷的易混淆类别;
其中, G()为密度函数, 用于表征语义特征项的层次集合; 参数α、 β 为修正系数, A、 B表 示
两个不同的类别。
4.如权利要求1所述的一种土地利用样本集缺陷快速发现和评价的方法, 其特征在于:
样本制作缺陷侦测模型包括估算正样本被标记概率模块、 被标记正样本模块和概率频度图
模块, 样本集中的数据先是输入至估算正样本被标记概率模块, 得到估算的正样本被标记
概率, 然后进入被标记正样本模块和概 率频度图模块, 最终得到正样本被标记比例Cn。
5.如权利要求1所述的一种土地利用样本集缺陷快速发现和评价的方法, 其特征在于:
所述正样本被标记比例Cn的计算公式如下:
其中, g(x)为正样本概率, f(x)为样本标记概率, L为分类器识别的标记正样本, P为分
类器识别的正样本, T为 正样本总数。
6.如权利要求1所述的一种土地利用样本集缺陷快速发现和评价的方法, 其特征在于:
该方法还可以通过以下公式得到缺陷个数LabelEr ror:
其中, Cn表示正样本被标记比例, TrueN表示已标记的正样本集合, InError表示类内样
本缺陷, OutEr ror表示类外样本缺陷。权 利 要 求 书 1/1 页
2
CN 114972858 A
2一种土地利用样本集缺陷快速发现和评价的方 法
技术领域
[0001]本发明涉及土地利用样本技术领域, 尤其涉及一种土地利用样本集缺陷快速发现
和评价的方法。
背景技术
[0002]土地利用样本体系设计的核心是类别语义的定义, 语义特征相似度低, 体系设计
才更为合理。 目前国内对语义邻近度有了成熟 的研究, 贾小斌等针对土地利用影像的语义
特征, 依据 《土地利用现状分类》 内容, 结合用地类型的权属特征, 构建了土地利用影像语义
特征的多细节层次表达模型。 随后根据特征匹配的思想, 计算各类别影像在权属、 覆盖成
因、 覆盖类型、 用途、 利用状态、 植被类型、 附着物 性质、 利用方式等 11个方面的匹配 关系, 得
到土地利用影像语义邻近度的具体关系值, 实现了土地利用影像从语义特征建模到语义邻
近度计算的全过程; 罗芳等提出一种三重语义精度量化评价的方法。 首先利用语义层次树
和语义距离 建立语义隶属度计算模型, 然后由局部到整体, 从单一图斑、 单一覆盖类型及整
幅地图这3个层次建立精度评价模型。 这些方法对样本集的类型体系设计借鉴大有裨益, 但
是目前的设计是为人工管理土地服务的, 不完全适合土地利用样本集构建, 因为人对利用
的理解比机器对利用的理解能力高阶很多, 机器需要更具体细致的分类体系, 因此前人 的
方法可以用作定量评估样本集现有体系样本的设计质量, 通过对不同类型样本间内涵距离
的分析。
[0003]国外学者深入研究了样本错误对深度学习benchmark 的影响, 认为缺陷错误对训
练影响小, 对评价和深度学习方法改进影响大。 Northcutt等[3]发现机器学习测试集确实
普遍包含错误, 并且这些错误会破坏机器学习基准的稳定性, 因为研究人员依靠基准测试
数据集来评估和测量最新进展, 并验证理论 发现。 如果标记 错误大量出现, 可能会破坏 衡量
机器学习进展的框架, 导致研究人员对哪些模型在实际中表现最好得出错误的结论。 但是,
该研究未涉及样本缺陷发现方法的研究与评价, 国外研究没有深入探讨遥感领域广泛使用
的大型土地利用样本集的错 误发现和成因。
发明内容
[0004]为了解决上述问题, 本发明提供了一种土地利用样本集缺陷快速发现和评价的方
法, 主要包括: 样本设计缺陷发现部分和样本制作缺陷发现部分;
[0005]样本设计缺陷发现部分包括:
[0006]将样本集内的数据输入至语义邻近度缺陷侦测模型, 得到语义邻近度分布图和语
义缺陷类别;
[0007]样本制作缺陷发现部分:
[0008]将语义缺陷类别数据输入至样本制作缺陷侦测模型, 该样本制作缺陷侦测模型由
改进的PBLC模型 得到, 将平均概 率值Cp转换为 等效的正样本被标记比例Cn;
[0009]根据得到的语义邻近度分布图和正样本被标记比例, 得到语义设计缺陷和类内样说 明 书 1/6 页
3
CN 114972858 A
3
专利 一种土地利用样本集缺陷快速发现和评价的方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:59上传分享