专利 一种土地利用样本集缺陷快速发现和评价的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210545658.5 (22)申请日 2022.05.19 (71)申请人中国地质大学（武汉）地址 430000 湖北省武汉市洪山区鲁磨路 388号申请人武汉蚁图时空科技有限公司 (72)发明人徐世武　陶年旺　高森　张雪松　李丽　 (74)专利代理机构武汉知产时代知识产权代理有限公司 42 238 专利代理师万文广 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/74(2022.01) G06V 20/70(2022.01)G06T 7/00(2017.01) (54)发明名称一种土地利用样本集缺陷快速发现和评价的方法 (57)摘要本发明提供了一种土地利用样本集缺陷快速发现和评价的方法，包括样本设计缺陷发现部分和样本制作缺陷发现部分；样本设计缺陷发现部分包括：将样本集内的数据输入至语义邻近度缺陷侦测模型，得到语义邻近度分布图，找出语义缺陷类别；样本制作缺陷发现部分：将语义缺陷类别的样本数据输入至样本制作缺陷侦测模型，该样本制作缺陷侦测模型由改进的PBLC模型得到，将平均概率值Cp转换为等效的正样本被标记比例Cn；根据得到的语义邻近度分布图和正样本被标记比例，得到语义设计缺陷和类内样本缺陷以及类外样本缺陷。本发明的有益效果是：能够精确得到样本集的缺陷类别和缺陷个数。权利要求书1页说明书6页附图4页 CN 114972858 A 2022.08.30 CN 114972858 A 1.一种土地利用样本集缺陷快速发现和评价的方法，其特征在于：包括样本设计缺陷发现部分和样本制作缺陷发现部分；样本设计缺陷发现部分包括：将样本集内的数据输入至语义邻近度缺陷侦测模型，得到语义邻近度分布图和语义缺陷类别；样本制作缺陷发现部分：将语义缺陷类别的数据输入至样本制作缺陷侦测模型，该样本制作缺陷侦测模型由改进的PBLC模型得到，将平均概率值Cp转换为等效的正样本被标记比例Cn；根据得到的语义邻近度分布图和正样本被标记比例，得到语义设计缺陷和类内样本缺陷以及类外样本缺陷。 2.如权利要求1所述的一种土地利用样本集缺陷快速发现和评价的方法，其特征在于：语义邻近度缺陷侦测模型包括土地利用数据语义的多细节层次表达模型、语义特征表达模块和语义邻近度计算模块，样本集中的数据先是输入至土地利用数据语义的多细节层次表达模型，对样本集中的每一个类别进行语义特征项的描述，然后进入语义特征表达模块，最后进入语义邻近度计算模块，最终得到语义邻近度分布图。 3.如权利要求2所述的一种土地利用样本集缺陷快速发现和评价的方法，其特征在于：根据式(1)计算两个类别间的语义邻近度S(a,b)，通过计算得到的多个语义邻近度，得到语义邻近度分布图，进而找到设计缺陷的易混淆类别；其中， G()为密度函数，用于表征语义特征项的层次集合；参数α、 β 为修正系数， A、 B表示两个不同的类别。 4.如权利要求1所述的一种土地利用样本集缺陷快速发现和评价的方法，其特征在于：样本制作缺陷侦测模型包括估算正样本被标记概率模块、被标记正样本模块和概率频度图模块，样本集中的数据先是输入至估算正样本被标记概率模块，得到估算的正样本被标记概率，然后进入被标记正样本模块和概率频度图模块，最终得到正样本被标记比例Cn。 5.如权利要求1所述的一种土地利用样本集缺陷快速发现和评价的方法，其特征在于：所述正样本被标记比例Cn的计算公式如下：其中， g(x)为正样本概率， f(x)为样本标记概率， L为分类器识别的标记正样本， P为分类器识别的正样本， T为正样本总数。 6.如权利要求1所述的一种土地利用样本集缺陷快速发现和评价的方法，其特征在于：该方法还可以通过以下公式得到缺陷个数LabelEr ror：其中， Cn表示正样本被标记比例， TrueN表示已标记的正样本集合， InError表示类内样本缺陷， OutEr ror表示类外样本缺陷。权　利　要　求　书 1/1 页 2 CN 114972858 A 2一种土地利用样本集缺陷快速发现和评价的方法技术领域 [0001]本发明涉及土地利用样本技术领域，尤其涉及一种土地利用样本集缺陷快速发现和评价的方法。背景技术 [0002]土地利用样本体系设计的核心是类别语义的定义，语义特征相似度低，体系设计才更为合理。目前国内对语义邻近度有了成熟的研究，贾小斌等针对土地利用影像的语义特征，依据《土地利用现状分类》内容，结合用地类型的权属特征，构建了土地利用影像语义特征的多细节层次表达模型。随后根据特征匹配的思想，计算各类别影像在权属、覆盖成因、覆盖类型、用途、利用状态、植被类型、附着物性质、利用方式等 11个方面的匹配关系，得到土地利用影像语义邻近度的具体关系值，实现了土地利用影像从语义特征建模到语义邻近度计算的全过程；罗芳等提出一种三重语义精度量化评价的方法。首先利用语义层次树和语义距离建立语义隶属度计算模型，然后由局部到整体，从单一图斑、单一覆盖类型及整幅地图这3个层次建立精度评价模型。这些方法对样本集的类型体系设计借鉴大有裨益，但是目前的设计是为人工管理土地服务的，不完全适合土地利用样本集构建，因为人对利用的理解比机器对利用的理解能力高阶很多，机器需要更具体细致的分类体系，因此前人的方法可以用作定量评估样本集现有体系样本的设计质量，通过对不同类型样本间内涵距离的分析。 [0003]国外学者深入研究了样本错误对深度学习benchmark 的影响，认为缺陷错误对训练影响小，对评价和深度学习方法改进影响大。 Northcutt等[3]发现机器学习测试集确实普遍包含错误，并且这些错误会破坏机器学习基准的稳定性，因为研究人员依靠基准测试数据集来评估和测量最新进展，并验证理论发现。如果标记错误大量出现，可能会破坏衡量机器学习进展的框架，导致研究人员对哪些模型在实际中表现最好得出错误的结论。但是，该研究未涉及样本缺陷发现方法的研究与评价，国外研究没有深入探讨遥感领域广泛使用的大型土地利用样本集的错误发现和成因。发明内容 [0004]为了解决上述问题，本发明提供了一种土地利用样本集缺陷快速发现和评价的方法，主要包括：样本设计缺陷发现部分和样本制作缺陷发现部分； [0005]样本设计缺陷发现部分包括： [0006]将样本集内的数据输入至语义邻近度缺陷侦测模型，得到语义邻近度分布图和语义缺陷类别； [0007]样本制作缺陷发现部分： [0008]将语义缺陷类别数据输入至样本制作缺陷侦测模型，该样本制作缺陷侦测模型由改进的PBLC模型得到，将平均概率值Cp转换为等效的正样本被标记比例Cn； [0009]根据得到的语义邻近度分布图和正样本被标记比例，得到语义设计缺陷和类内样说　明　书 1/6 页 3 CN 114972858 A 3

专利 一种土地利用样本集缺陷快速发现和评价的方法

专利一种土地利用样本集缺陷快速发现和评价的方法