专利 一种基于自然语言的图像无监督分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210992923.4 (22)申请日 2022.08.18 (71)申请人铭台（北京）科技有限公司地址 100085 北京市海淀区信息路甲28号8 层D座08A3 6 (72)发明人孟超越　常智山　史建华　周志扬　 (74)专利代理机构安徽致至知识产权代理事务所(普通合伙) 34221 专利代理师陈文龙 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/74(2022.01) (54)发明名称一种基于自然语言的图像无监督分类方法 (57)摘要本发明公开了一种基于自然语言的图像无监督分类方法，具体涉及图像分类领域，包括如下步骤， S1.设定分类目标的关键词； S2.数据采集， S3.图像分类标签生成：上一步生成的类别编号转换成one ‑hot编码，再乘上相似度； S4.训练图像分类模型； S5.推理过程：直接使用图像分类，不需自然语言处理过程，利用图像的标题或相关文字描述与图像之间相关性，实现图像无监督分类，引入了与图像相关联的语义信息，从而达到降低分类的不确定性，使分类后的图像富有具体含义，关键词由人工设定，可以按照具体场景需求分类图像，节省人工标注成本，节省时间，提高开发效率。权利要求书1页说明书2页 CN 115457309 A 2022.12.09 CN 115457309 A 1.一种基于自然语言的图像无监督分类方法，其特征在于：包括如下步骤， S1.设定分类目标的关键词； S2.数据采集，步骤如下： S2.1.利用分布式爬虫技术获取图像数据和与之相关的标题及描述信息； S2.2.用自然语言处理技术，分析关键词与标题信息的相似度，把图像分到相应类别； S2.3.建立映射表，把人为设定的类别编号，记录图像类别、相似度及与之对应文本名称； S3.图像分类标签生成：上一步生成的类别编号转换成one‑hot编码，再乘上相似度； S4.训练图像分类模型； S5.推理过程：直接使用图像分类，不需自然语言处理过程。 2.根据权利要求1所述的一种基于自然语言的图像无监督分类方法，其特征在于：所述 S2.2中分析关键词与标题信息的相似度采用余弦定理。 3.根据权利要求1所述的一种基于自然语言的图像无监督分类方法，其特征在于：所述 S2.3中建立映射表方法为从互联网上抓取带有标题或相关文字描述的图像，把文字信息存入文本文件，对文本和图像进行统一编号，按编号建立映射表。 4.根据权利要求1所述的一种基于自然语言的图像无监督分类方法，其特征在于：所述 S2.3中相似度为文本与关键词之间的相似度，超过设定阈值的文本关联图像分到关键词对应的类别中，并记录相似度，生成分类标签。 5.根据权利要求1所述的一种基于自然语言的图像无监督分类方法，其特征在于：所述 S4中训练图像分类模型包括使用DeepCluster方法预训练、再使用迁移学习方法训练分类模型。权　利　要　求　书 1/1 页 2 CN 115457309 A 2一种基于自然语言的图像无监督分类方法技术领域 [0001]本发明涉及图像分类领域，具体为一种基于自然语言的图像无监督分类方法。背景技术 [0002]图像分类任务在很大程度上是靠监督学习实现的，通过人工标注分类目标训练模型，并最终实现分类。工程实践中，标注成本会随着目标数量、可辨识难度呈指数级增长，自然就希望机器能代替人工标注，因此近些年出现不少关于无监督图像分类的研究，这些方法本质上是基于图像本身特征的聚类算法，例如DeepCluster方法，有的增加一些上下文信息辅助聚类。 [0003]无监督方法在一定程度上解决了自动标注的分类问题，例如Facebook的 DeepCluster方法，效果较好且具有代表性，整个过程包含对网络生成特征向量进行聚类，然后基于聚类(k ‑means)的结果作为伪标签，更新网络的参数，再让网络预测这些伪标签和生成新的特征向量，新向量重新聚类， …，这两个过程不断迭代进行。 [0004]现有方法存在分类后的图像没有明确的意义、图像本身的相似性难以按特定的需求去量化表达的缺点。发明内容 [0005]本发明的目的在于提供一种基于自然语言的图像无监督分类方法，使图像无监督分类结果具有目的性，可直接用于特定场景，利用图像与自然语言的相关性，用自然语言分类结果引导图像分类，可实现按特定目的的分类效果。 [0006]为实现上述目的，本发明提供如下技术方案： [0007]一种基于自然语言的图像无监督分类方法，包括如下步骤， [0008]S1.设定分类目标的关键词； [0009]S2.数据采集，步骤如下： [0010]S2.1.利用分布式爬虫技术获取图像数据和与之相关的标题及描述信息； [0011]S2.2.用自然语言处理技术，分析关键词与标题信息的相似度，把图像分到相应类别； [0012]S2.3.建立映射表，把人为设定的类别编号，记录图像类别、相似度及与之对应文本名称； [0013]S3.图像分类标签生成：上一步生成的类别编号转换成one ‑hot编码，再乘上相似度； [0014]S4.训练图像分类模型； [0015]S5.推理过程：直接使用图像分类，不需自然语言处理过程。 [0016]优选的，所述S2.2中分析关键词与标题信息的相似度采用余弦定理。 [0017]优选的，所述S2.3中建立映射表方法为从互联网上抓取带有标题或相关文字描述的图像，把文字信息存入文本文件，对文本和图像进行统一编号，按编号建立映射表。说　明　书 1/2 页 3 CN 115457309 A 3

专利 一种基于自然语言的图像无监督分类方法

专利一种基于自然语言的图像无监督分类方法