standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210537018.X (22)申请日 2022.05.17 (71)申请人 慧壹科技 (上海) 有限公司 地址 201316 上海市浦东 新区中国 (上海) 自由贸易试验区临港新片区环湖西二 路888号C楼 申请人 香港圆壹智慧有限公司   美国圆壹智慧科技有限公司 (72)发明人 金羽童 潘麓蓉  (74)专利代理 机构 北京清大紫荆知识产权代理 有限公司 1 1718 专利代理师 郑纯 黎飞鸿 (51)Int.Cl. G06V 10/762(2022.01) G06V 10/40(2022.01)G06V 10/74(2022.01) G06V 10/77(2022.01) (54)发明名称 一种化合物聚类的方法、 装置、 系统及存储 介质 (57)摘要 本申请提供一种化合物聚类的方法、 装置、 系统及存储介质, 通过获取待识别化合物样本, 并将所述待识别化合物样本分割为包含初始识 别标签的样本子集; 根据样本子集, 得到样本图 例; 根据样本图例以及识别标签, 得到待识别化 合物样本对应的目标识别结果; 其中, 所述识别 标签包括所述初始识别标签。 本发 明基于统计类 化合物聚类, 提供一种 高效、 快速以及精准的小 分子化合物聚类的方法, 提升小分子化合物聚类 的准确性、 降低聚类的处理空间, 突破小分子聚 类的局限性, 从而使小分子化合物聚类的处理更 加高效和精准。 权利要求书1页 说明书8页 附图3页 CN 115049866 A 2022.09.13 CN 115049866 A 1.一种化 合物聚类的方法, 其特 征在于, 所述方法包括: 获取待识别化合物样本, 并将所述待识别化合物样本分割为包含初始识别标签的样本 子集; 根据所述样本 子集, 得到样本图例; 根据所述样本 图例以及识别标签, 得到所述待识别化合物样本对应的目标识别结果; 其中, 所述识别标签包括所述初始 识别标签。 2.根据权利要求1所述方法, 其特 征在于, 所述识别标签包括图例标签。 3.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括: 通过对所述样本 图例进行特征提取, 结合化合物对应的指纹特征, 训练获得所述图例 标签。 4.根据权利要求2所述的方法, 其特征在于, 根据所述样本 图例以及识别标签, 得到所 述待识别化 合物样本对应的目标识别结果, 包括: 根据所述样本 图例、 所述初始识别标签以及所述图例标签, 将所述样本 图例中满足所 述初始识别标签和所述图例标签对应的待识别化 合物聚类为同类别; 根据不同类别化合物对应的初始识别标签以及图例标签, 分别获得所有待识别化合物 样本对应的识别类别。 5.根据权利要求4所述的方法, 其特征在于, 将所述样本图例中满足所述初始识别标签 和所述图例标签对应的待识别化 合物聚类为同类别, 包括: 获取所述初始 识别标签和所述图例标签达 到预设阈值对应的样例标准图; 对所有样本图例与 所述样例标准图进行相似计算, 若所述样本图例与 所述样例标准图 相匹配, 则将所述样本图例对应待识别化 合物聚类为同类别。 6.根据权利要求1所述的方法, 其特 征在于, 根据所述样本 子集; 得到样本图例, 包括: 根据所述样本子集中化合物的属性特征, 将所述样本子集中每个待识别化合物样本转 化得到对应的样本图例。 7.根据权利要求1所述的方法, 其特征在于, 在得到所述待识别化合物样本对应的目标 识别结果之后, 还 包括: 输出所述目标识别结果, 并将所述目标识别结果对应的所述待识别化合物样本进行存 储。 8.一种化 合物聚类的装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取待识别化合物样本, 并将所述待识别化合物样本分割为包含初始 识别标签的样本 子集; 得到模块, 用于根据所述样本 子集; 得到样本图例; 输出模块, 用于根据所述样本 图例以及识别标签, 得到所述待识别化合物样本对应的 目标识别结果; 其中, 所述识别标签包括所述初始 识别标签。 9.一种化合物聚类的系统, 其特征在于, 包括: 存储器、 处理器以及计算机程序, 所述计 算机程序存储在所述存储器中, 所述处理器运行所述计算机程序执行权利要求 1至7中任一 所述化合物聚类的方法。 10.一种可读存储介质, 其特征在于, 所述可读存储介质中存储有计算机程序, 所述计 算机程序被处 理器执行时用于实现权利要求1至7中任一所述 化合物聚类的方法。权 利 要 求 书 1/1 页 2 CN 115049866 A 2一种化合物聚类的方 法、 装置、 系统及存 储介质 技术领域 [0001]本申请涉及信息处理技术领域, 具体涉及一种化合物聚类的方法、 装置、 系统及存 储介质。 背景技术 [0002]我们通常称由几个或几十个原子组成的分子为小分子, 常温下可以呈固态、 气态 和液态的物质。 常见的有机小分子化 合物如乙醇、 葡萄糖和甲烷 等。 [0003]聚类用于将大型化合物数据集合细分为单个小组相似化合物。 通常用于分析高通 量筛选结果、 虚拟筛选或对接研究 的分析。 传统的基于化学信息学的聚类方法识别效率低, 且识别速度缓慢。 即使采用化合物指纹特征 的相似性来识别, 对计算与存储空间的需求过 多, 造成识别的化 合物有限。 [0004]因此, 需要一种新方案 。 发明内容 [0005]有鉴于此, 本说明书实施例提供一种化合物聚类 的方法、 装置、 系统及存储介质, 用于小分子化 合物聚类过程。 [0006]本说明书实施例提供以下技 术方案: [0007]本说明书实施例提供一种化 合物聚类的方法, 包括: [0008]获取待识别化合物样本, 并将 所述待识别化合物样本分割为包含初始识别标签的 样本子集; [0009]根据所述样本 子集; 得到样本图例; [0010]根据所述样本图例以及识别标签, 得到所述待识别化合物样本对应的目标识别结 果; 其中, 所述识别标签包括所述初始 识别标签。 [0011]本说明书实施例还提供一种化 合物聚类的装置, 包括: [0012]获取模块, 用于获取待识别化合物样本, 并将所述待识别化合物样本分割为包含 初始识别标签的样本 子集; [0013]得到模块, 用于根据所述样本 子集; 得到样本图例; [0014]输出模块, 用于根据所述样本图例以及识别标签, 得到所述待识别化合物样本对 应的目标识别结果; 其中, 所述识别标签包括所述初始 识别标签。 [0015]本说明书实施例还提供一种化合物聚类的系统, 包括: 存储器、 处理器以及 计算机 程序, 所述计算机程序存储在所述存储器中, 所述处理器运行所述计算机程序执行以下步 骤: 获取待识别化合物样本, 并将所述待识别化合物样本分割为包含初始识别标签的样本 子集; 根据所述样本子集; 得到样本图例; 根据所述样本图例以及识别标签, 得到所述待识 别化合物样本对应的目标识别结果; 其中, 所述识别标签包括所述初始 识别标签。 [0016]本说明书实施例还提供一种可读存储介质, 所述可读存储介质中存储有计算机程 序, 所述计算机程序被处理器执行时用于实现以下步骤: 获取待识别化合物样本, 并将所述说 明 书 1/8 页 3 CN 115049866 A 3

PDF文档 专利 一种化合物聚类的方法、装置、系统及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种化合物聚类的方法、装置、系统及存储介质 第 1 页 专利 一种化合物聚类的方法、装置、系统及存储介质 第 2 页 专利 一种化合物聚类的方法、装置、系统及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:02上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。