standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210630615.7 (22)申请日 2022.06.06 (71)申请人 京东科技控股 股份有限公司 地址 100176 北京市大兴区北京经济技 术 开发区科创十一 街18号C座2层2 21室 (72)发明人 梅涛  (74)专利代理 机构 中国贸促会专利商标事务所 有限公司 1 1038 专利代理师 王云飞 (51)Int.Cl. G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 动作定位模 型的训练方法和装置、 动作定位 方法和设备 (57)摘要 本公开涉及一种动作定位模型的训练方法 和装置、 动作定位方法和设备。 该动作定位模型 的训练方法包括: 在第一动作定位模 型训练过程 中, 产生第一在线伪标签; 采用第一在线伪标签 监督第二动作定位模型的训练, 其中, 第一动作 定位模型和第二动作定位模型为不同模态的动 作定位模型。 本公开可以利用第一动作定位模型 在线生成的伪标签监督第二动作定位模型的训 练, 从而消除了标签噪声, 提高了模型的定位精 度降低。 权利要求书2页 说明书11页 附图4页 CN 114937164 A 2022.08.23 CN 114937164 A 1.一种动作定位模型的训练方法, 其特 征在于, 包括: 在第一动作定位模型训练过程中, 产生第一在线伪标签; 采用第一在线伪标签监督第二动作定位模型的训练, 其中, 第一动作定位模型和第二 动作定位模型为 不同模态的动作定位模型。 2.根据权利要求1所述的训练方法, 其特 征在于, 还 包括: 在第二动作定位模型训练过程中, 产生第二在线伪标签; 采用第二在线伪标签监 督第一动作定位模型的训练。 3.根据权利要求2所述的训练方法, 其特征在于, 在线伪标签包括视频级伪标签, 所述 在线伪标签为第一在线伪标签或第二在线伪标签; 在动作定位模型训练过程中, 产生在线伪标签包括: 在动作定位模型训练过程中, 利用视频之间的相似性来聚合动作定位模型的输出, 在 线产生动态的视频级伪标签, 其中, 所述动作定位模型为第一动作定位模型或第二动作定 位模型。 4.根据权利要求3所述的训练方法, 其特征在于, 所述利用视频之间的相似性来 聚合动 作定位模型的输出, 在线产生动态的视频级伪标签包括: 在动作定位模型训练过程中, 对于一个批次的多个视频, 生成多个视频的前景特征和 对应的分类概 率向量; 对于所述多个视频中的每一个视频, 利用余弦距离计算该视频和多个视频中其它视频 之间的视频相似度, 并将该视频相似度进行归一 化; 利用归一化后的视频相似度对所述其它视频的分类概率向量进行加权求和, 得到该视 频的视频级类别在线伪标签。 5.根据权利要求2 ‑4中任一项所述的训练方法, 其特征在于, 在线伪标签包括片段级前 景伪标签和片段级 背景伪标签, 所述在线伪标签为第一在线伪标签或第二在线伪标签; 在动作定位模型训练过程中, 产生在线伪标签包括: 在动作定位模型训练过程中, 利用视频片段之间的相似性来聚合片段级预测概率, 生 成在线的片段级前景伪标签和片段级背景伪标签, 其中, 所述动作定位模型为第一动作定 位模型或第二动作定位模型。 6.根据权利要求5所述的训练方法, 其特征在于, 所述利用视频片段之间的相似性来 聚 合片段级预测概 率, 生成在线的片段级前 景伪标签和片段级 背景伪标签包括: 在动作定位模型训练过程中, 得到一个视频的多个片段的特 征和对应的前 景概率; 利用余弦距离计算该片段和所述多个片段中其它片段之间的片段相似度, 并将该片段 相似度进行归一 化; 利用归一化后的片段相似度对上述其它片段的前景概率进行加权求和, 得到当前视频 片段的片段级前 景伪标签和片段级 背景伪标签。 7.根据权利要求2 ‑4中任一项所述的训练方法, 其特 征在于, 所述采用第一在线伪标签监 督第二动作定位模型的训练包括: 采用第一在线伪标签和离线聚类生成的伪标签, 监 督第二动作定位模型的训练; 所述采用第二在线伪标签监 督第一动作定位模型的训练包括: 采用第二在线伪标签和离线聚类生成的伪标签, 监 督第一动作定位模型的训练。权 利 要 求 书 1/2 页 2 CN 114937164 A 28.根据权利要求1 ‑4中任一项所述的训练方法, 其特 征在于, 所述第一动作定位模型为颜色模型, 所述第二动作定位模型为 光流模型; 或, 所述第一动作定位模型为 光流模型, 所述第二动作定位模型为颜色模型。 9.一种动作定位方法, 其特 征在于, 包括: 将视频输入动作定位模型, 其中, 所述动作定位模型包括第一动作定位模型和第二动 作定位模型中的至少一种, 所述第一动作定位模型和 第二动作定位模型为采用如权利要求 1‑8中任一项所述的训练方法训练得到的; 采用动作定位模型对输入的视频进行时域动作定位。 10.一种动作定位模型的训练装置, 其特 征在于, 包括: 在线伪标签产生模块, 用于在第一动作定位模型训练过程中, 产生第一在线伪标签; 跨模态学习模块, 用于采用第 一在线伪标签监督第 二动作定位模型的训练, 其中, 第一 动作定位模型和第二动作定位模型为 不同模态的动作定位模型。 11.根据权利要求10所述的训练装置, 其特征在于, 所述训练装置用于执行实现如权利 要求1‑8中任一项所述的训练方法的操作。 12.一种动作定位设备, 其特 征在于, 包括: 视频输入单元, 用于将视频输入动作定位模型, 其中, 所述动作定位模型包括第 一动作 定位模型和第二动作定位模型中的至少一种, 所述第一动作定位模型和 第二动作定位模型 为采用如权利要求1 ‑8中任一项所述的训练方法训练得到的; 动作定位单 元, 用于采用所述动作定位模型对输入的视频进行时域动作定位。 13.一种计算机装置, 其特 征在于, 包括: 存储器, 用于存 储指令; 处理器, 用于执行所述指令, 使得所述计算机装置执行实现如权利要求1 ‑8中任一项所 述的训练方法、 和/或如权利要求9所述的动作定位方法的操作。 14.一种非瞬时性计算机可读存储介质, 其特征在于, 所述非瞬时性计算机可读存储介 质存储有计算机指令, 所述指令被处理器执行时实现如权利要求1 ‑8中任一项所述的训练 方法、 和/或如权利要求9所述的动作定位方法。权 利 要 求 书 2/2 页 3 CN 114937164 A 3

PDF文档 专利 动作定位模型的训练方法和装置、动作定位方法和设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 动作定位模型的训练方法和装置、动作定位方法和设备 第 1 页 专利 动作定位模型的训练方法和装置、动作定位方法和设备 第 2 页 专利 动作定位模型的训练方法和装置、动作定位方法和设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:32:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。