专利 动作定位模型的训练方法和装置、动作定位方法和设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210630615.7 (22)申请日 2022.06.06 (71)申请人京东科技控股股份有限公司地址 100176 北京市大兴区北京经济技术开发区科创十一街18号C座2层2 21室 (72)发明人梅涛　 (74)专利代理机构中国贸促会专利商标事务所有限公司 1 1038 专利代理师王云飞 (51)Int.Cl. G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称动作定位模型的训练方法和装置、动作定位方法和设备 (57)摘要本公开涉及一种动作定位模型的训练方法和装置、动作定位方法和设备。该动作定位模型的训练方法包括：在第一动作定位模型训练过程中，产生第一在线伪标签；采用第一在线伪标签监督第二动作定位模型的训练，其中，第一动作定位模型和第二动作定位模型为不同模态的动作定位模型。本公开可以利用第一动作定位模型在线生成的伪标签监督第二动作定位模型的训练，从而消除了标签噪声，提高了模型的定位精度降低。权利要求书2页说明书11页附图4页 CN 114937164 A 2022.08.23 CN 114937164 A 1.一种动作定位模型的训练方法，其特征在于，包括：在第一动作定位模型训练过程中，产生第一在线伪标签；采用第一在线伪标签监督第二动作定位模型的训练，其中，第一动作定位模型和第二动作定位模型为不同模态的动作定位模型。 2.根据权利要求1所述的训练方法，其特征在于，还包括：在第二动作定位模型训练过程中，产生第二在线伪标签；采用第二在线伪标签监督第一动作定位模型的训练。 3.根据权利要求2所述的训练方法，其特征在于，在线伪标签包括视频级伪标签，所述在线伪标签为第一在线伪标签或第二在线伪标签；在动作定位模型训练过程中，产生在线伪标签包括：在动作定位模型训练过程中，利用视频之间的相似性来聚合动作定位模型的输出，在线产生动态的视频级伪标签，其中，所述动作定位模型为第一动作定位模型或第二动作定位模型。 4.根据权利要求3所述的训练方法，其特征在于，所述利用视频之间的相似性来聚合动作定位模型的输出，在线产生动态的视频级伪标签包括：在动作定位模型训练过程中，对于一个批次的多个视频，生成多个视频的前景特征和对应的分类概率向量；对于所述多个视频中的每一个视频，利用余弦距离计算该视频和多个视频中其它视频之间的视频相似度，并将该视频相似度进行归一化；利用归一化后的视频相似度对所述其它视频的分类概率向量进行加权求和，得到该视频的视频级类别在线伪标签。 5.根据权利要求2 ‑4中任一项所述的训练方法，其特征在于，在线伪标签包括片段级前景伪标签和片段级背景伪标签，所述在线伪标签为第一在线伪标签或第二在线伪标签；在动作定位模型训练过程中，产生在线伪标签包括：在动作定位模型训练过程中，利用视频片段之间的相似性来聚合片段级预测概率，生成在线的片段级前景伪标签和片段级背景伪标签，其中，所述动作定位模型为第一动作定位模型或第二动作定位模型。 6.根据权利要求5所述的训练方法，其特征在于，所述利用视频片段之间的相似性来聚合片段级预测概率，生成在线的片段级前景伪标签和片段级背景伪标签包括：在动作定位模型训练过程中，得到一个视频的多个片段的特征和对应的前景概率；利用余弦距离计算该片段和所述多个片段中其它片段之间的片段相似度，并将该片段相似度进行归一化；利用归一化后的片段相似度对上述其它片段的前景概率进行加权求和，得到当前视频片段的片段级前景伪标签和片段级背景伪标签。 7.根据权利要求2 ‑4中任一项所述的训练方法，其特征在于，所述采用第一在线伪标签监督第二动作定位模型的训练包括：采用第一在线伪标签和离线聚类生成的伪标签，监督第二动作定位模型的训练；所述采用第二在线伪标签监督第一动作定位模型的训练包括：采用第二在线伪标签和离线聚类生成的伪标签，监督第一动作定位模型的训练。权　利　要　求　书 1/2 页 2 CN 114937164 A 28.根据权利要求1 ‑4中任一项所述的训练方法，其特征在于，所述第一动作定位模型为颜色模型，所述第二动作定位模型为光流模型；或，所述第一动作定位模型为光流模型，所述第二动作定位模型为颜色模型。 9.一种动作定位方法，其特征在于，包括：将视频输入动作定位模型，其中，所述动作定位模型包括第一动作定位模型和第二动作定位模型中的至少一种，所述第一动作定位模型和第二动作定位模型为采用如权利要求 1‑8中任一项所述的训练方法训练得到的；采用动作定位模型对输入的视频进行时域动作定位。 10.一种动作定位模型的训练装置，其特征在于，包括：在线伪标签产生模块，用于在第一动作定位模型训练过程中，产生第一在线伪标签；跨模态学习模块，用于采用第一在线伪标签监督第二动作定位模型的训练，其中，第一动作定位模型和第二动作定位模型为不同模态的动作定位模型。 11.根据权利要求10所述的训练装置，其特征在于，所述训练装置用于执行实现如权利要求1‑8中任一项所述的训练方法的操作。 12.一种动作定位设备，其特征在于，包括：视频输入单元，用于将视频输入动作定位模型，其中，所述动作定位模型包括第一动作定位模型和第二动作定位模型中的至少一种，所述第一动作定位模型和第二动作定位模型为采用如权利要求1 ‑8中任一项所述的训练方法训练得到的；动作定位单元，用于采用所述动作定位模型对输入的视频进行时域动作定位。 13.一种计算机装置，其特征在于，包括：存储器，用于存储指令；处理器，用于执行所述指令，使得所述计算机装置执行实现如权利要求1 ‑8中任一项所述的训练方法、和/或如权利要求9所述的动作定位方法的操作。 14.一种非瞬时性计算机可读存储介质，其特征在于，所述非瞬时性计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1 ‑8中任一项所述的训练方法、和/或如权利要求9所述的动作定位方法。权　利　要　求　书 2/2 页 3 CN 114937164 A 3

专利 动作定位模型的训练方法和装置、动作定位方法和设备

专利动作定位模型的训练方法和装置、动作定位方法和设备