专利 一种人物交互检测方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210113567.4 (22)申请日 2022.01.30 (71)申请人阿里巴巴（中国）有限公司地址 310052 浙江省杭州市滨江区长河街道网商路69 9号4号楼5楼5 08室 (72)发明人袁杭杰　王莽　徐良鹏　唐铭谦　 (74)专利代理机构北京清源汇知识产权代理事务所(特殊普通合伙) 11644 专利代理师冯德魁　汪洋 (51)Int.Cl. G06V 40/20(2022.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称一种人物交互检测方法及装置 (57)摘要本申请提供了一种人物交互检测方法，包括：本申请提供的人物交互检测方法，包括：获取待检测图像的视觉模态向量；根据所述物体对象的视觉向量，获取所述物体对象对应的语义模态向量；对所述视觉模态向量和所述语义模态向量进行模态间校准；根据校准后的视觉模态向量和校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。该方法通过获取待检测图像的视觉模态向量及语义模态向量，并对视觉模态向量和语义模态向量进行校准与融合，能够将待检测图像中的物体对象与人物对象针对物体对象的动作紧密关联，提高了人物交互检测的精准度。权利要求书3页说明书18页附图6页 CN 114596627 A 2022.06.07 CN 114596627 A 1.一种人物交互检测方法，其特征在于，包括：获取待检测图像的视觉模态向量；所述视觉模态向量，包括：人物对象的视觉向量，及物体对象的视觉向量；根据所述物体对象的视觉向量，获取所述物体对象对应的语义模态向量；所述语义模态向量，包括：所述物体对象对应的候选动词的动词向量；对所述视觉模态向量和所述语义模态向量进行模态间校准，获得校准后的视觉模态向量和校准后的语义模态向量；根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。 2.根据权利要求1所述的方法，其特征在于，所述对所述视觉模态向量和所述语义模态向量进行模态间校准，获得校准后的视觉模态向量和校准后的语义模态向量，包括：采用通道注意力机制对所述视觉模态向量和所述语义模态向量进行对应校准。 3.根据权利要求1所述的方法，其特征在于，所述对所述视觉模态向量和所述语义模态向量进行模态间校准，获得校准后的视觉模态向量和校准后的语义模态向量，还包括：对所述视觉模态向量和所述语义模态向量进行模态间校准后，采用信息传递机制对所述视觉模态向量进行模态内校准。 4.根据权利要求1所述的方法，其特征在于，所述对所述视觉模态向量和所述语义模态向量进行模态间校准，获得校准后的视觉模态向量和校准后的语义模态向量，还包括：对所述视觉模态向量和所述语义模态向量进行模态间校准后，采用信息传递机制对所述语义模态向量进行模态内校准。 5.根据权利要求1所述的方法，其特征在于，所述根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别，包括：将所述校准后的视觉模态向量与所述校准后的语义模态向量进行融合处理，得到候选动词的动词特征；根据所述候选动词的动词特征预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。 6.根据权利要求5所述的方法，其特征在于，所述将所述校准后的视觉模态向量与所述校准后的语义模态向量进行融合处理，得到候选动词的动词特征，包括：将所述校准后的视觉模态向量与所述校准后的语义模态向量作为序列元素生成所述候选动词的动词序列。 7.根据权利要求1所述的方法，其特征在于，所述根据所述物体对象的视觉向量，获取所述物体对象对应的语义模态向量，包括：获取所述物体对象对应的候选动词的原始向量；获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率；根据所述候选动词的原始向量和所述动词条件概率，获取所述物体对象对应的语义模态向量。 8.一种人物交互检测方法，其特征在于，包括：获取待检测图像的视觉模态向量；所述视觉模态向量，包括：人物对象的视觉向量，及物体对象的视觉向量；权　利　要　求　书 1/3 页 2 CN 114596627 A 2获取所述物体对象对应的候选动词的原始向量，并获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率；根据所述候选动词的原始向量和所述动词条件概率获取所述物体对象对应的语义模态向量；所述语义模态向量，包括：所述物体对象对应的候选动词的动词向量；根据所述视觉模态向量与所述语义模态向量，获取所述人物对象针对所述物体对象的动词类别。 9.根据权利要求8所述的方法，其特征在于，所述获取所述物体对象对应的候选动词的原始向量，包括：根据所述物体对象的视觉向量从动词向量数据库中获取所述候选动词的原始向量。 10.根据权利要求8所述的方法，其特征在于，所述获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率，包括：根据所述物体对象的视觉向量获取所述候选动词相对于所述物体对象的动词条件概率。 11.根据权利要求8所述的方法，其特征在于，所述根据所述候选动词的原始向量和所述动词条件概率获取所述物体对象对应的语义模态向量，包括：将所述候选动词的原始向量与所述动词条件概率的乘积作为所述物体对象对应的语义模态向量。 12.根据权利要求8所述的方法，其特征在于，所述根据所述视觉模态向量与所述语义模态向量，获取所述人物对象针对所述物体对象的动词类别，包括：对所述视觉模态向量和所述语义模态向量进行模态间校准，获得校准后的视觉模态向量和校准后的语义模态向量；根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。 13.一种人物交互检测装置，其特征在于，包括：视觉模态单元、语义模态单元、校准单元、预测单元；所述视觉模态单元，用于获取待检测图像的视觉模态向量；所述视觉模态向量，包括：人物对象的视觉向量，及物体对象的视觉向量；所述语义模态单元，用于根据所述物体对象的视觉向量，获取所述物体对象对应的语义模态向量；所述语义模态向量，包括：所述物体对象对应的候选动词的动词向量；所述校准单元，用于对所述视觉模态向量和所述语义模态向量进行模态间校准，获得校准后的视觉模态向量和校准后的语义模态向量；所述预测单元，用于根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。 14.一种人物交互检测装置，其特征在于，包括：视觉模态单元、语义模态单元、动词类别获取单元；所述视觉模态单元，用于获取待检测图像的视觉模态向量；所述视觉模态向量，包括：人物对象的视觉向量，及物体对象的视觉向量；所述语义模态单元，用于获取所述物体对象对应的候选动词的原始向量，并获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率；所述语义模态单元，还用于根据所述候选动词的原始向量和所述动词条件概率获取所述物体对象对应的语义模态向量；所述语义模态向量，包括：所述物体对象对应的候选动词权　利　要　求　书 2/3 页 3 CN 114596627 A 3

专利 一种人物交互检测方法及装置

专利一种人物交互检测方法及装置