(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210113567.4
(22)申请日 2022.01.30
(71)申请人 阿里巴巴 (中国) 有限公司
地址 310052 浙江省杭州市滨江区长河街
道网商路69 9号4号楼5楼5 08室
(72)发明人 袁杭杰 王莽 徐良鹏 唐铭谦
(74)专利代理 机构 北京清源汇知识产权代理事
务所(特殊普通 合伙) 11644
专利代理师 冯德魁 汪洋
(51)Int.Cl.
G06V 40/20(2022.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种人物交 互检测方法及装置
(57)摘要
本申请提供了一种人物交互检测方法, 包
括: 本申请提供的人物交互检测方法, 包括: 获取
待检测图像的视觉模态向量; 根据所述物体对象
的视觉向量, 获取所述物体对象对应的语义模态
向量; 对所述视觉模态向量和所述语义模态向量
进行模态间校准; 根据校准后的视觉模态向量和
校准后的语义模态向量预测所述待检测图像中
的所述人物对象针对所述物体对象的动词类别。
该方法通过获取待检测图像的视觉模态向量及
语义模态向量, 并对视觉模态向量和语义模态向
量进行校准与融合, 能够将待检测图像中的物体
对象与人物对象针对物体对象的动作紧密关联,
提高了人物交 互检测的精准度。
权利要求书3页 说明书18页 附图6页
CN 114596627 A
2022.06.07
CN 114596627 A
1.一种人物交 互检测方法, 其特 征在于, 包括:
获取待检测图像的视觉模态向量; 所述视觉模态向量, 包括: 人物对象的视觉向量, 及
物体对象的视 觉向量;
根据所述物体对象的视觉向量, 获取所述物体对象对应的语义模态向量; 所述语义模
态向量, 包括: 所述物体对象对应的候选动词的动词向量;
对所述视觉模态向量和所述语义模态向量进行模态间校准, 获得校准后的视觉模态向
量和校准后的语义模态向量;
根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像
中的所述人物对象针对所述物体对象的动词类别。
2.根据权利要求1所述的方法, 其特征在于, 所述对所述视觉模态向量和所述语义模态
向量进行模态间校准, 获得校准后的视觉模态向量和校准后的语义模态向量, 包括: 采用通
道注意力机制对所述视 觉模态向量和所述语义模态向量进行对应校准。
3.根据权利要求1所述的方法, 其特征在于, 所述对所述视觉模态向量和所述语义模态
向量进行模态间校准, 获得校准后的视觉模态向量和校准后的语义模态向量, 还包括: 对所
述视觉模态向量和所述语义模态向量进行模态间校准后, 采用信息传递机制对所述视觉模
态向量进行模态内校准。
4.根据权利要求1所述的方法, 其特征在于, 所述对所述视觉模态向量和所述语义模态
向量进行模态间校准, 获得校准后的视觉模态向量和校准后的语义模态向量, 还包括: 对所
述视觉模态向量和所述语义模态向量进行模态间校准后, 采用信息传递机制对所述语义模
态向量进行模态内校准。
5.根据权利要求1所述的方法, 其特征在于, 所述根据所述校准后的视觉模态向量和所
述校准后的语义模态向量预测所述待检测图像中的所述人物对 象针对所述物体对 象的动
词类别, 包括:
将所述校准后的视觉模态向量与 所述校准后的语义模态向量进行融合处理, 得到候选
动词的动词特 征;
根据所述候选动词的动词特征预测所述待检测图像中的所述人物对象针对所述物体
对象的动词类别。
6.根据权利要求5所述的方法, 其特征在于, 所述将所述校准后的视觉模态向量与 所述
校准后的语义模态向量进 行融合处理, 得到候选动词的动词特征, 包括: 将所述校准后的视
觉模态向量与所述校准后的语义模态向量作为序列元 素生成所述 候选动词的动词序列。
7.根据权利要求1所述的方法, 其特征在于, 所述根据所述物体对象的视觉向量, 获取
所述物体对象对应的语义模态向量, 包括:
获取所述物体对象对应的候选动词的原 始向量;
获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概 率;
根据所述候选动词的原始向量和所述动词条件概率, 获取所述物体对象对应的语义模
态向量。
8.一种人物交 互检测方法, 其特 征在于, 包括:
获取待检测图像的视觉模态向量; 所述视觉模态向量, 包括: 人物对象的视觉向量, 及
物体对象的视 觉向量;权 利 要 求 书 1/3 页
2
CN 114596627 A
2获取所述物体对象对应的候选动词的原始向量, 并获取所述物体对象对应的候选动词
相对于所述物体对象的动词条件概 率;
根据所述候选动词的原始向量和所述动词条件概率获取所述物体对象对应的语义模
态向量; 所述语义模态向量, 包括: 所述物体对象对应的候选动词的动词向量;
根据所述视觉模态向量与 所述语义模态向量, 获取所述人物对象针对所述物体对象的
动词类别。
9.根据权利要求8所述的方法, 其特征在于, 所述获取所述物体对象对应的候选动词的
原始向量, 包括: 根据所述物体对 象的视觉 向量从动词向量数据库中获取所述候选动词的
原始向量。
10.根据权利要求8所述的方法, 其特征在于, 所述获取所述物体对象对应的候选动词
相对于所述物体对 象的动词条件概率, 包括: 根据所述物体对 象的视觉 向量获取所述候选
动词相对于所述物体对象的动词条件概 率。
11.根据权利要求8所述的方法, 其特征在于, 所述根据所述候选动词的原始向量和所
述动词条件概率获取所述物体对 象对应的语义模态向量, 包括: 将所述候选动词的原始向
量与所述动词条件概 率的乘积作为所述物体对象对应的语义模态向量。
12.根据权利要求8所述的方法, 其特征在于, 所述根据所述视觉模态向量与所述语义
模态向量, 获取 所述人物对象针对所述物体对象的动词类别, 包括:
对所述视觉模态向量和所述语义模态向量进行模态间校准, 获得校准后的视觉模态向
量和校准后的语义模态向量;
根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像
中的所述人物对象针对所述物体对象的动词类别。
13.一种人物交互检测装置, 其特征在于, 包括: 视觉模态单元、 语义模态单元、 校准单
元、 预测单 元;
所述视觉模态单元, 用于获取待检测图像的视觉模态向量; 所述视觉模态向量, 包括:
人物对象的视 觉向量, 及物体对象的视 觉向量;
所述语义模态单元, 用于根据所述物体对象的视觉向量, 获取所述物体对象对应的语
义模态向量; 所述语义模态向量, 包括: 所述物体对象对应的候选动词的动词向量;
所述校准单元, 用于对所述视觉模态向量和所述语义模态向量进行模态间校准, 获得
校准后的视 觉模态向量和校准后的语义模态向量;
所述预测单元, 用于根据所述校准后的视觉模态向量和所述校准后的语义模态向量预
测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。
14.一种人物交互检测装置, 其特征在于, 包括: 视觉模态单元、 语义模态单元、 动词类
别获取单元;
所述视觉模态单元, 用于获取待检测图像的视觉模态向量; 所述视觉模态向量, 包括:
人物对象的视 觉向量, 及物体对象的视 觉向量;
所述语义模态单元, 用于获取所述物体对象对应的候选动词的原始向量, 并获取所述
物体对象对应的候选动词相对于所述物体对象的动词条件概 率;
所述语义模态单元, 还用于根据所述候选动词的原始向量和所述动词条件概率获取所
述物体对象对应的语义模态向量; 所述语义模态向量, 包括: 所述物体对象对应的候选动词权 利 要 求 书 2/3 页
3
CN 114596627 A
3
专利 一种人物交互检测方法及装置
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:39上传分享