(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210951248.0
(22)申请日 2022.08.09
(65)同一申请的已公布的文献号
申请公布号 CN 115018963 A
(43)申请公布日 2022.09.06
(73)专利权人 成都市谛视无限科技有限公司
地址 610094 四川省成 都市高新区剑南大
道中段716号1栋27层04、 0 5号
(72)发明人 唐浩
(74)专利代理 机构 成都市集智汇华知识产权代
理事务所(普通 合伙) 51237
专利代理师 李华 温黎娟
(51)Int.Cl.
G06T 13/40(2011.01)
G06V 10/74(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)G06V 40/20(2022.01)
G06N 3/08(2006.01)
(56)对比文件
CN 110060475 A,2019.07.26
CN 114581567 A,202 2.06.03
CN 114942633 A,2022.08.26
CN 114528750 A,2022.05.24
李宝川.人体运动智能控制与仿真系统的设
计与实现. 《中国知网》 .2021,(第4期),
卢小锐等.强化学习与生成式对抗网络结合
方法研究进 展. 《计算机 工程与应用》 .2019,
Kao-Shing Hwang等.Adabo ost-like
method for i nverse rei nforcement
learning. 《2016 IE EE Internati onal
Conference o n Fuzzy System s (FUZZ-IEEE)》
.2016,
审查员 刘晓丹
(54)发明名称
一种基于物理仿真的人型智能体姿态生成
方法
(57)摘要
本发明公开了一种基于物理仿真的人型智
能体姿态生成方法, 包括: 以物理仿真环境为框
架构建人型智能体的数字化物理仿真模型; 获取
人体运动的姿态变化序列数据并将其转换为骨
骼结构数据; 将所述骨骼结构数据的关节旋转参
数转换为关节指数参数并生成模型训练样本数
据; 基于目标任务构建奖励函数并构建逆向强化
学习网络的特征输入; 基于所述模 型训练样本数
据, 基于所述逆向强化学习网络训练所述数字化
物理仿真模 型, 得到训练后的所述数字化物理仿
真模型; 将更新后的目标任务和初始 状态参数输
入训练后的所述数字化物理仿真模 型, 生成状态
信息。
权利要求书2页 说明书5页 附图1页
CN 115018963 B
2022.11.04
CN 115018963 B
1.一种基于物理仿真的人 型智能体姿态生成方法, 其特 征在于, 包括:
以物理仿真环境 为框架构建人 型智能体的数字化物理仿真模型;
获取人体运动的姿态变化序列数据并将其 转换为骨骼结构数据;
将所述骨骼结构数据的关节旋转 参数转换为关节指数参数并生成模型训练样本数据;
基于目标任务构建奖励函数并构建逆向强化学习 网络的特征输入, 包括: 构建交互物
体集合μθ; 对人形智能体的运动进行规划使其满足函数g(ni, μ ), 其中, ni为任务特征, μ为
交互物体特征, g(ni, μ )为网络的尺寸变换函数, 用于 保证作为限制条件输入至所述逆向强
化学习网络; 构建多个人形智能体的状态s(g(ni, μ ),nl)作为逆向强化学习网络的特征输
入, 其中, nl为智能体当前状态的特征, 至少 包括根节点信息、 关节点信息、 关节点+根节点
角速度、 线速度信息、 关键关节 点信息; 在所述状态s(g(ni, μ ),nl)异常时, 通过异常状态重
置模块将所述人 形智能体的状态基于初始状态参数重 置;
基于所述模型训练样本数据, 基于所述逆向强化学习网络训练所述数字化物 理仿真模
型, 得到训练后的所述数字化物理仿真模型;
在完成训练所述数字化物理仿真模型后, 输入初始状态信 息和目标任务至所述数字化
物理仿真模型, 人 型智能体在所述物理仿真环境中逐帧与环境交 互直至完成目标任务;
在所述交互的过程中, 同步记录所述人型智能体的状态信息, 以用于驱动3D虚拟数字
人。
2.据权利要求1所述的姿态生成方法, 其特征在于, 以物 理仿真环境为框架构建人型智
能体的数字化物理仿真模型, 包括:
在物理仿真环境中构建人 型智能体的骨骼结构及其质量;
在物理仿真环境中构建所述骨骼的关节指数参数;
在物理仿真环境中构建用于模拟碰撞体积的体积参数。
3.根据权利要求1所述的姿态生成方法, 其特征在于, 获取人体运动的姿态变化序列 数
据并将其 转换为骨骼结构数据, 包括:
基于动作捕捉方法获取多个不同目标任务的人体运动的姿态变化序列数据;
使用动作捕捉编辑软件将多个姿态变化序列数据转换为与所述数字化物理仿真模型
的所述骨骼结构适配的骨骼结构数据。
4.根据权利要求1所述的姿态生成方法, 其特征在于, 基于目标任务构建奖励函数, 包
括: 基于人型智能体运动姿态动作与模型训练样本数据中运动姿态动作的相似度和人型智
能体的目标任务完成度构建所述奖励函数。
5.根据权利要求4所述的姿态生成方法, 其特征在于, 基于目标任务构建奖励函数, 包
括: 基于不同类别的目标任务构建对应的f(x)作为目标任务完成度; 构建判别器网络用于
计算姿态运动相似度, 并利用公式log(Dφ(si‑1, si))计算回报率, 其中, Dφ(si‑1, si)为判别
器网络的判别函数, 在判别(si‑1, si)为来自于模型训练样本数据的姿态数据时输出为1, 反
之, 输出为 ‑1, s为状态信息, 包含的参数有: 根节点信息, 关节点旋转信息和关节点速度信
息;
基于类注意力机制 提取能够表征人型智能体运动方式的姿态si作为主姿态, 其中, si∈
s;
构建奖励函数G(xi)=f(xi)+log(Dφ(si‑1, si)), 其中, xi由si和任务类型对应的特征数权 利 要 求 书 1/2 页
2
CN 115018963 B
2据构成。
6.根据权利要求5所述的姿态生成方法, 其特征在于, 基于所述逆向强化学习网络训练
所述数字化物理仿真模型, 得到训练后的所述数字化物理仿真模型, 包括:
基于多个人型智能体πθ同时在物理仿真环境中模拟运动T步, 获取状态信息(s (i‑1),
si), 其中, T为 运动步数的数量;
将所述状态信息(s(i‑1), si)输入所述判别器网络输出奖励ri, 并结合目标任务奖励rg,
计算优势估算结果
基于
训练所述 数字化物理仿真模型的运动策略网络和价值网络, 更新多个所
述人型智能体πθ的同时, 基于所述模型训练样本数据构成的样本数据库和所述状态信息构
成的智能体模拟数据库中采样, 构建样本训练辨别器网络, 以判断所述更新是否为正反馈,
其中, s为所述状态信息, a为与所述s 对应的动作特 征,
为所述优势估算结果;
重复上述 步骤, 直至 完成训练所述数字化物理仿真模型。权 利 要 求 书 2/2 页
3
CN 115018963 B
3
专利 一种基于物理仿真的人型智能体姿态生成方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:44上传分享