专利 一种基于物理仿真的人型智能体姿态生成方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210951248.0 (22)申请日 2022.08.09 (65)同一申请的已公布的文献号申请公布号 CN 115018963 A (43)申请公布日 2022.09.06 (73)专利权人成都市谛视无限科技有限公司地址 610094 四川省成都市高新区剑南大道中段716号1栋27层04、 0 5号 (72)发明人唐浩　 (74)专利代理机构成都市集智汇华知识产权代理事务所(普通合伙) 51237 专利代理师李华　温黎娟 (51)Int.Cl. G06T 13/40(2011.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01)G06V 40/20(2022.01) G06N 3/08(2006.01) (56)对比文件 CN 110060475 A,2019.07.26 CN 114581567 A,202 2.06.03 CN 114942633 A,2022.08.26 CN 114528750 A,2022.05.24 李宝川.人体运动智能控制与仿真系统的设计与实现. 《中国知网》 .2021,(第4期), 卢小锐等.强化学习与生成式对抗网络结合方法研究进展. 《计算机工程与应用》 .2019, Kao-Shing Hwang等.Adabo ost-like method for i nverse rei nforcement learning. 《2016 IE EE Internati onal Conference o n Fuzzy System s (FUZZ-IEEE)》 .2016, 审查员刘晓丹 (54)发明名称一种基于物理仿真的人型智能体姿态生成方法 (57)摘要本发明公开了一种基于物理仿真的人型智能体姿态生成方法，包括：以物理仿真环境为框架构建人型智能体的数字化物理仿真模型；获取人体运动的姿态变化序列数据并将其转换为骨骼结构数据；将所述骨骼结构数据的关节旋转参数转换为关节指数参数并生成模型训练样本数据；基于目标任务构建奖励函数并构建逆向强化学习网络的特征输入；基于所述模型训练样本数据，基于所述逆向强化学习网络训练所述数字化物理仿真模型，得到训练后的所述数字化物理仿真模型；将更新后的目标任务和初始状态参数输入训练后的所述数字化物理仿真模型，生成状态信息。权利要求书2页说明书5页附图1页 CN 115018963 B 2022.11.04 CN 115018963 B 1.一种基于物理仿真的人型智能体姿态生成方法，其特征在于，包括：以物理仿真环境为框架构建人型智能体的数字化物理仿真模型；获取人体运动的姿态变化序列数据并将其转换为骨骼结构数据；将所述骨骼结构数据的关节旋转参数转换为关节指数参数并生成模型训练样本数据；基于目标任务构建奖励函数并构建逆向强化学习网络的特征输入，包括：构建交互物体集合μθ；对人形智能体的运动进行规划使其满足函数g(ni, μ )，其中， ni为任务特征， μ为交互物体特征， g(ni, μ )为网络的尺寸变换函数，用于保证作为限制条件输入至所述逆向强化学习网络；构建多个人形智能体的状态s(g(ni, μ ),nl)作为逆向强化学习网络的特征输入，其中， nl为智能体当前状态的特征，至少包括根节点信息、关节点信息、关节点+根节点角速度、线速度信息、关键关节点信息；在所述状态s(g(ni, μ ),nl)异常时，通过异常状态重置模块将所述人形智能体的状态基于初始状态参数重置；基于所述模型训练样本数据，基于所述逆向强化学习网络训练所述数字化物理仿真模型，得到训练后的所述数字化物理仿真模型；在完成训练所述数字化物理仿真模型后，输入初始状态信息和目标任务至所述数字化物理仿真模型，人型智能体在所述物理仿真环境中逐帧与环境交互直至完成目标任务；在所述交互的过程中，同步记录所述人型智能体的状态信息，以用于驱动3D虚拟数字人。 2.据权利要求1所述的姿态生成方法，其特征在于，以物理仿真环境为框架构建人型智能体的数字化物理仿真模型，包括：在物理仿真环境中构建人型智能体的骨骼结构及其质量；在物理仿真环境中构建所述骨骼的关节指数参数；在物理仿真环境中构建用于模拟碰撞体积的体积参数。 3.根据权利要求1所述的姿态生成方法，其特征在于，获取人体运动的姿态变化序列数据并将其转换为骨骼结构数据，包括：基于动作捕捉方法获取多个不同目标任务的人体运动的姿态变化序列数据；使用动作捕捉编辑软件将多个姿态变化序列数据转换为与所述数字化物理仿真模型的所述骨骼结构适配的骨骼结构数据。 4.根据权利要求1所述的姿态生成方法，其特征在于，基于目标任务构建奖励函数，包括：基于人型智能体运动姿态动作与模型训练样本数据中运动姿态动作的相似度和人型智能体的目标任务完成度构建所述奖励函数。 5.根据权利要求4所述的姿态生成方法，其特征在于，基于目标任务构建奖励函数，包括：基于不同类别的目标任务构建对应的f(x)作为目标任务完成度；构建判别器网络用于计算姿态运动相似度，并利用公式log(Dφ(si‑1， si))计算回报率，其中， Dφ(si‑1， si)为判别器网络的判别函数，在判别(si‑1， si)为来自于模型训练样本数据的姿态数据时输出为1，反之，输出为 ‑1， s为状态信息，包含的参数有：根节点信息，关节点旋转信息和关节点速度信息；基于类注意力机制提取能够表征人型智能体运动方式的姿态si作为主姿态，其中， si∈ s；构建奖励函数G(xi)＝f(xi)+log(Dφ(si‑1， si))，其中， xi由si和任务类型对应的特征数权　利　要　求　书 1/2 页 2 CN 115018963 B 2据构成。 6.根据权利要求5所述的姿态生成方法，其特征在于，基于所述逆向强化学习网络训练所述数字化物理仿真模型，得到训练后的所述数字化物理仿真模型，包括：基于多个人型智能体πθ同时在物理仿真环境中模拟运动T步，获取状态信息(s (i‑1)， si)，其中， T为运动步数的数量；将所述状态信息(s(i‑1)， si)输入所述判别器网络输出奖励ri，并结合目标任务奖励rg，计算优势估算结果基于训练所述数字化物理仿真模型的运动策略网络和价值网络，更新多个所述人型智能体πθ的同时，基于所述模型训练样本数据构成的样本数据库和所述状态信息构成的智能体模拟数据库中采样，构建样本训练辨别器网络，以判断所述更新是否为正反馈，其中， s为所述状态信息， a为与所述s 对应的动作特征，为所述优势估算结果；重复上述步骤，直至完成训练所述数字化物理仿真模型。权　利　要　求　书 2/2 页 3 CN 115018963 B 3

专利 一种基于物理仿真的人型智能体姿态生成方法

专利一种基于物理仿真的人型智能体姿态生成方法