(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211420475.7
(22)申请日 2022.11.15
(71)申请人 清华大学
地址 100084 北京市海淀区清华园1号
(72)发明人 季向阳 蒋雨航 邵键准
(74)专利代理 机构 北京清亦华知识产权代理事
务所(普通 合伙) 11201
专利代理师 季永杰
(51)Int.Cl.
G06N 3/08(2006.01)
G06K 9/62(2022.01)
(54)发明名称
协同模式多样化导向的无监督多智能体强
化学习方法
(57)摘要
本申请涉及无监督多智能体强化学习技术
领域, 特别涉及一种协同模式多样化导向 的无监
督多智能体强化学习方法, 包括: 获取多智 能体
系统的多个联合策略网络; 根据联合策略网络控
制多个智能体进入协同模式, 并获取在协同模型
下与环境的交互数据; 基于交互数据建立协同模
式图, 利用其计算协同模式差异; 根据其对智能
体的轨迹进行伪回报标注得到伪回报, 并从经验
回放样本池中采样获得完成伪回报标注的样本,
通过梯度反向传播来更新联合策略网络, 实现多
智能体的强化学习。 由此, 解决了相关技术中无
监督强化学习算法针对解决多智能体的情况具
有局限性, 且多智能体系统依赖于精心设计的环
境反馈的奖励信号, 导致难以有效学习到多智能
体的联合策略等问题。
权利要求书2页 说明书13页 附图3页
CN 115496208 A
2022.12.20
CN 115496208 A
1.一种无监 督多智能体强化学习方法, 其特 征在于, 包括以下步骤:
获取多智能体系统的多个联合策略网络;
根据所述多个联合策略网络中任意联合策略网络控制所述多智能体系统中多个智能
体进入协同模式, 并获取 所述多个智能体在所述协同模型 下与环境的交 互数据;
基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式 图, 利用
所述协同模式图计算 不同联合策略网络之间的协同模式差异;
根据所述协同模式差异对每个智能体的轨迹进行伪回报标注, 得到每个智能体在每一
单步的伪回报, 并从经验回放样本池中采样获得完成伪回报标注的样本, 通过梯度反向传
播来更新多智能体系统学习得到的联合策略网络, 直到满足预设停止条件, 停止迭代学习,
实现多智能体的强化学习。
2.根据权利要求1所述的方法, 其特 征在于, 所述协同模式与所述联合策略网络对应。
3.根据权利要求1所述的方法, 其特征在于, 所述协同模式图用于对任一状态下的智能
体间的关系进行建模, 其中, 所述协同模式图上 的每个顶点对应于多智能体系统中的一个
智能体, 图上 无向边的权 重根据协同模式对应的协同模式函数 得到。
4.根据权利要求1所述的方法, 其特征在于, 所述基于所述交互数据建立所述多智能体
系统在不同联合策略网络下的协同模式图, 包括:
根据所述协同模式对应的协同模式函数建立所述交互数据的协同模式 图, 并将所述协
同模式图加入图样本池。
5.根据权利要求4所述的方法, 其特征在于, 所述利用所述协同模式图计算不同联合策
略网络之间的协同模式差异, 包括:
对于每一个联合策略网络, 从所述联合策略网络对应的图样本池中采样得到协同模式
图集合;
基于所述协同模式图集合计算格罗莫夫 ‑瓦瑟斯坦差异, 利用所述格罗莫夫 ‑瓦瑟斯坦
差异构建代价矩阵, 并利用预设算法求解所述代 价矩阵得到不同联合策略网络之 间的协同
模式差异。
6.根据权利要求5所述的方法, 其特 征在于, 所述协同模式差异的定义 为:
,
其中,
和
分别表示由联合策略
所引导出的协同模式图,
则表示协
同模式图
和
的分布;
是一个联合分布, 代表能将概率质量从
转移至
的双射
转移方案,
表示
是联合分布集合
中的一个联合分布;
表示
所有边际分布分别为
的联合分布集合;
是格罗莫夫 ‑瓦瑟斯坦差异,
表
示寻找到最优的联合分布
使得其右侧表达式取到下确界。
7.根据权利要求6所述的方法, 其特征在于, 所述格罗莫夫 ‑瓦瑟斯坦差异 的计算公式
为:权 利 要 求 书 1/2 页
2
CN 115496208 A
2其中 ,
分别表示
中的俩个测度图 ,
表示所有测度图G的集合;
是一个定义在V上的博雷尔概率测度; i, j表示不同的智能体; V是顶点的集
合;
是任意不小于1的实数, 即
;
表示对测度图
中所有顶点求和;
表示对测度图
中所有顶点求和;
表示测度图
中顶点i, j间的边的权值;
表示测度图
中顶点i', j'间的边的权值;
表示将测度图
中顶点i转运到测度图
中顶点i';
表示将测度图
中顶点j转运到测度图
中顶点j';
表示将对
应边的权值作差后取
次方;
其中,
表示T是集 合
中的一个转 运矩阵,
表示所有满足条件的转运矩阵的集
合, 具体条件为:
表示转运矩阵T作用于纬度为
的单位矩阵将得到测度
,
表示转置后的转 运矩阵TT作用于纬度为
的单位矩阵将得到测度
。
8.一种无监 督多智能体强化学习装置, 其特 征在于, 包括:
获取模块, 用于获取多智能体系统的多个联合策略网络;
控制模块, 用于根据 所述多个联合策略网络 中任意联合策略网络控制所述多智能体系
统中多个智能体进入协同模式, 并获取所述多个智能体在所述协同模型下与 环境的交互数
据;
计算模块, 用于基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协
同模式图, 利用所述协同模式图计算 不同联合策略网络之间的协同模式差异;
更新模块, 用于根据所述协同模式差异对每个智能体的轨迹进行伪回报标注, 得到每
个智能体在每一单步的伪回报, 并从经验回放样本池中采样, 通过梯度反向传播来更新多
智能体系统学习得到的联合策略网络, 直到满足预设停止条件, 停止迭代学习, 实现多智能
体的强化学习。
9.一种电子设备, 其特征在于, 包括: 存储器、 处理器及存储在所述存储器上并可在所
述处理器上运行的计算机程序, 所述处理器执行所述程序, 以实现如权利要求 1‑7任一项所
述的无监 督多智能体强化学习方法。
10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器
执行, 以用于实现如权利要求1 ‑7任一项所述的无监 督多智能体强化学习方法。权 利 要 求 书 2/2 页
3
CN 115496208 A
3
专利 协同模式多样化导向的无监督多智能体强化学习方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:42上传分享