文库搜索
切换导航
首页
频道
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
首页
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211420475.7 (22)申请日 2022.11.15 (71)申请人 清华大学 地址 100084 北京市海淀区清华园1号 (72)发明人 季向阳 蒋雨航 邵键准 (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 季永杰 (51)Int.Cl. G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称 协同模式多样化导向的无监督多智能体强 化学习方法 (57)摘要 本申请涉及无监督多智能体强化学习技术 领域, 特别涉及一种协同模式多样化导向 的无监 督多智能体强化学习方法, 包括: 获取多智 能体 系统的多个联合策略网络; 根据联合策略网络控 制多个智能体进入协同模式, 并获取在协同模型 下与环境的交互数据; 基于交互数据建立协同模 式图, 利用其计算协同模式差异; 根据其对智能 体的轨迹进行伪回报标注得到伪回报, 并从经验 回放样本池中采样获得完成伪回报标注的样本, 通过梯度反向传播来更新联合策略网络, 实现多 智能体的强化学习。 由此, 解决了相关技术中无 监督强化学习算法针对解决多智能体的情况具 有局限性, 且多智能体系统依赖于精心设计的环 境反馈的奖励信号, 导致难以有效学习到多智能 体的联合策略等问题。 权利要求书2页 说明书13页 附图3页 CN 115496208 A 2022.12.20 CN 115496208 A 1.一种无监 督多智能体强化学习方法, 其特 征在于, 包括以下步骤: 获取多智能体系统的多个联合策略网络; 根据所述多个联合策略网络中任意联合策略网络控制所述多智能体系统中多个智能 体进入协同模式, 并获取 所述多个智能体在所述协同模型 下与环境的交 互数据; 基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式 图, 利用 所述协同模式图计算 不同联合策略网络之间的协同模式差异; 根据所述协同模式差异对每个智能体的轨迹进行伪回报标注, 得到每个智能体在每一 单步的伪回报, 并从经验回放样本池中采样获得完成伪回报标注的样本, 通过梯度反向传 播来更新多智能体系统学习得到的联合策略网络, 直到满足预设停止条件, 停止迭代学习, 实现多智能体的强化学习。 2.根据权利要求1所述的方法, 其特 征在于, 所述协同模式与所述联合策略网络对应。 3.根据权利要求1所述的方法, 其特征在于, 所述协同模式图用于对任一状态下的智能 体间的关系进行建模, 其中, 所述协同模式图上 的每个顶点对应于多智能体系统中的一个 智能体, 图上 无向边的权 重根据协同模式对应的协同模式函数 得到。 4.根据权利要求1所述的方法, 其特征在于, 所述基于所述交互数据建立所述多智能体 系统在不同联合策略网络下的协同模式图, 包括: 根据所述协同模式对应的协同模式函数建立所述交互数据的协同模式 图, 并将所述协 同模式图加入图样本池。 5.根据权利要求4所述的方法, 其特征在于, 所述利用所述协同模式图计算不同联合策 略网络之间的协同模式差异, 包括: 对于每一个联合策略网络, 从所述联合策略网络对应的图样本池中采样得到协同模式 图集合; 基于所述协同模式图集合计算格罗莫夫 ‑瓦瑟斯坦差异, 利用所述格罗莫夫 ‑瓦瑟斯坦 差异构建代价矩阵, 并利用预设算法求解所述代 价矩阵得到不同联合策略网络之 间的协同 模式差异。 6.根据权利要求5所述的方法, 其特 征在于, 所述协同模式差异的定义 为: , 其中, 和 分别表示由联合策略 所引导出的协同模式图, 则表示协 同模式图 和 的分布; 是一个联合分布, 代表能将概率质量从 转移至 的双射 转移方案, 表示 是联合分布集合 中的一个联合分布; 表示 所有边际分布分别为 的联合分布集合; 是格罗莫夫 ‑瓦瑟斯坦差异, 表 示寻找到最优的联合分布 使得其右侧表达式取到下确界。 7.根据权利要求6所述的方法, 其特征在于, 所述格罗莫夫 ‑瓦瑟斯坦差异 的计算公式 为:权 利 要 求 书 1/2 页 2 CN 115496208 A 2其中 , 分别表示 中的俩个测度图 , 表示所有测度图G的集合; 是一个定义在V上的博雷尔概率测度; i, j表示不同的智能体; V是顶点的集 合; 是任意不小于1的实数, 即 ; 表示对测度图 中所有顶点求和; 表示对测度图 中所有顶点求和; 表示测度图 中顶点i, j间的边的权值; 表示测度图 中顶点i', j'间的边的权值; 表示将测度图 中顶点i转运到测度图 中顶点i'; 表示将测度图 中顶点j转运到测度图 中顶点j'; 表示将对 应边的权值作差后取 次方; 其中, 表示T是集 合 中的一个转 运矩阵, 表示所有满足条件的转运矩阵的集 合, 具体条件为: 表示转运矩阵T作用于纬度为 的单位矩阵将得到测度 , 表示转置后的转 运矩阵TT作用于纬度为 的单位矩阵将得到测度 。 8.一种无监 督多智能体强化学习装置, 其特 征在于, 包括: 获取模块, 用于获取多智能体系统的多个联合策略网络; 控制模块, 用于根据 所述多个联合策略网络 中任意联合策略网络控制所述多智能体系 统中多个智能体进入协同模式, 并获取所述多个智能体在所述协同模型下与 环境的交互数 据; 计算模块, 用于基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协 同模式图, 利用所述协同模式图计算 不同联合策略网络之间的协同模式差异; 更新模块, 用于根据所述协同模式差异对每个智能体的轨迹进行伪回报标注, 得到每 个智能体在每一单步的伪回报, 并从经验回放样本池中采样, 通过梯度反向传播来更新多 智能体系统学习得到的联合策略网络, 直到满足预设停止条件, 停止迭代学习, 实现多智能 体的强化学习。 9.一种电子设备, 其特征在于, 包括: 存储器、 处理器及存储在所述存储器上并可在所 述处理器上运行的计算机程序, 所述处理器执行所述程序, 以实现如权利要求 1‑7任一项所 述的无监 督多智能体强化学习方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器 执行, 以用于实现如权利要求1 ‑7任一项所述的无监 督多智能体强化学习方法。权 利 要 求 书 2/2 页 3 CN 115496208 A 3
专利 协同模式多样化导向的无监督多智能体强化学习方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:24:42
上传分享
举报
下载
原文档
(889.1 KB)
分享
友情链接
T-CAS ES000000001—2022 工业品质量分级评价规则 通则.pdf
GB-T 17694-2009 地理信息 术语.pdf
SN-T 4764-2017 煤中碳、氢、氮、硫含量的测定 元素分析仪法.pdf
GB-T 32918.5-2017 信息安全技术 SM2椭圆曲线公钥密码算法 第5部分:参数定义.pdf
专利 一种电源芯片质量检测方法及系统.PDF
NY-T 3630.1-2020 农药利用率田间测定方法第1部分%3A大田作物茎叶喷雾的农药沉积利用率测定方法-诱惑红指示剂法.pdf
GM-T 0098-2020 基于IP网络的加密语音通信密码技术规范.pdf
T-CAAMTB 65—2022 汽车非解耦式电子助力制动系统总成性能要求及台架试验方法.pdf
T-ZZB 2436—2021 中性墨水用水性色浆.pdf
GB-T 5357-2023 内六角花形扳手.pdf
GB-T 10886-2019 三螺杆泵.pdf
T-CEC 664—2022 电力行业职业技能标准 电力网络安全员.pdf
GB-T 25441-2022 吸尘器电机.pdf
GBT 50064-2014 交流电气装置的过电压保护和绝缘配合设计规范.pdf
GB-T 32672-2016 电力需求响应系统通用技术规范.pdf
T-FSRS 1.1—2019 抚松人参”栽培技术规程 第1部分:福星1号.pdf
ISO 21780 2020 Road vehicles — Supply voltage of 48 V — Electrical requirements and tests.pdf
T-CSAE 78—2018 电动汽车再生制动平顺性的评价 及试验方法.pdf
GB-T 15102-2017 浸渍胶膜纸饰面纤维板和刨花板.pdf
T-CSTM 01094—2023 材料基因工程 合金扩散偶制备元数据.pdf
1
/
19
评价文档
赞助2元 点击下载(889.1 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。