(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211315369.2 (22)申请日 2022.10.25 (71)申请人 中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路95 号 (72)发明人 兴军亮 余照科 李凯  (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 专利代理师 邓菊香 (51)Int.Cl. G06N 3/08(2006.01) G06N 20/00(2019.01) H04L 67/568(2022.01) (54)发明名称 一种面向种群训练的分布式深度强化学习 训练模型 (57)摘要 本公开是关于一种面向种群训练的分布式 深度强化学习训练模型。 其中, 该模型包括训练 模块及评估模块, 所述训练模块用于智能体面向 种群训练的网络权重训练, 生 成参数指针并发送 至所述评估模块; 所述评估模块用于在工作模式 为参数存储模式时, 接收所述训练模块发送的参 数指针并存储, 在工作模式为参数评估模式时, 依据存储参数指针获取参数并评估。 本公开支持 分布式数据生成、 计算调度、 模型训练以及性能 评估, 显著加速智 能体的网络参数训练过程; 依 据需求支持可变数量的智能体网络参数可对其 进行相对独立的训练; 构建缓存池缓解网络传输 压力, 解决网络拥堵的问题; 有效避免各个模块 同时上传与申请数据造成的网络拥堵问题。 权利要求书2页 说明书5页 附图4页 CN 115496206 A 2022.12.20 CN 115496206 A 1.一种面向种群训练的分布式深度强化学习训练模型, 其特征在于, 所述模型包括训 练模块和评估模块, 所述训练模块包括数据生成模块、 数据缓存池、 策略更新模块、 权重缓 存池; 所述数据缓存池与所述数据生成模块和所述策略更新模块连接, 所述策略更新模块 与所述权 重缓存池和所述评估 模块连接, 其中: 所述训练模块用于智能体的基于面向种群网络权重训练, 生成参数指针并发送至所述 评估模块; 所述评估模块用于在工作模式为参数存储模式时, 接收所述训练模块发送的参数指针 并存储; 并在工作模式为参数评估模式时, 对所述参数指针中的参数进行评估并生成评估 结果, 所述评估结果供训练模块挑选参数时使用。 2.如权利要求1所述的模型, 其特 征在于, 所述数据生成模块用于: 生成数据并将数据存储在本地内存中, 同时接收内存返回的数据指针, 将所述数据指 针发送至数据缓存 池。 3.如权利要求2所述的模型, 其特 征在于, 所述数据生成模块还用于: 接收所述权重缓存池或评估模块发送的参数指针, 并基于所述参数指针获取对应参数 更新所述数据生成模块。 4.如权利要求1所述的模型, 其特 征在于, 所述数据缓存 池用于: 接收所述数据生成模块发送的数据指针, 并在接收到所述策略更新模块发送的数据指 针请求时, 将所述数据缓存池中数据指针发送至所述策略更新模块并清空所述数据缓存 池。 5.如权利要求 4所述的模型, 其特 征在于, 所述数据缓存 池还用于: 在接收到所述数据生成模块发送的数据指针后, 更新并保留预设数量的最新的数据指 针。 6.如权利要求1所述的模型, 其特 征在于, 所述策略更新模块用于: 向所述数据缓存池发送数据指针请求, 接收所述数据缓存池发送的数据指针, 并基于 所述数据指 针及预设算法生成参数指针, 将所述参数指 针分别发送至所述权重缓存池及评 估模块。 7.如权利要求6所述的模型, 其特 征在于, 所述策略更新模块包括: 策略更新第一模块, 用于向所述数据缓存池发送数据指针请求, 并接收所述数据缓存 池发送的数据指针, 然后基于数据指针获取、 处 理数据; 策略更新第二模块, 用于基于所述数据指针及预设算法生成参数指针, 将所述参数指 针分别发送至所述权 重缓存池及评估 模块。 8.如权利要求7 所述的模型, 其特 征在于, 所述策略更新第一模块还用于: 基于所述数据指针及预设算法生成网络参数, 并将所述网络参数发送至内存, 接收内 存返回的参数指针, 将所述 参数指针分别发送至所述权 重缓存池及评估 模块。 9.如权利要求1所述的模型, 其特 征在于, 所述权 重缓存池用于: 接收所述策略更新模块发送的参数指针, 保留最新的参数指针, 并每隔固定时间间隔 将参数指针发送至数据生成模块。 10.如权利要求1所述的模型, 其特 征在于, 所述评估 模块用于: 在工作模式为参数评估模式时, 在接收到所述训练模块发送的参数指针后, 基于预设权 利 要 求 书 1/2 页 2 CN 115496206 A 2规则对所述参数指 针中的参数进 行评估并生成评估结果, 基于评估结果对 所述参数指 针进 行存储或丢弃, 生成参数指针列表; 接收所述训练模块的参数指针请求, 并根据 所述参数指针请求将所述参数指针列表中 的参数指针发送至所述训练模块。权 利 要 求 书 2/2 页 3 CN 115496206 A 3

PDF文档 专利 一种面向种群训练的分布式深度强化学习训练模型

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向种群训练的分布式深度强化学习训练模型 第 1 页 专利 一种面向种群训练的分布式深度强化学习训练模型 第 2 页 专利 一种面向种群训练的分布式深度强化学习训练模型 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。