文库搜索
切换导航
首页
频道
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
首页
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211315369.2 (22)申请日 2022.10.25 (71)申请人 中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路95 号 (72)发明人 兴军亮 余照科 李凯 (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 专利代理师 邓菊香 (51)Int.Cl. G06N 3/08(2006.01) G06N 20/00(2019.01) H04L 67/568(2022.01) (54)发明名称 一种面向种群训练的分布式深度强化学习 训练模型 (57)摘要 本公开是关于一种面向种群训练的分布式 深度强化学习训练模型。 其中, 该模型包括训练 模块及评估模块, 所述训练模块用于智能体面向 种群训练的网络权重训练, 生 成参数指针并发送 至所述评估模块; 所述评估模块用于在工作模式 为参数存储模式时, 接收所述训练模块发送的参 数指针并存储, 在工作模式为参数评估模式时, 依据存储参数指针获取参数并评估。 本公开支持 分布式数据生成、 计算调度、 模型训练以及性能 评估, 显著加速智 能体的网络参数训练过程; 依 据需求支持可变数量的智能体网络参数可对其 进行相对独立的训练; 构建缓存池缓解网络传输 压力, 解决网络拥堵的问题; 有效避免各个模块 同时上传与申请数据造成的网络拥堵问题。 权利要求书2页 说明书5页 附图4页 CN 115496206 A 2022.12.20 CN 115496206 A 1.一种面向种群训练的分布式深度强化学习训练模型, 其特征在于, 所述模型包括训 练模块和评估模块, 所述训练模块包括数据生成模块、 数据缓存池、 策略更新模块、 权重缓 存池; 所述数据缓存池与所述数据生成模块和所述策略更新模块连接, 所述策略更新模块 与所述权 重缓存池和所述评估 模块连接, 其中: 所述训练模块用于智能体的基于面向种群网络权重训练, 生成参数指针并发送至所述 评估模块; 所述评估模块用于在工作模式为参数存储模式时, 接收所述训练模块发送的参数指针 并存储; 并在工作模式为参数评估模式时, 对所述参数指针中的参数进行评估并生成评估 结果, 所述评估结果供训练模块挑选参数时使用。 2.如权利要求1所述的模型, 其特 征在于, 所述数据生成模块用于: 生成数据并将数据存储在本地内存中, 同时接收内存返回的数据指针, 将所述数据指 针发送至数据缓存 池。 3.如权利要求2所述的模型, 其特 征在于, 所述数据生成模块还用于: 接收所述权重缓存池或评估模块发送的参数指针, 并基于所述参数指针获取对应参数 更新所述数据生成模块。 4.如权利要求1所述的模型, 其特 征在于, 所述数据缓存 池用于: 接收所述数据生成模块发送的数据指针, 并在接收到所述策略更新模块发送的数据指 针请求时, 将所述数据缓存池中数据指针发送至所述策略更新模块并清空所述数据缓存 池。 5.如权利要求 4所述的模型, 其特 征在于, 所述数据缓存 池还用于: 在接收到所述数据生成模块发送的数据指针后, 更新并保留预设数量的最新的数据指 针。 6.如权利要求1所述的模型, 其特 征在于, 所述策略更新模块用于: 向所述数据缓存池发送数据指针请求, 接收所述数据缓存池发送的数据指针, 并基于 所述数据指 针及预设算法生成参数指针, 将所述参数指 针分别发送至所述权重缓存池及评 估模块。 7.如权利要求6所述的模型, 其特 征在于, 所述策略更新模块包括: 策略更新第一模块, 用于向所述数据缓存池发送数据指针请求, 并接收所述数据缓存 池发送的数据指针, 然后基于数据指针获取、 处 理数据; 策略更新第二模块, 用于基于所述数据指针及预设算法生成参数指针, 将所述参数指 针分别发送至所述权 重缓存池及评估 模块。 8.如权利要求7 所述的模型, 其特 征在于, 所述策略更新第一模块还用于: 基于所述数据指针及预设算法生成网络参数, 并将所述网络参数发送至内存, 接收内 存返回的参数指针, 将所述 参数指针分别发送至所述权 重缓存池及评估 模块。 9.如权利要求1所述的模型, 其特 征在于, 所述权 重缓存池用于: 接收所述策略更新模块发送的参数指针, 保留最新的参数指针, 并每隔固定时间间隔 将参数指针发送至数据生成模块。 10.如权利要求1所述的模型, 其特 征在于, 所述评估 模块用于: 在工作模式为参数评估模式时, 在接收到所述训练模块发送的参数指针后, 基于预设权 利 要 求 书 1/2 页 2 CN 115496206 A 2规则对所述参数指 针中的参数进 行评估并生成评估结果, 基于评估结果对 所述参数指 针进 行存储或丢弃, 生成参数指针列表; 接收所述训练模块的参数指针请求, 并根据 所述参数指针请求将所述参数指针列表中 的参数指针发送至所述训练模块。权 利 要 求 书 2/2 页 3 CN 115496206 A 3
专利 一种面向种群训练的分布式深度强化学习训练模型
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:24:45
上传分享
举报
下载
原文档
(419.7 KB)
分享
友情链接
GB-T 22652-2019 阀门密封面堆焊工艺评定.pdf
GB-T 36333-2018 智慧城市 顶层设计指南.pdf
信通院 - 2023年四季度互联网投融资运行情况.pdf
“数盾”体系技术架构研究-20221119 - V2.4.2.2.pdf
GB-T 17568-2019 γ辐照装置设计建造和使用规范.pdf
GB-T 33764-2017 独立光伏系统验收规范.pdf
T-CAAMTB 19—2019 汽车零部件再制造企业管理体系 要求.pdf
DB65-T 4536.5—2022 电子政务外网建设规范第5部分:网络安全实施指南 新疆维吾尔自治区.pdf
GB-T 33174-2022 资产管理 管理体系 GB-T 33173应用指南.pdf
GM-T 0112-2021 PDF格式文档的密码应用技术要求.pdf
GB-T 41908-2022 人类粪便样本采集与处理.pdf
GB-T 35273-2020 信息安全技术 个人信息安全规范.pdf
YDT 4403-2023 开源项目选型参考框架.pdf
GB-T 37378-2019 交通运输 信息安全规范.pdf
GB-T 42249-2022 矿产资源综合利用技术指标及其计算方法.pdf
DB13-T 5945—2024 地面沉降监测分层标施工技术规程 河北省.pdf
YD-T 3746-2020 车联网信息服务用户个人信息保护要求.pdf
T-GHDQ 87.1—2022 车辆控制器信息安全技术要求 第1部分:通用技术要求.pdf
GB-T 39779-2021 分布式冷热电能源系统设计导则.pdf
T-CAAMM 28—2018 农业机械用轻型联组V带.pdf
1
/
12
评价文档
赞助2元 点击下载(419.7 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。