专利一种面向种群训练的分布式深度强化学习训练模型 -在线下载 -AI解读-standardlibrary.site

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211315369.2 (22)申请日 2022.10.25 (71)申请人中国科学院自动化研究所地址 100190 北京市海淀区中关村东路95 号 (72)发明人兴军亮　余照科　李凯　 (74)专利代理机构北京华夏泰和知识产权代理有限公司 1 1662 专利代理师邓菊香 (51)Int.Cl. G06N 3/08(2006.01) G06N 20/00(2019.01) H04L 67/568(2022.01) (54)发明名称一种面向种群训练的分布式深度强化学习训练模型 (57)摘要本公开是关于一种面向种群训练的分布式深度强化学习训练模型。其中，该模型包括训练模块及评估模块，所述训练模块用于智能体面向种群训练的网络权重训练，生成参数指针并发送至所述评估模块；所述评估模块用于在工作模式为参数存储模式时，接收所述训练模块发送的参数指针并存储，在工作模式为参数评估模式时，依据存储参数指针获取参数并评估。本公开支持分布式数据生成、计算调度、模型训练以及性能评估，显著加速智能体的网络参数训练过程；依据需求支持可变数量的智能体网络参数可对其进行相对独立的训练；构建缓存池缓解网络传输压力，解决网络拥堵的问题；有效避免各个模块同时上传与申请数据造成的网络拥堵问题。权利要求书2页说明书5页附图4页 CN 115496206 A 2022.12.20 CN 115496206 A 1.一种面向种群训练的分布式深度强化学习训练模型，其特征在于，所述模型包括训练模块和评估模块，所述训练模块包括数据生成模块、数据缓存池、策略更新模块、权重缓存池；所述数据缓存池与所述数据生成模块和所述策略更新模块连接，所述策略更新模块与所述权重缓存池和所述评估模块连接，其中：所述训练模块用于智能体的基于面向种群网络权重训练，生成参数指针并发送至所述评估模块；所述评估模块用于在工作模式为参数存储模式时，接收所述训练模块发送的参数指针并存储；并在工作模式为参数评估模式时，对所述参数指针中的参数进行评估并生成评估结果，所述评估结果供训练模块挑选参数时使用。 2.如权利要求1所述的模型，其特征在于，所述数据生成模块用于：生成数据并将数据存储在本地内存中，同时接收内存返回的数据指针，将所述数据指针发送至数据缓存池。 3.如权利要求2所述的模型，其特征在于，所述数据生成模块还用于：接收所述权重缓存池或评估模块发送的参数指针，并基于所述参数指针获取对应参数更新所述数据生成模块。 4.如权利要求1所述的模型，其特征在于，所述数据缓存池用于：接收所述数据生成模块发送的数据指针，并在接收到所述策略更新模块发送的数据指针请求时，将所述数据缓存池中数据指针发送至所述策略更新模块并清空所述数据缓存池。 5.如权利要求 4所述的模型，其特征在于，所述数据缓存池还用于：在接收到所述数据生成模块发送的数据指针后，更新并保留预设数量的最新的数据指针。 6.如权利要求1所述的模型，其特征在于，所述策略更新模块用于：向所述数据缓存池发送数据指针请求，接收所述数据缓存池发送的数据指针，并基于所述数据指针及预设算法生成参数指针，将所述参数指针分别发送至所述权重缓存池及评估模块。 7.如权利要求6所述的模型，其特征在于，所述策略更新模块包括：策略更新第一模块，用于向所述数据缓存池发送数据指针请求，并接收所述数据缓存池发送的数据指针，然后基于数据指针获取、处理数据；策略更新第二模块，用于基于所述数据指针及预设算法生成参数指针，将所述参数指针分别发送至所述权重缓存池及评估模块。 8.如权利要求7 所述的模型，其特征在于，所述策略更新第一模块还用于：基于所述数据指针及预设算法生成网络参数，并将所述网络参数发送至内存，接收内存返回的参数指针，将所述参数指针分别发送至所述权重缓存池及评估模块。 9.如权利要求1所述的模型，其特征在于，所述权重缓存池用于：接收所述策略更新模块发送的参数指针，保留最新的参数指针，并每隔固定时间间隔将参数指针发送至数据生成模块。 10.如权利要求1所述的模型，其特征在于，所述评估模块用于：在工作模式为参数评估模式时，在接收到所述训练模块发送的参数指针后，基于预设权　利　要　求　书 1/2 页 2 CN 115496206 A 2规则对所述参数指针中的参数进行评估并生成评估结果，基于评估结果对所述参数指针进行存储或丢弃，生成参数指针列表；接收所述训练模块的参数指针请求，并根据所述参数指针请求将所述参数指针列表中的参数指针发送至所述训练模块。权　利　要　求　书 2/2 页 3 CN 115496206 A 3

专利 一种面向种群训练的分布式深度强化学习训练模型

专利一种面向种群训练的分布式深度强化学习训练模型