(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211261374.X (22)申请日 2022.10.14 (71)申请人 中冶赛迪信息技 术 (重庆) 有限公司 地址 401329 重庆市九龙坡区白市驿镇农 科大道66号2幢5-6号 (72)发明人 徐林伟 陈正国 卢义 张飞  徐超琼 丁昭祥 何洪  (74)专利代理 机构 上海光华专利事务所(普通 合伙) 31219 专利代理师 唐勇 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 10/08(2012.01) G06Q 10/04(2012.01) G06Q 50/04(2012.01)G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于深度强化学习的行车调度方法、 系 统、 设备及 介质 (57)摘要 本申请提供一种基于深度强化学习的行车 调度方法、 系统、 设备及介质, 包括: 基于历史状 态信息建立第一行车调度深度强化学习模型, 并 利用第一行车调度深度强化学习模型提供动作 决策; 建立行车调度仿真模型, 并将历史状态信 息和动作决策作为行车调度仿真模型的驱动策 略, 以使行车调度仿真模型根据驱动策略输出用 于优化第一行车调度深度强化学习模型的参数 值; 对第一行车调度深度强化学习模 型和行车调 度仿真模型进行交互离线训练, 得到第二行车调 度深度强化学习模型, 并部署 至钢铁实际生产系 统中, 进行实时行车调度。 本申请通过使用仿真 模拟实际生产周期, 实现了对长时间周期环境的 快速训练, 减少了模型开发周 期, 加快了模型上 线速度。 权利要求书3页 说明书15页 附图5页 CN 115471124 A 2022.12.13 CN 115471124 A 1.一种基于深度强化学习的行 车调度方法, 其特 征在于, 所述方法包括以下步骤: 获取钢铁实际生产系统的历史状态信息; 基于所述历史状态信 息建立第 一行车调度深度强化学习 模型, 并利用所述第 一行车调 度深度强化学习模型提供动作决策; 基于钢铁生产现场的数据信 息建立行车调度仿真模型, 并将所述历史状态信 息和所述 动作决策作为所述行车调度仿 真模型的驱动策略, 以使所述行车调 度仿真模型根据所述驱 动策略输出用于优化所述第一行 车调度深度强化学习模型的参数值; 对所述第一行车调度深度强化学习 模型和所述行车调度仿真模型进行交互离线训练, 得到第二行 车调度深度强化学习模型; 将所述第二行车调度深度强化学习 模型部署至所述钢铁实际生产系统中, 进行实时行 车调度。 2.根据权利要求1所述的基于深度强化学习的行车调度方法, 其特征在于, 对所述第 一 行车调度深度强化学习模型和所述行车调 度仿真模型进行 交互离线训练, 得到第二行车调 度深度强化学习模型的过程包括: 利用预先设置的数据接口传输所述第一行车调度深度强化学习模型和所述行车调度 仿真模型之间的数据; 所述行车调度仿真模型根据接收的钢铁实际生产系统 的状态信 息、 实时或预先输入的 动作决策信息进 行运行, 并返回奖惩值给所述第一行车调 度深度强化学习模型进 行迭代学 习和训练, 得到第二行 车调度深度强化学习模型。 3.根据权利要求1或2所述的基于深度强化学习的行车调度方法, 其特征在于, 将所述 第二行车调度深度强化学习模型部署至所述钢铁实际生产系统前, 所述方法还 包括: 对所述第二行车调度深度强化学习 模型给与调度动作 策略, 并在所述行车调度仿真模 型上对所述第二行车调 度深度强化学习模型进行前馈验证, 确定所述第二行车调度深度强 化学习模型的可 行性。 4.根据权利要求2所述的基于深度强化学习的行车调度方法, 其特征在于, 在返回奖惩 值给所述第一行车调度深度强化学习模型进 行迭代学习和训练时, 所述第一行车调 度深度 强化学习模型的奖励函数计算公式如下: 其中, r表示奖励函数返回值; ri表示每个天车的奖励函数返回值; n表示当前跨中天车 数量。 5.根据权利要求4所述的基于深度强化学习的行车调度方法, 其特征在于, 每个天车的 奖励函数返回值的计算公式如下: 权 利 要 求 书 1/3 页 2 CN 115471124 A 2其中, 情况(1)表示当前时刻第一行车调度深度强化学习模型在执行期间对应行车没 有任务, 此时返回的奖惩 值为0; 情况(2)表示当前时刻第 一行车调度深度强化学习模型在执行期间对应行车正在执行 任务, 此时返回的奖惩值为 式中, Ti是当前行车任务结束的时刻, Tmin_i是当前 行车正在进行任务的推荐时间段的最 早时间, γ0是第一权 重值; 情况(3)表示当前时刻第 一行车调度深度强化学习模型在执行期间对应行车已执行完 任务, 此时返回的奖惩 值为r_finishi。 6.根据权利要求5所述的基于深度强化学习的行车调度方法, 其特征在于, 当返回的奖 惩值为r_finishi时, r_finishi的计算公式如下: 其中, Tmax_i表示当前 行车正在进行的任务的推荐时间段的最晚时间; βi表示第二权 重值; ai表示超出推荐时间段完成任务的惩罚常数值; bi表示奖励常数值。 7.一种基于深度强化学习的行 车调度系统, 其特 征在于, 所述系统包括有: 信息采集模块, 用于获取钢铁实际生产系统的历史状态信息; 动作决策模块, 用于根据所述历史状态信息建立第一行车调度深度强化学习模型, 并 利用所述第一行 车调度深度强化学习模型提供动作决策; 优化模块, 用于基于钢铁生产现场的数据信息建立行车调度仿真模型, 并将所述历史 状态信息和所述动作决策作为所述行车调 度仿真模型的驱动策略, 以使 所述行车调 度仿真 模型根据所述驱动策略输出用于优化所述第一行 车调度深度强化学习模型的参数值; 训练模块, 用于对所述第 一行车调度深度强化学习 模型和所述行车调度仿真模型进行 交互离线训练, 得到第二行 车调度深度强化学习模型; 行车调度模块, 用于将所述第 二行车调度深度强化学习 模型部署至所述钢铁实际生产 系统中, 进行实时行 车调度。 8.根据权利要求7所述的基于深度强化学习的行车调度系统, 其特征在于, 所述训练模 块对所述第一行车调度深度强化学习模型和所述行车调 度仿真模型进 行交互离线训练, 得 到第二行 车调度深度强化学习模型的过程包括: 利用预先设置的数据接口传输所述第一行车调度深度强化学习模型和所述行车调度 仿真模型之间的数据; 所述行车调度仿真模型根据接收的钢铁实际生产系统 的状态信 息、 实时或预先输入的 动作决策信息进 行运行, 并返回奖惩值给所述第一行车调 度深度强化学习模型进 行迭代学 习和训练, 得到第二行 车调度深度强化学习模型。 9.一种基于深度强化学习的行 车调度设备, 其特 征在于, 包括: 处理器; 和, 存储有指令的计算机可读介质, 当所述处理器执行所述指令时, 使得所述设备执行如权 利 要 求 书 2/3 页 3 CN 115471124 A 3

PDF文档 专利 一种基于深度强化学习的行车调度方法、系统、设备及介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度强化学习的行车调度方法、系统、设备及介质 第 1 页 专利 一种基于深度强化学习的行车调度方法、系统、设备及介质 第 2 页 专利 一种基于深度强化学习的行车调度方法、系统、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:36上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。