文库搜索
切换导航
首页
频道
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
首页
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211261374.X (22)申请日 2022.10.14 (71)申请人 中冶赛迪信息技 术 (重庆) 有限公司 地址 401329 重庆市九龙坡区白市驿镇农 科大道66号2幢5-6号 (72)发明人 徐林伟 陈正国 卢义 张飞 徐超琼 丁昭祥 何洪 (74)专利代理 机构 上海光华专利事务所(普通 合伙) 31219 专利代理师 唐勇 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 10/08(2012.01) G06Q 10/04(2012.01) G06Q 50/04(2012.01)G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于深度强化学习的行车调度方法、 系 统、 设备及 介质 (57)摘要 本申请提供一种基于深度强化学习的行车 调度方法、 系统、 设备及介质, 包括: 基于历史状 态信息建立第一行车调度深度强化学习模型, 并 利用第一行车调度深度强化学习模型提供动作 决策; 建立行车调度仿真模型, 并将历史状态信 息和动作决策作为行车调度仿真模型的驱动策 略, 以使行车调度仿真模型根据驱动策略输出用 于优化第一行车调度深度强化学习模型的参数 值; 对第一行车调度深度强化学习模 型和行车调 度仿真模型进行交互离线训练, 得到第二行车调 度深度强化学习模型, 并部署 至钢铁实际生产系 统中, 进行实时行车调度。 本申请通过使用仿真 模拟实际生产周期, 实现了对长时间周期环境的 快速训练, 减少了模型开发周 期, 加快了模型上 线速度。 权利要求书3页 说明书15页 附图5页 CN 115471124 A 2022.12.13 CN 115471124 A 1.一种基于深度强化学习的行 车调度方法, 其特 征在于, 所述方法包括以下步骤: 获取钢铁实际生产系统的历史状态信息; 基于所述历史状态信 息建立第 一行车调度深度强化学习 模型, 并利用所述第 一行车调 度深度强化学习模型提供动作决策; 基于钢铁生产现场的数据信 息建立行车调度仿真模型, 并将所述历史状态信 息和所述 动作决策作为所述行车调度仿 真模型的驱动策略, 以使所述行车调 度仿真模型根据所述驱 动策略输出用于优化所述第一行 车调度深度强化学习模型的参数值; 对所述第一行车调度深度强化学习 模型和所述行车调度仿真模型进行交互离线训练, 得到第二行 车调度深度强化学习模型; 将所述第二行车调度深度强化学习 模型部署至所述钢铁实际生产系统中, 进行实时行 车调度。 2.根据权利要求1所述的基于深度强化学习的行车调度方法, 其特征在于, 对所述第 一 行车调度深度强化学习模型和所述行车调 度仿真模型进行 交互离线训练, 得到第二行车调 度深度强化学习模型的过程包括: 利用预先设置的数据接口传输所述第一行车调度深度强化学习模型和所述行车调度 仿真模型之间的数据; 所述行车调度仿真模型根据接收的钢铁实际生产系统 的状态信 息、 实时或预先输入的 动作决策信息进 行运行, 并返回奖惩值给所述第一行车调 度深度强化学习模型进 行迭代学 习和训练, 得到第二行 车调度深度强化学习模型。 3.根据权利要求1或2所述的基于深度强化学习的行车调度方法, 其特征在于, 将所述 第二行车调度深度强化学习模型部署至所述钢铁实际生产系统前, 所述方法还 包括: 对所述第二行车调度深度强化学习 模型给与调度动作 策略, 并在所述行车调度仿真模 型上对所述第二行车调 度深度强化学习模型进行前馈验证, 确定所述第二行车调度深度强 化学习模型的可 行性。 4.根据权利要求2所述的基于深度强化学习的行车调度方法, 其特征在于, 在返回奖惩 值给所述第一行车调度深度强化学习模型进 行迭代学习和训练时, 所述第一行车调 度深度 强化学习模型的奖励函数计算公式如下: 其中, r表示奖励函数返回值; ri表示每个天车的奖励函数返回值; n表示当前跨中天车 数量。 5.根据权利要求4所述的基于深度强化学习的行车调度方法, 其特征在于, 每个天车的 奖励函数返回值的计算公式如下: 权 利 要 求 书 1/3 页 2 CN 115471124 A 2其中, 情况(1)表示当前时刻第一行车调度深度强化学习模型在执行期间对应行车没 有任务, 此时返回的奖惩 值为0; 情况(2)表示当前时刻第 一行车调度深度强化学习模型在执行期间对应行车正在执行 任务, 此时返回的奖惩值为 式中, Ti是当前行车任务结束的时刻, Tmin_i是当前 行车正在进行任务的推荐时间段的最 早时间, γ0是第一权 重值; 情况(3)表示当前时刻第 一行车调度深度强化学习模型在执行期间对应行车已执行完 任务, 此时返回的奖惩 值为r_finishi。 6.根据权利要求5所述的基于深度强化学习的行车调度方法, 其特征在于, 当返回的奖 惩值为r_finishi时, r_finishi的计算公式如下: 其中, Tmax_i表示当前 行车正在进行的任务的推荐时间段的最晚时间; βi表示第二权 重值; ai表示超出推荐时间段完成任务的惩罚常数值; bi表示奖励常数值。 7.一种基于深度强化学习的行 车调度系统, 其特 征在于, 所述系统包括有: 信息采集模块, 用于获取钢铁实际生产系统的历史状态信息; 动作决策模块, 用于根据所述历史状态信息建立第一行车调度深度强化学习模型, 并 利用所述第一行 车调度深度强化学习模型提供动作决策; 优化模块, 用于基于钢铁生产现场的数据信息建立行车调度仿真模型, 并将所述历史 状态信息和所述动作决策作为所述行车调 度仿真模型的驱动策略, 以使 所述行车调 度仿真 模型根据所述驱动策略输出用于优化所述第一行 车调度深度强化学习模型的参数值; 训练模块, 用于对所述第 一行车调度深度强化学习 模型和所述行车调度仿真模型进行 交互离线训练, 得到第二行 车调度深度强化学习模型; 行车调度模块, 用于将所述第 二行车调度深度强化学习 模型部署至所述钢铁实际生产 系统中, 进行实时行 车调度。 8.根据权利要求7所述的基于深度强化学习的行车调度系统, 其特征在于, 所述训练模 块对所述第一行车调度深度强化学习模型和所述行车调 度仿真模型进 行交互离线训练, 得 到第二行 车调度深度强化学习模型的过程包括: 利用预先设置的数据接口传输所述第一行车调度深度强化学习模型和所述行车调度 仿真模型之间的数据; 所述行车调度仿真模型根据接收的钢铁实际生产系统 的状态信 息、 实时或预先输入的 动作决策信息进 行运行, 并返回奖惩值给所述第一行车调 度深度强化学习模型进 行迭代学 习和训练, 得到第二行 车调度深度强化学习模型。 9.一种基于深度强化学习的行 车调度设备, 其特 征在于, 包括: 处理器; 和, 存储有指令的计算机可读介质, 当所述处理器执行所述指令时, 使得所述设备执行如权 利 要 求 书 2/3 页 3 CN 115471124 A 3
专利 一种基于深度强化学习的行车调度方法、系统、设备及介质
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:24:36
上传分享
举报
下载
原文档
(1.0 MB)
分享
友情链接
GB-T 16746-2018 锌合金铸件.pdf
GB-T 18788-2008 平板式扫描仪通用规范.pdf
GB-T 27002-2011 合格评定 保密性 原则和要求.pdf
GM-T 0105-2021 软件随机数发生器设计指南.pdf
freebuf 2021企业安全运营实践研究报告.pdf
GB-T 23868-2019 体育用品的分类.pdf
HJ-T 166-2004 土壤环境监测技术规范.pdf
GB-T 9567-2016 工业用三聚氰胺.pdf
DB35-T 1215-2011 捕食螨生产技术规程 福建省.pdf
GA-T 1212-2014 安防人脸识别应用 防假体攻击测试方法.pdf
GB-T 30819-2014 机器人用谐波齿轮减速器.pdf
GB-T 35465.3-2017 聚合物基复合材料疲劳性能测试方法 第3部分:拉-拉疲劳.pdf
GA 1800.6-2021 电力系统治安反恐防范要求 第6部分:核能发电企业.pdf
T-CTSS 58—2022 茶叶感官风味轮.pdf
信通院 《区块链赋能新型智慧城市白皮书-2019年》.pdf
GB-T 33982-2017 分布式电源并网继电保护技术规范.pdf
GB-T 33453-2016 基础地理信息数据库建设规范.pdf
中国信创产业研究报告.pdf
T-HBCIA 001—2022 邢台酸枣仁.pdf
GB-T 18336.2-2015 信息技术 安全技术 信息技术安全评估准则 第2部分:安全功能组件.pdf
1
/
24
评价文档
赞助2元 点击下载(1.0 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。