文库搜索
切换导航
首页
频道
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
首页
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211353517.X (22)申请日 2022.11.01 (71)申请人 南京杰智易科技有限公司 地址 210001 江苏省南京市秦淮区永智路6 号南京白下高新技术产业开发区四号 楼A栋1101-28室 申请人 三明学院 (72)发明人 邱思杰 黄忠虎 贾鹏 马豪 伍坪 谢华 刘春明 纪联南 (74)专利代理 机构 成都睿道专利代理事务所 (普通合伙) 51217 专利代理师 廖敏 (51)Int.Cl. G08G 1/14(2006.01) G08G 1/0967(2006.01)G08G 1/0968(2006.01) G06N 3/08(2006.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 20/56(2022.01) (54)发明名称 一种基于深度强化学习的自动泊车方法和 系统 (57)摘要 本发明提供了一种基于深度强化学习的自 动泊车方法和系统, 包括构建初始评价者网络和 初始执行者网络; 基于状态的状态价值基线, 对 所述初始评价者网络和所述初始执行者网络进 行训练得到执行者网络; 获取车辆的当前图像; 获取当前车辆位置和车位位置; 将所述当前图 像、 所述当前车辆位置和所述车位位置输入所述 执行者网络, 所述执行者网络输出当前动作执行 策略; 车辆基于所述当前动作执行策略执行动 作, 并基于执行后的下一图像、 下一车辆位置和 所述车位位置获取下一动作执行策略, 直到车辆 完成自动泊车任务; 使用深度神经网络生成车辆 的控制指令, 通过评价者执行者算法完成对深度 神经网络的训练, 使得能更好 地实现自动泊车。 权利要求书3页 说明书10页 附图3页 CN 115472038 A 2022.12.13 CN 115472038 A 1.一种基于深度强化学习的自动泊车 方法, 其特 征在于, 包括: 构建初始评价 者网络和初始执 行者网络; 基于状态的状态价值基线, 对所述初始评价者网络和所述初始执行者网络进行训练得 到执行者网络; 其中, 训练得到执 行者网络, 包括: 基于动作执行策略的价值和所述状态价值基线, 构建所述初始执行者网络的收益梯 度; 其中, 构建所述收益梯度的公式为: 其中, 表示所述收益梯度; 表示累计收益; 表示动作奖励; 表示动 作奖励的折扣率; 表示车辆在t+1 时刻的状态价值基线; 表示车辆在 t时刻的状态价值基线; 表示在状态 的情况下执行动作 的样本动作执行 策略; 基于所述收益梯度, 更新所述初始执行者网络的网络参数, 直到所述收益梯度达到最 大值; 将得到最大值收益梯度时的初始执 行者网络作为训练好的执 行者网络; 获取车辆的当前图像; 所述当前图像包括车辆处于当前环境下的状态; 获取当前 车辆位置和车位 位置; 将所述当前图像、 所述当前车辆位置和所述车位位置输入所述执行者网络, 所述执行 者网络输出当前动作执 行策略; 车辆基于所述当前动作执行策略执行动作, 并基于执行后的下一图像、 下一车辆位置 和所述车位 位置获取 下一动作执 行策略, 直到车辆 完成自动泊车任务。 2.根据权利要求1所述的基于深度强化学习的自动泊车方法, 其特征在于, 通过构建多 层数据结构, 得到所述初始评价 者网络和所述初始执 行者网络, 包括: 所述数据结构的第一层采用7*7的卷积 操作和最大池化操作; 所述数据结构的第二层采用残差模块进行 特征提取; 所述数据结构的第三层采用残差模块进行 特征提取; 所述数据结构的第四层采用残差模块进行 特征提取; 所述数据结构的第五层采用残差模块进行 特征提取; 所述数据结构的第六层采用平均池化操作。 3.根据权利要求1所述的基于深度强化学习的自动泊车方法, 其特征在于, 所述训练得 到执行者网络, 包括: 将样本图像、 样本车辆位置和样本车位位置输入所述初始执行者网络, 所述初始执行 者网络输出样本动作执 行策略; 车辆基于所述样本动作执 行策略执行动作; 获取执行所述样本动作执 行策略的动作奖励;权 利 要 求 书 1/3 页 2 CN 115472038 A 2将所述样本 图像、 所述执行动作、 所述动作奖励和下一样本 图像作为训练样本并存入 经验池; 所述下一样本图像为执 行动作后得到的车辆环境的图像; 从所述经验 池中随机抽取训练样本; 将被抽取的训练样本中的样本图像和下一样本图像输入所述初始执行者网络, 得到动 作执行策略的价 值和所述状态价 值基线; 基于所述动作 执行策略的价值和所述状态价值基线, 更新所述初始执行者网络和所述 初始评价 者网络的网络参数; 当车辆未发生碰撞且所述初始执行者网络和所述初始评价者网络训练完成时, 得到训 练好的所述执 行者网络和评价 者网络。 4.根根据权利要求3所述的基于深度强化学习的自动泊车方法, 其特征在于, 更新所述 初始执行者网络的网络参数的公式为: 其中, 表示更新后的所述初始执行者网络的网络参数; 表示所述初始执行者网 络的网络参数; 表示所述初始执行者网络的学习率; 表示动作奖励的折扣率; 表示 所述动作执行策略 的价值; 表示所述状态价值基线; 表示所述被抽取的 训练样本的样本动作执 行策略; 更新所述初始评价 者网络的网络参数的公式为: 其中, 表示更新后的所述初始评价者网络的网络参数; 表示所述初始评 价者网 络的网络参数; 表示所述初始评价者网络的学习率; 表示所述动作执行策略的价值; 表示所述状态价 值基线; 表示所述被选取的训练样本的状态价 值基线。 5.根据权利要求3所述的基于深度强化学习的自动泊车方法, 其特征在于, 所述评价者 网络训练完成, 包括: 基于所述状态价 值基线, 构建所述初始评价 者网络的损失函数; 基于所述损 失函数, 更新所述初始评价者网络的网络参数, 直到所述损 失函数达到最 小值; 将得到最小值损失函数时的初始评价 者网络作为训练好的评价 者网络。 6.根据权利要求5所述的基于深度强化学习的自动泊车方法, 其特征在于, 构建所述损 失函数的公式为: 其中, 表示所述初始评价者网络在网络参数为 时的损失函数; 表示动 作奖励; 表示动作奖励的折扣率; 表示车辆在t+1时刻的状态价值基线; 表权 利 要 求 书 2/3 页 3 CN 115472038 A 3
专利 一种基于深度强化学习的自动泊车方法和系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:24:44
上传分享
举报
下载
原文档
(781.4 KB)
分享
友情链接
GB-T 9776-2022 建筑石膏.pdf
GB-T 2965-2023 钛及钛合金棒材.pdf
GB-T 43243-2023 机关事务信息化基础数据规范.pdf
CSA 医疗健康网络安全手册.pdf
GB-T 32319-2015 银行业产品说明书描述规范.pdf
T-GDACM 0116—2022 中医护理门诊建设规范.pdf
GB-T 39026-2020 循环再利用聚酯(PET)纤维鉴别方法.pdf
GB-T 15552-2015 丝织物试验方法和检验规则.pdf
GB-T 42916-2023 铝及铝合金产品标识.pdf
GB-T 35286-2017 信息安全技术 低速无线个域网空口安全测试规范.pdf
T-SHDZ 001—2023 浅层地下水环境监测井建设技术标准.pdf
思度安全-DSMM-002 岗位职责说明书V1.0.pdf
DB4401-T 28-2019 排水管渠维修养护技术规范 广州市.pdf
T-GHDQ 89.1—2022 车载网络安全测试规范 第1部分: 车载CAN总线安全测试规范.pdf
QC-T 556-2023 汽车制动器温度测量方法及热电偶安装要求.pdf
GB-T 43334-2023 独立型微电网能量管理系统技术要求.pdf
GB-T 34057-2017 电子商务信用 网络零售信用基本要求 消费品零售.pdf
德勤中国 数字化时代下的网络安全战略框架系列之三.pdf
DB61-T 1505-2021 数字化转型 企业新型能力识别技术规范 陕西省.pdf
T-CASME 668—2023 CD3-CD4-CD8-CD16+CD56-CD19-CD45检测试剂盒 流式细胞仪法-6色.pdf
1
/
17
评价文档
赞助2元 点击下载(781.4 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。