文库搜索
切换导航
首页
频道
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
首页
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211353517.X (22)申请日 2022.11.01 (71)申请人 南京杰智易科技有限公司 地址 210001 江苏省南京市秦淮区永智路6 号南京白下高新技术产业开发区四号 楼A栋1101-28室 申请人 三明学院 (72)发明人 邱思杰 黄忠虎 贾鹏 马豪 伍坪 谢华 刘春明 纪联南 (74)专利代理 机构 成都睿道专利代理事务所 (普通合伙) 51217 专利代理师 廖敏 (51)Int.Cl. G08G 1/14(2006.01) G08G 1/0967(2006.01)G08G 1/0968(2006.01) G06N 3/08(2006.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 20/56(2022.01) (54)发明名称 一种基于深度强化学习的自动泊车方法和 系统 (57)摘要 本发明提供了一种基于深度强化学习的自 动泊车方法和系统, 包括构建初始评价者网络和 初始执行者网络; 基于状态的状态价值基线, 对 所述初始评价者网络和所述初始执行者网络进 行训练得到执行者网络; 获取车辆的当前图像; 获取当前车辆位置和车位位置; 将所述当前图 像、 所述当前车辆位置和所述车位位置输入所述 执行者网络, 所述执行者网络输出当前动作执行 策略; 车辆基于所述当前动作执行策略执行动 作, 并基于执行后的下一图像、 下一车辆位置和 所述车位位置获取下一动作执行策略, 直到车辆 完成自动泊车任务; 使用深度神经网络生成车辆 的控制指令, 通过评价者执行者算法完成对深度 神经网络的训练, 使得能更好 地实现自动泊车。 权利要求书3页 说明书10页 附图3页 CN 115472038 A 2022.12.13 CN 115472038 A 1.一种基于深度强化学习的自动泊车 方法, 其特 征在于, 包括: 构建初始评价 者网络和初始执 行者网络; 基于状态的状态价值基线, 对所述初始评价者网络和所述初始执行者网络进行训练得 到执行者网络; 其中, 训练得到执 行者网络, 包括: 基于动作执行策略的价值和所述状态价值基线, 构建所述初始执行者网络的收益梯 度; 其中, 构建所述收益梯度的公式为: 其中, 表示所述收益梯度; 表示累计收益; 表示动作奖励; 表示动 作奖励的折扣率; 表示车辆在t+1 时刻的状态价值基线; 表示车辆在 t时刻的状态价值基线; 表示在状态 的情况下执行动作 的样本动作执行 策略; 基于所述收益梯度, 更新所述初始执行者网络的网络参数, 直到所述收益梯度达到最 大值; 将得到最大值收益梯度时的初始执 行者网络作为训练好的执 行者网络; 获取车辆的当前图像; 所述当前图像包括车辆处于当前环境下的状态; 获取当前 车辆位置和车位 位置; 将所述当前图像、 所述当前车辆位置和所述车位位置输入所述执行者网络, 所述执行 者网络输出当前动作执 行策略; 车辆基于所述当前动作执行策略执行动作, 并基于执行后的下一图像、 下一车辆位置 和所述车位 位置获取 下一动作执 行策略, 直到车辆 完成自动泊车任务。 2.根据权利要求1所述的基于深度强化学习的自动泊车方法, 其特征在于, 通过构建多 层数据结构, 得到所述初始评价 者网络和所述初始执 行者网络, 包括: 所述数据结构的第一层采用7*7的卷积 操作和最大池化操作; 所述数据结构的第二层采用残差模块进行 特征提取; 所述数据结构的第三层采用残差模块进行 特征提取; 所述数据结构的第四层采用残差模块进行 特征提取; 所述数据结构的第五层采用残差模块进行 特征提取; 所述数据结构的第六层采用平均池化操作。 3.根据权利要求1所述的基于深度强化学习的自动泊车方法, 其特征在于, 所述训练得 到执行者网络, 包括: 将样本图像、 样本车辆位置和样本车位位置输入所述初始执行者网络, 所述初始执行 者网络输出样本动作执 行策略; 车辆基于所述样本动作执 行策略执行动作; 获取执行所述样本动作执 行策略的动作奖励;权 利 要 求 书 1/3 页 2 CN 115472038 A 2将所述样本 图像、 所述执行动作、 所述动作奖励和下一样本 图像作为训练样本并存入 经验池; 所述下一样本图像为执 行动作后得到的车辆环境的图像; 从所述经验 池中随机抽取训练样本; 将被抽取的训练样本中的样本图像和下一样本图像输入所述初始执行者网络, 得到动 作执行策略的价 值和所述状态价 值基线; 基于所述动作 执行策略的价值和所述状态价值基线, 更新所述初始执行者网络和所述 初始评价 者网络的网络参数; 当车辆未发生碰撞且所述初始执行者网络和所述初始评价者网络训练完成时, 得到训 练好的所述执 行者网络和评价 者网络。 4.根根据权利要求3所述的基于深度强化学习的自动泊车方法, 其特征在于, 更新所述 初始执行者网络的网络参数的公式为: 其中, 表示更新后的所述初始执行者网络的网络参数; 表示所述初始执行者网 络的网络参数; 表示所述初始执行者网络的学习率; 表示动作奖励的折扣率; 表示 所述动作执行策略 的价值; 表示所述状态价值基线; 表示所述被抽取的 训练样本的样本动作执 行策略; 更新所述初始评价 者网络的网络参数的公式为: 其中, 表示更新后的所述初始评价者网络的网络参数; 表示所述初始评 价者网 络的网络参数; 表示所述初始评价者网络的学习率; 表示所述动作执行策略的价值; 表示所述状态价 值基线; 表示所述被选取的训练样本的状态价 值基线。 5.根据权利要求3所述的基于深度强化学习的自动泊车方法, 其特征在于, 所述评价者 网络训练完成, 包括: 基于所述状态价 值基线, 构建所述初始评价 者网络的损失函数; 基于所述损 失函数, 更新所述初始评价者网络的网络参数, 直到所述损 失函数达到最 小值; 将得到最小值损失函数时的初始评价 者网络作为训练好的评价 者网络。 6.根据权利要求5所述的基于深度强化学习的自动泊车方法, 其特征在于, 构建所述损 失函数的公式为: 其中, 表示所述初始评价者网络在网络参数为 时的损失函数; 表示动 作奖励; 表示动作奖励的折扣率; 表示车辆在t+1时刻的状态价值基线; 表权 利 要 求 书 2/3 页 3 CN 115472038 A 3
专利 一种基于深度强化学习的自动泊车方法和系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:24:44
上传分享
举报
下载
原文档
(781.4 KB)
分享
友情链接
GM-T 0017-2023 智能密码钥匙密码应用接口数据格式规范.pdf
GB 21148-2020 足部防护 安全鞋.pdf
GB-T 13217.7-2023 油墨附着力检验方法.pdf
云原生安全白皮书中文版第二版.pdf
GB-T 39717-2020 水处理用陶瓷膜板.pdf
DB65-T4655-2023 机关事务管理后勤服务通用要求 新疆维吾尔自治区.pdf
GB-T 41985-2022 230MeV~250MeV超导质子回旋加速器.pdf
GB-T 41919-2022 人造石建筑板材.pdf
GB-T 41837-2022 温泉服务 温泉水质要求.pdf
LLMs解决进攻性安全挑战的实证评估-2402.11814.pdf
DL-T 2036-2019 高压交流架空输电线路可听噪声计算方法.pdf
DB11-T 968-2021 预制混凝土构件质量检验标准 北京市.pdf
T-GCHA 1.2—2018 定制家居产品 人造板定制衣柜 第2部分:原材料验收规范.pdf
GB-T 24564-2009 高炉热风炉节能监测.pdf
GB-T 14555-2015 船用导航雷达接口及安装要求.pdf
德勤中国 数字化时代下的网络安全战略框架系列之三.pdf
GB-T 24915-2020 合同能源管理技术通则.pdf
GM-T 0028-2014 密码模块安全技术要求.pdf
GB-T 31072-2014 科技平台 统一身份认证.pdf
T-SHPPA 025—2024 切向流过滤膜及膜包-装置生产质量管理指南.pdf
1
/
17
评价文档
赞助2元 点击下载(781.4 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。