文库搜索
切换导航
首页
频道
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
首页
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210540196.8 (22)申请日 2022.05.17 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 袁正雄 褚振方 李金麒 胡鸣人 王国彬 罗阳 黄悦 钱正宇 施恩 (74)专利代理 机构 北京易光知识产权代理有限 公司 11596 专利代理师 金爱静 武晨燕 (51)Int.Cl. G06F 8/61(2018.01) G06F 8/65(2018.01) G06F 8/71(2018.01)G06F 9/445(2018.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 推理服务部署方法、 装置、 设备以及存储介 质 (57)摘要 本公开提供了一种推理服务部署方法、 装 置、 设备以及存储介质, 涉及人工智能技术领域, 尤其涉及机器学习和推理服务技术领域。 具体实 现方案为: 一种推理服务部署方法, 包括: 获取部 署端的运行环 境的性能信息; 根据该部署端的运 行环境的性能信息, 从模型的多个候选版本的推 理服务中选择目标版本的推理服务; 将该目标版 本的推理服务部署到该部署端。 本公开可以提高 推理服务的部署效率。 权利要求书3页 说明书12页 附图5页 CN 114911492 A 2022.08.16 CN 114911492 A 1.一种推理服 务部署方法, 包括: 获取部署端的运行环境的性能信息; 根据所述部署端的运行环境的性能信 息, 从模型的多个候选版本的推理服务中选择目 标版本的推理服 务; 将所述目标 版本的推理服 务部署到所述部署端。 2.根据权利要求1所述的方法, 还 包括: 根据开发端的需求信息生成所述模型的基线版本的推理服 务; 基于所述基线版本的推理服务进行不同测试环境下的性 能测试, 得到不同测试环境的 性能信息对应的推理服 务, 作为所述多个候选版本的推理服 务。 3.根据权利要求2所述的方法, 所述需求信息包括以下至少之一: 推理服务可运行的软件环境; 推理服务可运行的硬件环境; 推理服务的启动方式; 推理服务的访问方式; 推理服务的请求处 理流程; 推理服务的附加功能集成。 4.根据权利要求2或3所述的方法, 所述 不同运行环境的性能信息包括以下至少之一: 不同资源量与不同参数配置下的可承载每秒处 理请求数QP S; 不同分位数 水平下的请求 耗时; 其中, 所述资源量包括CPU核数, 所述参数配置包括进程数、 线程数、 同步模式、 异步模 式中的至少之一。 5.根据权利要求2至4中任一项所述的方法, 所述基于所述基线版本的推理服务进行运 行环境性能测试, 包括: 通过启发 式搜索算法, 基于所述基线版本的推理服务进 行运行环 境 性能测试。 6.根据权利要求2至 5中任一项所述的方法, 还 包括以下至少之一: 获取所述模型在请求处 理流程中的各阶段耗时; 根据各阶段耗时, 获取深度神经网络的各层的处 理耗时和/或各算子的处 理耗时; 根据深度神经网络的各层的处 理耗时和/或各算子的处 理耗时, 生成性能报告。 7.根据权利要求1至6中任一项所述的方法, 将所述目标版本的推理服务部署到所述部 署端, 包括: 确定所述目标 版本的推理服 务对应的资源量与所述推理服 务对应的配置参数; 确定所述目标 版本的推理服 务的副本数与外 部访问地址; 基于所述目标版本的推理服务对应的资源量、 所述推理服务对应的配置参数、 所述副 本数以及所述外 部访问地址, 将所述目标 版本的推理服 务上线至所述部署端。 8.根据权利要求1至7中任一项所述的方法, 还 包括以下至少之一: 对所述部署端已部署的推理服 务进行更新; 将所述部署端已部署的推理服 务从所述部署端移除; 在所述部署端包括多个版本的推理服务共存的情况下, 调整各个版本的推理服务的请 求流量占比。权 利 要 求 书 1/3 页 2 CN 114911492 A 29.根据权利要求8所述的方法, 对所述部署端已部署的推理服 务进行更新, 包括: 对所述部署端已部署的新版本的推理服务以指定的副本个数滚动升级, 逐步替换所述 部署端已部署的旧版本的推理服 务; 或 允许所述部署端已部署的新版本的推理服务根据流量百分比逐步替换所述部署端已 部署的旧版本的推理服 务。 10.根据权利要求1至9中任一项所述的方法, 还 包括: 对所述部署端已部署的推理服务进行数据收集, 以获取所述模型的运行效果的统计信 息; 根据所述统计信息, 判断所述模型 是否适用于模型运行环境。 11.根据权利要求10所述的方法, 所述统计信息包括以下至少之一: 所述模型在所述模型运行环境的不同时期的请求数据分布偏移; 所述模型在所述模型运行环境的请求数据与模型训练数据的数据分布偏移; 所述模型在所述模型运行环境的输出 结果与标注结果的比对结果。 12.一种推理服 务部署装置, 包括: 获取模块, 用于获取部署端的运行环境的性能信息; 选择模块, 用于根据所述部署端的运行环境的性能信息, 从模型的多个候选版本的推 理服务中选择目标 版本的推理服 务; 部署模块, 用于将所述目标 版本的推理服 务部署到所述部署端。 13.根据权利要求12所述的装置, 还 包括: 生成模块, 用于根据开发端的需求信息生成所述模型的基线版本的推理服 务; 测试模块, 用于基于所述基线版本的推理服务进行不同测试环境下的性能测试, 得到 不同测试环境的性能信息对应的推理服 务, 作为所述多个候选版本的推理服 务。 14.根据权利要求13所述的装置, 所述需求信息包括以下至少之一: 推理服务可运行的软件环境; 推理服务可运行的硬件环境; 推理服务的启动方式; 推理服务的访问方式; 推理服务的请求处 理流程; 推理服务的附加功能集成。 15.根据权利要求13或14所述的装置, 所述不同运行环境的性能信息包括以下至少之 一: 不同资源量与不同参数配置下的可承载每秒处 理请求数QP S; 不同分位数 水平下的请求 耗时; 其中, 所述资源量包括CPU核数, 所述参数配置包括进程数、 线程数、 同步模式、 异步模 式中的至少之一。 16.根据权利要求13至15中任一项所述的装置, 所述测试模块用于通过启发式搜索算 法, 基于所述基线版本的推理服 务进行运行环境 性能测试。 17.根据权利要求13 至16中任一项所述的装置, 所述测试模块用于执 行以下至少之一: 获取所述模型在请求处 理流程中的各阶段耗时;权 利 要 求 书 2/3 页 3 CN 114911492 A 3
专利 推理服务部署方法、装置、设备以及存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 00:05:40
上传分享
举报
下载
原文档
(743.8 KB)
分享
友情链接
GB-T 27909.3-2011 银行业务 密钥管理(零售) 第3部分:非对称密码系统及其密钥管理和生命周期.pdf
DL-T 2038-2019 高压直流输电工程直流磁场测量方法.pdf
风险评估管理制度.pdf
JR-T 0059-2010 证券期货经营机构信息系统备份能力标准.pdf
T-GHDQ 99—2022 智能网联汽车远程通信模块信息安全 测试规范.pdf
GM-T 0016-2012 智能密码钥匙密码应用接口规范.pdf
GB 17411-2015 船用燃料油.pdf
YD-T 4251-2023 电信运营商大数据安全管控分类分级技术要求.pdf
WST 416-2013 干扰实验指南.pdf
GB-T 29242-2012 信息安全技术 鉴别与授权 安全断言标记语言.pdf
GB-T 5623-2008 产品电耗定额制定和管理导则.pdf
DB44-T 2368-2022 社会组织能力建设指南 广东省.pdf
GB-T 42097-2022 地上石油储 备 库完整性管理规范.pdf
汇丰科技周纪海 大型银行DevSecOps体系建设和落地实践 2021 .pdf
启明星辰 信创的现状及工程建设思路.pdf
T-SZCC 001—2023 深圳市生物医药产业“工业上楼” 设计指引.pdf
DB52-T 1558-2021 大数据安全服务人员能力评价 贵州省.pdf
GB-T 41255-2022 智能工厂 通用技术要求.pdf
GB-T 15843.6-2018 信息技术 安全技术 实体鉴别 第6部分:采用人工数据传递的机制.pdf
GB-T 25060-2010 信息安全技术 公钥基础设施 X.509数字证书应用接口规范.pdf
1
/
3
21
评价文档
赞助2元 点击下载(743.8 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。