(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210540196.8 (22)申请日 2022.05.17 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 袁正雄 褚振方 李金麒 胡鸣人  王国彬 罗阳 黄悦 钱正宇  施恩  (74)专利代理 机构 北京易光知识产权代理有限 公司 11596 专利代理师 金爱静 武晨燕 (51)Int.Cl. G06F 8/61(2018.01) G06F 8/65(2018.01) G06F 8/71(2018.01)G06F 9/445(2018.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 推理服务部署方法、 装置、 设备以及存储介 质 (57)摘要 本公开提供了一种推理服务部署方法、 装 置、 设备以及存储介质, 涉及人工智能技术领域, 尤其涉及机器学习和推理服务技术领域。 具体实 现方案为: 一种推理服务部署方法, 包括: 获取部 署端的运行环 境的性能信息; 根据该部署端的运 行环境的性能信息, 从模型的多个候选版本的推 理服务中选择目标版本的推理服务; 将该目标版 本的推理服务部署到该部署端。 本公开可以提高 推理服务的部署效率。 权利要求书3页 说明书12页 附图5页 CN 114911492 A 2022.08.16 CN 114911492 A 1.一种推理服 务部署方法, 包括: 获取部署端的运行环境的性能信息; 根据所述部署端的运行环境的性能信 息, 从模型的多个候选版本的推理服务中选择目 标版本的推理服 务; 将所述目标 版本的推理服 务部署到所述部署端。 2.根据权利要求1所述的方法, 还 包括: 根据开发端的需求信息生成所述模型的基线版本的推理服 务; 基于所述基线版本的推理服务进行不同测试环境下的性 能测试, 得到不同测试环境的 性能信息对应的推理服 务, 作为所述多个候选版本的推理服 务。 3.根据权利要求2所述的方法, 所述需求信息包括以下至少之一: 推理服务可运行的软件环境; 推理服务可运行的硬件环境; 推理服务的启动方式; 推理服务的访问方式; 推理服务的请求处 理流程; 推理服务的附加功能集成。 4.根据权利要求2或3所述的方法, 所述 不同运行环境的性能信息包括以下至少之一: 不同资源量与不同参数配置下的可承载每秒处 理请求数QP S; 不同分位数 水平下的请求 耗时; 其中, 所述资源量包括CPU核数, 所述参数配置包括进程数、 线程数、 同步模式、 异步模 式中的至少之一。 5.根据权利要求2至4中任一项所述的方法, 所述基于所述基线版本的推理服务进行运 行环境性能测试, 包括: 通过启发 式搜索算法, 基于所述基线版本的推理服务进 行运行环 境 性能测试。 6.根据权利要求2至 5中任一项所述的方法, 还 包括以下至少之一: 获取所述模型在请求处 理流程中的各阶段耗时; 根据各阶段耗时, 获取深度神经网络的各层的处 理耗时和/或各算子的处 理耗时; 根据深度神经网络的各层的处 理耗时和/或各算子的处 理耗时, 生成性能报告。 7.根据权利要求1至6中任一项所述的方法, 将所述目标版本的推理服务部署到所述部 署端, 包括: 确定所述目标 版本的推理服 务对应的资源量与所述推理服 务对应的配置参数; 确定所述目标 版本的推理服 务的副本数与外 部访问地址; 基于所述目标版本的推理服务对应的资源量、 所述推理服务对应的配置参数、 所述副 本数以及所述外 部访问地址, 将所述目标 版本的推理服 务上线至所述部署端。 8.根据权利要求1至7中任一项所述的方法, 还 包括以下至少之一: 对所述部署端已部署的推理服 务进行更新; 将所述部署端已部署的推理服 务从所述部署端移除; 在所述部署端包括多个版本的推理服务共存的情况下, 调整各个版本的推理服务的请 求流量占比。权 利 要 求 书 1/3 页 2 CN 114911492 A 29.根据权利要求8所述的方法, 对所述部署端已部署的推理服 务进行更新, 包括: 对所述部署端已部署的新版本的推理服务以指定的副本个数滚动升级, 逐步替换所述 部署端已部署的旧版本的推理服 务; 或 允许所述部署端已部署的新版本的推理服务根据流量百分比逐步替换所述部署端已 部署的旧版本的推理服 务。 10.根据权利要求1至9中任一项所述的方法, 还 包括: 对所述部署端已部署的推理服务进行数据收集, 以获取所述模型的运行效果的统计信 息; 根据所述统计信息, 判断所述模型 是否适用于模型运行环境。 11.根据权利要求10所述的方法, 所述统计信息包括以下至少之一: 所述模型在所述模型运行环境的不同时期的请求数据分布偏移; 所述模型在所述模型运行环境的请求数据与模型训练数据的数据分布偏移; 所述模型在所述模型运行环境的输出 结果与标注结果的比对结果。 12.一种推理服 务部署装置, 包括: 获取模块, 用于获取部署端的运行环境的性能信息; 选择模块, 用于根据所述部署端的运行环境的性能信息, 从模型的多个候选版本的推 理服务中选择目标 版本的推理服 务; 部署模块, 用于将所述目标 版本的推理服 务部署到所述部署端。 13.根据权利要求12所述的装置, 还 包括: 生成模块, 用于根据开发端的需求信息生成所述模型的基线版本的推理服 务; 测试模块, 用于基于所述基线版本的推理服务进行不同测试环境下的性能测试, 得到 不同测试环境的性能信息对应的推理服 务, 作为所述多个候选版本的推理服 务。 14.根据权利要求13所述的装置, 所述需求信息包括以下至少之一: 推理服务可运行的软件环境; 推理服务可运行的硬件环境; 推理服务的启动方式; 推理服务的访问方式; 推理服务的请求处 理流程; 推理服务的附加功能集成。 15.根据权利要求13或14所述的装置, 所述不同运行环境的性能信息包括以下至少之 一: 不同资源量与不同参数配置下的可承载每秒处 理请求数QP S; 不同分位数 水平下的请求 耗时; 其中, 所述资源量包括CPU核数, 所述参数配置包括进程数、 线程数、 同步模式、 异步模 式中的至少之一。 16.根据权利要求13至15中任一项所述的装置, 所述测试模块用于通过启发式搜索算 法, 基于所述基线版本的推理服 务进行运行环境 性能测试。 17.根据权利要求13 至16中任一项所述的装置, 所述测试模块用于执 行以下至少之一: 获取所述模型在请求处 理流程中的各阶段耗时;权 利 要 求 书 2/3 页 3 CN 114911492 A 3

.PDF文档 专利 推理服务部署方法、装置、设备以及存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 推理服务部署方法、装置、设备以及存储介质 第 1 页 专利 推理服务部署方法、装置、设备以及存储介质 第 2 页 专利 推理服务部署方法、装置、设备以及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:05:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。