基于封装引擎实现机器学习和大语言模型的推理加速方法
申请号:CN202411713241
申请日期:2024-11-27
公开号:CN119204231A
公开日期:2024-12-27
类型:发明专利
摘要
本发明提出基于封装引擎实现机器学习和大语言模型的推理加速方法,包括:在推理引擎中接收布尔参数enable_cache;根据传入的enable_cache值,执行条件判断逻辑,决定是否执行缓存查询:在指定的文件路径下创建Triton模型仓库,为每个模型建立独立的文件夹;在config.pbtxt文件中,定义模型的版本信息、输入输出张量名称、数据类型及维度;使用命令行工具启动Triton Inference Server,并指定模型仓库路径。本发明在提升推理速度、优化资源使用、改善用户体验、降低成本及增强可扩展性等方面都展现出显著的优势,为大型模型的实际应用提供了强有力的支持。
技术关键词
推理服务器
命令行工具
仓库
文件夹
回调机制
客户端
参数
查询方法
监控终端
动态更新
文件系统
提升系统
定义
逻辑
标识符
键值
接口
语句
脚本
日志