基于封装引擎实现机器学习和大语言模型的推理加速方法

申请号：CN202411713241

申请日期：2024-11-27

公开号：CN119204231A

公开日期：2024-12-27

类型：发明专利

摘要

本发明提出基于封装引擎实现机器学习和大语言模型的推理加速方法，包括：在推理引擎中接收布尔参数enable_cache；根据传入的enable_cache值，执行条件判断逻辑，决定是否执行缓存查询：在指定的文件路径下创建Triton模型仓库，为每个模型建立独立的文件夹；在config.pbtxt文件中，定义模型的版本信息、输入输出张量名称、数据类型及维度；使用命令行工具启动Triton Inference Server，并指定模型仓库路径。本发明在提升推理速度、优化资源使用、改善用户体验、降低成本及增强可扩展性等方面都展现出显著的优势，为大型模型的实际应用提供了强有力的支持。

技术关键词

推理服务器命令行工具仓库文件夹回调机制客户端参数查询方法监控终端动态更新文件系统提升系统定义逻辑标识符键值接口语句脚本日志