一种应用于边缘设备的大语言模型流水线推理架构

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种应用于边缘设备的大语言模型流水线推理架构
申请号:CN202411471669
申请日期:2024-10-21
公开号:CN119440632A
公开日期:2025-02-14
类型:发明专利
摘要
本发明公开了一种应用于边缘设备的大语言模型流水线推理架构,涉及大语言模型领域,本发明提出了一种内存高效的流水线执行机制,即PIPELOAD,针对其实际应用提出了Hermes架构由层分析器、流水线规划器和执行引擎三部分组成;层分析器是对给定的Transformer模型中的每一层进行分析,以评估其运行性能和内存使用情况;利用层分析器生成的数据,所述流水线规划器通过改变加载代理数量以生成在不同内存限制下的执行计划;在确定执行计划后,模型推理将根据边缘设备的当前的实际内存约束,在所述执行引擎中,遵从由流水线规划器生成的对应执行计划,按照该计划中的加载代理数量进行执行。本发明有效解决了流水线阻塞的问题和在边缘设备上部署大模型时内存受限的问题。
技术关键词
推理架构 流水线 内存 分析器 计划 规划 大语言模型 并行工作 机制 队列 信号 解码器 编码器 磁盘 受限 数据 阶段