大模型推理加速的方法、装置及设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大模型推理加速的方法、装置及设备
申请号:CN202511478239
申请日期:2025-10-16
公开号:CN120952186A
公开日期:2025-11-14
类型:发明专利
摘要
本说明书提供了大模型推理加速的方法、装置及设备,计算服务设备配置有多个计算节点,并存储有前缀索引结构,用于指示token序列前缀与存有其缓存计算结果的计算节点之间的映射关系;该方法包括执行全局调度机制,基于推理请求的token序列查询所述前缀索引结构进行前缀匹配,以确定一个或多个候选计算节点,以及根据所述实时负载状态从所述候选计算节点中选择一目标计算节点;执行本地调度机制,根据所述推理请求在所述目标计算节点上的前缀匹配程度,为所述推理请求分配一执行优先级进行调度处理;加载与匹配前缀对应的缓存计算结果,并仅对所述推理请求的非前缀部分、调用大模型以执行推理计算。
技术关键词
节点 服务设备 索引 机制 语义向量 序列 队列 加速装置 字典树 处理器 指令 分层 关系 注意力 存储器 周期