大模型的内存管理方法及装置、电子设备、可读存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大模型的内存管理方法及装置、电子设备、可读存储介质
申请号:CN202510821422
申请日期:2025-06-19
公开号:CN120353603B
公开日期:2025-09-09
类型:发明专利
摘要
本发明公开一种大模型的内存管理方法及装置、电子设备、可读存储介质,方法包括将数据输入到训练后的文本长度预估模型,估计大模型输出文本长度并对长度进行向上调整成整数,根据内存页大小和kv cache维度计算cache分块数量,并将cache分块数量向上调整成整数;最后为大模型解码分配kv cache内存块。本发明通过提前分配足够的显存或内存,有效避免动态调整带来的延迟;在批量推理场景中,能够合理的规划计算资源,提高吞吐量;在流式输出场景中,在逐词生成的场景下,本发明预估输出长度可以优化用户体验,如进度条显示或提前截断处理。
技术关键词
内存管理方法 文本 前馈神经网络 解码器结构 电子设备 内存管理装置 注意力 可读存储介质 优化用户体验 分块策略 数据获取模块 程序 进度条 场景 存储装置 流水线 处理器