基于中间层解码的大语言模型加速处理方法、装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于中间层解码的大语言模型加速处理方法、装置
申请号:CN202410854936
申请日期:2024-06-28
公开号:CN118396044A
公开日期:2024-07-26
类型:发明专利
摘要
本申请涉及大语言模型技术领域,公开了一种基于中间层解码的大语言模型加速处理方法、装置,通过选取LLaMA2‑7B模型作为预训练的大语言模型,增加一个与最后一层Loss相加的中间层Loss分支,中间层能够获得接近最后一层的生成能力。在处理过程中,每个Token由中间层生成,并与最后一层的高质量输出Token进行比较验证,确保生成文本的质量。如果中间层生成的Token与最后一层相同,则加入生成文本序列;如果不同,则重新生成Token。该方法能够提前进入解码计算,减少生成延迟,加速处理过程,同时能够避免引入额外的推测模型,降低内存和计算资源占用,适用于硬件资源受限的环境。
技术关键词
中间层 大语言模型 分支 解码 文本 参数 阶段 模块 序列 代表 框架 内存 速度 受限