横向混合注意力机制的模型训练方法、介质、设备及程序产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
横向混合注意力机制的模型训练方法、介质、设备及程序产品
申请号:CN202511159707
申请日期:2025-08-19
公开号:CN121031665A
公开日期:2025-11-28
类型:发明专利
摘要
本申请提供一种横向混合注意力机制的模型训练方法、介质、设备及程序产品,方法包括:获取包含多个样本序列的数据集,数据集中的每个样本序列由经分词处理得到的多个Token顺序排列组成;基于预训练的全注意力模型构建待训练模型,并增加用于线性注意力计算的新增参数;在同一横向混合注意力层中,对位于预设全注意力计算范围内的Token集合执行全注意力计算,对全部Token执行线性注意力计算,并融合两者结果,得到用于前向推理和损失计算的横向混合注意力输出;基于所述输出及预测结果,仅更新新增参数优化待训练模型,直至待训练模型收敛。本申请降低了长文本序列处理的计算复杂度与显存占用,提高了推理速度与资源利用率。
技术关键词
模型训练方法 注意力模型 注意力机制 性能预测模型 计算机程序指令 序列 线性 性能监测数据 参数 样本 计算机程序产品 处理器 精度 电子设备 分词 标签 蒸馏