一种基于视觉内容注意力头的多模态模型编码加速方法

申请号：CN202510434888

申请日期：2025-04-08

公开号：CN120431586A

公开日期：2025-08-05

类型：发明专利

摘要

本发明公开了一种基于视觉内容注意力头的多模态模型编码加速方法，本发明的方法包括为输入图片的每个字符匹配图像中的文字区域；根据多模态模型视觉编码的方式确定文字区域对应的视觉令牌，以基于视觉令牌在注意力得分矩阵中的值得到视觉注意力头得分；根据视觉注意力头得分为每个注意力头分配不同的缓存预算，以得到对应注意力头的缓存结果。本发明提高多模态模型的推理速度，效压缩了视觉内容的编码长度，进一步提高多模态模型的推理速度并降低缓存开销。

技术关键词

注意力编码加速方法视觉多模态图像令牌可执行程序代码光学字符识别非临时性计算机可读存储介质键值矩阵加速系统文本图片列表模块处理器计算机设备存储器

系统为您推荐了相关专利信息

一种基于生境分析影像组学的胶质瘤放疗疗效预测方法

计算机断层扫描放疗计划影像组学特征定义感兴趣区域

基于双域深度展开网络模型的MRI重建方法、系统及介质

模型框架构建压缩感知算法浅层特征提取深度特征提取网络

一种语音识别方法、语音识别装置及车辆

端点语音识别方法动态智能座舱语音识别装置

基于神经网络的胸部低剂量CT扫描参数的优化系统及方法

CT扫描参数种子数扫描设备图像剂量估算方法

一种钢化玻璃应力检测设备和检测方法

钢化玻璃应力检测滤光装置出射光检偏装置滤光模块