一种基于视觉内容注意力头的多模态模型编码加速方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于视觉内容注意力头的多模态模型编码加速方法
申请号:CN202510434888
申请日期:2025-04-08
公开号:CN120431586A
公开日期:2025-08-05
类型:发明专利
摘要
本发明公开了一种基于视觉内容注意力头的多模态模型编码加速方法,本发明的方法包括为输入图片的每个字符匹配图像中的文字区域;根据多模态模型视觉编码的方式确定文字区域对应的视觉令牌,以基于视觉令牌在注意力得分矩阵中的值得到视觉注意力头得分;根据视觉注意力头得分为每个注意力头分配不同的缓存预算,以得到对应注意力头的缓存结果。本发明提高多模态模型的推理速度,效压缩了视觉内容的编码长度,进一步提高多模态模型的推理速度并降低缓存开销。
技术关键词
注意力 编码加速方法 视觉 多模态 图像 令牌 可执行程序代码 光学字符识别 非临时性计算机可读存储介质 键值 矩阵 加速系统 文本 图片 列表 模块 处理器 计算机设备 存储器
系统为您推荐了相关专利信息
计算机断层扫描 放疗计划 影像 组学特征 定义感兴趣区域
模型框架构建 压缩感知算法 浅层特征提取 深度特征提取 网络
端点 语音识别方法 动态 智能座舱 语音识别装置
CT扫描参数 种子数 扫描设备 图像 剂量估算方法
钢化玻璃应力检测 滤光装置 出射光 检偏装置 滤光模块