一种基于视觉内容注意力头的多模态模型编码加速方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种基于视觉内容注意力头的多模态模型编码加速方法
申请号:
CN202510434888
申请日期:
2025-04-08
公开号:
CN120431586A
公开日期:
2025-08-05
类型:
发明专利
摘要
本发明公开了一种基于视觉内容注意力头的多模态模型编码加速方法,本发明的方法包括为输入图片的每个字符匹配图像中的文字区域;根据多模态模型视觉编码的方式确定文字区域对应的视觉令牌,以基于视觉令牌在注意力得分矩阵中的值得到视觉注意力头得分;根据视觉注意力头得分为每个注意力头分配不同的缓存预算,以得到对应注意力头的缓存结果。本发明提高多模态模型的推理速度,效压缩了视觉内容的编码长度,进一步提高多模态模型的推理速度并降低缓存开销。
技术关键词
注意力
编码加速方法
视觉
多模态
图像
令牌
可执行程序代码
光学字符识别
非临时性计算机可读存储介质
键值
矩阵
加速系统
文本
图片
列表
模块
处理器
计算机设备
存储器
系统为您推荐了相关专利信息
1
一种基于生境分析影像组学的胶质瘤放疗疗效预测方法
计算机断层扫描
放疗计划
影像
组学特征
定义感兴趣区域
2
基于双域深度展开网络模型的MRI重建方法、系统及介质
模型框架构建
压缩感知算法
浅层特征提取
深度特征提取
网络
3
一种语音识别方法、语音识别装置及车辆
端点
语音识别方法
动态
智能座舱
语音识别装置
4
基于神经网络的胸部低剂量CT扫描参数的优化系统及方法
CT扫描参数
种子数
扫描设备
图像
剂量估算方法
5
一种钢化玻璃应力检测设备和检测方法
钢化玻璃应力检测
滤光装置
出射光
检偏装置
滤光模块