一种基于多模态大语言模型的目标检测系统及方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种基于多模态大语言模型的目标检测系统及方法
申请号:
CN202511041720
申请日期:
2025-07-28
公开号:
CN120953579A
公开日期:
2025-11-14
类型:
发明专利
摘要
本发明公开了一种基于多模态大语言模型的目标检测系统及方法,利用 DETR 生成提议框作为对象候选,借助 MLLM 强大的语义推理能力,实现对长尾类别、组合对象等复杂目标的精准检测;构建主视觉编码器与辅助视觉编码器协同的双编码器架构,主视觉编码器延续 MLLM 全局语义理解能力,辅助视觉编码器专攻对象局部特征提取,通过多层多尺度特征拼接,在维度层面实现语义与感知信息的深度互补;创新设计对象索引与坐标预测双输出模式,形成 “检索‑生成” 双重保障体系,有效提升目标检测精度与鲁棒性。
技术关键词
大语言模型
融合特征
对象
适配器
多模态
多尺度特征
图像
文本
双输出模式
编码器架构
局部特征提取
坐标
索引
语义
模块
鲁棒性
参数
物体
矩阵
分辨率
系统为您推荐了相关专利信息
1
一种数据关联方法、设备、计算机设备和可读存储介质
数据关联方法
实体
灰度直方图
标签
自定义参数
2
话题物料的检测方法、装置、设备、存储介质及产品
话题
热点
标签
大语言模型
图片
3
一种基于人工智能的教学数据管理方法及系统
个性化教学
接口适配器
差分隐私保护
教学场景
图谱
4
一种人形机器人的控制决策方法、系统、设备及介质
人形机器人
融合特征
控制决策方法
数据
特征提取模块
5
一种基于深度学习的多模态特征重要性引导网络
重构模块
特征选择
变量
分类器
自动编码器