一种基于多模态大语言模型的目标检测系统及方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态大语言模型的目标检测系统及方法
申请号:CN202511041720
申请日期:2025-07-28
公开号:CN120953579A
公开日期:2025-11-14
类型:发明专利
摘要
本发明公开了一种基于多模态大语言模型的目标检测系统及方法,利用 DETR 生成提议框作为对象候选,借助 MLLM 强大的语义推理能力,实现对长尾类别、组合对象等复杂目标的精准检测;构建主视觉编码器与辅助视觉编码器协同的双编码器架构,主视觉编码器延续 MLLM 全局语义理解能力,辅助视觉编码器专攻对象局部特征提取,通过多层多尺度特征拼接,在维度层面实现语义与感知信息的深度互补;创新设计对象索引与坐标预测双输出模式,形成 “检索‑生成” 双重保障体系,有效提升目标检测精度与鲁棒性。
技术关键词
大语言模型 融合特征 对象 适配器 多模态 多尺度特征 图像 文本 双输出模式 编码器架构 局部特征提取 坐标 索引 语义 模块 鲁棒性 参数 物体 矩阵 分辨率
系统为您推荐了相关专利信息
数据关联方法 实体 灰度直方图 标签 自定义参数
话题 热点 标签 大语言模型 图片
个性化教学 接口适配器 差分隐私保护 教学场景 图谱
人形机器人 融合特征 控制决策方法 数据 特征提取模块
重构模块 特征选择 变量 分类器 自动编码器