一种基于多模态大模型的三维场景理解方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态大模型的三维场景理解方法
申请号:CN202510022247
申请日期:2025-01-07
公开号:CN119416848A
公开日期:2025-02-11
类型:发明专利
摘要
本发明涉及多模态大模型技术领域,解决了传统大语言模型不具备处理多方面输入信息能力的技术问题,尤其涉及一种基于多模态大模型的三维场景理解方法,包括:建立包含点云‑图像‑文本对的数据集;将数据集输入编码模块中提取点云特征、图像特征和文本特征;建立掩码物体重建任务、掩码文本重建任务、点云‑图像对齐任务以及文本‑图像对齐任务来预训练编码模块;将经过预训练后的编码模块与语音‑文本多模态大模型LLASM在目标任务上进行联合微调。本发明通过将预训练的多模态的编码模块与大语言模型相结合,能够完成在3D和2D上的多种视觉语言任务,并同时支持文本和语音输入,实现了一个通用、全面、鲁棒的多模态大模型。
技术关键词
场景理解方法 点云特征 编码模块 多模态 图像编码器 物体 解码网络 语音 生成图像特征 图像增强 文本编码器 数据 大语言模型 解码器 注意力