一种基于特征校正的图像描述训练方法、装置及存储介质

申请号：CN202510833048

申请日期：2025-06-20

公开号：CN120747708A

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及一种基于特征校正的图像描述训练方法、装置及存储介质，方法包括：构建图像描述生成的基础框架，其包括视觉编码器、辅助编码器、Q‑Former模块以及语言模型接口；获取用于训练的输入图片，并分别输入视觉编码器和辅助编码器中，通过视觉编码器提取主视觉特征，通过辅助编码器提取与视觉编码器不同视角的辅助视觉特征，将主视觉特征输入Q‑Former模块中；对辅助视觉特征进行筛选后与Q‑Former模块输出特征进行拼接，形成最终的视觉表示，用于作为深度学习模型的输入，从而端到端对模型进行训练，以生成准确的图片描述。与现有技术相比，本发明不仅提升了模型性能，还简化了系统结构，提高了推理效率，为图像描述生成任务提供了一种更加高效、简洁且可扩展的技术路径。

技术关键词

视觉特征辅助编码器输出特征深度学习模型图像校正图片模块表达式可读存储介质训练装置接口处理器视角框架基础存储器计算机参数