内容生成方法、装置、设备、存储介质及程序产品

申请号：CN202510788245

申请日期：2025-06-12

公开号：CN120673039A

公开日期：2025-09-19

类型：发明专利

摘要

本申请公开了一种内容生成方法、装置、设备、存储介质及程序产品，涉及大语言模型视觉感知技术领域，该方法包括：获取图像数据以及图像数据对应的问题信息；利用目标生成式模型识别问题信息的语义特征，按照语义特征在图像数据中定位问题信息对应的视觉区域；利用目标生成式模型识别视觉区域中的视觉信息，按照视觉信息生成与问题信息相匹配的目标文本内容；其中，目标生成式模型是基于视觉重现和多模态信息训练生成的。通过实施本公开技术方案，能够充分识别图像数据中的视觉特征，提升视觉信息的处理能力，结合语义特征以及视觉信息进行内容生成的推理，实现了多模态数据的有效整合，从而提升了内容生成效果。

技术关键词

内容生成方法样本语义特征视觉特征语义标签图像数据检测损失视觉感知技术内容生成装置文本多模态特征可读存储介质生成答案大语言模型指令计算机程序产品