一种内容生成方法、装置、设备、存储介质及产品

申请号：CN202411936117

申请日期：2024-12-25

公开号：CN119763121A

公开日期：2025-04-04

类型：发明专利

摘要

本发明公开了一种内容生成方法、装置、设备、存储介质及产品，该方法包括：将目标图像和目标提示文本输入到训练完成的多模态语言模型中；通过多模态语言模型中的至少两个视觉编码器，对目标图像分别进行视觉编码得到至少两个视觉编码特征，并通过多模态语言模型中的特征融合模块，对至少两个视觉编码特征进行特征融合得到视觉融合特征；通过多模态语言模型中的文本特征网络，对目标提示文本进行文本编码得到文本编码特征；将视觉融合特征和文本编码特征输入到多模态语言模型中的内容输出网络中，得到输出的与多模态数据对应的响应文本内容，提高了多模态语言模型对视觉信息的表达能力，从而提高了多模态语言模型的准确度。

技术关键词

内容生成方法多模态文本编码特征融合特征编码模块层级视觉特征网络拼接单元内容生成装置图像数据输入模块处理器可读存储介质计算机程序产品