摘要
本公开涉及文本数据生成技术领域,提供了一种文本数据生成方法、装置、电子设备及介质。该方法可以通过多粒度图像编码器对图像数据进行语义处理,得到图像数据的语义特征;通过第一多层感知机对图像数据的语义特征进行处理,得到第一语义特征;通过第一文本编码器和第二文本编码器对提示文本数据处理,得到第二语义特征和第三语义特征;对第一语义特征、第二语义特征、第三语义特征进行拼接处理,得到图像数据的目标语义数据;通过大语言模型对图像数据的目标语义数据进行处理,得到图像数据的反馈文本数据。本公开显著提升了图像和文本之间的语义理解能力,解决了现有技术中的多个关键问题,为多模态人工通用智能系统的发展提供了有力支持。