摘要
本发明涉及人工智能技术领域,公开了一种模型训练方法、装置、设备及介质,包括:基于多个第一图像数据和多个第二图像数据,生成多组第一正负样本对,且基于多个第一图像数据和多个第一文本数据,生成多组第二正负样本对;基于多组第一正样本对和多组第一负样本对,对第一图像编码器进行训练,得到第二图像编码器;基于多组第二正样本对和多组第二负样本对,对第二图像编码器和第一大语言模型进行训练,得到第三图像编码器和第二大语言模型;基于多组第二正样本对、多组第二负样本对、第三图像编码器和第三大语言模型,对第二大语言模型进行训练,得到演讲稿生成模型。使得最终生成的演讲稿生成模型可以将幻灯片的格式统一以图片形式进行理解。