摘要
本公开关于一种多媒体资源生成方法、装置、电子设备及存储介质。该方法包括:获取用于多媒体资源生成的第一文本提示词以及参考多媒体资源;基于双编码器对参考多媒体资源进行语义提取和多媒体细节提取,得到第一多媒体语义特征和第一多媒体细节特征;将第一文本提示词对应的第一文本特征、第一多媒体语义特征和第一多媒体细节特征进行拼接,得到第一序列拼接特征;将第一序列拼接特征输入目标Transformer模型进行特征交互处理,得到第一目标交互特征;将预设噪声信息和第一目标交互特征,输入目标扩散模型进行多媒体资源生成处理,得到第一生成多媒体资源。根据本公开提供的技术方案,能够适配更加丰富多样的多媒体资源生成场景。