一种应用于图文和视频的多模态模型训练方法、系统及介质

申请号：CN202510742499

申请日期：2025-06-05

公开号：CN120744806A

公开日期：2025-10-03

类型：发明专利

摘要

本发明提供一种应用于图文和视频的多模态模型训练方法、系统及介质，涉及多模态融合技术领域，所述方法包括：步骤1，从社交媒体平台、搜索引擎平台和视频网站平台接收图文数据和视频数据，图文数据包括图像和对应的文本内容，视频数据包括视频帧序列和对应的音频信息；步骤2，对图文数据和视频数据进行统一数据格式处理、并提取跨平台的深度特征表示，基于提取的特征，构建包括用户特征、广告素材特征和上下文特征的通用多模态序列。本发明通过融合图文与视频多模态数据，提升模型对图文与视频内容的综合理解与生成能力，实现广告效果预测与市场适应性的创意生成。

技术关键词

模型训练方法视频广告搜索引擎平台接收图文数据多模态上下文特征社交媒体平台跨模态深度视觉特征元素序列动态调整机制声学特征数据格式关键帧语义特征