一种应用于图文和视频的多模态模型训练方法、系统及介质
申请号:CN202510742499
申请日期:2025-06-05
公开号:CN120744806A
公开日期:2025-10-03
类型:发明专利
摘要
本发明提供一种应用于图文和视频的多模态模型训练方法、系统及介质,涉及多模态融合技术领域,所述方法包括:步骤1,从社交媒体平台、搜索引擎平台和视频网站平台接收图文数据和视频数据,图文数据包括图像和对应的文本内容,视频数据包括视频帧序列和对应的音频信息;步骤2,对图文数据和视频数据进行统一数据格式处理、并提取跨平台的深度特征表示,基于提取的特征,构建包括用户特征、广告素材特征和上下文特征的通用多模态序列。本发明通过融合图文与视频多模态数据,提升模型对图文与视频内容的综合理解与生成能力,实现广告效果预测与市场适应性的创意生成。
技术关键词
模型训练方法
视频
广告
搜索引擎平台
接收图文数据
多模态
上下文特征
社交媒体平台
跨模态
深度视觉特征
元素
序列
动态调整机制
声学特征
数据格式
关键帧
语义特征