一种文本、图像和视频多模态融合的文本生成方法及系统

申请号：CN202411647302

申请日期：2024-11-18

公开号：CN119578546A

公开日期：2025-03-07

类型：发明专利

摘要

本发明属于网络空间认知域技术领域，公开了文本、图像和视频多模态融合的文本生成方法及系统。该方法基于用户发布的图像、视频和文本内容，通过大模型提取多模态中的重要特征，生成相关描述并促进描述信息共享，抽取出关键信息与核心概念实现不同模态间的深度整合，最终在大模型基础上生成符合语境的精确文本。本发明实现了多模态融合，提供清晰且精确的视觉信息，解决文本生成内容角度单一，减少了文本生成中的表达模糊性的问题。

技术关键词

文本生成方法多模态视频图像交叉注意力机制融合特征非结构化文本信息实体关键帧提取方法视觉社交文本生成系统媒体概念面部微表情核心语义层面