一种文本、图像和视频多模态融合的文本生成方法及系统
申请号:CN202411647302
申请日期:2024-11-18
公开号:CN119578546A
公开日期:2025-03-07
类型:发明专利
摘要
本发明属于网络空间认知域技术领域,公开了文本、图像和视频多模态融合的文本生成方法及系统。该方法基于用户发布的图像、视频和文本内容,通过大模型提取多模态中的重要特征,生成相关描述并促进描述信息共享,抽取出关键信息与核心概念实现不同模态间的深度整合,最终在大模型基础上生成符合语境的精确文本。本发明实现了多模态融合,提供清晰且精确的视觉信息,解决文本生成内容角度单一,减少了文本生成中的表达模糊性的问题。
技术关键词
文本生成方法
多模态
视频
图像
交叉注意力机制
融合特征
非结构化文本信息
实体
关键帧提取方法
视觉
社交
文本生成系统
媒体
概念
面部微表情
核心
语义层面