一种文本、图像和视频多模态融合的文本生成方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种文本、图像和视频多模态融合的文本生成方法及系统
申请号:CN202411647302
申请日期:2024-11-18
公开号:CN119578546A
公开日期:2025-03-07
类型:发明专利
摘要
本发明属于网络空间认知域技术领域,公开了文本、图像和视频多模态融合的文本生成方法及系统。该方法基于用户发布的图像、视频和文本内容,通过大模型提取多模态中的重要特征,生成相关描述并促进描述信息共享,抽取出关键信息与核心概念实现不同模态间的深度整合,最终在大模型基础上生成符合语境的精确文本。本发明实现了多模态融合,提供清晰且精确的视觉信息,解决文本生成内容角度单一,减少了文本生成中的表达模糊性的问题。
技术关键词
文本生成方法 多模态 视频 图像 交叉注意力机制 融合特征 非结构化文本信息 实体 关键帧提取方法 视觉 社交 文本生成系统 媒体 概念 面部微表情 核心 语义层面