基于多模态信息融合的视频处理方法、装置、设备及介质
申请号:CN202411550989
申请日期:2024-10-31
公开号:CN119580738A
公开日期:2025-03-07
类型:发明专利
摘要
本申请提供一种基于多模态信息融合的视频处理方法、装置、设备及介质,涉及视频处理领域。本申请方法通过大语言模型对视频中的语音文本进行处理,可以准确识别和转录语音信息,将非结构化的语音数据转换为结构化的文本数据,为后续的分析提供了可操作的文本信息。利用视频数据的图像特征和已获得的语音识别文本的文本特征提取图像关键帧,能够从大量的视频帧中筛选出最具代表性和信息量最大的帧,减少冗余信息,同时确保了视觉信息与语音信息的同步性。基于时间对应关系,将图像关键帧和语音识别文本进行对齐融合,输出多模态融合文本,可以更准确地捕捉视频的时序关联和上下文信息,从而提高视频理解的准确性和深度。
技术关键词
语音识别文本
多模态信息融合
图像特征识别算法
视频
关键帧提取算法
大语言模型
身份识别算法
数据
语音识别算法
计算机设备
语音识别模块
可读存储介质
分段
申请方法
图像缩放