基于多模态信息融合的视频处理方法、装置、设备及介质

申请号：CN202411550989

申请日期：2024-10-31

公开号：CN119580738A

公开日期：2025-03-07

类型：发明专利

摘要

本申请提供一种基于多模态信息融合的视频处理方法、装置、设备及介质，涉及视频处理领域。本申请方法通过大语言模型对视频中的语音文本进行处理，可以准确识别和转录语音信息，将非结构化的语音数据转换为结构化的文本数据，为后续的分析提供了可操作的文本信息。利用视频数据的图像特征和已获得的语音识别文本的文本特征提取图像关键帧，能够从大量的视频帧中筛选出最具代表性和信息量最大的帧，减少冗余信息，同时确保了视觉信息与语音信息的同步性。基于时间对应关系，将图像关键帧和语音识别文本进行对齐融合，输出多模态融合文本，可以更准确地捕捉视频的时序关联和上下文信息，从而提高视频理解的准确性和深度。

技术关键词

语音识别文本多模态信息融合图像特征识别算法视频关键帧提取算法大语言模型身份识别算法数据语音识别算法计算机设备语音识别模块可读存储介质分段申请方法图像缩放

系统为您推荐了相关专利信息

一种基于固定场景的视频抖动序列提取方法、设备及介质

序列提取方法视频抖动数据场景强度

一种基于数据融合的智能化供服指挥管理系统

指挥管理系统配网可视化大屏视频分析智能语音交互

智能座舱多模态数据构建方法、系统、设备及存储介质

数据构建方法多模态智能座舱标签体系图像

基于无人机的非法捕捞检测方法及系统

无人机人体姿态识别船舶 Softmax函数高清摄像头

超声检查场景多模态数据实时监测系统

数据实时监测系统蓝牙定位系统超声医学影像全方位云台摄像系统