基于多模态信息融合的视频处理方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态信息融合的视频处理方法、装置、设备及介质
申请号:CN202411550989
申请日期:2024-10-31
公开号:CN119580738A
公开日期:2025-03-07
类型:发明专利
摘要
本申请提供一种基于多模态信息融合的视频处理方法、装置、设备及介质,涉及视频处理领域。本申请方法通过大语言模型对视频中的语音文本进行处理,可以准确识别和转录语音信息,将非结构化的语音数据转换为结构化的文本数据,为后续的分析提供了可操作的文本信息。利用视频数据的图像特征和已获得的语音识别文本的文本特征提取图像关键帧,能够从大量的视频帧中筛选出最具代表性和信息量最大的帧,减少冗余信息,同时确保了视觉信息与语音信息的同步性。基于时间对应关系,将图像关键帧和语音识别文本进行对齐融合,输出多模态融合文本,可以更准确地捕捉视频的时序关联和上下文信息,从而提高视频理解的准确性和深度。
技术关键词
语音识别文本 多模态信息融合 图像特征识别算法 视频 关键帧提取算法 大语言模型 身份识别算法 数据 语音识别算法 计算机设备 语音识别模块 可读存储介质 分段 申请方法 图像缩放
系统为您推荐了相关专利信息
序列提取方法 视频抖动 数据 场景 强度
指挥管理系统 配网 可视化大屏 视频分析 智能语音交互
数据构建方法 多模态 智能座舱 标签体系 图像
无人机 人体姿态识别 船舶 Softmax函数 高清摄像头
数据实时监测系统 蓝牙定位系统 超声医学影像 全方位云台 摄像系统