一种多模态结合大语言模型的图像视频报警监控系统及方法、计算机设备和存储介质
申请号:CN202410752524
申请日期:2024-06-12
公开号:CN118711128A
公开日期:2024-09-27
类型:发明专利
摘要
一种多模态结合大语言模型的图像视频报警监控系统及方法、计算机设备和存储介质,涉及AI和机器视觉领域,具体涉及图像视频报警监控领域。为解决现有技术泛化能力有限,语义理解不足,单一模态限制,需要人工特征提取的技术问题,本发明通过模态模块处理输入的图像和视频数据,生成特征向量。转换对齐模块对这些特征向量进行对齐,确保不同模态的数据在语义上一致。整合模块进一步融合对齐后的数据,提取关键信息。认知模块将融合后的数据转换为文本嵌入向量,包含丰富的语义信息。最后,输出模块基于这些文本嵌入向量生成不同级别的报警日志。本发明在公共安全领域中具有良好的应用前景。
技术关键词
视频报警监控系统
大语言模型
多模态
对齐模块
数据
输出模块
日志
文本
图像编码器
警报
视频编码器
计算机设备
监控方法
生成特征向量
语音
分析模块