一种基于多模态大模型的视频审核方法

申请号：CN202411025607

申请日期：2024-07-29

公开号：CN118968380B

公开日期：2025-04-11

类型：发明专利

摘要

本发明公开了一种基于多模态大模型的视频审核方法，包括：获取待审核视频，进行视频格式转换、视频质量提升等预处理操作，得到待审核多模态数据作为输入数据；输入数据为待审核多模态数据，包括图像序列Images、音频序列Audios、文本序列Texts；预处理得到多模态分类大模型网络，将输入数据输入至多模态分类大模型网络后输出分类结果及其对应分数，当分类结果为违规标签且对应分数大于预设阈值时，判定待审核视频为违规视频。本发明将图像特征、音频特征、文本特征使用改进注意力多模态特征融合方法进行特征融合，该方法能够充分利用不同模态信息的互补性，提高审核的准确性和鲁棒性。

技术关键词

视频审核方法多模态特征融合嵌入特征融合特征音频特征注意力权重特征网络文本序列数据图像输出特征标签全局平均池化模块