基于多模态大模型的屏幕内容检测方法、系统及存储介质
申请号:CN202510904852
申请日期:2025-07-01
公开号:CN120751179A
公开日期:2025-10-03
类型:发明专利
摘要
本发明提供了一种基于多模态大模型的屏幕内容检测方法、系统及存储介质,该方法包括:屏幕内容图像进行图像预处理,得到待检测图像和待检测文本;将待检测图像输入预训练后的视觉检测大模型进行视觉风险检测,得到视觉风险值,将待检测文本输入预训练后的文本检测大模型进行文本风险检测,得到文本风险值;根据屏幕内容图像的图像类型对视觉风险值和文本风险值进行加权运算,得到目标风险值;若目标风险值大于第一风险阈值,控制目标屏幕开启虚拟专用网络,根据虚拟专用网络控制目标屏幕进行预设内容显示。本发明实施例,通过采用视觉风险检测和文本风险检测组合的多模态内容检测方式,提高了屏幕内容检测准确率。
技术关键词
屏幕内容图像
内容检测方法
风险
虚拟专用网络
文本
视觉
多模态
样本
内容检测系统
内容显示
语义
冻结器
对象识别
编码特征
注意力机制
进程
可读存储介质