基于多模态大模型的视频画面搜索分屏交互方法及终端

申请号：CN202510793868

申请日期：2025-06-13

公开号：CN120744174A

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了基于多模态大模型的视频画面搜索分屏交互方法及终端，属于智能终端视频交互技术领域，包括当提问搜索功能触发启动控制获取提问搜索指令，并同时控制截取提问搜索功能触发启动时前后预定帧视频画面信息；对提问搜索指令进行识别，识别用户要搜索视频画面信息的意图；通过多模态大模型对截取的预定帧视频画面信息进行元素识别，找出与用户要搜索视频画面信息的意图相匹配的元素；根据找出与用户意图相匹配的元素，以及识别出的用户要搜索视频画面信息的意图，通过多模态大模型，自动搜索出搜索结果；通过预设的分屏交互界面显示。本发明可以实现深度对一段视频画面进行理解和用户进行生成式对话互动交互，为用户的使用提供了方便。

技术关键词

分屏交互方法多模态智能终端元素指令视频交互技术视频播放画面状态检测模块搜索意图图像搜索意图识别交互装置搜索模块电子设备语音匹配模块云端