基于多模态大模型的视频画面搜索分屏交互方法及终端

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态大模型的视频画面搜索分屏交互方法及终端
申请号:CN202510793868
申请日期:2025-06-13
公开号:CN120744174A
公开日期:2025-10-03
类型:发明专利
摘要
本发明公开了基于多模态大模型的视频画面搜索分屏交互方法及终端,属于智能终端视频交互技术领域,包括当提问搜索功能触发启动控制获取提问搜索指令,并同时控制截取提问搜索功能触发启动时前后预定帧视频画面信息;对提问搜索指令进行识别,识别用户要搜索视频画面信息的意图;通过多模态大模型对截取的预定帧视频画面信息进行元素识别,找出与用户要搜索视频画面信息的意图相匹配的元素;根据找出与用户意图相匹配的元素,以及识别出的用户要搜索视频画面信息的意图,通过多模态大模型,自动搜索出搜索结果;通过预设的分屏交互界面显示。本发明可以实现深度对一段视频画面进行理解和用户进行生成式对话互动交互,为用户的使用提供了方便。
技术关键词
分屏交互方法 多模态 智能终端 元素 指令 视频交互技术 视频播放画面 状态检测模块 搜索意图 图像搜索 意图识别 交互装置 搜索模块 电子设备 语音 匹配模块 云端