基于大模型的视频交互方法、装置及产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于大模型的视频交互方法、装置及产品
申请号:CN202511038178
申请日期:2025-07-25
公开号:CN120897083A
公开日期:2025-11-04
类型:发明专利
摘要
本公开提供了一种基于大模型的视频交互方法、装置、电子设备、存储介质及计算机程序产品,涉及人工智能技术领域,具体涉及大模型、自然语言理解、视频理解等技术领域,可应用于视频通话、共享屏幕场景下。具体实现方案为:在与大模型的视频交互过程中,确定出视频交互过程中的视频画面关联的空间指向性动作所针对的目标对象;根据空间指向性动作关联的输入信息,确定针对于目标对象的数据处理指令;采用大模型,根据数据处理指令对目标对象进行数据处理,得到数据处理结果。本公开允许用户以空间指向性动作和信息输入,例如“指”和“说”,相结合的直观方式表达意图,降低了人机交互过程中的沟通成本,提高了人机交互过程中用户意图的理解效率和处理准确度。
技术关键词
数据处理指令 文本 视频交互方法 画面 语义 视频交互装置 对象识别 计算机程序产品 自然语言理解 时序 数据处理单元 人工智能技术 轨迹 电子设备 处理器通信