摘要
本公开提供了一种基于大模型的视频交互方法、装置、电子设备、存储介质及计算机程序产品,涉及人工智能技术领域,具体涉及大模型、自然语言理解、视频理解等技术领域,可应用于视频通话、共享屏幕场景下。具体实现方案为:在与大模型的视频交互过程中,确定出视频交互过程中的视频画面关联的空间指向性动作所针对的目标对象;根据空间指向性动作关联的输入信息,确定针对于目标对象的数据处理指令;采用大模型,根据数据处理指令对目标对象进行数据处理,得到数据处理结果。本公开允许用户以空间指向性动作和信息输入,例如“指”和“说”,相结合的直观方式表达意图,降低了人机交互过程中的沟通成本,提高了人机交互过程中用户意图的理解效率和处理准确度。