摘要
本申请提出的视频处理方法和装置、电子设备、计算机可读存储介质,涉及人工智能技术领域,应用于金融科技领域。该方法包括:获取目标视频;对目标视频进行抽帧,得到至少两个图像帧;通过视觉语言模型的视觉编码器对每一图像帧进行视觉编码,得到图像特征序列;通过视觉语言模型的语言解码器对每一图像帧的图像特征序列进行语言解码,得到语言看点特征序列;通过第一自注意力模型对至少两个图像帧的语言看点特征序列和预设的初始看点预测任务描述特征向量进行看点预测,得到第一看点预测任务描述特征向量;根据第一看点预测任务描述特征向量,确定目标视频的看点图像位置。本申请能够基于视频中的图像进行视频看点预测,且提高了看点预测准确性。