摘要
本申请提供一种大模型的训练方法、视频处理方法、装置及相关设备,该方法包括:对样本视频进行预处理,得到多个视频帧、时间戳指令文本和任务指令文本;对时间戳指令文本和任务指令文本进行分词,得到时间戳指令分词文本和任务指令分词文本;对多个视频帧、时间戳指令分词文本和任务指令分词文本进行特征转换,得到第一目标特征;使用第一目标特征对预设大模型进行指令调整,得到目标大模型。本申请通过将样本视频进行预处理后得到多个视频帧、时间戳指令文本和任务指令文本,并由此进行特征融合和转换,得到第一目标特征并对预设大模型进行指令调整,得到目标大模型,更好地考虑视频动作和文本描述的关系,提高了大模型对视频处理的准确度。