摘要
本发明公开了一种多模态协同的视频序列分割方法,步骤包括:获得图像序列的多尺度局部特征矩阵以及多尺度全局特征矩阵;获得文本序列的多尺度文本特征矩阵;获得多尺度局部特征矩阵以及多尺度全局特征矩阵的多尺度局部‑全局融合特征矩阵;获得多尺度局部‑全局融合特征矩阵以及多尺度文本特征矩阵的多模态融合特征矩阵;利用预训练大模型的解码器来预测生成分割掩码,输出语义分割图。该视频序列分割方法在面对复杂多变的场景时表现稳定,无需依赖大量标注数据,降低了训练成本,适用于多种实际应用领域,包括智能监控、自动驾驶及医学影像分析等。