摘要
本发明公开了一种基于Token的视觉任务生成方法,属于智能任务自动化技术领域,其包括:S1、跨模态对齐;S2、视觉Token化;S3、任务描述Token序列构建:基于预先定义的视觉任务模板库,根据用户的需求或特定的应用场景,构建任务描述Token序列;S4、任务可行性校验;S5、任务优先级调度;S6、任务生成模型训练;S7、动态任务分配;S8、模型优化。本发明通过分层合并策略优化长序列处理能力,在保留空间位置信息的同时实现特征表达的紧凑性,线性投影与增强位置编码相结合形成具有强表征能力的视觉Token序列,既包含局部细节特征又保持全局上下文关系,为后续任务处理提供高信息密度的特征输入,有效提升各类视觉算法的处理精度。