面向多场景合并数据集的数据感知混合专家模型训练方法

申请号：CN202411917072

申请日期：2024-12-24

公开号：CN119740622A

公开日期：2025-04-01

类型：发明专利

摘要

本发明公开了面向多场景合并数据集的数据感知混合专家模型训练方法，涉及人工智能技术领域，包括如下步骤：收集多场景的数据并预处理，构建多场景合并数据集；步构建混合模型：所述混合模型采用基于transformer端到端的DINO结构，将DINO结构的解码器中的FFN层替换为MOE层，所述MOE层包括多个独立设置的专家网络，每个专家网络是一个独立的神经网络，用于处理指定数据集的特征；构建专家网络的前景目标损失函数；设置路由机制，用于将每个场景数据集的token路由到对应的专家网络；将多场景合并数据集输入到混合模型中，以对每个专家网络进行训练；该模型训练方法，提升混合模型在多场景数据集下的检测精度。

技术关键词

模型训练方法面向多场景数据计算机可读储存介质分类程序累积分布函数机制网络分配人工智能技术解码器处理器图像计算机设备索引存储器标签样本