多模态大模型数据清洗治理方法及系统

申请号：CN202510820032

申请日期：2025-06-19

公开号：CN120336725B

公开日期：2025-09-02

类型：发明专利

摘要

本申请涉及数据清洗技术领域，其具体地公开了一种多模态大模型数据清洗治理方法及系统，其对原始多模态数据集进行基础的格式过滤后，通过单模态质量评估机制量化评估多模态数据集中的图像清晰度和文本流畅性，以筛选出质量合格的图像和文本数据样本。接着，进一步引入语义级对齐评估机制，对数据集中每一组对应的图像样本和图像文本描述进行语义级交互响应分析，以量化评估图像样本与文本描述之间的语义对齐程度，筛选出高度语义对齐的图像‑文本数据对。该方法通过对多模态数据集进行多层次的清洗治理，能够确保多模态训练样本质量达标，并且在跨模态语义层面实现高度对齐，从而提升多模态大模型在跨模态理解与生成任务中的准确性和鲁棒性。

技术关键词

编码向量多模态图像视觉特征文本视觉特征提取局部视觉特征语义特征提取样本序列数据清洗技术编码模块矩阵基础语义层面预训练模型