多模态大模型数据清洗治理方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
多模态大模型数据清洗治理方法及系统
申请号:CN202510820032
申请日期:2025-06-19
公开号:CN120336725B
公开日期:2025-09-02
类型:发明专利
摘要
本申请涉及数据清洗技术领域,其具体地公开了一种多模态大模型数据清洗治理方法及系统,其对原始多模态数据集进行基础的格式过滤后,通过单模态质量评估机制量化评估多模态数据集中的图像清晰度和文本流畅性,以筛选出质量合格的图像和文本数据样本。接着,进一步引入语义级对齐评估机制,对数据集中每一组对应的图像样本和图像文本描述进行语义级交互响应分析,以量化评估图像样本与文本描述之间的语义对齐程度,筛选出高度语义对齐的图像‑文本数据对。该方法通过对多模态数据集进行多层次的清洗治理,能够确保多模态训练样本质量达标,并且在跨模态语义层面实现高度对齐,从而提升多模态大模型在跨模态理解与生成任务中的准确性和鲁棒性。
技术关键词
编码向量 多模态 图像视觉特征 文本 视觉特征提取 局部视觉特征 语义特征提取 样本 序列 数据清洗技术 编码模块 矩阵 基础 语义层面 预训练模型