一种基于迭代式修正的细粒度文本图像描述生成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于迭代式修正的细粒度文本图像描述生成方法
申请号:CN202510194351
申请日期:2025-02-21
公开号:CN120088799A
公开日期:2025-06-03
类型:发明专利
摘要
本发明公开了一种基于迭代式修正的细粒度文本图像描述生成方法,其步骤包括:1基于维基百科构建多语种知识库,并进行向量化;2检索用于多语种文本图像深度理解的外部知识并进行精炼;3使用指令微调的方式构建面向多语种文本图像的信息抽取模块,在外部知识的辅助下实现多语种图文信息的结构化知识抽取;4基于结构化知识推理,构建多语种文本图像描述内容的细粒度幻觉检测模块;5在每个迭代步骤将幻觉检测的结果反馈给多模态大模型,进行多轮的修正,得到最终的多语种文本图像描述生成结果。本发明可以缓解多模态大模型在生成多语种文本图像描述时面临的幻觉问题,提升多模态大模型针对多语种文本图像的描述生成效果。
技术关键词
图像 多模态 生成方法 样本 视觉 文本段落 维基百科 参数 信息抽取模型 模块 适配器 指令 图文 可读存储介质 语义向量 处理器 存储器 基座 计算机