基于多模态大语言模型的场景文本识别方法及装置

申请号：CN202511299511

申请日期：2025-09-12

公开号：CN120808329B

公开日期：2025-12-16

类型：发明专利

摘要

本发明涉及一种基于多模态大语言模型的场景文本识别方法及装置，属于人工智能技术领域。该方法包括：获取文本生成过程中与输入图像的相关性满足设定要求token构成的第一token集合，以及获取文本生成过程中语义稳定性满足设定要求的token构成的第二token集合，根据第一token集合和第二token集合的交集中连续出现的token形成语义锚点段落，并记录文本生成过程中各个token位置的采样温度；基于语义锚点段落对文本生成过程中各个token位置的采样温度进行调整，根据调整的采样温度重新进行文本生成，实现了图像文本的识别中对视觉文本的精确识别与语义幻觉抑制，提高场景文本识别的准确性和鲁棒性。

技术关键词

场景文本识别方法大语言模型多模态语义锚点图像交叉注意力机制图文识别模块置信度阈值人工智能技术指标解码鲁棒性编码标记