摘要
本发明涉及一种基于多模态大语言模型的场景文本识别方法及装置,属于人工智能技术领域。该方法包括:获取文本生成过程中与输入图像的相关性满足设定要求token构成的第一token集合,以及获取文本生成过程中语义稳定性满足设定要求的token构成的第二token集合,根据第一token集合和第二token集合的交集中连续出现的token形成语义锚点段落,并记录文本生成过程中各个token位置的采样温度;基于语义锚点段落对文本生成过程中各个token位置的采样温度进行调整,根据调整的采样温度重新进行文本生成,实现了图像文本的识别中对视觉文本的精确识别与语义幻觉抑制,提高场景文本识别的准确性和鲁棒性。