摘要
本发明提供了一种缓解多模态大模型幻觉的训练方法、装置,涉及多模态大模型训练技术领域,该方法通过重新定义图像标记之间的位置关系,引入二维曼哈顿距离计算,优化了传统一维位置编码的不足,保留了图像的空间局部性特征。同时,通过改进因果注意力掩码,进一步提升了模型对图像与文本信息的融合能力。在模型训练过程中采用冻结预训练模块并逐步微调的策略,显著提高了模型的多模态对齐效果,降低了幻觉现象的发生率,为构建更可靠、更高效的多模态人工智能系统提供了新的技术路径。旨在解决现有技术中多模态大模型因位置编码方式导致的幻觉问题。