基于检索增强的大型多模态模型的食物图像食谱生成方法
申请号:CN202411097381
申请日期:2024-08-12
公开号:CN119227800A
公开日期:2024-12-31
类型:发明专利
摘要
本发明属于自然语言处理技术领域,具体为基于检索增强的大型多模态模型的食物图像食谱生成方法。本发明将从图像到食谱的检索模型和大型多模态语言模型相结合;语言模型采用增强LoRA补丁的LLAVA。食物图像食谱生成方法包括语言模型训练数据集的构建、语言模型的训练、语言模型的推理:本发明引入随机多样化检索增强,从现有数据存储库中检索与图像语义相关的食谱作为补充,将它们整合到提示中,以为输入图像增加多样且丰富的上下文。此外,还引入自一致性集成投票机制,用于确定最有信心的预测食谱作为最终输出。大量实验验本发明方法的有效性,表明其在Recipe1M数据集的食谱生成任务中达到了目前最先进的性能。
技术关键词
食谱生成方法
多模态
数据组织形式
食物制作
数据存储
训练语言模型
补丁
标记
文本编码器
图像编码器
答案
图像嵌入
序列
自然语言
数据格式
解码器
机制