基于检索增强的大型多模态模型的食物图像食谱生成方法

申请号：CN202411097381

申请日期：2024-08-12

公开号：CN119227800A

公开日期：2024-12-31

类型：发明专利

摘要

本发明属于自然语言处理技术领域，具体为基于检索增强的大型多模态模型的食物图像食谱生成方法。本发明将从图像到食谱的检索模型和大型多模态语言模型相结合；语言模型采用增强LoRA补丁的LLAVA。食物图像食谱生成方法包括语言模型训练数据集的构建、语言模型的训练、语言模型的推理：本发明引入随机多样化检索增强，从现有数据存储库中检索与图像语义相关的食谱作为补充，将它们整合到提示中，以为输入图像增加多样且丰富的上下文。此外，还引入自一致性集成投票机制，用于确定最有信心的预测食谱作为最终输出。大量实验验本发明方法的有效性，表明其在Recipe1M数据集的食谱生成任务中达到了目前最先进的性能。

技术关键词

食谱生成方法多模态数据组织形式食物制作数据存储训练语言模型补丁标记文本编码器图像编码器答案图像嵌入序列自然语言数据格式解码器机制

系统为您推荐了相关专利信息

一种电子元器件检测系统及方法

模态特征电子元器件异构强化学习代理节点

基于节点索引的数据查询方法、电子设备及介质

数据查询请求索引查询算法参数计算机执行指令

一种基于多方协同注意力机制的主题图像编辑与生成方法及其系统

协同注意力图像生成方法深度学习模型定位模块

一种端边云可信协同进化方法及系统

协同进化方法更新模型参数云端监控智能推理异构设备

基于多模态信息的海缆故障管控方法及装置

多模态信息海缆故障管控方法环境状态信息因子