基于检索增强的大型多模态模型的食物图像食谱生成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于检索增强的大型多模态模型的食物图像食谱生成方法
申请号:CN202411097381
申请日期:2024-08-12
公开号:CN119227800A
公开日期:2024-12-31
类型:发明专利
摘要
本发明属于自然语言处理技术领域,具体为基于检索增强的大型多模态模型的食物图像食谱生成方法。本发明将从图像到食谱的检索模型和大型多模态语言模型相结合;语言模型采用增强LoRA补丁的LLAVA。食物图像食谱生成方法包括语言模型训练数据集的构建、语言模型的训练、语言模型的推理:本发明引入随机多样化检索增强,从现有数据存储库中检索与图像语义相关的食谱作为补充,将它们整合到提示中,以为输入图像增加多样且丰富的上下文。此外,还引入自一致性集成投票机制,用于确定最有信心的预测食谱作为最终输出。大量实验验本发明方法的有效性,表明其在Recipe1M数据集的食谱生成任务中达到了目前最先进的性能。
技术关键词
食谱生成方法 多模态 数据组织形式 食物制作 数据存储 训练语言模型 补丁 标记 文本编码器 图像编码器 答案 图像嵌入 序列 自然语言 数据格式 解码器 机制
系统为您推荐了相关专利信息
模态特征 电子元器件 异构 强化学习代理 节点
数据查询请求 索引 查询算法 参数 计算机执行指令
协同注意力 图像 生成方法 深度学习模型 定位模块
协同进化方法 更新模型参数 云端监控 智能推理 异构设备
多模态信息 海缆 故障管控方法 环境状态信息 因子