问答信息的生成及多模态大模型训练方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
问答信息的生成及多模态大模型训练方法和装置
申请号:CN202410796817
申请日期:2024-06-19
公开号:CN118586502A
公开日期:2024-09-03
类型:发明专利
摘要
本公开提供了问答信息的生成及多模态大模型训练方法和装置,涉及计算机视觉、深度学习以及大模型等人工智能领域,可应用于光学字符识别等场景。其中的问答信息的生成方法可包括:获取待处理的目标图像,目标图像中包括待解答的问题内容以及问题内容对应的配图;分别获取问题内容对应的文本模态信息以及配图对应的图像模态信息;结合文本模态信息以及图像模态信息,利用多模态大模型确定出问题内容对应的解答信息。
技术关键词
前馈神经网络 多模态 图像编码器 转换文本 视觉特征 特征金字塔网络 解码器 深度残差网络 融合特征 光学字符识别 序列 模型训练方法 位置编码信息 图框 模型训练模块 图像获取模块 多层感知机
系统为您推荐了相关专利信息
监控方法 数字孪生 激光诱导击穿光谱 深度置信网络 闭环
摘要生成方法 多模态 文本 计划 语义
医学图像分割方法 分层解码器 多模态 输出特征 医学图像分割系统
评估报告生成方法 文本 word2vec模型 融合词向量 数据可视化图表
历史订单数据 大语言模型 预警模型 预警方法 关系网络图