针对多模态大模型的文本描述的调整方法、装置及设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
针对多模态大模型的文本描述的调整方法、装置及设备
申请号:CN202411612907
申请日期:2024-11-12
公开号:CN119559434A
公开日期:2025-03-04
类型:发明专利
摘要
本申请涉及一种针对多模态大模型的文本描述的调整方法、装置及设备,该方法确定第一样本图像并将其第一文本描述设置为第二文本描述;在第一样本图像中添加图像触发器得到第二样本图像;通过各第三样本图像和各第二样本图像,对添加的图像触发器和上下文生成器的参数进行调整;将样本图像通过图像编码器得到图像特征向量,将经上下文生成器得到的预测文本和样本图像对应的文本描述通过文本编码器得到文本特征向量,通过图像特征向量和文本特征向量进行特征对齐,得到多模态大模型针的输出文本,基于图像特征向量与文本特征向量之间的相似度确定损失函数,尽量保持多模态大模型的参数不变,并对多模态大模型的输出文本进行特定调整,提高调整效率。
技术关键词
图像特征向量 文本特征向量 样本 多模态 图像编码器 文本编码器 计算机程序代码 计算机程序产品 视觉特征 存储程序指令 阶段 语义 可读存储介质 参数 存储器