摘要
本发明提供一种多模态语言模型的训练方法和使用方法,包括:将预先采集的样本数据集基于类别进行编码与拼接,得到模型词典和拼接文本;根据模型词典、拼接文本得到词典索引矩阵B;将B与当前语言模型中的嵌入矩阵E相乘,得到嵌入向量;基于嵌入向量的上下文信息对当前语言模型的嵌入层、隐藏层和输出层的参数权重进行修正,得到修正后语言模型;将嵌入向量输入至修正后语言模型,得到预测tokens及其概率;计算预测tokens和样本答案的tokens之间损失L;若L大于预设的损失阈值,则重复以上步骤;否则,则将修正后语言模型作为训练好的多模态语言模型。本多模态语言模型可以同时精确识别自然语言和多媒体语言。