摘要
本申请提供多模态对话处理方法、装置、电子设备及存储介质,涉及人工智能技术领域。该方法包括:获取用户输入的多模态的对话信息;获取与用户对话的角色设定信息与历史对话信息;根据角色设定信息、历史对话信息及对话文本信息,确定用户的对话状态信息;将对话状态信息输入至预先训练得到的大语言模型,得到大语言模型输出的决策结果;根据回复信息的类型、回复信息对应的提示词,生成并输出多模态的目标对话回复信息。即本方案支持多模态对话信息的输入/输出,并基于对话状态信息对用户的对话意图进行更加准确的理解,使得生成的决策结果更具拟人化的效果,提高了用户与人物角色对话时的自由度和沉浸感。