多模态对话处理方法、装置、电子设备及存储介质

申请号：CN202510353021

申请日期：2025-03-24

公开号：CN120296120A

公开日期：2025-07-11

类型：发明专利

摘要

本申请提供多模态对话处理方法、装置、电子设备及存储介质，涉及人工智能技术领域。该方法包括：获取用户输入的多模态的对话信息；获取与用户对话的角色设定信息与历史对话信息；根据角色设定信息、历史对话信息及对话文本信息，确定用户的对话状态信息；将对话状态信息输入至预先训练得到的大语言模型，得到大语言模型输出的决策结果；根据回复信息的类型、回复信息对应的提示词，生成并输出多模态的目标对话回复信息。即本方案支持多模态对话信息的输入/输出，并基于对话状态信息对用户的对话意图进行更加准确的理解，使得生成的决策结果更具拟人化的效果，提高了用户与人物角色对话时的自由度和沉浸感。

技术关键词

多模态对话大语言模型文本生成模型图片机器可读指令决策电子设备处理器音频人工智能技术记忆语义可读存储介质模块意图计算机数据