摘要
本发明涉及人工智能技术领域,可应用于金融科技、医疗健康等业务系统平台中,揭露了一种多模态动作模型的策略优化方法、装置、设备及介质,所述方法包括:对获取的图像数据、语言指令和目标用户的行为动作序列之间进行关系分析,得到关系依赖性,结合初始训练参数组构建初始多模态动作模型,利用获取的任务特定数据对初始多模态动作模型进行微调,得到微调多模态动作模型,获取目标环境的环境交互数据集,利用微调多模态动作模型对环境交互数据集进行逐个交互采样,生成若干个目标交互轨迹,并对微调多模态动作模型中的选择策略进行策略优化,得到目标选择策略。本发明提升了多模态动作模型在面对新情境或数据不足时,模型的选择策略准确度。