摘要
本发明实施例提供了一种车辆多模态交互方法、装置、电子设备及存储介质,包括:获取目标车辆内部的目标用户对应的手指指向区域;采集所述手指指向区域对应的车辆外部图像;在所述车辆外部图像中确定与所述手指指向区域对应的多尺度图像,并基于所述多尺度图像进行多尺度拼接,得到目标拼接图像;采集所述目标用户对应的语音数据;将所述目标拼接图像和所述语音数据输入至预设多模态交互模型,得到回复文本。即本发明实施例通过结合用户的手势指向和语音输入,实现了更加直观和自然的交互体验,综合分析图像和语音信息,从而生成准确且符合用户意图的回复文本。