车辆多模态交互方法、装置、电子设备及存储介质

申请号：CN202411034177

申请日期：2024-07-30

公开号：CN119293716A

公开日期：2025-01-10

类型：发明专利

摘要

本发明实施例提供了一种车辆多模态交互方法、装置、电子设备及存储介质，包括：获取目标车辆内部的目标用户对应的手指指向区域；采集所述手指指向区域对应的车辆外部图像；在所述车辆外部图像中确定与所述手指指向区域对应的多尺度图像，并基于所述多尺度图像进行多尺度拼接，得到目标拼接图像；采集所述目标用户对应的语音数据；将所述目标拼接图像和所述语音数据输入至预设多模态交互模型，得到回复文本。即本发明实施例通过结合用户的手势指向和语音输入，实现了更加直观和自然的交互体验，综合分析图像和语音信息，从而生成准确且符合用户意图的回复文本。

技术关键词

手部关键点多模态交互方法骨骼关键点图像手部姿态估计语音车辆多尺度侧面车窗车载播放装置文本关节车内摄像头坐标系数据电子设备处理器意图