一种基于多模态融合的混合现实智能巡检方法及系统

申请号：CN202511072835

申请日期：2025-08-01

公开号：CN120579148B

公开日期：2025-12-16

类型：发明专利

摘要

本发明涉及混合现实与人工智能融合应用技术领域，尤其涉及一种基于多模态融合的混合现实智能巡检方法及系统。其技术方案包括以下步骤：通过混合现实设备同步采集用户视野图像与语音流数据；采用改进的YOLOv10模型对所述视野图像进行目标检测，输出候选目标区域及其置信度分数；通过Whisper语音识别模型转写语音输入，并利用BERT语义嵌入模型生成语义向量。本发明通过融合图像、语音与空间注视信息的多模态协同感知机制，结合上下文语义优化与轻量化终端部署，在复杂工业巡检场景中实现高精度、实时性、强鲁棒性的智能目标识别与自然交互。

技术关键词

智能巡检方法语义向量多模态混合现实设备智能巡检系统语音识别模型多尺度特征金字塔检测损失图像视野决策工业巡检语音识别模块强鲁棒性头戴设备注意力机制