摘要
本发明涉及混合现实与人工智能融合应用技术领域,尤其涉及一种基于多模态融合的混合现实智能巡检方法及系统。其技术方案包括以下步骤:通过混合现实设备同步采集用户视野图像与语音流数据;采用改进的YOLOv10模型对所述视野图像进行目标检测,输出候选目标区域及其置信度分数;通过Whisper语音识别模型转写语音输入,并利用BERT语义嵌入模型生成语义向量。本发明通过融合图像、语音与空间注视信息的多模态协同感知机制,结合上下文语义优化与轻量化终端部署,在复杂工业巡检场景中实现高精度、实时性、强鲁棒性的智能目标识别与自然交互。