基于多模态视觉-语言模型的智能眼镜及环境感知方法

申请号：CN202510974944

申请日期：2025-07-15

公开号：CN120859816A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了一种基于多模态视觉‑语言模型的智能眼镜及环境感知方法，涉及视障辅助技术领域，包括：眼镜主体、摄像头单元、边缘计算单元、骨传导音频单元、触控交互单元、电源管理单元和无线通信单元；边缘计算模块内置轻量化多模态视觉‑语言模型，用于对采集的环境图像进行预处理、语义分析并生成环境描述信息，由骨传导音频单元，以语音形式播报给佩戴者；本发明利用多模态视觉‑语言模型同步处理视觉与语言特征，有效识别障碍物、交通信号、文字招牌及场景语义，感知维度更为全面，能够提供丰富的环境语义描述，从而实现复杂环境中对障碍物、标识、文字等多元素的准确识别，提高对视障人士导航指引的安全性。

技术关键词

环境感知方法多模态智能眼镜摄像头单元视觉眼镜主体音频单元高优先级事件电源管理单元无线通信单元结构化场景语义向量超声波传感器单元识别物体类别知识蒸馏技术语音视障辅助