摘要
本发明公开了一种基于多模态视觉‑语言模型的智能眼镜及环境感知方法,涉及视障辅助技术领域,包括:眼镜主体、摄像头单元、边缘计算单元、骨传导音频单元、触控交互单元、电源管理单元和无线通信单元;边缘计算模块内置轻量化多模态视觉‑语言模型,用于对采集的环境图像进行预处理、语义分析并生成环境描述信息,由骨传导音频单元,以语音形式播报给佩戴者;本发明利用多模态视觉‑语言模型同步处理视觉与语言特征,有效识别障碍物、交通信号、文字招牌及场景语义,感知维度更为全面,能够提供丰富的环境语义描述,从而实现复杂环境中对障碍物、标识、文字等多元素的准确识别,提高对视障人士导航指引的安全性。