摘要
本发明公开了基于多模态表征和因果推理的外科手术评估方法及系统,涉及人工智能技术领域,在普通手术场景上深入研究了基于深度学习的手术技能分析及评估。本发明从数据和算法框架这两个角度出发,提出了两个核心内容来提升手术技能的评估性能。首先,开发了几种新技术,可以在普通微创手术中提供三种不同模态的观测数据,包括视频、轨迹和语言。在此基础上,设计了一种跨模态对比学习策略,能够从三种不同模态的数据中学习具有辨别性的特征。其次,提出了一个联合进行手术动作识别和技能评估的统一框架,其设计了一个基于因果推理的预测结构来对两个任务之间的因果关系进行建模,从而实现更高性能的动作识别和技能评估。