一种基于文本语义增强的腹腔手术视频三元组识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于文本语义增强的腹腔手术视频三元组识别方法
申请号:CN202511262667
申请日期:2025-09-05
公开号:CN120808239B
公开日期:2025-11-11
类型:发明专利
摘要
本申请涉及一种基于文本语义增强的腹腔手术视频三元组识别方法,包括:设计文本提示并提取其特征得到文本特征表示;采用图像编码器提取腹腔手术视频帧图像的图像编码特征,并将图像编码特征经过瓶颈层输出三元组特征;基于设计的三元解耦注意力模块将图像编码特征解耦为器械特征、动作特征、目标组织特征;融合三元组特征、器械特征、动作特征、目标组织特征,得到图像特征表示;融合文本特征表示与图像特征表示,得到文本增强后的图像特征;基于文本增强后的图像特征训练时间卷积网络,得到训练好的时间卷积网络;获取待识别的腹腔手术视频帧图像的第二图像特征表示;将第二图像特征表示输入至训练好的时间卷积网络,得到三元组分类结果。
技术关键词
三元组 时间卷积网络 视频帧 图像编码器 识别方法 手术器械定位 文本编码器 动作特征 积层 标准化模板 语义 交叉注意力机制 标签