一种从动作视频数据生成细粒度语义描述的方法与装置

申请号：CN202511225221

申请日期：2025-08-29

公开号：CN120747964A

公开日期：2025-10-03

类型：发明专利

摘要

本发明提供的从动作视频数据生成细粒度语义描述的方法与装置，基于孤立词手语识别数据集与含词目标注的连续手语识别数据集，建立训练数据集，获得细粒度语义描述建模的动作视频数据和动作描述文本数据，通过包含动作视频特征编码模块、多模态特征融合模块、和文本特征编码模块组成的训练架构，结合用户提示词和系统提示词并引入掩码重建机制，得到细粒度语义动作描述风格预训练生成模型，采用动作视频数据微调并建立损失函数，得到细粒度语义动作描述生成模型，用于生成高质量细粒度语义动作描述数据，缓解当前细粒度语义动作描述数据欠缺的问题。确保在处理如手语视频、交互动作等高动态复杂场景时，生成结果的稳定性和准确性。

技术关键词

语义编码特征多模态特征融合文本姿态特征数据大语言模型视频编码编码模块连续手语风格编码器损失函数优化序列人体存储计算机程序交互动作