摘要
本发明提供的从动作视频数据生成细粒度语义描述的方法与装置,基于孤立词手语识别数据集与含词目标注的连续手语识别数据集,建立训练数据集,获得细粒度语义描述建模的动作视频数据和动作描述文本数据,通过包含动作视频特征编码模块、多模态特征融合模块、和文本特征编码模块组成的训练架构,结合用户提示词和系统提示词并引入掩码重建机制,得到细粒度语义动作描述风格预训练生成模型,采用动作视频数据微调并建立损失函数,得到细粒度语义动作描述生成模型,用于生成高质量细粒度语义动作描述数据,缓解当前细粒度语义动作描述数据欠缺的问题。确保在处理如手语视频、交互动作等高动态复杂场景时,生成结果的稳定性和准确性。