一种从动作视频数据生成细粒度语义描述的方法与装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种从动作视频数据生成细粒度语义描述的方法与装置
申请号:CN202511225221
申请日期:2025-08-29
公开号:CN120747964A
公开日期:2025-10-03
类型:发明专利
摘要
本发明提供的从动作视频数据生成细粒度语义描述的方法与装置,基于孤立词手语识别数据集与含词目标注的连续手语识别数据集,建立训练数据集,获得细粒度语义描述建模的动作视频数据和动作描述文本数据,通过包含动作视频特征编码模块、多模态特征融合模块、和文本特征编码模块组成的训练架构,结合用户提示词和系统提示词并引入掩码重建机制,得到细粒度语义动作描述风格预训练生成模型,采用动作视频数据微调并建立损失函数,得到细粒度语义动作描述生成模型,用于生成高质量细粒度语义动作描述数据,缓解当前细粒度语义动作描述数据欠缺的问题。确保在处理如手语视频、交互动作等高动态复杂场景时,生成结果的稳定性和准确性。
技术关键词
语义 编码特征 多模态特征融合 文本 姿态特征 数据 大语言模型 视频编码 编码模块 连续手语 风格 编码器 损失函数优化 序列 人体 存储计算机程序 交互动作