基于扩散模型的半监督自然语言时序定位方法及相关装置
申请号:CN202510491814
申请日期:2025-04-18
公开号:CN120411851A
公开日期:2025-08-01
类型:发明专利
摘要
本发明属于计算机视觉与模式识别技术领域,公开了一种基于扩散模型的半监督自然语言时序定位方法及相关装置;其中,所述基于扩散模型的半监督自然语言时序定位方法包括:获取文本描述和待时序定位的视频数据,分别进行特征提取以获得文本特征和视频特征;基于文本特征和视频特征,利用预先训练的时序定位模型进行时序定位,获得时序定位结果;其中,时序定位结果包括文本描述在待时序定位的视频数据中对应的视频片段的开始时间和结束时间。本发明公开的技术方案,将扩散模型集成到教师‑学生框架中,通过加噪和去噪过程提高了伪标签的质量和可靠性,能够提升半监督自然语言时序定位的整体性能。
技术关键词
无标签数据
时序
编码器模块
融合特征
编码解码器
自然语言
定位方法
文本
视频
学生
教师
噪声数据
跨度
预训练模型
模型更新