一种基于BPE的视频模态特征处理方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于BPE的视频模态特征处理方法及系统
申请号:CN202411082160
申请日期:2024-08-08
公开号:CN119110129A
公开日期:2024-12-10
类型:发明专利
摘要
本发明公开了一种基于BPE的视频模态特征处理方法及系统,方法包括将视频帧通过BPE算法进行合并,达到设定数量的视频帧后进行视频编码得到视频特征向量表示,或者将视频帧通过视频编码后再通过BPE算法进行合并得到视频帧特征向量;将文本进行编码得到文本特征向量表示;将文本特征向量表示和视频特征向量表示进行线性变换,或者将文本特征向量表示和视频帧特征向量进行线性变换,得到多模态特征向量表示;通过大语言模型处理多模态特征向量表示,生成多维度的视频内容表示。本发明通过BPE算法能够适应不同长度的视频内容,确保无论视频的长短,其关键信息都能得到有效保留,为video LLMs提供了数据基础,使其能够全面理解视频内容。
技术关键词
视频帧 文本特征向量 视频特征向量 视频编码 直方图 大语言模型 算法 分段 多模态特征 对齐模块 元素 编码模块 基础 数据
系统为您推荐了相关专利信息
医学影像数据 数据获取模块 编码器 临床大数据 状态空间模型
钢筋腐蚀程度 图像处理算法 颜色 灰度直方图 降噪处理过程
矿山生态修复工程 图片 植被 颜色 切割算法
视频帧 姿态检测模型 多模态 视频封面 非易失性计算机可读存储介质
多尺度特征 视频分类方法 特征提取模块 注意力 状态更新