基于物理运动与外观解耦的视频理解方法、装置和设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于物理运动与外观解耦的视频理解方法、装置和设备
申请号:CN202511139486
申请日期:2025-08-14
公开号:CN120976835A
公开日期:2025-11-18
类型:发明专利
摘要
本申请提供了一种基于物理运动与外观解耦的视频理解方法、装置和设备,涉及人工智能技术领域,旨在实现对视频的准确理解。该方法包括:对视频帧序列的各个视频帧进行特征提取,得到特征序列;利用双分支编码器对所述特征序列进行解耦,得到外观特征序列和初步运动特征序列,所述初步运动特征序列表征所述视频帧序列各个视频帧的运动特征,所述双分支编码器包括外观编码器和运动编码器;利用神经微分方程建模器根据所述初步运动特征序列,进行帧与帧之间的连续时间运动轨迹建模,得到运动特征序列;将所述运动特征序列、所述外观特征序列、以及用户提示语句,输入大语言模型进行跨模态信息融合和推理,得到所述用户提示语句对应的回答内容。
技术关键词
运动特征 序列 视频理解方法 大语言模型 运动编码器 视频帧 样本 语句 跨模态 分支 轨迹 自然语言 物理 神经网络参数 人工智能技术 注意力机制 模板
系统为您推荐了相关专利信息
飞机刹车系统 卷积网络模型 噪声标签 液压系统故障诊断技术 生成多尺度
期货价格预测 注意力 嵌入特征 编码器模块 标记
单克隆抗体 检测载脂蛋白 序列 ELISA试剂盒 早期风险评估
节点 实体 关系 文本 大语言模型
网络流量监控 网络流量数据 数据安全交互 态势分析方法 滑动窗口