基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法、设备、介质及产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法、设备、介质及产品
申请号:CN202411743563
申请日期:2024-11-30
公开号:CN119669518A
公开日期:2025-03-21
类型:发明专利
摘要
本发明公开了一种基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法,视频预处理入库;根据用户输入的对视频内容的检索文本,利用大语言模型进行分词及优化处理;随后对视频内容的演职员表进行OCR识别并匹配人物角色关联关系;对于物体进行目标检测;对于用户检索中的涉及的场景、事件内容则通过CLIP模型建立的跨模态映射,将视频帧转换为向量表示,并与查询文本的向量表示进行对比,计算视频帧与查询文本之间的相似度;最后通过命中数量和最终加权得分进行二次排序。本发明还公开了一种电子设备、介质及产品。本发明提升影视剧媒体视频素材内容检索能力,并通过融合算法进行综合判定,得到高质量的视频检索方案。
技术关键词
内容检索方法 大语言模型 影视剧 人脸识别模型 文本 人脸识别检测 计算机程序产品 物体 视频帧 高维特征向量 图像特征向量 命名实体识别 处理器 跨模态 人脸识别技术 人脸数据库 电子设备 可读存储介质 人物特征
系统为您推荐了相关专利信息
情感分类模型 分类器 多模态特征 情感分类方法 参数
生成业务 性能评估方法 文本 金融 合规性
大语言模型 报告生成方法 影像 文本 列表
企业画像 借贷风险评估方法 客户 特征提取模型 训练样本集
解读方法 文本 数据 关键词 视频