基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法、设备、介质及产品

申请号：CN202411743563

申请日期：2024-11-30

公开号：CN119669518A

公开日期：2025-03-21

类型：发明专利

摘要

本发明公开了一种基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法，视频预处理入库；根据用户输入的对视频内容的检索文本，利用大语言模型进行分词及优化处理；随后对视频内容的演职员表进行OCR识别并匹配人物角色关联关系；对于物体进行目标检测；对于用户检索中的涉及的场景、事件内容则通过CLIP模型建立的跨模态映射，将视频帧转换为向量表示，并与查询文本的向量表示进行对比，计算视频帧与查询文本之间的相似度；最后通过命中数量和最终加权得分进行二次排序。本发明还公开了一种电子设备、介质及产品。本发明提升影视剧媒体视频素材内容检索能力，并通过融合算法进行综合判定，得到高质量的视频检索方案。

技术关键词

内容检索方法大语言模型影视剧人脸识别模型文本人脸识别检测计算机程序产品物体视频帧高维特征向量图像特征向量命名实体识别处理器跨模态人脸识别技术人脸数据库电子设备可读存储介质人物特征

系统为您推荐了相关专利信息

一种多模态情感分类模型训练方法及多模态情感分类方法

情感分类模型分类器多模态特征情感分类方法参数

一种金融文本大模型性能评估方法及装置

生成业务性能评估方法文本金融合规性

基于大语言模型的医学影像报告生成方法及系统

大语言模型报告生成方法影像文本列表

借贷风险评估方法、电子设备及存储介质

企业画像借贷风险评估方法客户特征提取模型训练样本集

基于LLM的数据解读方法、系统、电子设备及存储介质

解读方法文本数据关键词视频