摘要
本发明公开了一种通用的非结构化数据索引构建方法、装置及介质,适用于图片、视频、文本等多模态数据。该方法包括:针对不同模态数据分别采用适配的深度学习模型进行特征提取;基于自动锚点选择与超平面划分的递归聚类方法,实现多层次聚类簇结构的构建;利用大语言模型为每个聚类簇自动生成语义摘要;通过类别、聚类簇、摘要等信息高效组织索引结构,支持多维度检索;在查询处理时,利用聚类簇内部极少量已有标注,低成本训练判别模型,实现高效的聚类簇筛选与多类别组合查询,无需用户指定正负样本。该方法具备高度自动化、低标注成本、可扩展性强、支持多模态数据、标注继承唯一性等优点,显著提升大规模非结构化数据的索引构建与检索效率。