摘要
本发明公开了一种基于RAG的PDF智能检索与生成方法及系统,通过获取输入的文档数据,采用预先建立的分类模型对文档数据进行解析,提取文本内容和图像内容形成第一数据集;采用深度学习模型对第一数据集中的图像内容进行特征提取,同时对第一数据集中的文本内容应用自然语言处理技术进行语义分析,得到多模态特征集合;根据多模态特征集合,应用信息整合算法进行统一编码处理生成第二数据集,若检测到第二数据集中的融合特征向量的完整性低于预设阈值,则补充上下文语义分析填补缺失信息;采用预设的索引构建机制对第二数据集中的融合特征向量进行聚类处理,生成包含分类索引结构的检索索引库。本发明提高了文档检索的准确性和全面性。