基于RAG的PDF智能检索与生成方法及系统

申请号：CN202511517633

申请日期：2025-10-23

公开号：CN120994845A

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了一种基于RAG的PDF智能检索与生成方法及系统，通过获取输入的文档数据，采用预先建立的分类模型对文档数据进行解析，提取文本内容和图像内容形成第一数据集；采用深度学习模型对第一数据集中的图像内容进行特征提取，同时对第一数据集中的文本内容应用自然语言处理技术进行语义分析，得到多模态特征集合；根据多模态特征集合，应用信息整合算法进行统一编码处理生成第二数据集，若检测到第二数据集中的融合特征向量的完整性低于预设阈值，则补充上下文语义分析填补缺失信息；采用预设的索引构建机制对第二数据集中的融合特征向量进行聚类处理，生成包含分类索引结构的检索索引库。本发明提高了文档检索的准确性和全面性。

技术关键词

多模态特征数据文本特征提取工具语义生成方法索引深度学习模型生成系统分析工具图像增强图像分割分词自然语言编码分类工具校验工具识别工具扫描工具