摘要
本发明提出了一种信息压缩与剪枝的RAG数据库构建方法,实现步骤为:构建节点对象和层次化聚类树;对聚类树中的节点对象文本信息进行压缩;基于类QR分解方法对部分节点对象文本信息压缩后的聚类树进行剪枝。本发明通过对聚类树中子节点中的句子单元文本信息进行压缩并对所压缩的子节点的嵌入向量进行更新,能够根据大语言模型的实际需求,筛选并存储最有价值的外部信息,这不仅减少了RAG数据库中无效数据存储,还确保RAG数据库中存储的文本信息始终具有增益性,同时基于类QR分解方法对部分节点对象文本信息压缩后的聚类树进行剪枝,有效识别并删除语义相似度较高的冗余子节点对象,减小了RAG数据库中节点对象的存储开销。