摘要
本发明公开了一种运营商领域的RAG文档拆分优化方法及系统,属于大模型优化技术领域,该方法的实现包括:上传文档,通过minio和paradeDB分别存储源文件和文件信息;构建文档加载器,根据文件类型自动选择对应的加载器进行文件处理,转化为统一的markdown文本,解析文档中的图片并转化为base64格式;构建图片处理器,将文本中的图片base64字符串提取出来,进行位图和矢量图的处理,转化为markdown的图片引用格式;构建文档分割器;向量转化;文本召回。本发明解决目前RAG中,图片提取转化、处理复杂的问题,一个数据库即可实现向量检索、全文检索、混合检索功能,减少了运维成本。