一种运营商领域的RAG文档拆分优化方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种运营商领域的RAG文档拆分优化方法及系统
申请号:CN202510689267
申请日期:2025-05-27
公开号:CN120654656A
公开日期:2025-09-16
类型:发明专利
摘要
本发明公开了一种运营商领域的RAG文档拆分优化方法及系统,属于大模型优化技术领域,该方法的实现包括:上传文档,通过minio和paradeDB分别存储源文件和文件信息;构建文档加载器,根据文件类型自动选择对应的加载器进行文件处理,转化为统一的markdown文本,解析文档中的图片并转化为base64格式;构建图片处理器,将文本中的图片base64字符串提取出来,进行位图和矢量图的处理,转化为markdown的图片引用格式;构建文档分割器;向量转化;文本召回。本发明解决目前RAG中,图片提取转化、处理复杂的问题,一个数据库即可实现向量检索、全文检索、混合检索功能,减少了运维成本。
技术关键词
图片 文本 加载器 矢量图 命令行工具 表格 格式 机器可读程序 分割器 模型优化技术 生成文件名 字符串替换 处理器 计算机 模块 列表 字典 存储桶 文件夹 存储器