一种面向RAG的文档解析方法、系统及计算机设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种面向RAG的文档解析方法、系统及计算机设备
申请号:CN202511349299
申请日期:2025-09-22
公开号:CN120849350A
公开日期:2025-10-28
类型:发明专利
摘要
本发明涉及人工智能领域,提供了一种面向RAG的文档解析方法、系统及计算机设备。面向RAG的文档解析方法包括,对获取的不同格式的文档进行统一归一化,得到所有文档的Markdown格式;提取Markdown格式的文档中的纯文本内容,对纯文本内容按照Markdown语义结构进行切分,得到若干个文本片段,对所有文本片段进行向量化;提取Markdown格式的文档中的非文本内容,将提取的非文本内容与文本片段向量进行关联,并存储在关系型数据库中;根据用户输入的查询请求,检索关系型数据库中的文本片段向量以及与文本片段向量关联的非文本内容,生成上下文片段。提升了检索精确度和生成答案的完整性。
技术关键词
文档解析方法 文本 关系型数据库 格式 语义结构 生成答案 计算机设备 表格 归一化模块 可读存储介质 解析系统 图片 处理器 层级 样式 页面 布局 列表