富文本分析方法、装置、存储介质及计算机设备

申请号：CN202510892862

申请日期：2025-06-30

公开号：CN120671642A

公开日期：2025-09-19

类型：发明专利

摘要

本申请提供的富文本分析方法、装置、存储介质及计算机设备，包括：获取富文本文件和目标提示词，并识别富文本文件中的组件，得到富文本文件对应的多种组件集合；接着确定各个组件集合中的组件的语义向量并存储于预设的向量数据库中；然后将目标提示词与向量数据库中的语义向量进行相关性匹配，以确定与目标提示词相关的组件标识后，在各个组件集合中确定目标组件，并将各个目标组件输入至预设的多模态模型中，得到分析结果。通过识别富文本文件中的组件，并且确定各个组件的语义向量，以向量的形式进行相关性匹配，使得跨部分的关联信息也能够捕捉到，充分挖掘跨部分的关联信息，提高富文本分析和理解的准确性。

技术关键词

语义向量文本分析方法富文本计算机可读指令关键词预训练模型标识计算机设备多模态表格分析模块图片数据获取模块标签处理器分析装置融合特征识别模块