一种基于embedding模型的知识增强方法及装置

申请号：CN202511576887

申请日期：2025-10-31

公开号：CN121029960A

公开日期：2025-11-28

类型：发明专利

摘要

本发明涉及知识增强技术领域，公开了一种基于embedding模型的知识增强方法及装置，方法包括：获取用户上传的目标问题和原始文档；切分原始文档得到文本块，生成针对文本块的问答对；采用初始embedding模型将原始文档转换为原始向量，基于原始向量进行聚类得到多个聚类类别和文档权重；基于聚类类别训练模型得到目标embedding模型，基于此将目标问题和问答对中的生成问题转换为目标问题向量和生成问题向量；基于文档权重，计算目标问题向量与生成问题向量之间的相似度距离，基于此从原始文档中召回目标文档。本发明有效提升检索召回的准确性与公平性，解决类别不平衡问题，生成准确、高质量的答案，有效改善用户体验。

技术关键词

聚类文本语义主题更新模型参数可读存储介质大语言模型注意力模块存储器处理器指令计算机设备答案格式标签