摘要
本发明涉及自然语言处理与生成式对话技术领域,且公开了一种基于向量检索与大语言模型的文档编写系统,包括:数据采集与预处理模块、向量嵌入与存储模块、用户交互与Query扩展模块、相似度检索与筛选模块和并行处理与写作模块。该基于向量检索与大语言模型的文档编写系统及方法,预先下载并自动摘要不少于10万篇论文至本地数据库,使用M3E LARGE模型进行文本向量化,并将结果存储于Milvus或FAISS向量数据库中,确保了数据安全与隐私保护;相比传统在线检索模式,本地部署的大语言模型不仅避免了网络波动和数据泄露的风险,还提升了相似度检索的准确度和效率;用户交互与Query扩展模块通过挖掘同义词及学科延展方向进行Query扩展,进一步优化了检索质量。