基于TF-IDF与交叉熵的提示词压缩方法及系统

申请号：CN202510954870

申请日期：2025-07-11

公开号：CN120449893B

公开日期：2025-09-05

类型：发明专利

摘要

本发明公开了一种基于TF‑IDF与交叉熵的提示词压缩方法及系统，属于大模型提示词压缩技术领域，针对长提示词引入冗余信息、降低模型效率及增加成本的问题，本发明采用三层渐进压缩：首先划分提示词并保留问题部分；在句子层级将待压缩内容分句后转化为嵌入向量，结合问题向量计算欧氏距离以筛选相关句子；在词语层级通过词频和逆文档频率计算TF‑IDF值提取关键词并重组句子；在Token层级选取参考模型与基础模型，基于交叉熵损失差值识别关键Token并按序拼接生成压缩提示词。该方法避免复杂计算结构，维持语义完整性的同时提升推理效率、降低资源消耗。

技术关键词

词语关键词计算机终端设备语义基础处理器压缩系统层级答案分析模块可读存储介质频率高性能程序冗余系列文本存储器