摘要
本发明提供一种语音问答场景下的RAG召回率提升方法及装置,涉及数据处理的技术领域,方法包括:对包含语音识别结果的原始语料进行语义清洗处理,并对清洗后的原始语料进行语义压缩,并利用多个候选嵌入向量生成模型分别执行向量生成操作,输出词向量;针对每个词向量,计算语义保真度得分;对多个语义保真度得分进行评估,选择多个候选嵌入向量生成模型中,语义保真度得分最优的目标嵌入向量生成模型;针对数据输入计算每个词语的词频值与逆文档频率值,判别词语是否为专业热词,筛选出专业热词构建热词词表;将目标嵌入向量生成模型输出的嵌入向量与热词词表联合输入至问答模块,输出目标答案文本。本发明能够提高语音问答场景下的RAG召回率。