一种语音问答场景下的RAG召回率提升方法及装置

申请号：CN202511040109

申请日期：2025-07-28

公开号：CN120913552A

公开日期：2025-11-07

类型：发明专利

摘要

本发明提供一种语音问答场景下的RAG召回率提升方法及装置，涉及数据处理的技术领域，方法包括：对包含语音识别结果的原始语料进行语义清洗处理，并对清洗后的原始语料进行语义压缩，并利用多个候选嵌入向量生成模型分别执行向量生成操作，输出词向量；针对每个词向量，计算语义保真度得分；对多个语义保真度得分进行评估，选择多个候选嵌入向量生成模型中，语义保真度得分最优的目标嵌入向量生成模型；针对数据输入计算每个词语的词频值与逆文档频率值，判别词语是否为专业热词，筛选出专业热词构建热词词表；将目标嵌入向量生成模型输出的嵌入向量与热词词表联合输入至问答模块，输出目标答案文本。本发明能够提高语音问答场景下的RAG召回率。

技术关键词

问答场景词语语音语义向量训练样本集数据专业分词频率网络接口机制输出模块电子设备答案可读存储介质算法设备通信文本

系统为您推荐了相关专利信息

基于语义识别的关联技术文本查新方法及系统

检索技术关键词查新方法文本指标

对线下会议数据的实时显示方法及会议管理系统

会议管理系统声纹特征大屏装置语音实时显示方法

一种数据检索的中药材数据管理系统及方法

语义向量数据管理方法扩展型数据管理系统知识图谱数据

一种用于大数据分析的人工智能系统

客户人工智能系统词语数据库样本商品评论数据

一种登机查验机器人

履带结构机器人升降机械臂机身射线扫描仪