摘要
本申请实施例提供了一种基于强化学习的信息检索方法和装置、电子设备及介质,属于金融科技和人工智能技术领域。该方法包括:对业务检索指示信息进行知识检索,通过检索行为及奖励因子对编码检索信息进行检索行为价值识别,得到检索行为价值;根据检索行为价值识别编码检索信息的检索停止条件;基于检索停止条件和编码检索信息生成目标检索数据。本申请实施例通过对业务检索指示信息进行知识检索,能够初步匹配到检索指示最相关的知识信息,并根据检索行为价值确定检索停止条件,并基于检索停止条件生成目标检索数据,能够确定检索时最优的停止点,实现了动态调整检索策略,并生成高质量数据的输出,显著提高了信息检索的准确率。