摘要
本发明涉及人工智能技术领域,公开了基于奖励机制进行问答对评分实现大模型微调的方法,包括以下步骤:S1、从人工客服的历史聊天记录中筛选初始问答对;S2、基于奖励机制对初始问答对进行评分;S3、筛选高评分问答对并更新业务问答对知识库;S4、基于更新的业务问答对知识库对大模型进行微调训练;S5、利用微调后的大模型执行智能客服问答任务,所述S1包括:对历史聊天记录进行数据清洗和预处理,剔除无效问答对;使用语义模型计算问句和答案之间的语义相似度,筛选语义完整的问答对。本发明通过基于奖励机制的问答对评分方法和动态知识库更新,实现大模型的高业务适配性和精准问答能力,并提升智能客服的服务效率和个性化水平。