基于奖励机制进行问答对评分实现大模型微调的方法

申请号：CN202510043512

申请日期：2025-01-10

公开号：CN119940467A

公开日期：2025-05-06

类型：发明专利

摘要

本发明涉及人工智能技术领域,公开了基于奖励机制进行问答对评分实现大模型微调的方法，包括以下步骤：S1、从人工客服的历史聊天记录中筛选初始问答对；S2、基于奖励机制对初始问答对进行评分；S3、筛选高评分问答对并更新业务问答对知识库；S4、基于更新的业务问答对知识库对大模型进行微调训练；S5、利用微调后的大模型执行智能客服问答任务，所述S1包括：对历史聊天记录进行数据清洗和预处理，剔除无效问答对；使用语义模型计算问句和答案之间的语义相似度，筛选语义完整的问答对。本发明通过基于奖励机制的问答对评分方法和动态知识库更新，实现大模型的高业务适配性和精准问答能力，并提升智能客服的服务效率和个性化水平。

技术关键词

智能客服机制关键词语义电力客户服务预训练语言模型问答对数据强化学习模型生成答案评分方法人工智能技术语音场景重复性参数冗余