基于奖励机制进行问答对评分实现大模型微调的方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于奖励机制进行问答对评分实现大模型微调的方法
申请号:CN202510043512
申请日期:2025-01-10
公开号:CN119940467A
公开日期:2025-05-06
类型:发明专利
摘要
本发明涉及人工智能技术领域,公开了基于奖励机制进行问答对评分实现大模型微调的方法,包括以下步骤:S1、从人工客服的历史聊天记录中筛选初始问答对;S2、基于奖励机制对初始问答对进行评分;S3、筛选高评分问答对并更新业务问答对知识库;S4、基于更新的业务问答对知识库对大模型进行微调训练;S5、利用微调后的大模型执行智能客服问答任务,所述S1包括:对历史聊天记录进行数据清洗和预处理,剔除无效问答对;使用语义模型计算问句和答案之间的语义相似度,筛选语义完整的问答对。本发明通过基于奖励机制的问答对评分方法和动态知识库更新,实现大模型的高业务适配性和精准问答能力,并提升智能客服的服务效率和个性化水平。
技术关键词
智能客服 机制 关键词 语义 电力客户服务 预训练语言模型 问答对数据 强化学习模型 生成答案 评分方法 人工智能技术 语音 场景 重复性 参数 冗余