问答大模型训练及问答方法、装置、相关设备及程序产品
申请号:CN202510455031
申请日期:2025-04-11
公开号:CN120179789A
公开日期:2025-06-20
类型:发明专利
摘要
本申请公开了一种问答大模型训练及问答方法、装置、相关设备及程序产品,涉及人工智能技术领域。本申请采用强化学习方式对问答大模型进行训练,通过将问题样本送入问答大模型,得到其输出结果。确定其中答案的质量,并确定思维链的长度与设定思维链长度要求的匹配度,按照答案的质量及思维链长度的匹配度确定输出结果的奖励值,该奖励值与答案的质量、匹配度均成正相关关系,按照该输出结果的奖励值对问答大模型进行强化学习训练,增强问答大模型对输出的思维链长度的控制能力,同时,同时提升问答大模型输出的答案的质量。
技术关键词
答案
模型训练方法
问答方法
样本
模型训练装置
数据获取单元
数据处理单元
人工智能技术
计算机程序产品
处理器
关系
无监督
可读存储介质
存储器
电子设备
标签