摘要
本发明公开了一种跨模型裁决的大语言模型偏见消减方法及系统,给定一组多个不同的LLM模型,将预设提示分别输入至不同的LLM模型,得到每个LLM模型生成的响应;基于复合偏见度量标准,利用每个LLM模型评估同行组中所有其他LLM模型生成的响应的偏见水平,并得到偏见评估分数;基于得到偏见评估分数,利用改进的波达计数机制计算每个响应的波达分数,将具有最高波达分数的响应选取为集体认同的偏见最少的共识目标响应;基于得到的低偏见的共识目标响应,对每个参与的LLM模型进行参数微调。本发明借鉴人类同行评审和协作学习的理念,提出了新颖的跨模型裁决框架,用于检测和消减LLM中的偏见。