基于偏见强度的大语言模型细粒度去偏见方法及系统

申请号：CN202510510877

申请日期：2025-04-23

公开号：CN120030133B

公开日期：2025-08-29

类型：发明专利

摘要

本发明公开了一种基于偏见强度的大语言模型细粒度去偏见方法及系统，属于生成式人工智能领域。本发明引入了多模型协同的细粒度数据标注方法，通过多个主流大语言模型投票机制量化样本的偏见强度，解决传统方法中偏见强度不可测量的问题；另外本发明设计了改进型直接偏好优化损失函数，通过偏见强度加权区分不同偏见的优化权重，并引入概率解耦正则项阻断中立回答与偏见回答生成概率的同向增长，防止去偏见过程中偏见概率异常升高。本发明实现了细粒度、差异化的去偏见优化，可有效去除大语言模型中的偏见，同时还可以有效提升训练的稳定性，适用于对话系统、文本生成等场景。

技术关键词

大语言模型多模型三元组样本强度计算机电子设备数据标注方法存储计算机程序对话系统计算机程序产品因子处理器文本可读存储介质符号存储器指令模块