一种大语言模型的安全对齐方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种大语言模型的安全对齐方法及装置
申请号:CN202511038055
申请日期:2025-07-25
公开号:CN120910391A
公开日期:2025-11-07
类型:发明专利
摘要
本说明书实施例提供了一种大语言模型的安全对齐方法及装置,该方法包括:获取第一大模型的第一权重参数矩阵和第二大模型的第二权重参数矩阵,第一大模型为已安全对齐的大模型,第二大模型为未安全对齐的大模型;基于第一权重参数矩阵和第二权重参数矩阵之间的差异,确定安全向量;计算得到第一权重参数矩阵和低秩矩阵之间的映射关系,低秩矩阵包括第一权重参数矩阵在其对应的低秩子空间中的分量特征;基于映射关系,提取安全向量在低秩子空间中对应的低秩主成分;将低秩主成分与待安全对齐的第三大模型的第三权重参数矩阵进行融合,得到安全对齐后的第三大模型,第三大模型为使用目标任务数据集对第一大模型进行微调后的大模型。
技术关键词
矩阵 参数 大语言模型 分量特征 对齐方法 关系 对齐装置 对齐模块 因子 数据 存储器 处理器 校准 线性