AI资讯新闻榜单内容搜索-TRIDENT

ACL 2025主会论文 | TRIDENT：基于三维多样化红队数据合成的LLM安全增强方法

大语言模型（LLM）已经在多项自然语言处理任务中展现出卓越能力，但其潜在安全风险仍然是阻碍规模化落地的关键瓶颈。目前社区用于安全对齐的公开数据集，往往偏重于「词汇多样性」，即让同一种风险指令尽可能用不同的表达方式出现，却很少系统考虑指令背后的「恶意意图多样性」以及「越狱策略多样性」。

来自主题: AI技术研报

7606 点击 2025-08-01 10:37