AI资讯新闻榜单内容搜索-大模型越狱

港科大发布「大模型越狱攻击」评估基准，覆盖37种、6大类别方法

现有的方法对大语言模型（LLM）「越狱」攻击评估存在误判和不一致问题。港科大团队提出了GuidedBench评估框架，通过为每个有害问题制定详细评分指南，显著降低了误判率，揭示了越狱攻击的真实成功率远低于此前估计，并为未来研究提供了更可靠的评估标准。

来自主题: AI技术研报

7977 点击 2025-08-02 13:15

很多研究已表明，像 ChatGPT 这样的大型语言模型（LLM）容易受到越狱攻击。很多教程告诉我们，一些特殊的 Prompt 可以欺骗 LLM 生成一些规则内不允许的内容，甚至是有害内容（例如 bomb 制造说明）。这种方法被称为「大模型越狱」。

来自主题: AI资讯

9497 点击 2024-12-19 15:56