AI资讯新闻榜单内容搜索-大模型越狱

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 大模型越狱
港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法

港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法

港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法

现有的方法对大语言模型(LLM)「越狱」攻击评估存在误判和不一致问题。港科大团队提出了GuidedBench评估框架,通过为每个有害问题制定详细评分指南,显著降低了误判率,揭示了越狱攻击的真实成功率远低于此前估计,并为未来研究提供了更可靠的评估标准。

来自主题: AI技术研报
5656 点击    2025-08-02 13:15
CMU把具身智能的机器人给越狱了

CMU把具身智能的机器人给越狱了

CMU把具身智能的机器人给越狱了

很多研究已表明,像 ChatGPT 这样的大型语言模型(LLM)容易受到越狱攻击。很多教程告诉我们,一些特殊的 Prompt 可以欺骗 LLM 生成一些规则内不允许的内容,甚至是有害内容(例如 bomb 制造说明)。这种方法被称为「大模型越狱」。

来自主题: AI资讯
7362 点击    2024-12-19 15:56