AI资讯新闻榜单内容搜索-安全

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 安全
可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25

可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25

可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25

聚焦大型语言模型(LLMs)的安全漏洞,研究人员提出了全新的越狱攻击范式与防御策略,深入剖析了模型在生成过程中的注意力变化规律,为LLMs安全研究提供了重要参考。论文已被EMNLP2025接收

来自主题: AI技术研报
6127 点击    2025-10-27 10:25
AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

看似无害的「废话」,也能让AI越狱?在NeurIPS 2025,哥大与罗格斯提出LARGO:不改你的提问,直接在模型「潜意识」动手脚,让它生成一段温和自然的文本后缀,却能绕过安全防护,输出本不该说的话。

来自主题: AI技术研报
6996 点击    2025-10-27 09:40
NeurIPS 2025 | ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准、更轻

NeurIPS 2025 | ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准、更轻

NeurIPS 2025 | ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准、更轻

近期,来自北航等机构的研究提出了一种新的解决思路:自回归奖励引导表征编辑(ARGRE)框架。该方法首次在 LLM 的潜在表征空间中可视化了毒性从高到低的连续变化路径,实现了在测试阶段进行高效「解毒」。

来自主题: AI技术研报
6259 点击    2025-10-26 10:28
一个指令误导智能模型!北航等首创3D语义攻击框架,成功率暴涨119%

一个指令误导智能模型!北航等首创3D语义攻击框架,成功率暴涨119%

一个指令误导智能模型!北航等首创3D语义攻击框架,成功率暴涨119%

人工智能模型的安全对齐问题,一直像悬在头顶的达摩克利斯之剑。 自对抗样本被发现以来,这一安全对齐缺陷,广泛、长期地存在与不同的深度学习模型中。

来自主题: AI资讯
7701 点击    2025-10-23 16:00
AI模型守法率提升11%,港科大首次用法案构建安全benchmark

AI模型守法率提升11%,港科大首次用法案构建安全benchmark

AI模型守法率提升11%,港科大首次用法案构建安全benchmark

香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式,构建合规测试基准并训练出性能优异的推理模型,为大语言模型安全管理提供了新方向。

来自主题: AI技术研报
9503 点击    2025-10-23 12:20
硅谷一线创业者内部研讨:为什么只有 5%的 AI Agent 落地成功,他们做对了什么?

硅谷一线创业者内部研讨:为什么只有 5%的 AI Agent 落地成功,他们做对了什么?

硅谷一线创业者内部研讨:为什么只有 5%的 AI Agent 落地成功,他们做对了什么?

来自硅谷一线 AI 创业者的数据:95% 的 AI Agent 在生产环境都部署失败了。 「不是因为模型本身不够智能,而是因为围绕它们搭建的脚手架,上下文工程、安全性、记忆设计都还远没有到位。」 「大多数创始人以为自己在打造 AI 产品,但实际上他们构建的是上下文选择系统。」

来自主题: AI资讯
7524 点击    2025-10-21 16:02
突破FHE瓶颈,Lancelot架构实现加密状态下的鲁棒聚合计算,兼顾「隐私保护」与「鲁棒性」

突破FHE瓶颈,Lancelot架构实现加密状态下的鲁棒聚合计算,兼顾「隐私保护」与「鲁棒性」

突破FHE瓶颈,Lancelot架构实现加密状态下的鲁棒聚合计算,兼顾「隐私保护」与「鲁棒性」

在金融、医疗等高度敏感的应用场景中,拜占庭鲁棒联邦学习(BRFL)能够有效避免因数据集中存储而导致的隐私泄露风险,同时防止恶意客户端对模型训练的攻击。然而,即使是在模型更新的过程中,信息泄露的威胁仍然无法完全规避。为了解决这一问题,全同态加密(FHE)技术通过在密文状态下进行安全计算,展现出保护隐私信息的巨大潜力。

来自主题: AI技术研报
7801 点击    2025-10-21 15:44
大模型中毒记

大模型中毒记

大模型中毒记

那个叫大模型的高手,被下毒了

来自主题: AI资讯
8199 点击    2025-10-21 10:09
阿里云神秘团队曝光:AI时代的新蓝军

阿里云神秘团队曝光:AI时代的新蓝军

阿里云神秘团队曝光:AI时代的新蓝军

想象这样一个场景: 一个AI智能体在帮你处理邮件,一封看似正常的邮件里,却用一张图片的伪装暗藏指令。AI在读取图片时被悄然感染,之后它发给其他AI或人类的所有信息里,都可能携带上这个病毒,导致更大范围的感染和信息泄露。

来自主题: AI资讯
7833 点击    2025-10-20 14:45
你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险

你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险

你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险

当Agent学会了自我进化,我们距离AGI还有多远?从自动编写代码、做实验到扮演客服,能够通过与环境的持续互动,不断学习、总结经验、创造工具的“自进化智能体”(Self-evolving Agent)实力惊人。

来自主题: AI技术研报
7907 点击    2025-10-17 15:38