AI资讯新闻榜单内容搜索-安全

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 安全
史上最惨一代?AI延长人类寿命,下一代活到200岁不是梦!

史上最惨一代?AI延长人类寿命,下一代活到200岁不是梦!

史上最惨一代?AI延长人类寿命,下一代活到200岁不是梦!

AGI炒作还是现实?AI新闻老将Matt Wolfe直击美国AI核心:从Demis Hassabis的理性谨慎,到扎克伯格的巨资投入,探索递归自我改进的潜在爆炸风险。

来自主题: AI资讯
6940 点击    2025-10-31 09:53
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复

OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复

OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复

AI Coding火了大半年,AI Debugging也来了!刚刚,OpenAI发布由GPT-5驱动的“白帽”Agent——Aardvark(土豚)。这只“AI安全研究员”能帮助开发者和安全团队,在大规模代码库中自动发现并修复安全漏洞。

来自主题: AI资讯
8754 点击    2025-10-31 09:07
ICCV 2025 | 港科、牛津大学发布AlignGuard,文图生成模型可规模化安全对齐框架

ICCV 2025 | 港科、牛津大学发布AlignGuard,文图生成模型可规模化安全对齐框架

ICCV 2025 | 港科、牛津大学发布AlignGuard,文图生成模型可规模化安全对齐框架

随着文图生成模型的广泛应用,模型本身有限的安全防护机制使得用户有机会无意或故意生成有害的图片内容,并且该内容有可能会被恶意使用。现有的安全措施主要依赖文本过滤或概念移除的策略,只能从文图生成模型的生成能力中移除少数几个概念。

来自主题: AI技术研报
9919 点击    2025-10-30 17:01
双管齐下:联邦学习防投毒攻击与梯度泄露,华南理工深北莫研究成果登上TMC与IoT

双管齐下:联邦学习防投毒攻击与梯度泄露,华南理工深北莫研究成果登上TMC与IoT

双管齐下:联邦学习防投毒攻击与梯度泄露,华南理工深北莫研究成果登上TMC与IoT

AI风起云涌,数据隐私如履薄冰。华南理工大学联手深圳北理莫斯科大学,推出FedMSBA与FedMAR,筑成联邦学习的安全堡垒,守护个人隐私!

来自主题: AI技术研报
6339 点击    2025-10-29 16:51
TPAMI 2025 | AI对抗迁移性评估的「拨乱反正」:那些年效果虚高的攻防算法们

TPAMI 2025 | AI对抗迁移性评估的「拨乱反正」:那些年效果虚高的攻防算法们

TPAMI 2025 | AI对抗迁移性评估的「拨乱反正」:那些年效果虚高的攻防算法们

对抗样本(adversarial examples)的迁移性(transferability)—— 在某个模型上生成的对抗样本能够同样误导其他未知模型 —— 被认为是威胁现实黑盒深度学习系统安全的核心因素。尽管现有研究已提出复杂多样的迁移攻击方法,却仍缺乏系统且公平的方法对比分析:(1)针对攻击迁移性,未采用公平超参设置的同类攻击对比分析;(2)针对攻击隐蔽性,缺乏多样指标。

来自主题: AI技术研报
7040 点击    2025-10-29 16:05
可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25

可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25

可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25

聚焦大型语言模型(LLMs)的安全漏洞,研究人员提出了全新的越狱攻击范式与防御策略,深入剖析了模型在生成过程中的注意力变化规律,为LLMs安全研究提供了重要参考。论文已被EMNLP2025接收

来自主题: AI技术研报
6070 点击    2025-10-27 10:25
AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

看似无害的「废话」,也能让AI越狱?在NeurIPS 2025,哥大与罗格斯提出LARGO:不改你的提问,直接在模型「潜意识」动手脚,让它生成一段温和自然的文本后缀,却能绕过安全防护,输出本不该说的话。

来自主题: AI技术研报
6946 点击    2025-10-27 09:40
NeurIPS 2025 | ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准、更轻

NeurIPS 2025 | ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准、更轻

NeurIPS 2025 | ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准、更轻

近期,来自北航等机构的研究提出了一种新的解决思路:自回归奖励引导表征编辑(ARGRE)框架。该方法首次在 LLM 的潜在表征空间中可视化了毒性从高到低的连续变化路径,实现了在测试阶段进行高效「解毒」。

来自主题: AI技术研报
6237 点击    2025-10-26 10:28
一个指令误导智能模型!北航等首创3D语义攻击框架,成功率暴涨119%

一个指令误导智能模型!北航等首创3D语义攻击框架,成功率暴涨119%

一个指令误导智能模型!北航等首创3D语义攻击框架,成功率暴涨119%

人工智能模型的安全对齐问题,一直像悬在头顶的达摩克利斯之剑。 自对抗样本被发现以来,这一安全对齐缺陷,广泛、长期地存在与不同的深度学习模型中。

来自主题: AI资讯
7661 点击    2025-10-23 16:00
AI模型守法率提升11%,港科大首次用法案构建安全benchmark

AI模型守法率提升11%,港科大首次用法案构建安全benchmark

AI模型守法率提升11%,港科大首次用法案构建安全benchmark

香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式,构建合规测试基准并训练出性能优异的推理模型,为大语言模型安全管理提供了新方向。

来自主题: AI技术研报
9446 点击    2025-10-23 12:20