可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25
可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25聚焦大型语言模型(LLMs)的安全漏洞,研究人员提出了全新的越狱攻击范式与防御策略,深入剖析了模型在生成过程中的注意力变化规律,为LLMs安全研究提供了重要参考。论文已被EMNLP2025接收
聚焦大型语言模型(LLMs)的安全漏洞,研究人员提出了全新的越狱攻击范式与防御策略,深入剖析了模型在生成过程中的注意力变化规律,为LLMs安全研究提供了重要参考。论文已被EMNLP2025接收
最近的 Meta 可谓大动作不断,一边疯狂裁人,一边又高强度产出论文。
你永远无法精确描述出梵高的笔触或王家卫的光影。AI创作的未来,是让AI直接「看懂」你的灵感,而不是去揣摩你的指令。
《职场Bonus》独家获悉,“AI六小龙”零一万物迎来一轮密集的高管变动:前百度智能云中国区副总经理沈鹏飞已于今年零一万物转型后以联合创始人身份加入公司,负责零一万物 ToB、ToG 业务拓展与销售体系。
如何科学地给大模型「找茬」?Anthropic联合Thinking Machines发布新研究,通过30万个场景设计和极限压力测试,扒了扒OpenAI、谷歌、马斯克家AI的「人设」。那谁是老好人?谁是效率狂魔?
周末看到了宝玉老师的一个帖子,我自己其实有非常强烈的共鸣。 宝玉老师说的是编程,而我在创作这块,其实一直都有相同的观点: 如果你是一个想在某个领域,真正深耕下去,想成为这个领域的专家,那么,在你独立、手动、不借助(或极少借助)AI,完成1000个小时的刻意练习之前,离AI远一点。
在机器人与智能体领域,一个老大难问题是:当你让机器人 “把黄碗放进白色空篮子” 或 “从微波炉里把牛奶取出来放到餐桌上” 时,它不仅要看懂环境,更要解释指令、规划路径 / 可操作区域,并把这些推理落实为准确的动作。
看似无害的「废话」,也能让AI越狱?在NeurIPS 2025,哥大与罗格斯提出LARGO:不改你的提问,直接在模型「潜意识」动手脚,让它生成一段温和自然的文本后缀,却能绕过安全防护,输出本不该说的话。
OpenAI近日接连发布《日本经济蓝图》和《韩国经济蓝图》,标志其亚太战略从「产品输出」升级为「国家级合作」。在韩国,OpenAI提出「双轨战略」,推动韩国跻身全球AI前三强;在日本,则以「三支柱」计划为核心,助力日本借由AI重塑全球技术引领地位。
在 AI 时代,开发的边界正被重新划定。 我们能够观察到,越来越多的产品经理、数据分析师、设计师,甚至内容创作者,正在熟练地使用 Cursor、ChatGPT、DeepSeek 等 AI 工具,解决真