OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复
7490点击    2025-10-31 09:07

AI Coding火了大半年,AI Debugging也来了!


刚刚,OpenAI发布由GPT-5驱动的“白帽”Agent——Aardvark(土豚)


OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复


这只“AI安全研究员”能帮助开发者和安全团队,在大规模代码库中自动发现并修复安全漏洞


据OpenAI报告,Aardvark已识别出了92%的已知与人工注入漏洞,而且能定位仅在复杂条件下出现的问题。


OpenAI副总裁Matt Knight表示:


我们的开发者发现,土豚在清晰地解释问题并引导他们找到修复方案方面确实非常有价值。这个信号告诉我们,我们正走在一条有意义的道路上。


而且,不仅OpenAI。


整个10月Anthropic谷歌微软基本上是前脚跟后脚发布了类似的白帽Agent。


这是怎么一回事。


Agentic AI +自动修补漏洞


OpenAI对这款白帽Aardvark的官方描述是——代理型安全研究员(agentic security researcher)


Aardvark的核心任务是持续分析源代码仓库,以识别安全漏洞、评估可利用性、确定风险等级,并提出有针对性的修复方案。


它通过监控代码提交(commits)与变更来工作,自动识别潜在漏洞、推断攻击路径并生成修复建议。


Aardvark并不依赖传统的程序分析技术(如模糊测试fuzzing或软件成分分析SCA),而是运用大语言模型驱动的推理与工具使用能力来理解代码行为,像人类安全研究员那样阅读、分析代码、编写测试并运行验证。


具体来说,它的工作流程从Git仓库出发,依次经历:威胁建模→漏洞发现→沙盒验证→Codex 修复→人工复审→ 提交Pull Request。


OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复


  • 分析:对整个仓库进行全面分析,生成反映项目安全目标与设计的威胁模型(threat model)。


  • 提交扫描:新代码提交时,结合仓库和威胁模型扫描差异;首次连接仓库时回溯历史提交。同时解释发现的漏洞,在代码中标注,便于人工复审。


  • 验证:一旦识别出潜在漏洞,将在隔离环境中触发潜在漏洞,确认可利用性,同时说明验证步骤,确保结果准确且误报率低。


  • 修复:Aardvark与OpenAI Codex深度集成,为漏洞生成修复补丁,附于报告中,便于一键审阅与应用。


目前,Aardvark可无缝集成GitHub、Codex及现有开发流程,在不影响开发效率的前提下提供可执行的安全洞察。


内部测试显示,它不仅能识别安全漏洞,还能发现逻辑缺陷、不完整修复及隐私风险


而且,Aardvark 已在内部和合作伙伴项目中测试运行,表现出色,验证了其实际可用性。


正如开头提到的,它不仅能够进行深度分析、定位仅在复杂条件下出现的问题,在对“黄金测试仓库(golden repositories)”的基准测试中,也实现了92%的识别率。


此外,Aardvark也已应用于多个开源项目,发现并负责披露了众多漏洞,其中10个已获得CVE编号。


OpenAI表示将为部分非商业开源仓库提供公益扫描服务,并提升整个开源生态与供应链的安全性。


Aardvark现已开启内测,有需要的开发者可以直接在官网申请。


AI编程完,AI来修


就像开头提到的,不仅是OpenAI,其他科技巨头也在积极布局Agentic AI+代码安全


整个10月,谷歌、Anthropic、微软就想提前约好了似的,纷纷发布相关动作,OpenAI这次反而显得稍晚。


例如,Anthropic在10月4号表示将Claude Sonnet 4.5应用于代码安全任务。


OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复


据悉,Claude Sonnet 4.5在发现代码漏洞和其他网络安全技能方面,性能已经超越了Opus 4.1,并且价格更低、速度更快。


谷歌在10月6号发布了CodeMender,利用Gemini Deep Think模型,实现自主调试和漏洞修复。


OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复


微软在10月16号发布了Vuln.AI,正式宣告使用AI进行漏洞管理,而在10月的最后一天,OpenAI也是姗姗来迟,跟上了这次更新的节奏。


(注:各家在发布前均进行了数月的测试和验证)


那么,为什么这些巨头都选择在此时发力AI代码安全呢?


OpenAI以及其他公司的解释高度一致:人工Debug与传统的自动化方法(如模糊测试)已经跟不上大规模代码库的漏洞发现与修复需求


一方面,企业级网络中设备、服务、代码库数量巨大,另一方面AI技术虽能提高生产力,但也被用于快速寻找漏洞、生成攻击代码。


因此,在漏洞数量激增、攻击手段日益智能化的背景下,借助AI自动化发现与修复漏洞,已成为确保软件安全和降低企业风险的关键手段。


不过,大厂说管说,倒是有网友发现了“华点”:


我们有一个会制造安全漏洞的Agent,也有一个会修复安全漏洞的Agent,这就是最好的商业模式。


OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复


参考链接


[1]https://x.com/OpenAI/status/1983956431360659467


[2]https://openai.com/index/introducing-aardvark/


[3]https://www.anthropic.com/research/building-ai-cyber-defenders?utm_source=chatgpt.com


[4]https://deepmind.google/discover/blog/introducing-codemender-an-ai-agent-for-code-security/


[5]https://www.microsoft.com/insidetrack/blog/vuln-ai-our-ai-powered-leap-into-vulnerability-management-at-microsoft/?utm_source=chatgpt.com


文章来自于微信公众号 “量子位”,作者 “量子位”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md